Buscar

Prévia do material em texto

Estatística Descritiva
A Estatística Descritiva permite-nos resumir, descrever e compreender os dados de uma distribuição usando medidas de tendência central (média, mediana e moda), medidas de dispersão (valores mínimo e máximo, desvio padrão e variância), percentis, quartis, decis e, medidas de distribuição (achatamento e simetria da curva de distribuição).
Quando estamos perante muitos dados (o que acontece nas sondagens e estudos de opinião) é necessário tornar essa informação manejável para a podermos comparar e relacionar. A Estatística Descritiva é o instrumento que nos permite concentrar e reduzir essa informação. No entanto, como acontece sempre que se resume qualquer coisa, este processo implica também a perda de alguma informação. Todos nós já ouvimos a história em que uma pessoa comeu dois bifes e outra nenhum e em média cada um deles comeu um bife. A média diz-nos que havia um bife para cada pessoa, mas não nos diz como é que os bifes foram distribuídos.
Este enviesamento introduzido pela redução da informação a um único número pode ser minimizado pela utilização de várias medidas que nos permitam cruzar informação e contrapor outras leituras dos nossos dados resumidos. Esta é uma das razões pelas quais os dados estatísticos que se apresentam em relatórios de investigação terem frequentemente duas ou mais medidas descritivas associadas. Por exemplo, o valor da Média (medida de tendência central) é frequentemente apresentado em associação com o valor do Desvio Padrão (medida de dispersão).
As medidas da Estatística Descritiva são também a base para a Estatística Inferencial (aquela que relaciona os dados da nossa distribuição). A Estatística Descritiva descreve a nossa amostra e a Estatística Inferencial permite-nos fazer extrapolações dos resultados obtidos na nossa amostra para a população, ou seja, permite-nos tirar conclusões, fazer estimativas, previsões e generalizações sobre todo um conjunto de dados estudando apenas parte dele.
Medidas de Tendência Central
Quando queremos resumir os dados de uma distribuição utilizando apenas um número recorremos a medidas de tendência central (Média, Moda e Mediana).  A utilização destas três medidas varia consoante o tipo de informação que pretendemos resumir ou descrever:
– Se pretendermos resumir o nível de aprendizagem escolar de um aluno ao longo da sua licenciatura utilizado apenas um valor, a média de todas as notas obtidas ao longo do curso é o melhor indicador disponível;
– Se quisermos identificar a nota mais frequente da turma (ou de cada um dos alunos) devemos usar a Moda.
– Se o nosso objetivo for saber quem são os 50% melhores alunos da turma (ou as 50% melhores notas de um aluno), deveremos utilizar a mediana.
A Média é a soma dos resultados dividida pelo número total de resultados, habitualmente designada por (X barra), e é o valor que, sozinho, melhor representa a totalidade dos dados de uma distribuição (trata-se aqui da média aritmética, uma vez que há outros tipos de média). No caso do nosso exemplo, a soma das notas da Disciplina A é igual a 220 e o número total de notas é 20, pelo que a Média é 11 (220/20=11). Como já vimos acima, o valor da média não permite, no entanto, saber como é que se distribuem os valores da variável pelos diferentes sujeitos da nossa amostra, isto é, não nos diz se a distribuição é ou não homogénea, se todos os alunos têm 11 valores ou se há alunos muito bons e outros muitos maus.
A Moda é o valor(es) mais frequente(s) numa distribuição.
A Mediana é o valor que se situa a meio da fila ordenada dos valores da nossa distribuição, desde o mais baixo ao mais alto. A mediana indica o centro da distribuição da variável, ou seja, é o valor acima do qual estão 50% dos valores da variável e abaixo os restantes 50%. No nosso exemplo, se colocarmos as notas ordenadas de forma sequencial da mais baixa à mais alta e dividirmos a distribuição a meio, vemos que a mediana da disciplina A é 10.5 (quando a distribuição tem número par – como é o nosso caso uma vez que a turma tem 20 alunos – de elementos a mediana é a média dos dois valores centrais).
CONCEITOS FUNDAMENTAIS E DEFINIÇÕES
 A estatística trabalha com dados, os quais podem ser obtidos por meio de uma população ou de uma amostra, definida como: 
População: conjunto de elementos que tem pelo menos uma característica em comum. Esta característica deve delimitar corretamente quais são os elementos da população que podem ser animados ou inanimados.
 Amostra: subconjunto de elementos de uma população. Este subconjunto deve ter dimensão menor que o da população e seus elementos devem ser representativos da população. A seleção dos elementos que irão compor a amostra pode ser feita de várias maneiras e irá depender do conhecimento que se tem da população e da quantidade de recursos disponíveis. A estatística inferencial é a área que trata e apresenta a metodologia de amostragem.
Percentis
O conceito da mediana pode ser generalizado para outras percentagens além dos 50%. Podemos querer saber, por exemplo, qual é o valor abaixo do qual estão 1%, 20%, 30%, ou 75% dos indivíduos. A estas medidas de posição dão-se o nome, respectivamente, de percentil 1 (P1), percentil 20 (P20), percentil de 30 (P30) e percentil 75 (P75). A mediana é o percentil 50 (P50), alguns percentis têm uma designação específica. Por exemplo, os percentis 25, 50 e 75 são referidos como o 1º quartil (Q1), 2º Quartil (Q2) e 3º quartil (Q3), respectivamente. Os percentis 10, 20, 30, …,90 também podem ser designados por Decil 1 (D1), Decil 2 (D2), Decil 3 (D3). …, Decil 9 (D9). Como o próprio nome indica, os Quartis dividem a distribuição em quatro partes iguais, os Decis em dez e os Percentis em cem.
Estas medidas permitem-nos situar os valores de cada observação em relação à distribuição total dos dados, uma vez que dividem o conjunto de observações em partes iguais tendo por referência o número de elementos que compõem a nossa amostra. Elas são particularmente úteis quando queremos destacar um valor que marque um percentual de interesse. Também podem ser usadas para nos dar informação sobre o valor relativo de um dado valor numa distribuição. Por exemplo, na análise das médias de estudantes com o mesmo curso feito em instituições diferentes, a mesma média (por exemplo, 15 valores), situada em percentis diferentes (por exemplo, P10 ou P80), tem um valor relativo diferente. No primeiro caso (P10), isso significa que 90% dos estudantes dessa instituição têm média igual ou superior a 15, enquanto no segundo caso (P80) isso significa que apenas 20% dos estudantes é que têm média igual ou superior a 15. Ou seja, na primeira instituição o 15 é a nota que é atribuída aos alunos mais fracos do curso, enquanto na segunda instituição o 15 é a nota que distingue os melhores alunos do curso.
Medidas de dispersão
O Desvio padrão é o valor que quantifica a dispersão das respostas numa distribuição normal, ou seja, a média das diferenças entre o valor de cada resposta e a média da distribuição (Nota: como a média da soma dos desvios é sempre igual a zero, elevam-se esses desvios ao quadrado e só depois é que se calcula a média desses desvios elevados ao quadrado, que se designa por Variância. Calculando a raiz quadrada da variância obtém-se o valor do desvio padrão). O cálculo da média dos desvios quadrados é feito dividindo a soma dos quadrados pelo valor de n-1 e não por n (a razão para este procedimento prende-se com o conceito de graus de liberdade).
Como já se disse acima, quanto maior o desvio padrão maior a dispersão das notas e mais afastadas da média estão as notas dos alunos. Assim, se apenas conhecermos a média e o desvio padrão de cada disciplina  [A (M=11; DP=2.99122), B (M=11; DP=2.38416), C (M=11; DP=.64889), D (M=11; DP=2.55567) e E (M=11; DP=2.88371)] ficamos a saber que, embora a turma seja globalmente igual em todas as disciplinas (todas têm a mesma média, 11 valores), é na disciplina C que os estudantes obtêm resultados mais homogéneos, isto é, é nesta disciplina que os estudantes têmnotas mais perto da média e que, por isso mesmo, são mais iguais entre si. A disciplina A é aquela onde há maiores diferenças entre as notas de cada aluno e a média da turma, com alguns estudantes a revelarem-se muito fracos e outros muito bons.
Medidas de distribuição
O conceito de distribuição é fundamental na estatística. Toda a estatística paramétrica assenta no pressuposto de que os fatores e variáveis da população se distribuem de acordo com a distribuição normal e que, quando número de sujeitos ou de casos for suficientemente grande, a distribuição amostral da média se aproxima cada vez mais de uma distribuição normal (teorema do limite central). A distribuição normal das variáveis em estudo é um pressuposto para a utilização de testes estatísticos paramétricos. Quando os resultados não se distribuem de acordo com a curva normal, teremos de usar testes estatísticos não-paramétricos.
Uma distribuição normal perfeita caracteriza-se pelo facto de 68.26% dos casos se concentrem em valores que se situam no intervalo entre um desvio padrão acima e um desvio padrão abaixo da média. Esse valor sobe para 95.44% quando consideramos dois desvios padrões (acima e abaixo da média) e 99.72% se considerarmos três desvios padrões.
As medidas de dispersão permitem-nos avaliar se os nossos dados estão distribuídos de acordo com o padrão descrito acima, ou seja, verificar se temos uma distribuição normal, ou se há desvios nessa distribuição. Para medir a distribuição usamos medidas de achatamento (Kurtose) ou de simetria/obliquidade da curva de distribuição (Skewness).
A obliquidade (Skewness) mede a assimetria das caudas da distribuição. As distribuições assimétricas são aquelas que têm um dos lados da distribuição (abaixo ou acima da média) com mais elementos que o outro, enquanto ás distribuições simétricas tem obliquidades iguais a zero (existe o mesmo número de sujeitos acima e abaixo da média). Se o valor da obliquidade for maior que zero, isso quer dizer que essa distribuição tem um lado esquerdo (valores abaixo da média) com mais elementos, se o valor for inferior a zero, então a distribuição tem o lado direito (valores acima da média) com mais elementos.
A curtose (Kurtose) mede o grau de achatamento da curva. As distribuições achatadas têm uma maior dispersão de valores pelos extremos da curva e as distribuições altas têm uma maior concentração de valores em torno da média (centro da curva).
Se analisarmos as notas do nosso exemplo, verificamos que em nenhuma das disciplinas a distribuição das notas se fez de acordo com a curva normal. Por exemplo, na disciplina A (M=11; DP=2.99122), 10 estudantes (50%) têm notas que se situam entre +1 ou -1 desvio padrão (entre 8.01 e 13.99), 4 estudantes (20%) têm notas que se situam entre -1 e -2 desvios padrão (entre 5.02 e 8.01) e 6 (30%) a entre +1 e +2 desvios padrão (entre 16.98 e 19.97). Não há notas superiores ou inferiores a 3 desvios padrão. A estes números correspondem valores de obliquidade de .131 e de curtose de -1.263, ou seja, há uma relativa simetria (seria perfeita se o valor da obliquidade fosse zero) na distribuição dos casos à esquerda (abaixo) e à direita (acima) da média, mas um achatamento da curva pelo facto de os valores dentro do intervalo que vai de -1 a +1 desvio padrão (50%) serem em percentagem inferior aos 68,26% que definem o valor da distribuição normal (como a percentagem do nosso exemplo é inferior, o valor da curtose é negativo).
Referências Bibliográficas:
https://sondagenseestudosdeopiniao.wordpress.com/estatistica/estatistica-descritiva/

Mais conteúdos dessa disciplina