Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatísticas Descritivas: • Medidas de tendência central • Medidas de dispersão • Medidas separatrizes Prof. Luis Alberto Toscano Departamento de Estatística - UFMG Medidas de tendência central: • Moda • Mediana • Média aritmética ? Xt Prof. Luis Alberto Toscano Departamento de Estatística - UFMG Idade Freq. absoluta 18 4 19 8 20 9 21 6 22 3 23 6 25 3 26 1 27 1 30 1 38 2 44 1 Total 45 Maior freqüência Moda = 20 A moda, é o valor que ocorre mais freqüentemente nos dados. No exemplo, observamos que a moda é 20, é a idade mais freqüente no grupo de 45 pessoas. Prof. Luis Alberto Toscano Departamento de Estatística - UFMG A moda não é adequado para dados contínuos; Muitas vezes a moda, pode não ser uma boa medida descritiva, dado que para calcular a moda não é usada todas as observações; A moda pode não ser um único valor, isto é, as observações podem apresentar mais de uma moda; Não podemos combinar modas para calcular uma média modal de duas modas separadas na distribuição; A moda é uma medida volátil, sensível a pequenas mudanças nas observações; A moda não é afetada por valores extremos (outliers). As propriedades da moda podem ser resumidas como segue: Prof. Luis Alberto Toscano Departamento de Estatística - UFMG A mediana, é o valor médio central depois de ordenados os dados em forma ascendente. (50%) (50%) Prof. Luis Alberto Toscano Departamento de Estatística - UFMG Para calcular a mediana seguir os seguintes passos: • ordenar as observações em forma ascendente; • identificar o médio ou centro das observações; • e o valor médio central das observações é a mediana. Algebricamente, a mediana é o valor que ocupa a posição . Caso a razão não seja um número inteiro, toma-se como mediana a média dos dois valores de posições mais próximas a . 2 )1( n 2 )1( n 2 )1( n Prof. Luis Alberto Toscano Departamento de Estatística - UFMG Na tabela de distribuição de freqüências, do exemplo 2, observamos que o médio o centro das observações esta na posição (45+1)/2 = 23, Idade Freq. absoluta Freq. Acumulada 18 4 4 19 8 12 20 9 21 21 6 27 22 3 30 23 6 36 25 3 39 26 1 40 27 1 41 30 1 42 38 2 44 44 1 45 Total 45 Observações nas posições 22, 23, 24, ... 27. Mediana = 21 Prof. Luis Alberto Toscano Departamento de Estatística - UFMG É possível determinar graficamente a mediana da distribuição de freqüências, usando a curva da freqüência acumulada (ogiva). No exemplo, na curva da distribuição percentual acumulada da distribuição de idades, que mostrada na figura abaixo Dado que o eixo vertical está marcado a freqüência percentual, nos localizamos o valor 50%, deste ponto puxar uma linha na horizontal até a ogiva, e uma linha deste ponto para a interseção com o eixo horizontal, nos podemos ler que a mediana está no ponto 20. Prof. Luis Alberto Toscano Departamento de Estatística - UFMG A mediana não é volátil como a moda A mediana a igual que a moda, não é particularmente sensível a valores extremos. A mediana poderá tomar sempre um único valor. A mediana será igual a um valor observado se o número de observações n é um número impar. Para calcular a moda e mediana, não usamos todas as observações. A mediana poder ser determinada graficamente. As propriedades da mediana podem ser resumidas como segue: Prof. Luis Alberto Toscano Departamento de Estatística - UFMG A média aritmética, o conceito da média aritmética ou simplesmente média, é bastante familiar. Para calcular a média, se soma todas as observações e divide pelo o número de valores somados. Matematicamente, se n observações é representado como: X1, X2, ... Xn, a média aritmética pode ser escrito como: este pode ser representado numa forma mais sucinta n XXX X n 21 n X X Prof. Luis Alberto Toscano Departamento de Estatística - UFMG 5,22 45 1012 X No exemplo 2, a idade média é: Idade Xi Freq. Absoluta fi Xi fi 18 4 72 19 8 152 20 9 180 21 6 126 22 3 66 23 6 138 25 3 75 26 1 26 27 1 27 30 1 30 38 2 76 44 1 44 Total 45 1012 X1f1 = 18 x 4 = 72 X1f1+ X2f2+ ... + X12f12 = 1012 Prof. Luis Alberto Toscano Departamento de Estatística - UFMG As propriedades da média aritmética podem ser resumidas como segue: •· Para calcular a média se usa todas as observações disponíveis •· A média é afetada por valores extremos. •· A média é uma medida estável a pequenas mudanças das observações. •· A média não necessariamente será igual a um dos valores observados. •· A média não pode ser determinada graficamente. Prof. Luis Alberto Toscano Departamento de Estatística - UFMG Medidas de tendência central e o tipo de variável As estatísticas moda, mediana e média, interpreta a idéia de tendência central de maneira diferente, e nossa escolha de uma apropriada medida para qualquer conjunto de dados, vai depender dos seguintes fatores: qual o tipo de dados que estamos estudando: qualitativos (nominais ou ordinais) ou quantitativos. que aspectos da tendência central nós queremos medir. Nos observamos as diferenças entre variáveis qualitativas e quantitativas. A escolha das medidas de tendência central, depende do tipo de variável, Prof. Luis Alberto Toscano Departamento de Estatística - UFMG Medidas de tendência central e o tipo de variável Medidas de tendência central Tipo de variável Nominal Ordinal Quantitativos Moda sim sim sim Mediana não sim sim Média não não sim Escolha de medidas de tendência central por tipo de variável Prof. Luis Alberto Toscano Departamento de Estatística - UFMG Comparação entre as medidas de tendência central: Posições relativas da média, mediana e moda (a) Distribuição simétrica Media Mediana Moda Média Moda Mediana (c) Distribuições assimétricas negativas Moda Média Mediana (b) Distribuições assimétricas positivas Prof. Luis Alberto Toscano Departamento de Estatística - UFMG Medidas de Dispersão • Amplitude total dos dados (AT) AT = Xmax - Xmin depende apenas do menor e do maior valor, em geral não é tão bom quanto a outras medidas de variação que levam em conta todos os valores. Prof. Luis Alberto Toscano Departamento de Estatística - UFMG •Desvio Médio (DM) O desvio esta pela diferença di = (Xi – média) mede o quão longe o dado está da média. Entretanto, a soma desses desvios sempre é igual a zero. Por tanto uma medida de dispersão é definida com o modulo dos desvios: n XX n d DM ii Medidas de Dispersão Prof. Luis Alberto Toscano Departamento de Estatística - UFMG • Variância (2, S2) • Desvio Padrão (, S) N X i 2 2 )( Outra medida de dispersão é definida comos desvios quadráticos (desvio)2. 2SS 1 )( 2 2 n XX S i 2 Medidas de Dispersão Prof. Luis Alberto Toscano Departamento de Estatística - UFMG Idade Xi Desvio = idade – média = XX i (desvio)2 2XX i 18 18 – 22,5 = -3,75 14,06 19 19 – 22,5 = -2,75 7,56 20 20 – 22,5 = -1,75 3,06 21 21 – 22,5 = -0,75 0,56 22 22 – 22,5 = 0,25 0,06 23 23 – 22,5 = 1,25 1,56 25 25 – 22,5 = 3,25 10,56 26 26 – 22,5 = 4,25 18,06 Total 0 55,50 AT = 26 – 18 = 8 S2 = 55,5 / (8-1) = 7,93. S = 2,82 Por exemplo, considere uma amostra aleatória de idade de 8 pessoas: Medidas de Dispersão Prof. Luis Alberto Toscano Departamento de Estatística - UFMG if Xxi 2Xxi ii fXx 2 Taxa de desistencia de cartões de crédito CREDICARD Ponto médio xi Freq. Absoluta (desvio) = (desvio)2 = 0,0 ├ 10,0 5 1 -19,7 388,09 388,09 10,0 ├20,0 15 10 125,3 15700,09 157000,9 20,0 ├30,0 25 15 350,3 122710,1 1840651 30,0 ├40,0 35 7 220,3 48532,09 339724,6 40,0 ├50,0 45 0 -24,7 610,09 0 50,0 ├60,0 55 0 -24,7 610,09 0 60,0├70,0 65 1 40,3 1624,09 1624,09 Total 34 2339389 34 2339389 1 1 2 2 n fXx S n i ii 68805,5588 e S = 262,3081. Desvio padrão para dados em intervalos de classe Medidas de Dispersão Prof. Luis Alberto Toscano Departamento de Estatística - UFMG Para Entender o Desvio Padrão • Devemos ter em mente que o desvio padrão mede a variação entre valores. • Valores próximos uns dos outros originam desvios padrão menores, enquanto valores muito afastados uns dos outros dão um desvio padrão maior. • Uma regra prática que utiliza a amplitude para obter uma estimativa bastante rudimentar do desvio padrão, é como segue: Uma regra prática: Desvio padrão 4 amplitude Medidas de Dispersão Prof. Luis Alberto Toscano Departamento de Estatística - UFMG Desde que conhecemos o desvio padrão podemos utilizá-lo para entender melhor os dados, fazendo estimativas dos valores mínimo e máximo como segue: Mínimo (média) – 2 x (desvio padrão) Máximo média + 2 x (desvio padrão). Outra regra que auxilia a interpretação do valor de um desvio padrão é a regra empírica, aplicável somente a conjuntos de dados com distribuição aproximadamente em forma de sino Medidas de Dispersão Prof. Luis Alberto Toscano Departamento de Estatística - UFMG Regra empírica, aplicável somente a conjuntos de dados com distribuição aproximadamente simétricas (forma de sino). 68% 95% 99% 3X2X 3X 2X XX X Medidas de Dispersão Prof. Luis Alberto Toscano Departamento de Estatística - UFMG •Coeficiente de Variação (CV) N XX i 2 2 )( n X X Onde: é a média aritmética e e o desvio padrão. %100 X CV %100 X S CV 1 )( 2 2 n XX S i Medidas de Dispersão Prof. Luis Alberto Toscano Departamento de Estatística - UFMG Outras Medidas de Posição: • Quartis: Divide a distribuição em 4 partes iguais. Há três quarties denotados por Q1, Q2 e Q3,que divide os dados ordenados em 4 grupos com 25% deles em cada grupo; • Decis: Divide a distribuição em 10 partes iguais. Há nove Decies, denotados por D1, D2, ... D9, que dividem os dados em 10 grupos com cerca de 10% deles em cada grupo. • Percentis: Divide a distribuição em 100 partes iguais. Há 99 percenties, que dividem os dado em 100 grupos com cerca de 1% em cada grupo. O processo de determinação do percentil correspondente a um determinado valor X é bastante simples, como se pode ver na expressão seguinte. Prof. Luis Alberto Toscano Departamento de Estatística - UFMG 700000600000500000400000300000200000 C E E Diagrama em caixas – Box – Plot Pontos discrepantes Prof. Luis Alberto Toscano Departamento de Estatística - UFMG 700000600000500000400000300000200000 C E E Diagrama em caixas – Boxplot Os valores maiores do que Q3 + 1,5(Q3 - Q1) ou os valores menores do que Q1 - 1,5(Q3 - Q1) são considerado atípicos. Atípicos Atípicos Q1 Q2 Q3 Q3 + 1,5(Q3 - Q1) Q1 - 1,5(Q3 - Q1) Pontos discrepantes Prof. Luis Alberto Toscano Departamento de Estatística - UFMG Os valores maiores do que Q3 + 3(Q3 - Q1) ou os valores menores do que Q1 - 3(Q3 - Q1) são considerado outliers. 700000600000500000400000300000200000 C E E Q1 Q2 Q3 Q3 + 3(Q3 - Q1) Q1 - 3(Q3 - Q1) Outliers Outliers Pontos discrepantes Prof. Luis Alberto Toscano Departamento de Estatística - UFMG Medidas de Assimetria Primeiro Coeficiente de Pearson: Segundo Coeficiente de Pearson: S MX Aou MX A os o s 13 213 2 QQ QQQ As Se As < 0 a distribuição é assimétrica negativa; As = 0 a distribuição é simétrica; As > 0 a distribuição é assimétrica positiva. Prof. Luis Alberto Toscano Departamento de Estatística - UFMG Medidas de Curtose Curtose é o grau de achatamento de uma distribuição que pode ser medido utilizando o seguinte coeficiente: Onde: Q1 e Q3 são os quartis, P90 e P10 são os percentis. 1090 13 2 PP QQ K K < 0,263 a distribuição de freqüências é leptocúrtica. Se K > 0,263 a distribuição de freqüências é platicúrtica; K = 0,263 a distribuição de freqüências é mesocúrtica; Prof. Luis Alberto Toscano Departamento de Estatística - UFMG
Compartilhar