Baixe o app para aproveitar ainda mais
Prévia do material em texto
Medidas de Tendência Central Média Aritmética Simples n x x n i i∑ = = 1 xi é o valor observado da variável de interesse para o indivíduo i, n é o tamanho da amostra. Exemplo: Número de filhos k xk – No. de filhos frequência - fk 0| 0000 1 0 4/20 0| 11111 2 1 5/20 0| 2222222 3 2 7/20 0| 333 4 3 3/20 0| 5 4 0/20 0| 1 6 5 1/20 65,1 20 )53332222222111110000( = +++++++++++++++++++ =x k K k k fxxxxxx ∑ = =++++= 1 ) 20 15() 20 33() 20 72() 20 51() 20 40( K é o número de classes da tabela de frequência. Diagrama de Ramo e Folhas para Salário 4|00 56 5|25 73 6|26 66 86 7|39 44 59 8|12 46 74 95 9|13 35 77 88 10|53 76 11|06 59 12|00 79 13|23 60 85 14|69 71 15|99 16|22 61 17|26 18|75 19|40 20| 21| 22| 23|30 12,11=x Tabela: Frequências absolutas e relativas dos empregados da empresa segundo o salário Salário Ponto Médio sk Proporção fk 04|----08 08|----12 12|----16 16|----20 20|----24 6 10 14 18 22 0,2778 0,3333 0,2222 0,1389 0,0278 22,11)0278,022()1389,018()2222,014()3333,010()2778,06( 1 =++++ =≈∑ = xxxxx fsx k K k k Mediana – valor que divide o conjunto de dados ao meio Pelo menos 50% dos valores são menores ou iguais a mediana Pelo menos 50% dos valores são maiores ou iguais a mediana Como calcular a mediana? Número de filhos 0 0 0 0 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 5 n = 20 20 x 0,50 =10 pelo menos 10 observações menores ou iguais a mediana pelo menos 10 observações maiores ou iguais a mediana 0 0 0 0 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 5 Mediana =(2+2)/2 = 2 Caso de n ímpar Considere agora que temos 21 observações 21 x 0,50 = 10,5 pelo menos 10,5 (11) observações menores ou iguais a mediana pelo menos 10,5 (11) observações maiores ou iguais a mediana 0 0 0 0 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 5 5 Mediana = 2 Mediana para tabelas de frequência Tabela: Frequências absolutas e relativas dos empregados da empresa segundo o salário Salário Ponto Médio sk Proporção fk Proporção Acumulada Fk 04|----08 08|----12 12|----16 16|----20 20|----24 6 10 14 18 22 0,2778 0,3333 0,2222 0,1389 0,0278 0,2778 0,6111 0,8333 0,9722 1,0000 F = 0,50 Classe da Mediana – 2ª classe da tabela de frequências Aproximar mediana pelo ponto médio 10≈Md Outra maneira mais apropriada 0,33 0,28 0,22 0,14 0,03 4 8 12 16 20 24 Salários Mediana 4 ----- 0,33 (33% dos dados no intervalo 8 |-- 12, de tamanho 4) Med – 8 ----- 0,22 (22% dos dados no intervalo 8|-- med., de tamanho med. –8) Logo (med – 8) x 0,33 = 4 x 0,22 Med = 8 + 4 x (0,22/0,33) = 10,67 0,22 Moda – valor que ocorre com maior frequência Número de filhos 0| 0000 0| 11111 0| 2222222 Moda = 2 0| 333 0| 0| 1 Exemplo : Salários Classe Modal: 8|-----12 10≈Moda ponto médio da classe de maior frequência Distribuição Unimodal Distribuição Bimodal Observações: A média aritmética simples é mais sensível a ocorrência de valores extremos que a mediana. Exemplo: Considere os salários (em reais) de 10 pessoas 200 200 250 260 285 300 320 330 350 3000 5,549=x Mediana = 292,5 Excluindo a observação 3000 da amostra 22,277=x Mediana = 285 Mediana é uma medida mais resistente (robusta) à ocorrência de valores extremos. Distribuição Simétrica Distribuições Assimétricas Média = Moda = Mediana Média > Mediana Média < Mediana Medidas de Variação Desvio Padrão Amostral Mede a variação das observações em torno da média 1 )( 1 2 − − = ∑ = n xx s n i i Exemplo: Idade de 10 alunos Indivíduo x - Idade (anos) )( xx − 2)( xx − 1 18 (18 –19,6) = -1,6 2,56 2 20 (20 –19,6) = 0,4 0,16 3 21 (21 –19,6) = 1,4 1,96 4 17 (17 –19,6) = -2,6 6,76 5 23 (23 –19,6) = 3,4 11,56 6 21 (21 –19,6) = 1,4 1,96 7 20 (20 –19,6) = 0,4 0,16 8 19 (19 –19,6) = -0,6 0,36 9 18 (18 –19,6) = -1,6 2,56 10 19 (19 –19,6) = -0,6 0,36 SOMA 0 28,4 6,19=x 78,116,3 110 4,28 == − =s anos s2 = 3,16 anos2 Chamamos S2 de variância amostral. Outras medidas de variação • Amplitude total = máximo – mínimo (no exemplo AT = 6) • Desvio Médio: 1 || 1 − − = ∑ = n xx DM n i i (no exemplo DM = 1,56) Para interpretar o desvio padrão • Quanto maior o desvio padrão, maior é a variação das observações em torno da média • Para qualquer conjunto de dados temos pelo menos 75% dos dados dentro do intervalo (Média – 2 DP, Média + 2 DP) e pelo menos 89% dos dados dentro do Intervalo (Média – 3 DP, Média + 3 DP). • Para distribuições simétricas em forma de sino (distribuições normais) O intervalo (Média – 1 DP, Média + 1 DP) contém 68,3% dos dados O intervalo (Média – 2 DP, Média + 2 DP) contém 695,4% dos dados O intervalo (Média – 3 DP, Média + 3 DP) contém 99,7% dos dados Como medir a distância de um indivíduo em relação à média? Considere as notas de dois alunos na disciplina de Estatística, ambos com nota 25, mas oriundos de turmas diferentes Turma Média Desvio Padrão A 20 5 B 20 3 Za = (25-20)/5 = 1 20 25 Zb = (25-20)/3 = 1,67 20 25 Escore Padronizado s xxZ )( −= A média de Z é Zero e o desvio padrão é 1. Coeficiente de Variação Comparar salários de dois grupos de pessoas Grupo Média Desvio Padrão Coeficiente de variação A 200 40 0,20 (20%) B 2000 40 0,02 (02%) Qual grupo é mais homogêneo? x sCV = Comparar variáveis medidas em unidades de medidas diferentes quanto à variação Exemplo: Peso e altura de um grupo de pessoas Variável Média Desvio Padrão CV Altura (cm) 170 cm 6,67 cm 0,039 Peso (kg) 63 kg 5,00 kg 0,079 Este grupo de pessoas é mais homogêneo quantoa altura. Quantis Médias e desvios padrão descrevem bem distribuições simétricas. Eles não dão nenhuma informação sobre a assimetria da distribuição. O que é um quantil? A mediana é o quantil de ordem 50. Podemos definir quantis para outras ordens. q(p) – quantil de ordem p pelo menos 100p% dos valores são menores ou iguais a q(p) pelo menos 100(1-p)% dos valores são maiores ou iguais a q(p) q(0,25), q(0,50), q(0,75) – quartis q(0,10), q(0,20), q(0,30),...., q(0,90) – decis q(0,01), q(0,02),........., q(0,99) - percentis Exemplo Diagrama de Ramo e Folhas para Salário 4|00 56 5|25 73 6|26 66 86 7|39 44 59 8|12 46 74 95 9|13 35 77 88 10|53 76 11|06 59 12|00 79 13|23 60 85 14|69 71 15|99 16|22 61 17|26 18|75 19|40 20| 21| 22| 23|30 q(0,75) = ? 36 x 0,75 = 27 36 x 0,25 = 09 pelo menos 27 observações menores ou iguais a q(0,75) pelo menos 09 observações maiores ou iguais a q(0,75) q(0,75) = (13,85+14,69)/2 = 14,27 q(0,20) = ? 36 x 0,20 = 7,2 36 x 0,80 = 28,8 pelo menos 7,2 observações menores ou iguais a q(0,20) 8 pelo menos 28,8 observações maiores ou iguais a q(0,20) 29 q(0,20) = 7,39 Distância Interquartílica – DI = q(0,75) – q(0,25) Exemplo: q(0,75) = 14,27 q(0,25) = 7,51 DI = 6,76 No intervalo 7,51 – 14,27 há 50% dos dados. Boxplot Como construir? q(0,25) Mediana q(0,75) menor valor > LI maior valor < LS ponto * * discrepante LI = q(0,25) – 1,5 DI LS = q(0,75) + 1,5 DI 2422201816141210864 7 6 5 4 3 2 1 0 Salario Fr eq ue nc y Histogram of Salario 25155 Salario Boxplot of Salario Exemplo Diagrama de Ramo e Folhas para Salário 4|00 56 q(0,50) = 10,20 5|25 73 6|26 66 86 q(0,25) = 7,51 7|39 44 59 8|12 46 74 95 q(0,75) = 14,27 9|13 35 77 88 10|53 76 DI = 6,76 11|06 59 12|00 79 LI = 7,51–1,5x6,76 = 2,63 13|23 60 85 14|69 71 LS = 14,27+1,5X6,76 =24,41 15|99 16|22 61 Menor valor > LI = 4,00 17|26 18|75 Maior valor < LS = 23,3 19|40 20| 21| 22| 23|30 4,00 7,51 10,20 14,27 23,30 Considere os salários (em SM) de 30 homens e 30 mulheres 25.022.520.017.515.012.510.07.55.02.50.0 40 30 20 10 0 SalarioF Pe rc en t Histograma de salários - sexo feminino 454035302520151050 30 20 10 0 SalárioM Pe rc en t Histograma de salários - sexo masculino MF 40 30 20 10 0 SEXO Sa lár io Outro exemplo: SalarioM 0.14 0.16 0.91 0.94 0.95 0.97 1.37 1.91 1.95 2.57 2.89 3.68 3.79 4.64 4.66 4.86 6.12 6.33 8.43 9.04 11.68 11.77 12.11 14.34 14.78 14.84 16.31 17.76 18.97 43.53 q(0,25) = 1,91 q(0,50) = 4,76 q(0,75) = 12,11 DI = 10,2 LI = 1,91 – 1,5 X 10,2 = - 13,39 LS = 12,11 + 1,5 x 10,2 = 27,41 Menor valor > LI = 0,14 Maior valor < LS = 18,97 0,14 1,91 4,76 12,11 18,97 43,53 * Boxplot: informação sobre posição, variação, assimetria, dados dicrepantes Transformações Vários procedimentos estatísticos assumem que os dados originam-se de uma distribuição simétrica. Quando a distribuição dos dados é muito assimétrica pode-se transformar os dados de modo a obter uma distribuição mais simétrica. Um grupo de transformações frequentemente usado é xp se p>0 Y = ln(x) se p = 0 1 / xp se p <0 Exemplo: 3020100 20 10 0 X Pe rc en t Histogrma de X 43210-1-2-3 20 10 0 ln(X) Pe rc en t Histograma de Y = ln(x) 6543210 20 10 0 X^0,5 Pe rc en t Histograma de Y = X^ 0,5 2.51.50.5 15 10 5 0 X^0,25 Pe rc en t Histograma de Y = X^ 0,25
Compartilhar