Baixe o app para aproveitar ainda mais
Prévia do material em texto
Análise Descritiva de Dados Medidas de Posição Posicionando indíviduos em relação ao grupo “- Então, qual foi sua posiEntão, qual foi sua posiEntão, qual foi sua posiEntão, qual foi sua posiçççção final na corrida ? ão final na corrida ? ão final na corrida ? ão final na corrida ? ---- Ah, eu fiquei em 3Ah, eu fiquei em 3Ah, eu fiquei em 3Ah, eu fiquei em 3oooo lugar!lugar!lugar!lugar!---- Puxa... Foi mesmo ? E quantos estavam correndo ?Puxa... Foi mesmo ? E quantos estavam correndo ?Puxa... Foi mesmo ? E quantos estavam correndo ?Puxa... Foi mesmo ? E quantos estavam correndo ? ---- Três.Três.Três.Três.”””” Percentis Escores Padronizados Medidas de Posição Posiciona o indivíduo dentro do conjunto de dados Posiciona o indivíduo em relação ao desempenho geral do grupo, levando em conta a variabilidade das medidas. “O Brasil obviamente não é país rico, mas também não está entre os mais pobres. ... Mais de três quartos da população mundial vivem em países de renda per capita menor.” (Folha de São Paulo - 12/12/2001) Definição: O percentil de ordem K, o Pk, onde K é qualquer valor entre 0 e 100, é o valor tal que K% dos valores do conjunto de dados são menores ou iguais a ele. Exemplo: a renda per capta do Brasil é o P75. Menor renda Maior renda 1/4 2/4 3/4 Renda per capta do Brasil Percentis Especiais Exemplo: o percentil de ordem 10, o P10, é o valor da variável tal que 10% dos valores são menores ou iguais a ele. Os percentis de ordem 10, 20, 30, ... 90 dividem o conjunto de dados em dez partes com mesmo número de observações e são chamados de decis. Os percentis de ordem 25, 50 e 75 dividem o conjunto de dados em quatro partes com o mesmo número de observações. Estes três percentis recebem o nome de quartis Primeiro quartil (Q1), Segundo quartil (Q2) ou mediana e Terceiro quartil (Q3). Determinação do Percentil de ordem K (Triola, 1996). Ordene os dados, do menor para o maior. Calcule L=(k/100)n, k: ordem do percentil n: numero de valores L é inteiro? Não Sim O valor de Pk é a média entre L-ésimo e o (L+1)ésimo valores a contar do menor. Arredonde L para o maior inteiro mais próximo. O valor de Pk é o L-ésimo valor a contar do menor. Ex: k = 50 L = (50/100) x 132 L=0.50 x 132 = 66 Ex: n = 132 Ex: k = 97.5 L = (97.5/100) x 132 L=0.975 x 132 = 128.7 Pk é a média dos valores 66o e 67o nos dados ordenados Pk é o 129o valor no conjuntode dados ordenados ����Exemplo 1: Quantidade de sódio (mg/100g) de 16 variedades de barras de chocolate. [Duhn, 2001] P10: 10% de 16 = 1.6 (Arredonda para cima: 2o valor) P10 = 75. �P25: 25% de 16= 4. P25 = média(4o e 5o valores)=(110+110)/2 = 110. �P92: 92% de 16 = 14.7. (Arredonda para cima: 15o valor) P92 = 220. �Primeiro Quartil: P25. �Q1 = 110. �Terceiro Quartil: 75% de 16 = 12. �Q3 = média(12o e 13o valores)=(160+190)/2 = 175. 40 75 90 93 110 110 115 116 130 148 160 160 190 220 220 250 Qual é a área foliar mediana das plantas da variedade 1 ? E da variedade 2? 5 10 15 20 0 2 0 4 0 6 0 8 0 1 0 0 Área das folhas, cm2 F r e q u e n c i a R e l a t i v a A c u m u l a d a 5 10 15 20 0 2 0 4 0 6 0 8 0 1 0 0 Variedade 1 Variedade 2 Variedade 1 Variedade 2 87 50 Usos dos percentis Controle da evolução pondero-estatural de crianças Peso : meninas de 2 a 20 anos Uso dos percentis : Faixas de Referência Faixa de referência de 94% Faixa de referência de 80% Uso dos Percentis: construção de Faixas de Referência Uma Faixa de Referência para uma característica é um intervalo de valores dentro dos quais a característica é considerada normal (ou dentro dos padrões aceitáveis) Exemplo: uma Faixa de Referência de 94% para o peso de crianças de 9 anos e meio vai de 22 kg a 50 kg. Ou seja, 94% das crianças “normais” pesam entre 22 e 50 kg. Uso dos Percentis: construção de Faixas de Referência Uma Faixa de Referência está sempre associada a um percentual, que determina qual a percentagem da população de valores considerados normais está dentro da faixa. Exemplos: • uma Faixa de Referência de 80% engloba 80% dos valores considerados normais (ou dentro dos padrões) • uma Faixa de Referência de 90% engloba 90% dos valores considerados normais (ou dentro dos padrões) Uso dos Percentis: construção de Faixas de Referência Uma Faixa de Referência é formada por dois percentis simétricos. Exemplos: • a Faixa de Referência de 80% é formada pelos percentis de ordem 10 e de ordem 90. [P10 ; P90] • a Faixa de Referência de 94% é formada pelos percentis de ordem 3 e de ordem 97. [P3 ; P97] Identificando outliers: o Boxplot * Q3 Q1E s c a l a d e v a l o r e s DQ = Q3 – Q1 outlier Q2 Q3 Q1 Comprimento máximo = 1.5 x DQ Exemplo 1: Energia (em Kj/100g) de 16 variedades de barras de chocolate Q1: 25% de 16 = 4 (média do 4o e 5o valores). Q1= (1920 + 1930)/2=1925. Q2: 50% de 16 = 8. Q2= (1980 + 1980)/2=1980. Q3: 75% de 16 = 12. Q2= (2060 + 2180)/2= 2120. Comprimento máximo da linha do boxplot DQ = Q3 – Q1 = 2120 – 1925 = 195 1.5 x DQ = 1.5 x 195 = 292.5 Q1 – 1.5DQ = 1925 – 292.5 = 1632.5 (Min = 1620) Q3 + 1.5DQ = 2120 + 292.5 = 2412.5 (Max = 2250) * 1600 1700 1800 1900 2000 2100 2200 Energia (Kj/100g) Exemplo 2: Sódio (em mg/g) de 16 variedades de barras de chocolate Q1: 25% de 16 = 4 Q1=(90+90)/2=90 Q2= 50% de 16 = 8 Q2=(120+130)/2=125 Q3= 75% de 16 = 12 Q3=(160+190)/2=175 Comprimento máximo da linha do boxplot DQ = Q3 – Q1 = 175 – 90 = 85 1.5 x DQ = 1.5 x 85 = 127.5 Q1 – 1.5DQ = 90 – 127.5 = -37.5 (Min = 40) Q3 + 1.5DQ = 175 + 127.5 = 302.5 (Max = 250) 50 100 150 200 250 Sódio (mg/g) O Boxplot e as formas básicas das distribuições de frequências Assimétrica (concentração à esquerda Assimétrica (concentração à direita Simétrica Série de Boxplots: comparando vários grupos em um mesmo gráfico Número de nascimentos diários por dia da semana no Canadá Seg Ter Qua Qui Sex Sab Dom Série de Boxplots: comparando vários grupos em um mesmo gráfico Temperatura média annual por década: de 1750 a 2010 “Ser 20 cm mais alto do que a média das pessoas da minha idade é melhor do que ser 1,5 Kg mais magro do que a média das pessoas da minha idade?” Escores Padronizados Tornando possíveis comparações entre variáveis diferentes Problema Inicial: Os 20 alunos da oitava série de uma escola foram submetidos a cinco testes de aptidão física e a um teste de conhecimento desportivo: 1. Abdominal: número de abdominais realizados em 2 minutos; 2. Salto em extensão: comprimento do salto (centímetros); 3. Suspensão de braços flexionados: tempo em suspensão (segundos); 4. Corrida: distância (em metros) percorrida em 12 minutos ; 5. Natação: tempo (em segundos) para nadar 50 metros; 6. Conhecimento desportivo: prova escrita (0 a 100 pontos). Questão no1: Em um dado teste, qual foi o aluno de melhor desempenho ? E de pior desempenho? [Reis e Reis, 2001] 75301019676935Ana 792619686710633Flávia 86301084607433Rafael 74281535548932Luciana 69271054577032Rodrigo 81251716519131Marcelo 73301276488431Daniele 74331930459830Antônio 76311747399030Gabriela 77281600428930Luiz 75351503368829Bárbara 72291255307129Guido 71311833279228Camila 76331743209028Marina 84321267168027Luiza 683019861010226Vinícius 78291858129425Maria 66271333238727Manuel 82321461338830João 643419896410834PedroConhecimentoNataçãoCorridaSuspensãoSaltoAbdominalAluno Questão no2: Para um dado aluno, em qual teste onde ele se saiu melhor (ou pior) em relação à turma ? 75 pontosConhecimento desportivo 30 segundosNatação de 50 metros 1558 metrosCorrida em 12 minutos 40 segundosSuspensão de braços flexionados 88 centímetrosSalto em extensão 30 abdominaisAbdominais em 2 minutos Média da turmaTeste Para Pedro : Mas, saltar 20 cm acima da média do grupo é bom ou muito bom? [Reis e Reis, 2001] Pedro: Levando em conta a variabilidade das medidas do grupo Pontos6pontos75 Conhecimento desportivo Segundos3segundos30 Natação de 50 metros Metros327metros1558 Corrida em 12 minutos Segundos18segundos40Suspensão de braços flexionados Centímetros11centímetros88Salto em extensão Abdominais3abdominais30Abdominais em 2 minutos Desvio-PadrãoMédiaTeste O Escore Padronizado ãoDesvioPadr MédiainalEscoreOrig onizadoEscorePadr − = O escore padronizado mede a distância do escore original à média em número de desvios-padrão. 0,000,00-1,651,50-1,731,67Ana 0,67-1,331,251,501,641,00Flávia 1,830,00-1,451,11-1,271,00Rafael -0,17-0,67-0,070,780,090,67Luciana -1,00-1,00-1,540,94-1,640,67Rodrigo 1,00-1,670,480,610,270,33Marcelo -0,330,00-0,860,44-0,360,33Daniele -0,171,001,140,280,910,00Antônio 0,170,330,58-0,060,180,00Gabriela 0,33-0,670,130,110,090,00Luiz 0,001,67-0,17-0,220,00-0,33Bárbara -0,50-0,33-0,93-0,56-1,55-0,33Guido -0,670,330,84-0,720,36-0,67Camila 0,171,000,57-1,110,18-0,67Marina 1,500,67-0,89-1,33-0,73-1,00Luiza -1,170,001,31-1,671,27-1,33Vinícius 0,50-0,330,92-1,560,55-1,67Maria -1,50-1,00-0,69-0,94-0,09-1,00Manuel 1,170,67-0,30-0,390,000,00João -1,831,331,321,331,821,33Pedro ConhecimentoNataçãoCorridaSuspensãoSaltoAbdominalAluno Como fazer usando o R ? Cálculo de Percentis formigas <- read.table("formigas.txt",header=T) P5 <- quantile(formigas$Riqueza, 0.05) #Percentil 5 P95 <- quantile(formigas$Riqueza, 0.95) #Percentil 95 Percentis <- quantile(formigas$Riqueza, c(0.10, 0.50, 0.90)) #Percentis 10, 50 e 90 armazenados no mesmo objeto Como fazer usando o R ? formigas.floresta <- # Separando os locais de floresta formigas[formigas$Habitat=="Floresta",] formigas.pantano <- # Separando os locais de pantano formigas[formigas$Habitat=="Pantano",] Boxplot boxplot(formigas.floresta$Riqueza) boxplot(formigas.floresta$Riqueza, formigas.pantano$Riqueza, names=c("Floresta", "Pantano"), ylab="Riqueza de espécies") Como fazer usando o R ? Cálculo de Escores Padronizados media.floresta <- mean(formigas.floresta$Riqueza) dp.floresta <- sd(formigas.floresta$Riqueza) media.pantano <- mean(formigas.pantano$Riqueza) dp.pantano <- sd(formigas.pantano$Riqueza) Como fazer usando o R ? Cálculo de Escores Padronizados escores.riqueza.floresta <- (formigas.floresta$Riqueza - media.floresta)/ dp.floresta escores.riqueza.pantano <- (formigas.pantano$Riqueza - media.pantano)/ dp.pantano riqueza <- 10 # Novo local com riqueza 10 escore.pantano <- (riqueza - media.pantano)/ dp.pantano escore.floresta <- (riqueza - media.floresta)/ dp.floresta Próxima Aula Análise Descritiva de Dados: Medidas de posição Análise Descritiva de Dados: Associação entre Variáveis Fim da quinta aula Referências Bibliográficas REIS, E.A.; REIS, I.A. (2001) Análise Descritiva de Dados- Tabelas e Gráficos, Relatório Técnico do Departamento de Estatística da UFMG. Disponível em: http://www.est.ufmg.br DUHN, P. (2001) Datasets for Statistical Analysis. Disponível em: http://www.sci.usq.edu.au/staff/dunn/Datasets/applications/popular/ch ocolates.html
Compartilhar