Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística Descritiva: Tipos de Variáveis Tabelas e Gráficos Medidas de Tendência Central Medidas de Variabilidade Medidas de Posição Variável É a característica de interesse que é medida ou observada em cada elemento da amostra ou população. 1. Temperatura (em oC) 2. Número de arranhões por m2 de uma superfície 3. Tipo de pneu 4. Estágio de um processo (I, II, III, etc.) 5. Porcentagem de aço em uma liga metálica Tipos de Variáveis Qualitativa Indica uma qualidade ou classificação Quantitativa Indica uma quantidade Tipo de pneu (I e II). Cor do carro (prata, vermelho,...). Estágio de um processo (I, II, III). Altitude (baixa, alta). No. de arranhões (0, 1, 2, 3, ...). No. de carros produzidos por dia. Tempo, em minutos. Comprimento, altura, largura, Pressão, altitude. Variável Qualitativa Tipo de pneu (I e II). Cor do carro (prata, vermelho,...). Estágio de um processo (I, II, III). Altitude (baixa, alta). Nominal Suas categorias não possuem ordenação. Ordinal Suas categorias possuem ordenação. Variável Quantitativa No. de arranhões (0, 1, 2, 3, ...). No. de carros produzidos por dia. Tempo, em minutos. Comprimento, altura, largura, Pressão, altitude. Discreta Assume apenas valores inteiros. Contínua Assume valores em uma escala contínua. Exemplo: Distribuição de frequências das unidades vendidas de jogos de viodeogame segundo genêro do jogo. Tabelas de Frequências e Gráfico de Setores Descrevendo e Resumindo Observações de uma Variável Qualitativa Gráfico de Barras Verticias (Colunas) Gráfico de Barras (Horizontais) Descrevendo e Resumindo Observações de uma Variável Quantitativa Medidas de Tendência Central (ou de Localização): Medidas de Variabilidade (ou de Dispersão): Tabelas: Tabela de Distribuição de Frequências. Gráficos: diagrama de pontos, ramo-e-folhas, histograma. média, mediana, moda amplitude, desvio-padrão, coeficiente de variação. Medidas de Resumo ou Síntese: Gráficos para Pequenos Conjuntos de Dados Exemplo: Tempo (em min.) de duração de 30 chamadas telefônicas. 102 124 108 86 103 82 71 104 112 118 87 95 103 116 85 122 87 100 105 97 107 67 78 125 109 99 105 99 101 92 67 71 78 82 85 86 87 87 92 95 97 99 99 100 101 102 103 103 104 105 105 107 108 109 112 116 118 122 124 125 Ordenando os dados: 67 71 78 82 85 86 87 87 92 95 97 99 99 100 101 102 103 103 104 105 105 107 108 109 112 116 118 122 124 125 Separando as dezenas por linhas: Coluna da dezenas | Coluna das unidades: Diagramas de Ramo-e-Folhas para duração das chamadas telefônicas. 102 124 108 86 103 82 71 104 112 118 87 95 103 116 85 122 87 100 105 97 107 67 78 125 109 99 105 99 101 92 Diagrama de Pontos para duração das chamadas telefônicas. Exemplo: Tempo (em min.) de duração de 30 chamadas telefônicas. 3 5 8 9 5 Frequência Absoluta Classes (minutos) 10.0 16.7 26.6 30.0 16.7 Frequência Relativa (%) 100 3 5 8 9 5 Frequência Absoluta 30 67 |-- 79 79 |-- 91 91 |-- 103 103 |-- 115 115 |-- 127 Soma Classes (minutos) 10.0 16.7 26.6 30.0 16.7 Frequência Relativa (%) 100 Tabela de Distribuição de Frequências para Duração da Chamada 5 classes com amplitude de 12 minutos. Gráficos para Pequenos e Grandes Conjuntos de Dados Histograma para Duração da Chamada Assimétrica (concentração à esquerda) Assimétrica (concentração à direita) Simétrica Formas da Distribuição de uma Variável Quantitativa Um artigo no Materials Engineering* descreve os resultados de testes trativos de adesão em 22 corpos-de-prova de liga U-700. A carga no ponto de falha de corpo-de-prova é dada a seguir (em megapascal). 19.8 15.4 11.9 16.7 11.9 10.1 15.4 11.4 15.8 11.4 14.9 18.5 11.4 19.5 7.5 7.9 14.1 8.8 15.4 12.7 17.6 13.6 *vol. II, n. 4, pp. 275-281, 1989 Qual é o valor típico para a carga no ponto de falha ? Medidas de Tendência Central Exemplo: Média Aritmética Simples: 1 n i i x x n = = ∑ Quantifica a contribuição típica de cada elemento dos dados se todos os elementos contribuíssem igualmente. n número de indivíduos no conjunto de dados xi valor da i-ésima observação nos dados, i = 1, 2, 3,..., n x1 =19.8 x2 = 15.4 x3 = 11.9 ..... x21 = 17.6 x22 = 13.6 No conjunto de dados das cargas, há 22 medidas (n =22) 301.7 13.71 22 x = = Carga 19.217.616.014.412.811.29.68.0 A carga média no ponto de falha é de 13.71 megapascal. Mediana: “o valor do meio” A mediana divide o conjunto de dados ordenados em duas partes com o mesmo número de observações. n é par n é ímpar Dados ( 3 ; 4.5 ; 5.5 ; 2.5 ; 1.3 ; 6 ). Ordenando os valores: (1.3 ; 2.5 ; 3 ; 4.5 ; 5.5 ; 6) A mediana é (3 + 4.5)/2 = 3.75. Dados: { 3.3 ; 2.5 ; 5.6 ; 4.3 ; 3.2}. Ordenando os valores : { 2.5 ; 3.2 ; 3.3 ; 4.3 ; 5.6 }. A mediana é o valor 3.3. Existe um só “valor do meio” Existem dois “valores do meio” 7.5 7.9 8.8 10.1 11.4 11.4 11.4 11.9 11.9 12.7 13.6 14.1 14.9 15.4 15.4 15.4 15.8 16.7 17.6 18.5 19.5 19.8 No conjunto de dados das cargas, há 22 medidas (n é par) A mediana é (13.6 + 14.1)/2 = 13.85 Carga 19.217.616.014.412.811.29.68.0 13.85 Moda: “o(s) valor(es) mais frequente(s)” No conjunto de dados das cargas, há 2modas: Carga 19.217.616.014.412.811.29.68.0 11.4 15.4 Forma da Distribuição X Medidas de Tendência Central Média x Mediana 1 - A mediana é menos sensível a valores extremos (muito baixos ou muito altos) dos dados. Carga 19.217.616.014.412.811.29.68.0 13.71 13.85 A mediana do novo conjunto de dados será 13.60. A média do novo conjunto de dados será 13.42. No exemplo anterior, se retirarmos o dois maiores valores, 2 - A mediana pode ser calculada se conhecermos apenas a ordem de alguns dos dados. Ex: Tempos até a falha de um equipamento (em horas) <20 23 34 45 56 67 70 87 90 >96 >120 Medidas de Variabilidade Identificar o elemento típico de um conjunto de dados não é suficiente para caracterizá-lo. Dois conjuntos de dados podem ter o mesmo elemento típico, mas serem diferentes um do outro. É necessário quantificar a dispersão em torno do elemento típico, ou seja, quantificar a variabilidade de um conjunto de dados. O exemplo das balanças Balança A Balança B 1000 11001050950900 Peso (em gramas) Como quantificar as diferenças entre as medições das duas balanças? Diferença entre os valores máximo e o mínimo das medições. Amplitude Total = Máximo – Mínimo Balança A: 1040g – 945g = 95g Balança B: 1095g – 895g = 200g. No exemplo: Em geral, quanto maior a AT, maior a varibildade dos dados. Amplitude Total é uma medida simples de variabilidade, porém é muito grosseira, pois só considera os valores extremos do conjunto de dados. AT1 = 100 – 2 = 98 AT2 = 100 – 2 = 98 Precisamos de uma medida de dispersão (em relação ao elemento típico) que considere todos os valores dos dados. ( )ix x− 1 ( ) n i i x x n = −∑ Distância do i-ésimo valor à média dos dados. Distância típica dos valores à média. Problema: é sempre zero ! 1 ( ) n i i x x = −∑ Soma � Média ���� 40/10 = 4 39040 937 6.252.56.5 426 0.250.54.5 004 004 0.25-0.53.5 4-22 6.25-2.51.5 9-31 Xi Coluna 3Coluna 2Coluna 1 Solução: eliminar o sinal dos desvios negativos Como ? Elevando ao quadrado todos os desvios 39/10 = 3.9 2 1 ( ) n i i x x n = −∑ Nova medida de dispersão Variância Problema: a variância é uma média de desvios ao quadrado � Unidade de medida foi alterada: Solução: voltar à unidade original usando a operação inversa 2 1 ( ) 1 n i i x x n = − − ∑ Desvio-Padrão cm ���� cm2 pessoas ���� pessoas2 (!!) toneladas ���� toneladas2 (!!) O desvio-padrão (dp ou s) representa o desvio típico dos elementos do conjunto de dados até seu centro (a média) O desvio-padrão será usado como “padrãode desvio” No exemplo anterior: (1.0 , 1.5 , 2.0 , 3.5 , 4.0 , 4.0 , 4.5 , 6.0 , 6.5 , 7.0) Média = 4.0 Desvio-Padrão: 39 4.3 2.1 10 1 s= = = − Exemplo: o valor 5.0 está longe ou perto do valor típico ? 5.0 4.0 1.0 0.48 2.1 2.1 − = = O valor 5.0 está 0.48 desvios-padrão acima da média Questão: correr 431m a mais do que a média do grupo é bom ou muito bom? Média = 1558 m Meu desempenho = 1989 m 1989 m – 1558 m = 431 m 431 1.32 327 = s =327 metros s =550 metros 431 0.78 550 = Regra do Desvio-Padrão para Dados com Distribuição de Frequências Simétrica Um desvio-padrão igual a 10 é grande ou pequeno ? s=10 significa muita dispersão se X=100 s=10 significa pouca dispersão se X=1000 10 0.1 (10%) 100 = 10 0.01 (1%) 1000 = Para termos idéia da magnitude do valor do desvio-padrão, é necessário verificar o quanto ele “ocupa” da escala de medida, representada pela média. Coeficiente de Variação (CV) X SCV = O Coeficiente de Variação não tem unidade de medida Podemos usar o CV para comparar a variabilidade (dispersão) de grupos diferentes e até de variáveis diferentes Comparando a homogeneidade entre grupos e variáveis. Idade (em anos) de motoristas e cobradores. 0.137 (13.7%)3.1122.650Cobradores 0.143 (14.3%)5.0835.6150Motoristas CVDP Média nGrupo Idade, tempo de profissão e salário de motoristas. 0.047 (4.7%)25.34 reais537.52 reaisSalário 0.458 (45.8%)2.98 anos6.5 anosTempo de profissão 0.143 (14.3%)5.08 anos35.6 anosIdade CVDP MédiaVariável “ - Então, qual foi sua posição final na corrida ? - Ah, eu fiquei em 3o lugar! - Puxa... Foi mesmo ? E quantos estavam correndo ? - Três. “ Percentis Escores Padronizados Medidas de Posição Posicão relativa (ao n) no conjunto de dados. Posição relativa ao desempenho geral (média), levando em conta a variabilidade (dp). Postos Posição do indivíduo no conjunto de dados. O percentil de ordem K ( 0 < K < 100), denotado por Pk, é o valor da variável tal que K% dos valores dessa variável nos dados são menores ou iguais a ele. Percentil Exemplo: No conjunto de notas na 1ª Fase do Vestibular, o percentil de ordem 10 foi igual a 25 pontos: P10 = 25 pontos; ou seja, 10% das notas foram menores ou iguais a 25 pontos. Percentis Especiais Exemplo: o percentil de ordem 10, o P10, é o valor da variável tal que 10% dos valores são menores ou iguais a ele. Os percentis de ordem 10, 20, 30, ... 90 dividem o conjunto de dados em dez partes com mesmo número de observações e são chamados de decis. Os percentis de ordem 25, 50 e 75 dividem o conjunto de dados em quatro partes com o mesmo número de observações. Estes três percentis recebem o nome de quartis Primeiro Quartil (Q1), Segundo quartil (Q2) ou mediana e Terceiro quartil (Q3). Determinação do Percentil de ordem K (Triola, 1996). Ordene os dados, do menor para o maior. Calcule L=(k/100)n, k: ordem do percentil n: numero de valores L é inteiro? Não Sim O valor de Pk é a média entre L-ésimo e o (L+1)ésimo valores a contar do menor. Arredonde L para o maior inteiro mais próximo. O valor de Pk é o L-ésimo valor a contar do menor. Ex: k = 50 L = (50/100) x 132 L=0.50 x 132 = 66 Ex: n = 132 Ex: k = 97.5 L = (97.5/100) x 132 L=0.975 x 132 = 128.7 Pk é a média dos valores 66 o e 67o nos dados ordenados Pk é o 129 o valor no conjunto de dados ordenados Exemplo 1: Notas finais dos 40 candidatos ao curso de Eng. Metalúrgica no vestibular da UFMG. 9897959493928887878686858383767570696867 6665646362595853525149494848474442424140 P10: 10% de 40= 4. P10=média(4 o e 5o valores)=(42+44)/2 = 43. �P95: 95% de 40=38. P95=média(38 o e 39o valores)=(95+97)/2=96. �P3: 3% de 40 = 1.2 (arredonda para cima o 2 o valor). P3 = 41. �Primeiro Quartil: 25% de 40 = 10. �Q1 = média(10 o e 11o valores)=(49+51)/2 = 50. �Terceiro Quartil: 75% de 40 = 30. �Q3 = média(30 o e 31o valores)=(86+86)/2 = 86. Identificando outliers: o Boxplot * Q3 Q1 E s c a l a d e v a l o r e s DQ = Q3 – Q1 outlier Q2 Q3 Q1 Comprimento máximo = 1.5 x DQ Exemplo 1: Renda mensal (em salário mínimos) de chefes de famílias em 101 domicílios da comunidade A: Comprimento máximo da linha do boxplot Exemplo 2: Renda mensal (em salário mínimos) de chefes de famílias em 100 domicílios da comunidade B: Boxplot para a renda mensal (em salário mínimos) de chefes de famílias em 100 domicílios da comunidade B: Comunidade B Comunidade A O Boxplot e as formas básicas das distribuições de frequências Assimétrica (concentração à esquerda Assimétrica (concentração à direita Simétrica Série de Boxplots: Comparando vários grupos no mesmo gráfico “Saltar 20 cm acima da média da turma é melhor do que correr 431 m a mais do que a média da turma?” Escores Padronizados Tornando possível comparações entre indivíduos em variáveis diferentes Problema Inicial: Os 20 alunos da oitava série de uma escola foram submetidos a cinco testes de aptidão física e a um teste de conhecimento desportivo: 1. Abdominal: número de abdominais realizados em 2 minutos; 2. Salto em extensão: comprimento do salto (centímetros); 3. Suspensão de braços flexionados: tempo (segundos) suspenso; 4. Corrida: distância (metros) percorrida em 12 minutos ; 5. Natação: tempo (segundos) para nadar 50 metros; 6. Conhecimento desportivo: prova escrita (0 a 100 pontos). Questão no1: Em cada teste, qual foi o aluno com pior desempenho ? E com melhor desempenho? 75301019676935Ana 792619686710633Flávia 86301084607433Rafael 74281535548932Luciana 69271054577032Rodrigo 81251716519131Marcelo 73301276488431Daniele 74331930459830Antônio 76311747399030Gabriela 77281600428930Luiz 75351503368829Bárbara 72291255307129Guido 71311833279228Camila 76331743209028Marina 84321267168027Luiza 683019861010226Vinícius 78291858129425Maria 66271333238727Manuel 82321461338830João 643419896410834Pedro ConhecimentoNataçãoCorridaSuspensãoSaltoAbdominalAluno Questão no2: Para um dado aluno, em qual teste onde ele se saiu melhor (ou pior) em relação à turma ? 75 pontosConhecimento 30 segundosNatação 1558 metrosCorrida 40 segundosSuspensão 88 centímetrosSalto 30 abdominaisAbdominais Média da turmaTeste Para Pedro : Mas, saltar 20 cm acima da média é bom ou muito bom ? Levando em conta a variabilidade das medidas do grupo: Pontos6pontos75 Conhecimento Segundos3segundos30 Natação Metros327metros 1558 Corrida Segundos18segundos40Suspensão Centímetros11centímetros88Salto Abdominais3abdominais30 Abdominais Desvio-PadrãoMédiaTeste O Escore Padronizado − = EscoreOriginal Média EscorePadronizado DesvioPadrão Mede a distância do escore original à média do grupo em número de desvios-padrão. Não têm unidade de medida. Têm média = 0 e dp = 1. 0,000,00-1,651,50-1,731,67Ana 0,67-1,331,251,501,641,00Flávia 1,830,00-1,451,11-1,271,00Rafael -0,17-0,67-0,070,780,090,67Luciana -1,00-1,00-1,540,94-1,640,67Rodrigo 1,00-1,670,480,610,270,33Marcelo -0,330,00-0,860,44-0,360,33Daniele -0,171,001,140,280,910,00Antônio 0,170,330,58-0,060,180,00Gabriela 0,33-0,670,130,110,090,00Luiz 0,001,67-0,17-0,220,00-0,33Bárbara -0,50-0,33-0,93-0,56-1,55-0,33Guido -0,670,330,84-0,720,36-0,67Camila 0,171,000,57-1,110,18-0,67Marina 1,500,67-0,89-1,33-0,73-1,00Luiza -1,170,001,31-1,671,27-1,33Vinícius 0,50-0,330,92-1,560,55-1,67Maria -1,50-1,00-0,69-0,94-0,09-1,00Manuel 1,170,67-0,30-0,390,000,00João -1,831,331,321,331,821,33Pedro ConhecimentoNataçãoCorridaSuspensãoSaltoAbdominalAluno
Compartilhar