Prévia do material em texto
Notas de Aula Estatística Elementar 10ª Edição 10ª Edição by Mario F. Triola SlideSlide 1 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. Tradução: Denis Santos Capítulo 3 Estatísticas para Descrição, Exploração e Comparação de DadosDados 3-1 Visão Geral 3-2 Medidas de Centro 3-3 Medidas de Dispersão 3-4 Medidas de Forma da Distribuição SlideSlide 2 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. 3-4 Medidas de Forma da Distribuição 3-5 Análise Exploratória de Dados (EDA) Seção 3-1 Visão Geral SlideSlide 3 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. Created by Tom Wegleitner, Centreville, Virginia � Estatísticas Descritivas resume ou descreve as características Visão Geral resume ou descreve as características importantes de um conjunto de dados conhecido � Estatística Inferencial SlideSlide 4 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. usa dados amostrais para fazer inferências (ou generalizações) sobre uma população Seção 3-2 Medidas de Tendência Central SlideSlide 5 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. Created by Tom Wegleitner, Centreville, Virginia Ponto Chave Quando descrevemos, exploramos e comparamos conjuntos de dados, estas características são geralmente extremamente importante : centro, variação, distribuição, outliers e mudanças ao longo do tempo SlideSlide 6 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. Definição � Medida de Tendência Central� Medida de Tendência Central o valor localizado no centro (meio) de um conjunto de dados SlideSlide 7 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. Média Aritmética Definição Média Aritmética (média) a medida central obtida somando -se todos os valores e dividindo o total pela SlideSlide 8 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. os valores e dividindo o total pela quantidade de valores Notação ΣΣΣΣ denota a soma de um conjunto de valores .ΣΣΣΣ denota a soma de um conjunto de valores . x é a variável geralmente usada para representar os valores individuais dos dados. n representa a quantidade de valores em uma amostra . SlideSlide 9 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. N representa a quantidade de valores em uma população . Notação ΣΣΣΣ x Pronuncia-se ‘x-barra’ e denota a média de um conjunto de valores amostrais x µ pronuncia-se ‘mi’ e a média de todos os valores em uma população x = n ΣΣΣΣ x ΣΣΣΣ x SlideSlide 10 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. N µ = ΣΣΣΣ x Definições � Mediana é o valor central quando os valoresé o valor central quando os valores originais são organizados em ordem ascendente ou descendente de magnitude � geralmente denotada por x (pronuncia -~ SlideSlide 11 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. se ‘x -til’) �Não é afetado por valores extremos Encontrando a Mediana � Se a quantidade de valores é ímpar, a mediana é o número localizadomediana é o número localizado exatamente no centro da lista de valores ordenados . � Se a quantidade de valores é par, a mediana é a média dos dois valores SlideSlide 12 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. mediana é a média dos dois valores centrais . 5.40 1.10 0.42 0.73 0.48 1.10 0.42 0.48 0.73 1.10 1.10 5.40 (valores ordenados – número par de valores – sem valor 5.40 1.10 0.42 0.73 0.48 1.10 0.66 0.73 + 1.10 2 (valores ordenados – número par de valores – sem valor central exato, média de dois números) MEDIANA=0.915 SlideSlide 13 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. 5.40 1.10 0.42 0.73 0.48 1.10 0.66 0.42 0.48 0.66 0.73 1.10 1.10 5.40 (valores ordenados – número ímpar de valores ) exact middle MEDIANA=0.73 Definições � Moda é o valor que aparece com mais freqüência . Nem sempre é única. Nem sempre é única. � Um conjunto de dados pode ser: Bimodal Multimodal Sem Moda SlideSlide 14 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. A moda é a única medida de tendência central que pode ser usada com dados nominais . Moda - Exemplos a. 5.40 1.10 0.42 0.73 0.48 1.10 b. 27 27 27 55 55 55 88 88 99 c. 1 2 3 6 7 8 9 10 �Moda=1.10 �Bimodal - 27 e 55 �Sem moda SlideSlide 15 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. � Ponto Médio Definição é o valor no meio dos valores máximo e mínimo dos dados originais . SlideSlide 16 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. Ponto Médio = Valor máximo + valor mínimo 2 Regra de Arredondamento para Medidas de Tendência Central Arredonde os valores com uma casa decimal a mais que os dados originais. SlideSlide 17 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. Média de uma Distribuição de Freqüência Assume que em cada classe, todos os valores amostrais são iguais ao ponto médio . SlideSlide 18 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. use o ponto médio de cada classe para a Média de uma Distribuição de Freqüência use o ponto médio de cada classe para a variável x SlideSlide 19 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. Média Ponderada Em alguns casos, os valores têm grau de importância diferenciados, sendo então ponderados de acordo com esta importância . x = w ΣΣΣΣ (w • x) ΣΣΣΣ ponderados de acordo com esta importância . SlideSlide 20 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. Melhor Medida de Tendência Central SlideSlide 21 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. � Simetria a distribuição de dados é dita simétrica Definições a distribuição de dados é dita simétrica se a metade esquerda de seu histograma é aproximadamente uma imagem especular de seu lado direito . Caso a distribuição se estende mais para um lado do que para o outro, ela é SlideSlide 22 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. para um lado do que para o outro, ela é dita assimétrica . Assimetria SlideSlide 23 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. Recapitulando Nesta seção nós estudamos: � Tipos de Medidas de Centro� Tipos de Medidas de Centro Média Mediana Moda � Média de uma distribuição de freqüência � Médias ponderadas SlideSlide 24 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. � Médias ponderadas � Melhor Medida de Centro � Assimetria Seção 3-3 Medidas de DispersãoMedidas de Dispersão SlideSlide 25 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. Created by Tom Wegleitner, Centreville, Virginia Ponto Chave Devido a esta seção introduzir o conceito deDevido a esta seção introduzir o conceito de variação, que é crucial em estatística, esta pode ser considerada uma das seções mais importante deste livro . Priorize como interpretar valores de desvio SlideSlide 26 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. Priorize como interpretar valores de desvio padrão Definição A amplitude de um conjunto deA amplitude de um conjunto de dados é a diferença entre os valores máximo e mínimo . Amplitude = (valor máximo) – (valor mínimo) SlideSlide 27 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. Definição O desvio padrão de uma amostra éO desvio padrão de uma amostra é uma medida de dispersão dos valores em relação à média . SlideSlide28 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. Fórmula do Desvio Padrão Amostral ΣΣΣΣ (x - x)2 n - 1 s= SlideSlide 29 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. n - 1 Desvio Padrão Amostral (Fórmula Reduzida) n (n - 1) s = nΣΣΣΣ((((x2) - (ΣΣΣΣx)2 SlideSlide 30 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. n (n - 1) Desvio Padrão - Propriedades Importantes � O desvio padrão é uma medida de dispersão de todos os valores a partir da média . � O valor do desvio padrão s é usualmente positivo. � O valor do desvio padrão s pode aumentar drasticamente com a inclusão de um ou mais outliers. SlideSlide 31 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. outliers. � A unidade do desvio padrão s é a mesma dos dados originais. Desvio Padrão Populacional 2ΣΣΣΣ 2ΣΣΣΣ (x - µ) N σσσσ = SlideSlide 32 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. Esta fórmula é semelhante à anterior, porém utiliza a média e tamanho populacionais no lugar dos seus valores amostrais. Definição � A variância de um conjunto de dados é uma medida de dispersão igual ao quadrado do desvio � Variância populacional: Quadrado do desvio medida de dispersão igual ao quadrado do desvio padrão. � Variância amostral: Quadrado do desvio padrão amostral s SlideSlide 33 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. � Variância populacional: Quadrado do desvio padrão populacional σσσσ Variância - Notação Desvio padrão ao quadrado s σ σ σ σ 2 2 } Notação Variância Amostral Variância Populacional SlideSlide 34 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. σ σ σ σ } Regra de Arredondamento para Medidas de Dispersão Arredonde os valores com uma Arredonde os valores com uma casa decimal a mais que os dados originais. Arredonde apenas a resposta final, e não os valores cálculo intermediário. SlideSlide 35 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. valores cálculo intermediário. Estimação do Desvio Padrão Regra Empírica da Amplitude Para estimar o desvio padrão s,Para estimar o desvio padrão s, use onde amplitude = (valor máximo) – (valor mínimo) amplitude 4 s ≈≈≈≈ SlideSlide 36 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. Estimação do Desvio padrão Regra Empírica da Amplitude Para interpretar um valor conhecido do desvio padrã o s,Para interpretar um valor conhecido do desvio padrã o s, encontre uma estimativa robusta dos valores máximo e mínimo amostrais “usuais” usando: Valor Mínimo “usual” = (média) – 2 X (Desvio padrão ) Valor Máximo “usual” = (média) + 2 X (Desvio padrão ) SlideSlide 37 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. Definição Regra Empírica (68-95-99.7) Para conjuntos de dados com distribuição Para conjuntos de dados com distribuição aproximadamente normal , a seguinte propriedade é válida: � Aproximadamente 68% de todos os valores estão a 1 desvio padrão da média. � Aproximadamente 95% de todos os valores estão a 2 desvios padrões da média. SlideSlide 38 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. 2 desvios padrões da média. � Aproximadamente 99.7% de todos os valores estão a 3 desvios padrões da média. Regra Empírica SlideSlide 39 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. Regra Empírica SlideSlide 40 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. Regra Empírica SlideSlide 41 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. Definição Teorema de Chebyshev A proporção (ou fração) de qualquer conjunto deA proporção (ou fração) de qualquer conjunto de dados que se situa a K desvios padrões da média é sempre no mínimo 1-1/K2, onde K é qualquer número inteiro positivo maior que 1. � Para K = 2, no mínimo 3/4 (ou 75%) de todos os valores se localizam a 2 desvios padrões da média. � Para K = 3, no mínimo 8/9 (ou 89%) de todos os SlideSlide 42 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. � Para K = 3, no mínimo 8/9 (ou 89%) de todos os valores se localizam a 3 desvios padrões da média. Razão para usar n -1 versus n No final da Seção 3-3 temos uma explicação detalhada de por que usa- se n – 1 ao invés de n. SlideSlide 43 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. Definição O coeficiente de variação (ou CV) de um conjunto de dados amostrais ou populacionais, expressado em percentual, descreve o desvio padrão em em percentual, descreve o desvio padrão em relação a média. amostr a população sCV = • 100% µCV = σ •100% SlideSlide 44 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. s xCV = • 100% µCV = •100% Recapitulando Nesta seção nós estudamos: � Amplitude � Desvio padrão de uma amostra ou população � Variância de uma amostra ou população � Regra empírica da amplitude � Distribuição empírica SlideSlide 45 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. � Coeficiente de variação (CV) � Distribuição empírica � Teorema de Chebyshev Seção 3-4 Medidas de Forma da Distribuição SlideSlide 46 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. Created by Tom Wegleitner, Centreville, Virginia Ponto Chave Esta seção introduz algumas medidas queEsta seção introduz algumas medidas que podem ser usadas para comparar valores de diferentes conjuntos de dados, ou compará - los dentro do mesmo conjunto de dados . A mais importante destas medidas é o conceito de escore z. SlideSlide 47 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. � Escore z (ou valor padronizado) Definição � Escore z (ou valor padronizado) é o número de desvios padrões um dado valor x está acima ou abaixo da média SlideSlide 48 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. amostra população Medida de Posição Relativa Escore z amostra população x - µz = σσσσz = x - x s SlideSlide 49 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. Arredonde z com 2 casas decimais Interpretando Escore Z Sempre que um valor é menor que a média, seu z escore correspondente é negativo. SlideSlide 50 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. escore correspondente é negativo. Valores usuais : escore z entre –2 e 2 Valores não-usuais: escore z< -2 ou escore z > 2 Definição � Q1 (Primeiro Quartil) separa os 25% inferiores dos valores ordenados dos 75%inferiores dos valores ordenados dos 75% superiores . � Q2 (Segundo Quartil) mesmo que a mediana ; separa os 50% inferiores dos valores ordenados dos 50% superiores . � Q (Terceiro Quartil) separa os 75% SlideSlide 51 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. � Q1 (Terceiro Quartil) separa os 75% inferiores dos valores ordenados dos 25% superiores . Q1, Q2, Q3 Quartis 1 2 3 Divide os valores ordenados em quatro partes iguais 25% 25% 25% 25% Q3Q2Q1 (mínimo) (máximo) SlideSlide 52 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. Q3Q2Q1 (mínimo) (máximo) (mediana) Percentis Assim como há três quartis separandoAssim como há três quartis separando os dados em quatro partes, há também 99 percentis denominados P1, P2, . . . P99, os quais dividem os dados em 100 grupos . SlideSlide 53 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. Como Encontrar o Percentil de um Dado Valor Percentil do valor x = • 100 Número de valores menores que x Número total de valores SlideSlide 54 Copyright © 2007 Pearson Education, Inc Publishing asPearson Addison-Wesley. Notação Convertendo o k-ésimo Percentil em seu Valor Correspondente n número total de valores no conjunto de dados k percentil usado L localizador que indica a posição de um valor L = • nk 100 Notação SlideSlide 55 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. valor Pk k-ésimo percentil Convertendo o k-ésimo Percentil em seu Valor Correspondente SlideSlide 56 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. � Intervalo Interquartílico (ou IIQ): Q3 - Q1 Algumas Outras Estatísticas � Intervalo Semi-interquartil : 2 Q3 - Q1 � Midquartile: 2 Q3 + Q1 SlideSlide 57 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. � 10 - 90 Percentile amplitude: P90 - P10 2 Recapitulando Nesta seção nós estudamos: � Escore z� Escore z � Escore z e valores não -usuais � Quartis � Percentis � Convertendo um percentil no seu valor SlideSlide 58 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. � Convertendo um percentil no seu valor correspondente � Outras estatísticas Seção 3-5 Análise Exploratória de Dados (AED)Dados (AED) SlideSlide 59 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. Created by Tom Wegleitner, Centreville, Virginia Esta seção discute outliers, então Ponto Chave Esta seção discute outliers, então introduz um novo gráfico estatístico chamado boxplot, o qual é útil para visualização da distribuição dos dados . SlideSlide 60 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. � Análise Exploratória de Dados (AED) Definição é o processo de utilizar ferramentas estatísticas (tais como gráficos, medidas de centro e medidas de dispersão) para investigação de conjuntos de dados com o objetivo de SlideSlide 61 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. conjuntos de dados com o objetivo de se compreenderem suas importantes características Definição � Um outlier é um valor que está� Um outlier é um valor que está localizado muito afastado de quase todos os demais valores . SlideSlide 62 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. Princípios Importantes � Um outlier pode ter um efeito dramático sobre a média .sobre a média . � Um outlier pode ter um efeito dramático sobre o desvio padrão . � Um outlier pode ter um efeito dramático sobre a escala de um histograma, de modo que a real natureza de sua distribuição ser SlideSlide 63 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. a real natureza de sua distribuição ser totalmente obscurecida . � Para um conjunto de dados, o resumo dos 5 números consiste no valor mínimo ; no primeiro quartil Q ; na mediana (ou segundo quartil Q ); no Definições números consiste no valor mínimo ; no primeiro quartil Q1; na mediana (ou segundo quartil Q2); no terceiro quartil, Q3; e no valor máximo. � Um boxplot ( ou diagrama de caixa ) é um gráfico de um conjunto de dados que consiste em uma linha que se estende do valor mínimo ao valor máximo, e uma caixa com linhas traçadas no SlideSlide 64 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. máximo, e uma caixa com linhas traçadas no primeiro quartil, Q1, na mediana, e no terceiro quartil, Q3. Boxplots SlideSlide 65 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. Boxplots - cont SlideSlide 66 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. Boxplots - cont SlideSlide 67 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. Boxplots - cont SlideSlide 68 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. Boxplots Modificados Alguns pacotes estatísticos fornecem boxplots modificados os quais representam outliers commodificados os quais representam outliers com pontos especiais. Um valor é um outlier se ele está… acima de Q3 por uma quantidade maior que 1.5 X IIQ ou SlideSlide 69 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. ou abaixo de Q1 por uma quantidade menor que 1.5 X IIQ Construção de um Boxplot Modificado Um boxplot modificado é construído com estas especificações :estas especificações : �Um símbolo especial (tal como um asterisco) é usado para identificar os outliers . �A linha horizontal sólida se estende apenas até onde o valor mínimo que não é SlideSlide 70 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. apenas até onde o valor mínimo que não é outlier e até o valor máximo que também não é outlier. Boxplots Modificado - Exemplo SlideSlide 71 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. Recapitulando Nesta seção nós estudamos:Nesta seção nós estudamos: � Análise Exploratória de Dados � Efeitos dos outliers � resumo dos cinco números SlideSlide 72 Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley. � Boxplots e boxplots modificados