Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-1 Estatística Teoria e Aplicações 5a. Edição Capítulo 3 Medidas Numéricas Descritivas Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-2 Objetivos do Aprendizado Neste capítulo, você irá aprender: A descrever as propriedades de tendência central, variação e formato em dados numéricos A calcular medidas descritivas resumidas para uma população A construir e interpretar um gráfico de caixa A descrever a covariância e o coeficiente de correlação Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-3 Definições Resumidas A tendência central corresponde à extensão na qual todos os valores de dados se agrupam em torno de um valor típico central. A variação corresponde ao montante da dispersão de valores em relação a um valor central. O formato corresponde ao padrão de distribuição de valores do valor mais baixo para o mais alto. Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-4 Medida da Tendência Central: A Média Aritmética A média aritmética (média) é a medida mais comum de tendência central Para uma amostra de tamanho n: n XXX n X X n21 n 1i i Tamanho da amostra Valores observados Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-5 Medida da Tendência Central: A Média Aritmética A medida mais comum de tendência central Média = soma dos valores dividida pelo número de valores Afetada por valores extremos (valores atípicos = outliers) 0 1 2 3 4 5 6 7 8 9 10 Média = 3 3 5 15 5 54321 0 1 2 3 4 5 6 7 8 9 10 Média = 4 4 5 20 5 104321 Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-6 Medida de Tendência Central: A Mediana Em uma sequência ordenada, a mediana é o valor do “meio” (50% acima, 50% acima) Não é afetada por valores extremos 0 1 2 3 4 5 6 7 8 9 10 Mediana = 4 0 1 2 3 4 5 6 7 8 9 10 Mediana = 4 Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-7 Medida de Tendência Central: Localizando a Mediana A mediana de um conjunto de dados ordenados está localizada no valor classificado como Se o número de valores é ímpar, a mediana é o número do meio. Se o número de valores for par, a mediana é a média dos dois valores que estão no meio da classificação. Observe que NÃO é o valor da mediana e somente a posição da mediana dos dados ordenados. 2 1n 2 1n Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-8 Medida de Tendência Central: A Moda Valor que ocorre com mais frequência Não é afetada por valores extremos Usada para dados numéricos ou categóricos Pode não existir a moda Pode existir mais de uma moda 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Moda = 9 0 1 2 3 4 5 6 Sem Moda Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-9 Medida de Tendência Central: Exemplo de Revisão Preço das Casas: R$2.000.000,00 500.000,00 300.000,00 100.000,00 100.000,00 Soma 3.000.000,00 Média: (R$3.000.000,00/5) = R$ 600.000,00 Mediana: valor central dos dados organizados = R$ 300.000,00 Moda: valor mais frequente = R$ 100.000,00 Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-10 Medida de Tendência Central: Qual medida a escolher? A média é geralmente usada, exceto se existirem valores extremos (outliers). A mediana é usualmente usada, pois a mediana não é sensível a valores extremos. Por exemplo, a mediana do preço das casas pode ser relatada para uma região; pois é menos sensível a valores extremos. Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-11 Quartis Os quartis dividem os dados organizados em quatro segmentos com um número igual de valores por segmento. 25% 25% 25% 25% Q1 Q2 Q3 O primeiro quartil, Q1, é o valor para o qual 25% das observações são menores e 75% são maiores. Q2 é o mesmo que a mediana (50% são menores, 50% são maiores) Somente 25% dos valores são maiores que o terceiro quartil Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-12 Quartis Localizando os Quartis Encontre o quartil, determinando o valor da posição apropriada dos dados ordenados, onde Posição do Primeiro Quartil: Q1 = (n+1)/4 valor ordenado Posição do Segundo Quartil: Q2 = (n+1)/2 valor ordenado Posição do Terceiro Quartil: Q3 = 3(n+1)/4 valor ordenado onde n é o número de valores observados Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-13 Medidas dos Quartis Diretrizes Regra 1: Se o resultado for um número inteiro, então o quartil é igual ao valor na ordem de classificação. Regra 2: Se o resultado for uma meia fração (2,5; 3,5, etc), então o quartil é igual à média entre os valores correspondentes na ordem de classificação. Regra 3: Se o resultado não for um número inteiro ou uma meia fração, você arredonda o resultado para o número inteiro mais próximo e seleciona o valor na ordem de classificação correspondente. Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-14 Medida do Quartil Localizando o Primeiro Quartil Exemplo: Localize o primeiro quartil Conjunto de dados ordenados: 11 12 13 16 16 17 18 21 22 Observe que n = 9. Q1 = (9+1)/4 = 2,5 ordem de classificação dos dados organizados, portanto use o valor médio entre 20 e 30 dos valores ordenados, Q1 = 12,5 Q2 = mediana, uma medida de tendência central = 16 Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-15 Medidas de Tendência Central: A Média Geométrica Média Geométrica Usada para medir a taxa de variação de uma variável ao longo do tempo Média Geométrica da Taxa de Retorno Mede o status de um investimento ao longo do tempo onde Ri é a taxa de returno no período i n nG XXXX /1 21 )( 1)]R1()R1()R1[(R n/1n21G Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-16 Medida de Tendência Central: A Média Geométrica Um investimento de U$100,000 diminuiu para U$50,000 no final de ano e subiu para U$100,000 ao final de dois anos: Ao longo de dois anos, o retorno é zero, pois o início e o final ficaram no mesmo nível. 000,100$000,50$000,100$ 321 UXUXUX 50% redução 100% acréscimo Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-17 Medida de Tendência Central: A Média Geométrica Use o retorno anual para calcular a média aritmética e média geométrica da taxa de retorno: 25,0 2 )1()5,0( X Média aritmética da taxa de returno: Média geométrica da taxa de returno: %0111)]2()50,0[( 1))]1(1())5,0(1[( 1)]1()1()1[( 2/12/1 2/1 /1 21 nnG RRRR Resultado confuso Resultado mais exato Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-18 Medidas de Tendência Central Sumário Tendência Central Média Aritmética Mediana Moda Média Geométrica n X X n i i 1 n/1 n21G )XXX(X Valor do ponto médio no conjunto de dados ordenados Valor observado mais frequente Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-19 Medidas da Variação A variação mede a dispersão dos valores de um conjunto de dados. Amplitude Amplitude Interquartil Variância Desvio Padrão Coeficiente de Variação Estatística Teoria e Aplicações, 5a. edição2008 LTC Cap 3-20 Medidas da Variação: Amplitude Medida mais simples para a variação Diferença entre o maior valor e o menor valor Amplitude = Xmaior – Xmenor 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Amplitude = 13 - 1 = 12 Exemplo: Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-21 Medidas da Variação: Desvantagens da Amplitude Ignora o modo como os dados estão distribuídos. Sensível a valores extremos (outliers) 7 8 9 10 11 12 Amplitude = 12 - 7 = 5 7 8 9 10 11 12 Amplitude = 12 - 7 = 5 1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5 1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120 Amplitude = 5 - 1 = 4 Amplitude = 120 - 1 = 119 Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-22 Medidas da Variação: Amplitude Interquartil (IQR) Os problemas causados pelos valores extremos podem ser eliminados usando a Amplitude Interquartil. O IQR pode eliminar alguns valores alto e baixo e ser calculado usando os valores remanescentes. Amplitude Interquartil = 30. quartil – 10. quartil = Q3 – Q1 Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-23 Medidas da Variação: Amplitude Interquartil Mediana (Q2) X máximoXminímo Q1 Q3 Exemplo: 25% 25% 25% 25% 12 30 45 57 70 Amplitude Interquartil = 57 – 30 = 27 Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-24 Medidas da Variação: Variância A variância é a média (aproximadamente) dos quadrados dos desvios dos valores da média. Variância Amostral: Onde = média aritmética n = tamanho da amostra Xi = i ésimo valor da variável X X 1-n )X(X S n 1i 2 i 2 Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-25 Medidas da Variação: Desvio Padrão Mais comumente usado para medir a variação Mostra a variação próximo à “média aritmética” Tem as mesmas unidade dos dados origianais Desvio padrão Amostral: 1-n )X(X S n 1i 2 i Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-26 Medidas da Variação: Desvio Padrão Etapas para Calcular o Desvio Padrão 1. Calcule a diferença entre cada valor e a média. 2. Eleve ao quadrado cada diferença. 3. Some os quadrados das diferenças. 4. Divida essa soma por n-1 para obter a variância da amostra. 5. Calcule a raiz quadrada da variância amostral para obter o desvio padrão da amostra. Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-27 Medidas da Variação: Desvio Padrão Amostra Dados (Xi) : 10 12 14 15 17 18 18 24 n = 8 Média =X = 16 4.2426 7 126 18 16)(2416)(1416)(1216)(10 1n )X(24)X(14)X(12)X(10 S 2222 2222 Uma medida da dispersão “média” em torno da média Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-28 Medidas da Variação: Comparando Desvios Padrão Média = 15,5 S = 3,33811 12 13 14 15 16 17 18 19 20 21 11 12 13 14 15 16 17 18 19 20 21 Dados B Dados A Média = 15,5 S = 0,926 11 12 13 14 15 16 17 18 19 20 21 Média = 15,5 S = 4,570 Dados C Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-29 Medidas da Variação: Comparando Desvios Padrão Desvio padrão pequeno Desvio padrão grande Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-30 Medidas da Variação: Sumário das Características Quando mais espalhados ou dispersos forem os dados, maiores a amplitude, a amplitude interquartil, a variância e o desvio padrão. Quanto mais concentrados ou homogêneos forem os dados, menores a amplitude, a amplitude interquartil, a variância e o desvio padrão. Se todos os valores forem iguais (sem nenhuma variação), todas esssas medidas serão iguais a zero. Nenhuma destas medidas poderão ser negativas. Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-31 Coeficiente de Variação (CV) O coeficiente de variação é o desvio padrão dividido pela média, multiplicado por 100. É sempre expresso em percentagem. (%) Mostra a variação relativa em relação à média. O CV pode ser usado para comparar dois ou mais conjuntos de dados medidos em unidades diferentes. 100% X S CV Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-32 Coeficiente de Variação Ações da Empresa A: Preço médio do último ano = $50 Desvio padrão = $5 Ações da Empresa B: Preço médio do último ano = $100 Desvio padrão = $5 10%100% $50 $5 100% X S CVA 5%100% $100 $5 100% X S CVB O preço médio das duas ações tem o mesmo desvio padrão, mas as ações da empresa B stock B tem uma variação menor em relação ao seu preço. Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-33 Localizando Valores Extremos: Z-Escore Para calcular o Z-escore de um dado valor, subtraia a média e divida pelo desvio padrão. O Z-escore é o número de desvios padrão que um dado valor está distante da média. Um valor é consideraedo um valor extremo se o Z- escore é menor que -3,0 ou superior +3,0. Quanto maior for o valor absoluto do Z-escore, mais distante esse valor estará da média. Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-34 Localizando Valores Extremos: Z-Escore onde X representa um dado valor X é a média aritmética S é o desvio padrão da amostra S XX Z Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-35 Localizando Valores Extremos: Z-Escore Suponha que a média da prova de matemática do SAT é 490, com um desvio padrão de 100. Calcule o z-escore para um aluno que obteve uma nota no SAT igual a 620. 3,1 100 130 100 490620 S XX Z Uma nota igual a 620 é 1,3 desvios padrão acima da média e não pode ser considerada um valor extremo. Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-36 Formato da Distribuição Descrever como os dados são distribuídos Medidas do formato Simétrico ou assimétrico Média = MedianaMédia < Mediana Mediana < Média Assimétrico à direitaAssimétrico à esquerda Simétrico Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-37 Estatística Descritiva Usando Microsoft Excel 1. Selecione Ferramentas. 2. Selecione Análise de Dados. 3. Selecione Estatística Descritiva e clique OK. Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-38 Estatística Descritiva Usando Microsoft Excel 4. Entre com intervalo das células. 5. Habilite o resumo da caixa estatística. 6. Clique OK Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-39 Estatística Descritiva Usando Microsoft Excel Microsoft Excel Saída da estatística descritiva usando os dados dos preços das casas: Preço das Casas: U$2,000,000 500,000 300,000 100,000 100,000 Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-40 Medidas Numéricas Descritivas para uma População A estatística descritiva apresentada previamente descreve uma amostra, não uma população. Medidas resumidas que descrevem uma população são chamadas de parâmetros e são indicadas por letras Gregas. Parâmetros populacionais importantes são: amédia da população, a variância e o desvio padrão. Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-41 Média da População A média da população é a soma dos valores da população dividida pelo tamanho da população, N. N XXX N X N N i i 211 μ = média da população N = tamanho da população Xi = i ésimo valor da variável X onde Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-42 Variância da População N X N 1i 2 i 2 μ)( σ A variância da população é a média dos quadrados dos desvios dos valores em relação à media μ = média da população N = tamanho da população Xi = i ésimo valor da variável X onde Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-43 Desvio Padrão da População O desvio padrão da população é a medida de variação mais comumente usada. Ela tem a mesma unidade dos dados originais. N X N 1i 2 i μ)( σ μ = média da população N = tamanho da população Xi = i ésimo valor da variável X onde Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-44 Estatística da Amostra versus Parâmetros da população Medida Parâmetro da População Estatística da Amostra Média Variância Desvio Padrão X 2S S 2 Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-45 A Regra Empírica A regra empírica aproxima a variação dos dados em uma distribuição com formato de sino. Aproximadamente 68% dos dados de uma distribuição com formato de sino estão contidos dentro de uma distância, 1σμ μ 68% 1σμ Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-46 A Regra Empírica 2σμ 3σμ Aproximadamente 95% dos dados de uma distribuição com formato de sino estão contidos dentro de uma distância, Aproximadamente 99,7% dos dados de uma distribuição com formato de sino estão contidos dentro de uma distância, 3σμ 99.7%95% 2σμ Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-47 Usando a Regra Empírica Suponha que os resultados da prova de Matemática no SAT tem uma distribuição com formato de sino com média igual a 500 e desvio padrão de 90. Então, 68% dos resultados estão contidos entre 410 e 590 (500 +/- 90). 95% dos resultados estão contidos entre 320 e 680 (500 +/- 180). 99.7% dos resultados estão contidos entre 230 e 770 (500 +/- 270). Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-48 A Regra de Chebyshev Independente de como os dados estão distribuídos (simétrico ou assimétrico), no mínimo (1 - 1/k2) dos valores estarão contidos dentro de distâncias correspondentes a k desvios padrão em relação à média (para k > 1) Exemplos: k=2 (1 - 1/22) = 75% ……..... (μ ± 2σ) k=3 (1 - 1/32) = 89% ………. (μ ± 3σ) contidosNo mínimo Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-49 Análise Exploratória dos Dados O Resumo dos Cinco Números Os cinco numéros que descrevem a dispersão dos dados são: Mínimo Primeiro Quartil (Q1) Mediana (Q2) Terceiro Quartil (Q3) Máximo Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-50 Análise Exploratória dos Dados O Gráfico de Caixa O Gráfico de Caixa é uma representação gráfica do resumo dos cinco números. Minimum 1st Median 3rd Maximum Quartile Quartile 25% 25% 25% 25% Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-51 Análise Exploratória dos Dados O Gráfico de Caixa Mín. Q1 Mediana Q3 Máx. A Caixa e a linha central são centralizadas entre os pontos extremos se os dados são simétricos em relação à mediana. O Gráfico de Caixa pode ser mostrado no formato vertical ou horizontal. Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-52 Análise Exploratória dos Dados O Gráfico de Caixa Assimétrico à direita Assimétrico à esquerda Simétrico Q1 Q2Q3 Q1Q2Q3 Q1 Q2 Q3 Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-53 Covariância da Amostra 1n )YY)(XX( )Y,X(cov n 1i ii A covariância da amostra mede a força de uma relação linear entre duas variáveis numéricas. A covariância da amostra: A covariância está somente relacionada com a força da relação linear. Nenhum efeito causal está implícito. Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-54 Covariância da Amostra Covariância entre duas variáveis aleatórias: cov(X,Y) > 0 X e Y tendem a se mover na mesma direção cov(X,Y) < 0 X e Y tendem a se mover em direções opostas cov(X,Y) = 0 X e Y são independentes Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-55 O Coeficiente de Correlação O coeficiente de correlação mede a força relativa da relação linear entre duas variáveis. Coeficiente de correlação da amostra: YX n 1i 2 i n 1i 2 i n 1i ii SS )Y,X(cov )YY()XX( )YY)(XX( r Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-56 O Coeficiente de Correlação Sem unidade Varia entre –1 e +1 Quanto mais próximo de –1, mais forte a relação linear negativa Quanto mais próximo de +1, mais forte a relação linear positiva Quanto mais próximo de 0, mais fraca é a relação linear Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-57 O Coeficiente de Correlação Y X Y X Y X r = -1 r = -0,6 r = 0 Y X r = +1 X Y X r = +0,3 Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-58 O Coeficiente de Correlação Usando Microsoft Excel 1. Selecione Ferramentas/Análise de Dados 2. Escolha Correlação no menu de seleção 3. Clique OK . . . Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-59 O Coeficiente de Correlação Usando Microsoft Excel 3. Entre com o intervalo de dados e selecione as opções apropriadas 4. Clique OK para obter a saída Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-60 O Coeficiente de Correlação Usando Microsoft Excel r = 0,733 Existe uma relação linear positiva relativamente forte entre o escore do teste #1 e o escore do teste #2. Estudantes que obtiveram uma nota elevada no teste # 1 tendem a ter uma nota alta no teste # 2. 70 75 80 85 90 95 100 70 75 80 85 90 95 100Es co re s do te st e # 2 Escores do teste #1 Gráfico de dispersão dos escores dos testes. Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-61 Armadilhas em Medidas Numéricas Descritivas A análise de dados é objetiva Análise deve informar o resumo medidas que melhor atendam aos pressupostos sobre o conjunto de dados. A interpretação dos dados é subjetiva A interpretação deve ser feita de forma justa, neutra e de maneira clara. Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-62 Considerações Éticas Medidas Numéricas Descritivas: Devem documentar os bons e maus resultados Devem ser apresentados de uma maneira justa, objetiva e neutra Não devem usar medidas resumidas inadequadas para distorcer fatos Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-63 Sumário do Capítulo Medidas descritivas de tendência central Média, mediana, moda, média geométrica Quartis discustidos Medidas de variação descritas Amplitude, Amplitudeinterquartil, variância e desvio padrão, coeficiente de variação Formato da distribuição ilustrado Simétrico, assimétrico, gráfico de caixa Neste capítulo, temos Estatística Teoria e Aplicações, 5a. edição 2008 LTC Cap 3-64 Sumário do Capítulo Covariância e coeficiente de correlação discutidos. Armadilhas abordadas nas medidas numéricas descritivas e considerações éticas. Neste capítulo, temos
Compartilhar