Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística Aplicada à Administração I ADM 1276 Profa. Léa Benatti Capítulo 3 – ESTATÍSTICA DESCRITIVA: Medidas Numéricas Introdução 1- Medidas de Posição 2- Medidas de Variabilidade (ou Medida de Dispersão) 3 – Medidas de Forma da Distribuição, da Posição Relativa e Detecção de Pontos Fora da Curva 4 – Análise Exploratória de Dados 5 – Medidas de Associação entre Duas Variáveis PUC-Rio 1 Esta apresentação tem o propósito de cumprir a Tarefa 4 do Curso de Treinamento do Moodle (Sistema de Gerenciamento de Curso), realizado no Departamento de Administração da PUC-Rio. Serão mostrados: - Um breve resumo de um artigo sobre Educação à Distancia (referente à tarefa 1); E considerações Finais do debate realizado no Fórum (referente à tarefa 3). Artigo: .... Estudo sobre a importância da introdução de estratégias motivacionais de suporte ao aluno de programa de educação à distância. Estatística Aplicada à Administração I ADM 1276 Profa. Léa Benatti Capítulo 3 – ESTATÍSTICA DESCRITIVA: Medidas Numéricas Introdução Métodos Numéricos: alternativas adicionais para sintetizar dados. Medidas Numéricas: sintetizam dados para uma variável. Para conjunto de dados com mais de uma variável: - Medidas Numéricas podem ser computadas separadamente para cada variável. - Caso de 2 variáveis: são usadas medidas da relação existente entre as variáveis (covariância, coeficiente de correlação). 2 Esta apresentação tem o propósito de cumprir a Tarefa 4 do Curso de Treinamento do Moodle (Sistema de Gerenciamento de Curso), realizado no Departamento de Administração da PUC-Rio. Serão mostrados: - Um breve resumo de um artigo sobre Educação à Distancia (referente à tarefa 1); E considerações Finais do debate realizado no Fórum (referente à tarefa 3). Artigo: .... Estudo sobre a importância da introdução de estratégias motivacionais de suporte ao aluno de programa de educação à distância. Capítulo 3 – Estatística Descritiva Medidas Numéricas Serão apresentadas medidas numéricas de Posição, Dispersão, Forma, Associação. Estatísticas da Amostra medidas calculadas se referem aos dados de uma AMOSTRA. Parâmetros Populacionais medidas calculadas se referem a dados de uma POPULAÇÃO. Softwares usados → SPSS, Minitab e Excel 3 Capítulo 3 – Estatística Descritiva Medidas Numéricas Métodos Numéricos - Alternativas Adicionais para Sintetizar Dados Medidas de Posição Média Mediana Moda Percentis Quartis Para ordenar valores: Excel Selecionar coluna / barra MENU / DADOS / CLASSIFICAR Medidas de Variabilidade (ou Medida de Dispersão) Amplitude Amplitude Interquartil Variância Desvio Padrão Coeficiente de Variação 4 Capítulo 3 – Estatística Descritiva Medidas Numéricas 1- MEDIDAS DE POSIÇÃO Medida de Tendência Central - MÉDIA ARITMÉTICA DA AMOSTRA i) Média (X dados de uma amostra) (μ dados de uma população) Amostra de n observações. xi→valor da variável X da i-ésima observação. EXECEL PARA DETERMINAR A MÉDIA ARITMÉTICA Passo 1: escolher célula para o resultado Passo 2: inserir função Passo 3: selecionar categoria e nome da função Passo 4: selecionar o intervalo =Média(A3:A23) 5 Capítulo 3 – Estatística Descritiva Medidas Numéricas Medida de Tendência Central - MÉDIA ARITMÉTICA PONDERADA ii) Média (X dados de uma amostra) (μ dados de uma população) Amostra de n observações xi →valor da variável X da i-ésima observação pi – peso Medida de Tendência Central - MÉDIA ARITMÉTICA GEOMÉTRICA iii) Média (Xg dados de uma amostra) (μg dados de uma população) 6 Capítulo 3 – Estatística Descritiva Medidas Numéricas Média Aritmética Geométrica - EXEMPLO “o crescimento de uma empresa foi de 2,8% em 2005, 3,7% em 2006 e 0,5% em 2007”. Taxa média de crescimento: 100 x 1,028 = 102,8 – no final do 1º. Ano 102,8 x 1, 037 = 106,60 – no final do 2º. Ano 106,60 x 1,005=107, 13 no final do 3º. Ano 100(1+i)3 = 107,13 (1+i)3 =1,0713 (1+i) = i = 0,02322 x 100 i= 2,32% ou: 1,028 x 1,037 x 1,005 = 1,0713 X1 x X2 x X3 7 Capítulo 3 – Estatística Descritiva Medidas Numéricas Medida de Tendência Central - MEDIANA DA AMOSTRA iv) Mediana – valor intermediário quando os dados são organizados em ordem crescente (do menor para o maior). Os valores repetidos são incluídos na lista ordenada. No ímpar de observação: mediana é o valor intermediário; No par de observação: mediana é a média dos valores correspondentes às duas observações intermediárias. EXEMPLO Dados em ordem crescente: 32 42 46 46 54 (n = 5) Mediana = 46 Dados em ordem crescente: 2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325 (n = 12) Mediana = (2890 + 2920)/2 = 2905 8 Capítulo 3 – Estatística Descritiva Medidas Numéricas Medida de Posição – MODA DA AMOSTRA v) Moda – é o valor que ocorre com maior freqüência na amostra. EXEMPLO Dados em ordem crescente: 32 42 46 46 54 (n = 5) Moda = 46 Dados em ordem crescente: 2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325 (n = 12) Moda = 2880 Dados qualitativos: Moda: Coca-Cola Moda: refrigerante mais comprado 9 Capítulo 3 – Estatística Descritiva Medidas Numéricas Medida de Posição – PERCENTIL DA AMOSTRA vi) Percentis - um PERCENTIL fornece informação sobre como os dados se distribuem ao longo do intervalo entre o menor e o maior valor. PERCENTIL: o p-ésimo percentil é um valor tal que pelo menos p por cento das observações são menores ou iguais a esse valor e pelo menos (100 – p) por cento das observações são maiores ou iguais a esse valor. Obs.: Amostra sem muitos valores repetidos, o p-ésimo percentil divide os dados em 2 partes (≈ p% das observações são valores menores que p-ésimo percentil, e ≈ (100 – p)% são valores maiores que o p-ésimo percentil). Etapas - cálculo do p-ésimo PercentiL: Organizar dados em ordem crescente (do menor para o maior); Calcule o índice i, em que p é o percentil procurado e n o no de observações; a - Se i não for inteiro, arredondar para cima posição do p-ésimo percentil; b – Se i for inteiro, o p-ésimo percentil será a média dos valores nas posições i e (i + 1). 10 Capítulo 3 – Estatística Descritiva Medidas Numéricas Percentis - EXEMPLO Dados organizados: 2710 2755 2880 2880 2890 2920 2940 2950 3050 3130 3325 7850 (n = 12) 85o Percentil = valor da 11a posição = 3325 vii) Quartis – dados divididos em 4 partes. 25% 25% 25% 25% Q1 Q2 Q3 Q1 = 1o Quartil (25o Percentil) Q2 = 2o Quartil (50o Percentil) - MEDIANA Q3 = 3o Quartil (75o Percentil) Posição dos Quartis: 11 Capítulo 3 – Estatística Descritiva Medidas Numéricas Medida de Posição – QUARTIL DA AMOSTRA Quartis - quando há necessidade de dividir os dados em 4 partes, tendo para cada parte aproximadamente um quarto, ou 25% das observações. Q1 = primeiro quartil = 25o percentil Q1 = 2865 no exemplo Q2 = segundo quartil = 50o percentil (= Mediana) Q2 = 2905 no exemplo Q3 = terceiro quartil = 75o percentil. Q3 = 3000 no exemplo EXEMPLO Dados organizados: 2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325 (n = 12) Q1 = (2850 + 2880) / 2 = 2865 Q2 = (2890 + 2920) / 2 = 2905 Q3 = (2950 + 3050) / 2 = 3000 12 Capítulo 3 – Estatística Descritiva Medidas Numéricas Observações: Podem ser usadas outras convenções para cálculo de quartis e seus valores podem variar ligeiramente, mas deve-se ter em mente que calcular quartis é dividir os dados em 4 partes iguais. Conjunto de dados contendo valores extremos → melhor usar MEDIANA, em vez de usar MÉDIA como medida central; ou; Usar MÉDIA AJUSTADA (obtida excluindo uma porcentagem dos valores menorese maiores de um conjunto de dados e calculando então a média dos valores restantes). Ex.: Média Ajustada 5%: média obtida eliminando 5% dos valores de dados menores e 5% dos valores de dados maiores → calcular média dos valores restantes. Amostra: n = 12 → 0,05 (12) = 0,6 → arredondando para 1,0 Média Ajustada 5% (n = 10): média dos valores onde se elimina o menor e o maior valor dos dados. 13 Capítulo 3 – Estatística Descritiva Medidas Numéricas 2- MEDIDAS DE VARIABILIDADE (ou Medida de Dispersão) Menor variabilidade, muitas vezes, indica maior confiabilidade relacionada. Variabilidade Confiabilidade dados i) AMPLITUDE - medida mais simples de variabilidade. Amplitude = Maior valor – Menor valor Baseia-se em 2 observações (assim, é altamente influenciada por valores extremos). Portanto, a Amplitude é uma medida de variabilidade raramente usada como medida única. Valores extremos desproporcionais ao restante das observações não descrevem a variabilidade dos dados. 14 Capítulo 3 – Estatística Descritiva Medidas Numéricas ii) AMPLITUDE INTERQUARTIL - é o intervalo correspondente aos 50% dos dados intermediários. É a diferença entre o terceiro quartil e o primeiro quartil. AIQ = Q3 – Q1 → diferença entre o terceiro quartil Q3 e o primeiro quartil Q1. AIQ: é o intervalo correspondente ao 50% dos dados intermediários. Q1 Q3 50% 25% 25% 15 Capítulo 3 – Estatística Descritiva Medidas Numéricas iii) VARIÂNCIA – medida de variabilidade que utiliza todos os dados. Baseia-se na diferença entre o valor de cada observação (xi) e a média denomina-se desvio em torno da média, (xi – X) e (xi – m). Variância da Amostra: (estimativa da variância da População 2) Variância da População: N = no de observações da população. Obs.: a divisão por (n -1) possibilita a resultante variância da amostra fornecer uma estimativa sem tendenciosidade da variância da população (demonstração por formulas). n = no observações da amostra. 16 Capítulo 3 – Estatística Descritiva Medidas Numéricas Exemplo – Variância (difícil compreensão - medida útil ao comparar a quantidade de variabilidade de 2 ou mais variáveis). Tamanho de classe da amostra de 5 classes universitárias. 17 Capítulo 3 – Estatística Descritiva Medidas Numéricas iv) Desvio Padrão - raiz quadrada positiva da variância. É a mais importante medida de dispersão para uma amostra. Promove a mesma unidade de medida tanto para a tendência central quanto para dispersão. Desvio Padrão para a Amostra: Desvio Padrão para a População: 18 Capítulo 3 – Estatística Descritiva Medidas Numéricas v) Coeficiente de Variação - DISPERSÃO RELATIVA Grandeza relativa do desvio padrão quando este é comparado com a média. Medida de dispersão que compara distribuições diferentes. É o tamanho de desvio padrão em relação à média. CV = DESVIO PADRÃO x 100 (%) MÉDIA ARITMÉTICA Exemplo – Dados exemplo anterior: tamanhos de classe. Média Amostral = 44; Desvio Padrão da Amostra = 8; Coeficiente de variação = (8 / 44) x 100 = 18,2% diz que o desvio padrão da amostra é 18,2% do valor da média da amostra. 19 Capítulo 3 – Estatística Descritiva Medidas Numéricas Coeficiente de Variação - usado quando se deseja comparar a variabilidade de variáveis distintas. Obs. 1: Desvio Padrão medida usada para se calcular o risco associado ao investimento em ações e fundos de ações. Ele fornece uma medida de como os retornos mensais flutuam em torno dos retornos médios de longo prazo. Obs. 2: Softwares: Minitab e Excel são usados para desenvolver estatísticas descritivas. Obs. 3: Arredondar o valor da média da amostra e os valores dos desvios elevados ao quadrado - (xi – X)2 leva a erros quando se usa uma calculadora para calcular a variância e o desvio padrão. Para reduzir erros: utilizar pelo menos 6 dígitos significativos durante os cálculos intermediários. Resultados podem se arredondados com menor número de dígitos. 20 Capítulo 3 – Estatística Descritiva Medidas Numéricas vi) Regressão e Correlação - estuda a relação entre duas variáveis. Correlação – resume o grau de relacionamento entre duas variáveis - r de Person – varia de -1 a 1. Regressão – equação matemática que descreve o relacionamento entre duas variáveis: Linear; Parábola; Exponencial; Geométrica. 21 Capítulo 3 – Estatística Descritiva Medidas Numéricas 3 - MEDIDAS DA FORMA DA DISTRIBUIÇÃO, DA POSIÇÃO RELATIVA E DETECÇÃO DE PONTOS FORA DA CURVA. Descreveu-se anteriormente: medidas de posição e de variabilidade dos dados. Importante: ter a medida da forma de uma distribuição. Medida numérica da forma de uma distribuição é chamada ASSIMETRIA. Histograma: apresentação gráfica que mostra a forma de uma distribuição. i) FORMA DA DISTRIBUIÇÃO - ASSIMETRIA. Formulação: Medida numérica da Forma de Distribuição, Onde: n: tamanho da amostra; X: média da amostra; S: desvio padrão da amostra. 22 Capítulo 3 – Estatística Descritiva Medidas Numéricas Histogramas que indicam a assimetria de 4 distribuições: - Moderadamente inclinado à esquerda (cauda para esquerda): Assimetria = - 0,85; - Moderadamente inclinado à direita (cauda para direita): Assimetria = 0,85; - Simétrico: Assimetria = 0 (zero); - Fortemente inclinado à direita: Assimetria = 1,62. Ver desenho esquemático na bibliografia principal. Assimetria pode ser calculada utilizando software estatístico. 23 Capítulo 3 – Estatística Descritiva Medidas Numéricas ii) CONTAGENS-Z Além de medidas de posição, medidas de variabilidade e forma de distribuição, há interesse na posição relativa dos valores contidos em um conjunto de dados. Medidas de posição relativa: ajudam a determinar quão afastado um valor em particular está da média → Contagem-Z. Usando média e desvio padrão pode-se determinar a posição relativa de qualquer observação. Supondo n observações, e os valores denotados por x1, x2, ..., xn; e média da amostra X e desvio padrão s (ambos já calculados). Associado a cada valor, xi, há outro valor que se chama Contagem-Z. 24 Capítulo 3 – Estatística Descritiva Medidas Numéricas Cálculo da Contagem-Z para cada xi: Contagem-Z: denominado Valor Padronizado. A contagem-Z, Zi, pode ser interpretado como o número de desvio padrão que xi está afastado da média X. Exemplo: Z1 = 1,2 → indica que x1 é 1,2 desvio padrão maior que a média da amostra. Z2 = - 0,5 → indica que x2 é 0,5 (ou ½) desvio padrão menor que a média da amostra. onde: Zi = contagem-Z para xi; X = média da amostra; s = desvio padrão da amostra. 25 Capítulo 3 – Estatística Descritiva Medidas Numéricas Cálculo da Contagem-Z para cada xi: Contagem-Z maior que zero: para observações com valor maior que a média da amostra; Contagem-Z menor que zero: para observações com valor menor que a média da amostra; Contagem-Z igual a zero: para observações com valor igual à média da amostra; A contagem-Z de qualquer observação pode ser interpretada como uma medida de posição relativa da observação no conjunto de dados. Pode-se dizer que as observações feitas em 2 diferentes conjuntos de dados que possuem a mesma contagem-Z têm a mesma posição relativa em termos de estarem o mesmo número de desvios padrão afastados da média. 26 Capítulo 3 – Estatística Descritiva Medidas Numéricas Exemplo: Considerando os dados a seguir (Dados de tamanho de classe) Média da amostra: 44 estudantes na classe; Desvio padrão: s = 8. (Valores calculados anteriormente). Contagem-Z dos dados de tamanho de classe de uma determinada escola: 27 Capítulo 3 – Estatística Descritiva Medidas Numéricas iii) TEOREMA DE CHEBYSHEV Permite fazer afirmações acerca da proporção de valores de dados que devem estar contidos em um número específico de desvios padrãoda média. Formulação → (1 – 1/Z2) Teorema de Chebyshev: Pelo menos (1 – 1/Z2) dos valores de dados devem estar contidos em Z desvios padrão da média, em que Z é qualquer valor maior que 1(um). Exemplo: Para Z = 2: (1 – 1/22) = 1 – ¼ = 0,75; pelo menos 0,75 ou 75% dos valores de dados devem estar contidos em Z = 2 desvios padrão da média; Para Z = 3: (1 – 1/32) = 0,89; pelo menos 0,89 ou 89% dos valores de dados devem estar contidos em Z = 3 desvios padrão da média; Para Z = 4: (1 – 1/42) = 0,94; pelo menos 0,94 ou 94% dos valores de dados devem estar contidos em Z = 4 desvios padrão da média. 28 Capítulo 3 – Estatística Descritiva Medidas Numéricas Exemplo: Notas dos exames semestrais de 100 estudantes do curso de Estatística. Amostra: 100 estudantes: Média = 70; Desvio padrão = 5. a) Quantos estudantes tiveram notas de exame entre 60 e 80? 60: 2 desvios padrão (s = 5) abaixo da média (70); 80: 2 desvios padrão (s = 5) acima da média (70). Teorema de Chebyshev: (1 – 1/Z2) = (1 – 1/22) = 0,75 ou 75% Pelo menos 75% (ou 0,75) das observações devem ter valores que estão dentro dos desvios padrão da média; ou: 75% dos estudantes devem ter obtido notas entre 60 e 80. 29 Capítulo 3 – Estatística Descritiva Medidas Numéricas Exemplo: Notas dos exames semestrais de 100 estudantes do curso de Estatística. Amostra: 100 estudantes: Média = 70; Desvio padrão = 5. b) Quantos estudantes tiveram notas de exame entre 58 e 82? Cálculo da Contagem-Z para cada xi: Teorema de Chebyshev: (1 – 1/Z2) = (1 – 1 / 2,42) = 0,826 ou 82,6% Pelo menos 82,6% dos estudantes devem ter tido notas entre 58 e 82. onde: Zi = contagem-Z para xi; X = média da amostra; s = desvio padrão da amostra. Zi = 2,4: 82 está 2,4 desvios padrão acima da média. Zi = - 2,4: 58 está 2,4 desvios padrão abaixo da média. 30 Capítulo 3 – Estatística Descritiva Medidas Numéricas Observação: Contagem-Z: quão afastado da média está a observação (quantos desvios padrão da média está a observação) Zi = (xi – X) / s Teorema de Chebyshev: porcentagem (%) de dados que devem estar em Z desvios padrão da média (1 – 1/Z2) O Teorema de Chebyshev requer Z > 1, para (1 – 1/Z2) > 0; mas Z não precisa ser um número inteiro. REGRA EMPÍRICA Usada para determinar a porcentagem de valores de dados que devem estar contidos em um no específico de desvios padrão da média. 31 Capítulo 3 – Estatística Descritiva Medidas Numéricas Regra Empírica: Teorema de Chebyshev: se aplica a qualquer conjunto de dados, independente da forma da distribuição dos dados. Pode ser usado com qualquer uma das distribuições: - Moderadamente inclinado à esquerda; - Moderadamente inclinado à direita; - Simétrico; - Fortemente inclinado à direita; Aplicações prática: conjunto de dados exibem uma distribuição simétrica em forma de MORRO ou SINO. 32 Capítulo 3 – Estatística Descritiva Medidas Numéricas Regra Empírica: Para dados que têm uma distribuição em forma de SINO. - Aproximadamente 68% dos valores de dados estarão contidos em um desvio padrão da média. - Aproximadamente 95% dos valores de dados estarão contidos em dois desvios padrão da média. - Quase todos os valores dos valores de dados estarão contidos em três desvios padrão da média. 33 Capítulo 3 – Estatística Descritiva Medidas Numéricas Exemplo: Embalagens de detergente líquido são preenchidas automaticamente em uma linha de produção. Volumes preenchidos → distribuição em forma de SINO. Se a média dos volumes de preenchimento for 16 onças e o desvio padrão 0,25 onças, pode-se usar a regra empírica para concluir: - 68% das embalagens cheias terão cargas entre 15,75 e 16,25 onças (dentro de um desvio padrão da média); - 95% das embalagens cheias terão cargas entre 15,50 e 16,50 onças (dentro de dois desvio padrão da média); - Quase todas as embalagens cheias terão cargas entre 15,25 e 16,75 onças (dentro de três desvio padrão da média). 34 Capítulo 3 – Estatística Descritiva Medidas Numéricas v) DETECÇÃO DE PONTOS FORA DA CURVA Conjunto de dados podem apresentar uma ou mais observações com valores excepcionalmente grandes ou pequenos. Valores extremos são chamados PONTOS FORA DA CURVA. 1) Pode ser um valor de dados que foi incorretamente registrado (pode ser corrigido antes da análise). 2) Pode ser proveniente de uma observação que foi incorretamente incluída no conjunto de dados neste caso, pode ser eliminada. 3) Pode ser um valor de dados incomum que foi registrado corretamente e que pertence ao conjunto de dados neste caso, pode permanecer. Valores Padronizados (Contagem-Z) são usados para identificar pontos fora da curva. Regra Empírica em relação a dados com distribuição em forma de SINO, quase todos os valores de dados estão contidos em 3 desvios padrão da média. 35 Capítulo 3 – Estatística Descritiva Medidas Numéricas Contagem-Z para identificar Pontos Fora da Curva: Recomenda-se tratar quaisquer valores de dados com uma contagem-Z menor que - 3 ou maior que +3 como um ponto fora da curva. No exemplo: 5º ponto (Contagem-Z = - 1,50) → ponto mais afastado da média: dentro da diretriz - 3 a +3 para pontos fora da curva. Contagem-Z não indica que há pontos fora da curva nos dados do tamanho de classe. Observações: 1) Teorema de Chebyshev aplicado para qualquer conjunto de dados; Estabelece o no mínimo de valores de dados que estão dentro de certo no de desvios padrão da média (ex.: pelo menos 75% dos valores de dados estarão dentro de 2 desvios padrão da média). Dados com forma de SINO (Regra Empírica) 95% dos valores de dados estarão dentro de 2 desvios padrão da média. 2) Antes de analisar um conjunto de dados deve-se fazer verificações para assegurar a validade dos dados identificar pontos fora da curva (ferramenta que confere a validade dos dados). 36 Capítulo 3 – Estatística Descritiva Medidas Numéricas Nota: Ponto Fora da Curva: Contagem-Z (cálculo de Zi) é usada para identificar pontos fora da curva. Regra Empírica → quase todos os valores de dados estão contidos em 3 desvios padrão da média. Logo: Contagem-Z Menor que – 3 ou Maior que +3 OBS.: Cálculo Chebyshev (Zi = (xi – X)/s): qualquer distribuição; Regra Empírica: distribuição em forma de SINO. Ponto Fora da Curva. 37 Capítulo 3 – Estatística Descritiva Medidas Numéricas 4 – ANÁLISE EXPLORATÓRIA DE DADOS - Regra de Cinco Itens; - Desenhos esquemáticos (Box Plots). (Cap. 3) Permite usar cálculos aritméticos simples e gráficos fáceis de desenhar para sintetizar os dados. Apresentação Ramo-e-Folha: técnica de análise exploratória dos dados (cap. 2). i) Regra de Cinco Itens São usados para sintetizar dados os seguintes números: 1) Menor valor; 2) Primeiro Quartil (Q1); 3) Mediana (Q2); 4) Terceiro Quartil (Q3); 5) Maior valor. Passos: Colocar os dados em ordem crescente; Determinar os 5 nos que definem a “Regra de Cinco Itens”. 38 Capítulo 3 – Estatística Descritiva Medidas Numéricas Exemplo: Salários mensais iniciais de uma amostra de 12 graduados da Escola de Administração: n = 12, usar dados em ordem crescente. Dados: 2710 / 2755 / 2850 / 2880 / 2880 / 2890 / 2920 / 2940 / 2950 / 3050 / 3130 / 3325 Q1: i = (25/100)12 = 3 (inteiro) usar média entre (i) e (i + 1) → (3º e 4º valores) Q2 = Mediana = i = (50/100)12 = 6 (inteiro) usar média entre (i) e (i + 1) → (6º e 7º valores) Q3: i = (75/100)12 = 9 (inteiro) usar média entre (i) e (i + 1) → (9º e 10º valores) Regras de cinco itens: correspondentes aos dados salariais: 2710; 2865; 2905; 3000 e 3325. Aproximadamente ¼, ou 25%, das observações se encontram entre nos adjacentes em uma regra de cinco itens. Q2 = 2905 Mediana Q1 = 2865 Q3 = 3000 Menor valor Maior valor 39 Capítulo 3 – Estatística Descritiva Medidas Numéricas ii) DesenhosEsquemáticos (Box Plots) Sumário gráfico de dados baseado na regra de cinco itens. Outra maneira de identificar pontos fora da curva. Não identificam necessariamente os mesmos valores, por exemplo, aqueles que têm uma contagem-Z menor que -3 ou maior que +3. Box Plot Contagem-Z Box Plots, calcular: Q1, Q2 (mediana), Q3, AIQ (Amplitude Interquartil AIQ = Q3 – Q1 → Podem ser usados para identificar pontos fora da curva. 40 Capítulo 3 – Estatística Descritiva Medidas Numéricas Desenhos Esquemáticos (Box Plots) (Continuação) Passos para construção do Box Plots: 1) Desenhar um retângulo com extremidades nos 1o e 3º quartis; 2) Desenhar uma linha vertical no retângulo, na posição da mediana (Q2 ); 3) Calcular a AIQ = Q3 – Q1 localização dos limites; 4) Costelas: linhas tracejadas do desenho esquemático São desenhadas das bordas do retângulo até os valores mínimos e máximos localizados dentro dos limites (calculado no item 3); 5) Posição de cada ponto fora da curva é indicada pelo símbolo “*”. Limites: 1,5(AIQ) abaixo de Q1 e 1,5(AIQ) acima de Q3 Dados fora desses limites: dados fora da curva. 41 Capítulo 3 – Estatística Descritiva Medidas Numéricas Ex.: Box Plots Salários mensais iniciais de graduados da Escola de Administração (n = 12) Dados: 2710 / 2755 / 2850 / 2880 / 2880 / 2890 / 2920 / 2940 / 2950 / 3050 / 3130 / 3325 Q1 = 2865; Q2 (mediana) = 2905; Q3 = 3000; AIQ = Q3 – Q1 = 3000 – 2865 = 135; Limites: Lesquerda = 2865 – 1,5 (135) = 2662,5 Ldireita = 3000 + 1,5 (135) = 3202,5 Mediana 2905 Q1 Q3 Q2 1,5(AIQ) 1,5(AIQ) * Costela Costela 2400 2662,5 3202,5 3325 3600 Lesquerda Ldireita Valor Mínimo = 2710 Valor Máximo = 3130 Ponto fora da curva = 3325 AIQ 42 Capítulo 3 – Estatística Descritiva Medidas Numéricas Nota: Vantagens de Análise Exploratória: a) São fáceis de usar, poucos cálculos numéricos; - Classificar valores em ordem crescente; - Identificar a regra de cinco itens; - Traçar Box Plot. b) Não é necessário calcular a média e o desvio padrão dos dados. 43 Capítulo 3 – Estatística Descritiva Medidas Numéricas 5 – MEDIDAS DE ASSOCIAÇÃO ENTRE DUAS VARIÁVEIS - Covariância; - Correlação. Medidas descritivas usadas para sintetizar dados da relação entre duas variáveis. As medidas numéricas apresentadas anteriormente sintetizam dados correspondentes a uma variável de cada vez. i) Covariância da Amostra n: tamanho da amostra; Observações: (x1, y1), (x2, y2), ..., (xn, yn) 44 Capítulo 3 – Estatística Descritiva Medidas Numéricas Ex.: Loja de equipamento de Som: Relacionar número de comerciais de televisão (fins de semana); Vendas na loja durante a semana seguinte. Dados da amostra: n = 10 45 Capítulo 3 – Estatística Descritiva Medidas Numéricas Diagrama de Dispersão: Valor da variância da amostra indica relação linear + com Sxy = 11. Covariância da População Vendas ($100) 0 35 50 65 3 6 I II Prod. < 0 Prod. > 0 III Prod. > 0 IV Prod. < 0 X = 3 y =51 No comerciais Prod. = (xi –x ) (yi – y ) → COVARIÂNCIA POPULACIONAL N = tamanho da população; mx = média da população da variável x; my = média da população da variável y. 46 Capítulo 3 – Estatística Descritiva Medidas Numéricas Interpretação da Covariância Covariância: medida da associação linear entre 2 variáveis. Sxy > 0 associação linear positiva entre x e y. Valor x valor y Sxy < 0 associação linear negativa entre x e y. Valor x valor y Pontos uniformemente distribuídos em todos os quadrantes: Sxy ≈ 0 não há nenhuma associação linear entre as variáveis x e y. Pontos de maior influência sobre Sxy estão nos I e III quadrantes. Pontos de maior influência sobre Sxy estão nos II e IV quadrantes. 47 Capítulo 3 – Estatística Descritiva Medidas Numéricas Interpretação da Covariância (continuação) Sxy positivo (x e y têm relação linear positiva) x y I III y x II IV Sxy negativo (x e y têm relação linear negativa) x y Sxy ≈ Zero (x e y não têm relação linear) 48 Capítulo 3 – Estatística Descritiva Medidas Numéricas Obs.: Uso de covariância como medida de intensidade da relação linear depende das unidades de medida para as variáveis x e y. Unidades diferentes para as variáveis x e y pode gerar Sxy diferentes (o que não é verdadeiro) PROBLEMA Ex.: 2 variáveis: altura x das pessoas. peso y Relação entre as variáveis x e y? Altura: centímetro, polegadas (1pol = 2,54 cm) Sxy deve ser a mesma (a intensidade da relação deve ser a mesma se a altura estiver em centímetro ou em polegada). Peso: (yi – y) não varia. Valor numérico: (xi – x) em polegada > (xi – x) em centímetro mas a relação, de fato, não se altera. Usar COEFICIENTE DE CORRELAÇÃO medida da relação entre 2 variáveis que não é afetada pela unidade de medida das variáveis. 49 Capítulo 3 – Estatística Descritiva Medidas Numéricas ii) Coeficiente de Correlação Coeficiente de Correlação Momento-produto de Pearson (comumente denominado de Coeficiente de Correlação da amostra) – para dados amostrais: Coeficiente de Correlação Momento-produto de Pearson (comumente denominado de Coeficiente de Correlação da população) – para dados populacionais: Onde: rxy: Coef. De Correlação da amostra; Sxy: Covariância da amostra; Sx: Desvio padrão da amostra de x; Sy: Desvio padrão da amostra de y. Onde: xy: Coef. De Correlação da população; xy: Covariância populacional; x: Desvio padrão da população para x; y: Desvio padrão da população para y. 50 Capítulo 3 – Estatística Descritiva Medidas Numéricas OBS.: Coeficiente de Correlação da amostra (rxy) fornece uma estimativa do coeficiente da população (xy). Ex.: Loja de equipamento de Som: Relacionar número de comerciais de televisão (fins de semana); Vendas na loja durante a semana seguinte. Dados: (n = 10) Semana NoComerciais (x) Volume de Vendas ($100) (y) 1 2 3 4 5 6 7 8 9 10 2 5 1 3 4 1 5 3 4 2 50 57 41 54 54 38 63 48 59 46 Relação linear positiva forte entre o no de comerciais e as vendas ( +1) → Um aumento no número de comerciais está associado à um aumento nas vendas. 51 Capítulo 3 – Estatística Descritiva Medidas Numéricas Interpretação do Coeficiente de Correlação Ex.: Diagrama de dispersão descrevendo uma relação linear positiva perfeita: 52
Compartilhar