Baixe o app para aproveitar ainda mais
Prévia do material em texto
11/03/2015 1 Aula 3 Correlação de Pearson e Spearman Teste de Significância para Correlação Prof. Cesar Alexandre de Souza Material desenvolvido pela Profa. Adriana Backx Noronha Viana EAD0655 – Técnicas Estatística de Projeção Agenda • Discussão Atividade 2 • Fórmulas e Macros para correlação no Excel • Testes de Significância - Correlação • Atividade 3 11/03/2015 2 Atividade 2 - Correção Gastos com Publicidade Faturamento (x) (y) 1 19 2 32 4 44 6 40 10 52 14 53 20 54 Situação problema 3 Parte 1 – calcular o coeficiente de correlação de Pearson usando a fórmula não padronizada Parte 2 – calcular o coeficiente de correlação de Spearman 𝑟𝑠 = 1 − 6 ∗ 𝑑𝑖2𝑛𝑖=1 𝑛3 − 𝑛 Situação Problema 3 Gastos com Publicidade Faturamento X^2 Y^2 X*Y (x) (y) 1 19 1 361 19 2 32 4 1024 64 4 44 16 1936 176 6 40 36 1600 240 10 52 100 2704 520 14 53 196 2809 742 20 54 400 2916 1080 Somatórias 57 294 753 13350 2841 Parte Superior da equação 447 Parte Inferior da equação 537,992 r = 0,8309 447 7 29457 2841 992,537 7 294 13350 7 57 753 22 8309,0 992,537 447 11/03/2015 3 Situação Problema 3 Gastos com Publicidade Faturamento X padronizado Y padronizado X * Y (x) (y) 1 19 -1,03 -1,78 1,832 2 32 -0,89 -0,77 0,685 4 44 -0,60 0,15 -0,092 6 40 -0,31 -0,15 0,048 10 52 0,27 0,77 0,207 14 53 0,84 0,85 0,719 20 54 1,71 0,93 1,587 Média 8,14 42,00 Desvio- padrão 6,94 12,92 SOMATÓRIA 4,985 N-1 6 r = 0,830868141 1 1 n yx = r n i ii xy No Excel as fórmulas para média e desvio padrão são: MÉDIA(faixa) e DESVPAD.A(faixa) A fórmula para a somatória é SOMA(faixa); A fórmula para obter o tamanho da amostra é CONT.NÚM(faixa) Demonstração • Demonstre que pontos alinhados em uma reta apresentam coeficiente de correlação de Pearson Máximo • Se os pontos estão alinhados em uma reta, podemos considerar que Y = bX + a 1 1 n yx = r n i ii xy 11/03/2015 4 Correlação de Spearman Gastos com Publicidade Faturamento (x) (y) (x) (y) d d^2 1 19 7 7 0 0 2 32 6 6 0 0 4 44 5 4 1 1 6 40 4 5 -1 1 10 52 3 3 0 0 14 53 2 2 0 0 20 54 1 1 0 0 Soma d^2 2 r de spearman 0,964285714 Postos Situação Problema 3 𝑟𝑠 = 1 − 6 ∗ 𝑑𝑖2𝑛𝑖=1 𝑛3 − 𝑛 Postos x - y No Excel há uma fórmula para identificar o ranking de um número em uma lista: = ORDEM.MÉD(valor; faixa da lista; 1) – o número 1 indica lista em ordem crescente QUIZ • Por que a correlação de Spearman apresentou valor maior do que a de Pearson para os dados da situação problema 3? A amostra é pequena Os dados são ordinais A relação entre as variáveis não é linear As variáveis não tem distribuição normal 11/03/2015 5 Situação Problema 4 • Que variáveis (peso, potência e velocidade) estão relacionadas e qual é a intensidade da relação? Carros Peso (libras) Potência (HP) Velocidade após 1/4 de milha (mph) Acura Integra 2577 195 90,7 Acura 3066 290 108 BMW 2844 189 93,2 Chevrolet Camaro 3439 305 103,2 Chevrolet Corvette 3246 345 102,1 Dodge 3319 450 116,2 Ford Mustang 3227 225 91,7 Honda Prelude 3042 195 89,7 Mercedes-Benz C 3240 215 93 Mercedes-Benz SL 3025 185 92,3 Mitsubishi 3737 320 99 Nissan 2862 155 84,6 Pontiac 3455 305 103,2 Porsche 2822 201 93,2 Toyota 3505 320 105 Volvo C70 3285 236 97 Situação Problema 4 Peso (libras) Potência (HP) Velocidade após 1/4 de milha (mph) Peso (libras) 1,0000000 0,6657770 0,5578626 Potência (HP) 0,6657770 1,0000000 0,9343263 Velocidade após 1/4 de milha (mph) 0,5578626 0,9343263 1,0000000 Matriz de Correlações No Excel há uma fórmula para calcular o coeficiente de correlação de Pearson entre duas faixas de valores: CORREL(faixa1;faixa2) ou PEARSON(faixa1;faixa2) Há também uma ferramenta de análise de dados que gera a matriz de correlações em Dados / Análise de Dados / Correlações 11/03/2015 6 Teste de Significância – Correlação • Coeficiente de correlação populacional é um parâmetro ou característica da população, em geral representado pela letra grega e desconhecido. • Dada uma amostra aleatória simples (x1, y1), (x2, y2), ..., (xn, yn) do par de variáveis aleatórias (X, Y), o coeficiente r pode ser considerado uma estimativa do verdadeiro e desconhecido coeficiente . Amostragem: Estatística vs. Probabilidades 4 mean: 14.0000 24 std dev: 3.4157 0.1127 prob 0.0000 14 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 P(x) x Distribuição de Probabilidades (teórico) Distribuição de Frequências ou Distribuição Amostral (experimental) 0% 2% 4% 6% 8% 10% 12% 14% 16% 1 2 3 4 5 6 7 8 9 1011 12 1314 15 1617 18 19 2021 22 23 Gráfico obtido a partir de 100 lançamentos de 4 dados 11/03/2015 7 Lembrando... algumas definições • População = Conjunto de indivíduos que possuem ao menos uma característica em comum. A população pode ser finita ou infinita. É o conjunto completo de elementos sobre os quais desejamos fazer algumas inferências • Parâmetro = Valor que caracteriza a população sendo habitualmente estimado. Os parâmetros são, representados por letras gregas. • Censo = é a contagem de todos os elementos da população • Amostra = É um subconjunto da população, selecionado por algum método de amostragem, para o estudo de algum fenômeno. • Estatística = Valor que caracteriza a amostra sendo representadas por letras latinas. • As estatísticas de amostra são utilizadas como estimativas para os parâmetros da população • A distribuição de frequências dos valores das estatísticas obtidos em amostras é também conhecido como distribuição amostral das estatísticas em questão • Inferência sobre - Podemos usar o coeficiente de correlação amostral, r, para fazer inferências sobre . • Uma população que tenha duas variáveis não- correlacionadas, pode produzir uma amostra com coeficiente de correlação diferente de zero? • Uma população que tenha duas variáveis correlacionadas, pode produzir uma amostra com coeficiente de correlação próximo a zero? Teste de Significância – Correlação 11/03/2015 8 Significância Estatística: Revisão • Erro tipo I – obter “positivo” em um teste quando na verdade não há o efeito (falso positivo) • Erro tipo II – não obter o “positivo” em um teste quando na verdade há o efeito • Ho: não há o “efeito”; rejeição de Ho significa “positivo” • A probabilidade de cometer um erro do tipo I num teste de hipóteses é denominada significância do teste e representa-se pela letra grega α (1- α é chamado de “nível de confiança”) Fonte: Hair et al. (2004) • Situação Problema 5 (Anderson, pág. 105 – ex.49) • A revista PC World publicou a avaliação de 15 notebooks (Fev/2000). A pontuação do desempenho é uma medida de como o computador executa uma variedade de aplicativoscomuns de negócios em comparação com uma máquina de referência. Por exemplo, um PC com desempenho igual a 200 é duas vezes mais rápido que a máquina de referência. Para avaliação global foi utilizada uma escala de 100 pontos. Pontuação na casa dos 90 é excepcional. • Existe relação entre pontuação de desempenho e classificação global? Teste de Significância – Correlação de Spearman 11/03/2015 9 Situação Problema 5 Notebook Pontuação de Desempenho Classificação Global A 115 67 B 191 78 C 153 79 D 194 80 E 236 84 F 184 76 G 184 77 H 216 92 I 185 83 J 183 78 K 189 77 L 202 78 M 192 78 N 141 73 O 187 77 Teste de significância – Correlação de Spearman • H0: = 0 (as variáveis X e Y são não correlacionadas) • HA: 0 (as variáveis X e Y são correlacionadas) (pode também ser unilateral) Coeficiente de correlação de Spearman 0,6741 11/03/2015 10 • H0: = 0 (as variáveis X e Y são não correlacionadas) • HA: 0 (as variáveis X e Y são correlacionadas) (pode também ser unilateral) 0,6741 0,5341 0,7111 0,6049 0,6344 0,5341 0,2341 (x,y) Distribuição amostral de rs (x,y) p/ amostras de tamanho n Teste de significância – Correlação de Spearman da curva normal padrão = 0,10 corresponde a z = 1,65 = 0,01 corresponde a z = 2,58 • H0: = 0 (as variáveis X e Y são não correlacionadas) • HA: 0 (as variáveis X e Y são correlacionadas) (pode também ser unilateral) (x,y)=0 Teste de significância – Correlação de Spearman 11/03/2015 11 Valores Críticos do Coeficiente de Correlação por postos • O valor obtido para a situação problema 5 foi de 0,674. • Considerando 5% de significância e o tamanho da amostra é 15, o coeficiente de correlação crítico é 0,525. • O valor obtido é maior do que o valor crítico. • Logo, ao nível de 5% de significância, podemos rejeitar a hipótese Ho. Teste de significância – Correlação de Spearman 11/03/2015 12 Teste de significância – Etapas • Passos em um teste de hipótese: – Definir as Hipóteses: – Definir Estatística do teste (distribuição amostral da estatística em estudo) – Identificar a região crítica (rs ≥ rcrit ou rs ≤ -rcrit ) – Levantar o resultado da amostra – Conclusão (se rejeita ou não a hipótese nula e qual o significado disso) • Situação Problema 6 – Desejamos testar se existe ou não correlação entre o número de clientes (Y) e os anos de experiência de agentes de seguros (X). Foram sorteados cinco agentes e observamos as duas variáveis em cada agente, cujos resultados foram: – Agentes A B C D E – Anos 2 4 5 6 8 – Clientes 48 56 64 60 72 – Teste a hipótese de não haver correlação entre número de clientes e anos de experiência. Utilize nível de significância de 10% (=0,10) e estime a correlação utilizando o coeficiente de correlação de Spearman. Atividade 3 Teste de significância – Correlação de Spearman
Compartilhar