Prévia do material em texto
Correlação de pearson Introdução Também chamado de coeficiente de correlação produto-momento porque é calculado através do produto de duas variáveis e, a partir disto, “calcula-se a média (momento) do produto de um grupo de n observações” (Lira, 2004) Utilizado para estudar o grau da correlação entre duas variáveis de escala métrica e a direção dessa correlação - se positiva ou negativa. Objetivos da análise de correlação Verificar se há relacionamento entre as variáveis Determinar a direção do relacionamento (positivo, negativo ou zero) A magnitude do relacionamento entre as variáveis ( a partir do coeficiente de correlação), até que ponto uma variável é influenciada pela outra Ex: Quando aumenta a venda de pão, a venda de margarina também aumenta. Será que há uma correlação Importância das correlações Utilizado em diferentes áreas e para diferentes aplicabilidades, não sendo necessariamente um resultado final, mas etapas para utilização de métodos diferentes. As principais técnicas que se utilizam das correlações estão: Análise de Confiabilidade, a Análise da Estrutura de Variância-Covariância e o Teste de Normalidade ou Gaussianidade. Coeficiente de Pearson: métodos mais utilizado para comparar duas variáveis e é utilizado em Análise de Componentes Principais, Análise Fatorial, Análise de Confiabilidade. A correlação foi primeiramente observada por Francis Galton enquanto seu aluno Karl Pearson desenvolveu a formula matemática que usamos hoje e deu seu nome a mesma. O que precisamos saber? 1) As duas variáveis tem que ser Lineares (sendo cabível encontrar o relacionamento linear). 2) Variáveis Aleatórias e medidas em intervalos constantes. 3)Tanto o X quanto o Y tem que ter distribuição conjunta, ou seja, a cada x dado, um y relacionado. 4) Pode se utilizar da transformação das variáveis para que ela tenha uma distribuição normal bivariada conjunta. Correlação Bivariada Relacionamento entre duas variáveis. Se as variáveis são associadas, diz-se que são correlacionadas Ou seja, são variáveis dependentes, quando os valores de uma se alteram os valores da outra também mudarão. Diagramas de dispersão Uma das 7 Ferramentas da Qualidade Também chamado de Diagrama de Correlação, é um gráfico de pontos (x,y) no espaço cartesiano onde se representa simultaneamente os valores de duas variáveis quantitativas, em que x e y são valores das variáveis X e Y, respectivamente. Através do diagrama, pode-se observar o comportamento da variável X quando a variável Y varia. http://gestaodaqualidade-gianfabio.blogspot.com.br/2010/03/diagrama-de-dispersao.html Passos para verificação da correlação Inspeção dos diagramas de dispersão Teste estatístico r de Pearson Limites de confiança em torno do teste estatístico r, quando apropriado Dancey & Reid, 2006 Calculo Coeficiente de Pearson Onde: X1,X2,...,XN SEJA UM CONJUNTO DE MEDIDAS A SE ANALISAR. Y1,Y2,...,YN SEJA UM OUTRO CONJUNTO DE MEDIDAS A SE ANALISAR. Gerando uma qualificação da força de associação linear entre duas variáveis e descreve quando uma reta se ajustaria através de uma nuvem de pontos. Se r = 1, pontos caem sobre uma linha crescente. Se r= - 1, pontos caem sobre uma linha decrescente. Taxa de natalidade e Taxa de analfabetismo Região Txa. Natalidade(X) Txa. Analfabestimo (Y) XY X² Y² Norte 35,6 12,7 452,12 1267,36 161,29 Nordeste 59 29,4 1734,6 3481 864,36 Sudeste 25,2 8,6 216,72 635,04 73,96 Sul 22,5 8,3 186,75 506,25 68,89 Centro Oeste 25,41 12,4 315,084 645,6681 153,76 Totais 167,7 71,4 2905,274 6535,318 1322,26 Exemplo Excel Interpretação Geométrica O coeficiente de correlação não é outro senão o cosseno do ângulo α entre os dois vetores! Se = 1, o ângulo α = 0, os dois vetores são colineares (paralelos). Se = 0, o ângulo α = 90°, os dois vetores são ortogonais. Se = -1, o ângulo α = 180°, os dois vetores são colineares com sentidos opostos. Fatores que afetam a correlação de pearson Quando a amostra é pequena, os outliers acabam afetando o coeficiente de correlação, já quando a amostra é maior ele tem menos efeito sobre a correlação. Essa discrepância pode ser identificadas por meio de analise exploratória de dados e testes e gráficos próprios. Quando uma amostra é homogênea, pode ocorrer restrição da amplitude, pois com estas características o coeficiente cai, tendo ligação direta com a correlação. Referencial Teórico Segundo Lira (2004) apresenta em seu artigo, a partir da Correlação Linear de Pearson, podemos : - construir uma matriz de correlações para cada par de variáveis envolvidas na analise, podendo utilizar as técnicas de Analise Multivariadas (Analise Fatorial, Analise de Componentes e Analise Cônica). -Utilizar quando temos duas variáveis dicotômicas (variáveis qualitativas em que só há duas respostas possíveis do tipo sim/não), 1 dicotômica e outra intervalar e 2 no nível ordinal. -Encontrar a normalidade das variáveis ( Teste de Normalidade), quando em pequenas amostras Observações Não se verificar correlação linear não significa que não possa existir outro tipo de correlação, como por exemplo correlação exponencial. Independente da correlação verificada, não se pode sugerir que exista causalidade. Exemplo Suponha que um pesquisador esteja interessado em analisar a relação entre duas variáveis X e Y. Os dados das variáveis encontram-se na tabela abaixo. Fonte: FILHO, D. B. F.; JÚNIOR, A. da S. Desvendando os mistérios do coeficiente da correlação de Person (r)*. Revista Política Hoje, Vol. 18, n. 1, 2009. 1° Passo: Padronização dos dados, através da fórmula: Para Y, a fórmula é a mesma, utilizando Yn, ao invés de Xn e a média e desvio padrão de Y. Feito isso temos: 2° Passo: Efetuar os produtos cruzados dos valores padronizados Zx e Zy: Zx*Zy Tabela 2: Variáveis Padronizadas Zx e Zy Obtendo: Tabela 3: Variáveis Padronizadas (Zx e Zy) acrescidas do produto dessas variáveis. 3° Passo: soma dos produtos. Valor Obtido: 3,8 4° Aplicação da formula da correlação de Pearson: Resultado: r= 0,95 Que indica uma correlação forte e positiva entre os dados das variáveis X e Y. Ilustração gráfico: r de Pearson e ρ(rô) de Spearman São similares, ambos coeficientes de correlação são analisados da mesma maneira. “r” de Pearson: Usado quando os dados satisfazem condições dos testes paramétricos. “ρ” de Spearman: Utilizado quando não satisfaz tais condições. Número pequeno de participantes. Exemplo Pesquisadores entrevistaram 9 pessoas. Avaliação do grau de atratividade de 1 a 10, onde 1 equivale a horroroso e 10, a maravilhoso. Correlação muito forte, ρ > 1 Nesse caso podemos afirmar que a maneira que avaliamos a atratividade em outros se relaciona a quão atraentes acreditamos ser. Correlações de primeira e segunda ordem Se da com uma correlação de 3 variáveis. Se retirar uma, fica correlação parcial. Exemplo Significa correlação total entre Peso e Altura. Parte desse relacionamento se da pela idade. Exemplo Foram coletados dados de 50 pessoas através de uma pesquisa informal que continha as seguintes perguntas: Qual é a sua idade? Quantos irmãos você tem? O objetivo foi de encontrar a correlação entre idade e número de irmãos onde foi feita uma análise calculando o R de Pearson. Resultados Gráfico Referências FIGUEIREDO FILHO, Dalson Britto; SILVA JÚNIOR, José Alexandre da. Desvendando os Mistérios do Coeficiente de Correlação de Pearson (r). Revista Política Hoje, Pernambuco, v. 18, n. 1, p.115-146, jan. 2009. http://estatisticax.blogspot.com.br/2008/04/coeficiente-de-correlao-de-pearson-r.html LIRA, Sachiko Araki. ANÁLISE DE CORRELAÇÃO: ABORDAGEM TEÓRICA E DE CONSTRUÇÃO DOS COEFICIENTES COM APLICAÇÕES. Disponivel em: http://www.ipardes.gov.br/biblioteca/docs/dissertacao_sachiko.pdf Acessado em: 28/03/2017 ás 19:55 https://www.youtube.com/watch?v=RPOpNR387yg&t=863s