Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 REGRESSÃO E CORRELAÇÃO Alexandra Augusti Boligon A busca de associação entre variáveis é frequentemente um dos propósitos das pesquisas empíricas. A possível existência de relações entre variáveis orienta análises, conclusões e evidenciação de achados da investigação. A seguir são apresentadas algumas medidas de associação entre variáveis. 1 . CORRELAÇÃO ENTRE VARIÁVEIS 1.1 – Coeficiente de correlação de Pearson (r) Também conhecido como coeficiente de correlação linear simples, indica a força de uma relação linear entre duas variáveis intervalares. Trata-se de uma medida de associação que independe das unidades de medida das variáveis. Varia entre -1 e +1 ou, expresso em percentagem, entre -100 e +100%. Quanto maior a qualidade do ajuste, ou seja, quanto maior a relação linear entre as variáveis, mais próximo dos extremos (-1 e +1) estará o valor do coeficiente r. A interpretação do coeficiente de correlação como medida de intensidade da relação entre duas variáveis é puramente matemática e está completamente isenta de qualquer implicação de causa e efeito. O fato de duas variáveis aumentarem ou diminuírem juntas não implica que uma delas tenha algum efeito direto, ou indireto, sobre a outra. Ambas podem ser influenciadas por outras variáveis de maneira que dê origem a uma forte correlação entre elas. Na prática, se 7,0r ou 7,0r , e 30n , dizemos que há forte correlação linear entre as variáveis. Cálculo do coeficiente de correlação de Pearson – variáveis contínuas Seja nn yxyxyxyx ,...,,,,, 332211 uma amostra aleatória das variáveis (X,Y), o cálculo do coeficiente de correlação entre X e Y é dado por: yyxx xy SS S r * Onde: 2 n YX XYS xy * n i ii yxxy 1 * n X XS xx 2 2 n Y YS yy 2 2 Os diagramas de dispersão abaixo ilustram as variações do coeficiente de correlação linear: r = 1 Correlação perfeita positiva r >0 Correlação imperfeita positiva r = -1 Correlação perfeita negativa ou inversa e perfeita r <0 Correlação imperfeita negativa ou inversa imperfeita r = 0 Ausência de correlação linear 3 EXEMPLO: Calcular o coeficiente de correlação entre as notas finais de física e matemática para um grupo de 22 estudantes, sendo: Alunos 1 2 3 4 5 6 7 8 9 10 11 Mat. 4,5 8 7,5 2 5 7 9 1,5 3,5 6 10 Fís. 5 9 8,5 1 6 8 5 3 4 7 9,5 Alunos 12 13 14 15 16 17 18 19 20 21 22 Mat. 8,5 3 4 5,5 5,5 6,5 1 2 3 4 5 Fís. 9 2 5 5,5 7 7 2 1 2 3 8 É importante que se construa, a partir dos dados da tabela 1, a seguinte tabela: X - Notas de física Y - notas de matemática X*Y X² Y² 4,5 5 22,5 20,25 25 8 9 72 64 81 7,5 8,5 63,75 56,25 72,25 2 1 2 4 1 5 6 30 25 36 7 8 56 49 64 9 5 45 81 25 1,5 3 4,5 2,25 9 3,5 4 14 12,25 16 6 7 42 36 49 10 9,5 95 100 90,25 8,5 9 76,5 72,25 81 3 2 6 9 4 4 5 20 16 25 5,5 5,5 30,25 30,25 30,25 5,5 7 38,5 30,25 49 6,5 7 45,5 42,25 49 1 2 2 1 4 2 1 2 4 1 3 2 6 9 4 4 3 12 16 9 5 8 40 25 64 112 117,5 725,5 705 788,75 32,127 22 )5,117(*)112( 5,725 xyS 82,134 22 )112( 705 2 xxS 19,161 22 )5,117( 75,788 2 yyS 4 Assim: 886,0 19,161*82,134 32,127 * yyxx xy SS S r Logo, o coeficiente de correlação mostra que as notas finais das disciplinas são altamente correlacionadas entre si. Ou seja, alunos com notas altas em matemática, possuem também, notas altas em física. Abaixo a representação gráfica. Teste de hipótese para a existência de correlação Para aplicar o teste de hipótese para existência de correlação linear, é necessário que as variáveis populacionais (X, Y) tenham distribuição normal bivariada, o que normalmente ocorre quando temos n > 30. O coeficiente de correlação linear da população (X,Y) é designado por . Se o teste indicar rejeição da hipótese 0 , podemos concluir que existe correlação entre as variáveis ao nível de significância admitido. Eis o procedimento para realizar o teste: 1º passo: 0: 0: 1 0 H H 0 1 2 3 4 5 6 7 8 9 10 0 2 4 6 8 10 12 Matemática Física 5 2º passo: fixar e escolher uma distribuição t de Student com 2 n graus de liberdade. 3º passo: Determinar as regiões de rejeição e aceitação para H0, com auxílio da tabela t de Student. 4º passo: Cálculo do valor da variável: 21 2* r nr tcalculado 5º passo: Conclusão: Se 2/ttcalc ou 2/ttcalc , rejeita-se H0, concluindo com risco , que há correlação entre as variáveis. Se 2/2/ ttt calc , não se rejeita H0, concluindo que não há correlação entre as variáveis. EXEMPLO: Uma amostra revelou que o coeficiente de correlação entre o salário e o número de anos de escolaridade de um grupo de 60 pessoas é 0,78. Teste a hipótese de existência de correlação entre essas variáveis, ao nível de 5%. 1º passo: 0: 0: 1 0 H H 2º passo: %5 . 58260 . 0017,0)58%;5( t . 3º passo: Determinar as regiões de rejeição e aceitação para H0, com auxílio da tabela t de Student. 6 4º passo: Cálculo do valor da variável: 49,9 78,01 260*78,0 2 calculadot 5º passo: Conclusão: Se 0017,2calct , rejeita-se H0, concluindo com risco de 5%, que há correlação entre salários e número de anos de escolaridade. OBS.: Os principais softwares de análises estatísticas mostram se um coeficiente é ou não significativo. Assim, fornecem o valor do coeficiente e também a significância, a qual deve ser menor que o escolhido inicialmente. Quando o coeficiente de correlação é elevado ao quadrado, o resultado indica a porcentagem da variação de uma variável que é explicada pela outra variável. Assim, considerando o coeficiente 0,886, calculado no exemplo inicial, podemos dizer que a nota de matemática explica 78,50% (0,886²) da variação da nota de física e vice-versa. Nos artigos publicados em revistas científicas, geralmente são utilizadas as seguintes notações: r = 0,72* *p<0,05 *significativo ao nível de significância de 5%. 7 Exercícios: 1 – Dados os resultados da temperatura média diária (ºC) e do consumo de massa verde da planta pela lagarta desfolhadora do eucalipto, em mg dia-1. T 30 32 24 30 26 35 25 23 35 31 29 28 25 29 30 mg 145 150 125 157 127 140 132 107 155 145 140 142 130 135 138 T 31 32 33 25 26 28 29 30 31 35 34 33 32 28 30 mg 140 150 157 144 145 147 150 152 150 160 149 150 129 130 140 Ao nível de 5% calcule o coeficiente de correlação de Pearson entre a temperatura e o consumo de massa verde. Teste a hipótese de existência de correlação e interprete o resultado. Cálculo do coeficiente de correlação entre variáveis com mensuração nominal ou ordinal Para avaliar a correlação entre duas variáveis com mensuração nominal ou ordinal utilizamos alguma medida não paramétrica de correlação entre essas variáveis. Dentre as medidas não paramétricas podemos citar: Coeficiente de contingência, Coeficiente V de Cramer, Coeficientede correlação por postos de Spearman, coeficiente de correlação por postos de Kendall e coeficiente de concordância de Kendall. No caso paramétrico, a medida usual é o coeficiente de correlação de Pearson (r), como já vimos. A estatística r exige mensuração intervalar e o teste para existência de correlação supõe que os dados provenham de uma distribuição normal bivariada. As opções não paramétricas devem ser consideradas, pelo pesquisador, quando suspeitar que seus dados não satisfazem às pressuposições para o cálculo do coeficiente r, ou quando as variáveis são medidas em escala nominal ou ordinal. Estas medidas de associação não serão trabalhadas na disciplina, mas estão disponíveis em bibliografias específicas do assunto, como Martins (2010). 8 2. ANÁLISE DE REGRESSÃO Em muitos estudos não temos apenas uma ou duas variáveis avaliadas, mas sim um número maior destas. Assim, por exemplo, podemos estar interessados em avaliar a altura de uma planta, o número de folhas, o diâmetro do caule, a percentagem de lignina e de outras substâncias, entre outras. A análise de regressão é utilizada prioritariamente com o propósito de previsão. O objetivo é desenvolver um modelo estatístico que pode ser usado para prever valores de uma variável dependente, determinada por Y, em função de valores de uma variável independente (X) ou várias variáveis independentes (X1, X2,..., Xn). Considerando apenas modelos de regressão linear, temos o modelo de regressão linear simples quando dispomos de apenas uma variável independente, e o modelo de regressão linear múltiplo quando dispomos de mais de uma variável independente. Vamos considerar, por exemplo, que queremos relacionar através de um modelo matemático, o consumo de alimento de determinada espécie de animal com a temperatura do ar no ambiente em que esta espécie se encontra. Assim, o consumo de alimento será a variável dependente (Y), a qual queremos estimar, e a temperatura do ambiente será a variável independente ou explicativa (X). Se além da temperatura, queremos relacionar a umidade relativa do ar .Assim, temos o consumo de alimento será a variável dependente (Y), a temperatura do ar como a primeira variável independente ou explicativa (X1) e a umidade do ar com a segunda variável independente ou explicativa (X2). Podemos utilizar quantas variáveis independentes acharmos necessário para estimar a variável dependente. 2.1 – Diagrama de dispersão Para análise de regressão linear simples (uma variável independente ou explicativa), é desejável a construção de um gráfico bidimensional denominado diagrama de dispersão. Cada valor é marcado em função das coordenadas de X e Y, como mostrado abaixo: Exemplo: Consideramos o exemplo comentado anteriormente, temos abaixo o consumo de alimento por determinado inseto (em g) de acordo com a temperatura do ar (ºC). Consumo 5,1 4,1 3,2 1,2 1,6 2,9 4,5 8,0 7,3 5,6 Temperatura 10,1 9,5 7,8 3,6 4,8 5,1 8,0 12,1 12,5 11,6 9 Figura 1 – Diagrama de dispersão. O gráfico indica uma relação entre o consumo de alimento e a temperatura, sendo que com o aumento da temperatura há aumento do consumo de alimento pela espécie considerada. A utilização deste diagrama de dispersão é importante na identificação de pontos extremos, os chamados outliers, os quais causam problemas na determinação do modelo de regressão. 2.2 – Modelo de regressão linear simples Pelo diagrama de dispersão, podemos ter uma idéia do tipo de relação entre duas variáveis. A natureza da relação pode ser de várias formas, desde uma simples relação linear até uma complicada função matemática. O modelo de regressão linear simples é representado por: iii XY Onde: é o intercepto; é a inclinação da reta e i é o erro aleatório de Y para a observação i. Assim, a inclinação representa a mudança esperada de Y por unidade de X; isto é, representa a mudança de Y (tanto positiva quanto negativa) para uma particular unidade de X. Por outro lado representa o valor de Y quando X=0, enquanto i representa uma variável aleatória que descreve o erro de Y para cada observação i. Determinação da equação de regressão linear simples 0 2 4 6 8 10 12 14 0 2 4 6 8 10 Temperatura (ºC) Consumo de alimento (g) 10 Precisamos determinar, com base em uma amostra, a equação de regressão linear simples que melhor se ajuste aos dados amostrais. Isto é, encontrarmos os coeficientes da reta: ii bXaY ˆ Onde: iYˆ é o valor da previsão de Y para uma observação iX ; iX é o valor de X para cada observação de i; a é o estimador de ; b é o estimador de . O problema é determinar os valores dos parâmetros a e b, de modo que a reta se ajuste ao conjunto de pontos, isto é: estimar a e b de algum modo eficiente. Há vários métodos para encontrar as estimativas de tais parâmetros, sendo mais eficaz o Método dos Mínimos Quadrados. Como a reta desejada vai ser utilizada para fins de previsão, é razoável exigir que ela seja tal que torne pequenos os erros desta previsão. Um erro de previsão significa a diferença entre um valor observado de Y e o valor correspondente de Yˆ da reta. Isto é: tornar pequeno o erro: )ˆ( YY . Veja a ilustração, para melhor compreender o que se busca: Figura 2 – Desvio entre uma observação e a reta de mínimos quadrados. Os pontos acima da reta dão erros positivos, os situados abaixo da reta dão erros negativos. Como a soma dos erros é zero, isto é, n i ii YY 1 0ˆ , o método utiliza a soma dos quadrados dos erros, daí o nome Mínimos Quadrados. Assim, n i iii YY 1 2 0ˆ deverá ser minimizada. Como ii bXaY ˆ , para obtermos a e b, vamos minimizar: 0 2 4 6 8 10 12 14 16 0 1 2 3 4 5 6 7 8 9 y = a + bX 11 n i ii bXaY 1 2 Aplicando a método dos mínimos quadrados, obtemos; xx xy S S b e xbya Onde: n i i xX 1 n i i yY 1 n y y n x x n y yS yy 2 2 n yx xyS xy * n x xS xx 2 2 OBS.: As fórmulas para o cálculo de Sxy, Sxx e Syy são as mesmas utilizadas para o cálculo do coeficiente de correlação r, visto anteriormente. Exemplo: Considerando o exemplo apresentado no diagrama de dispersão, estime uma equação linear simples do consumo de alimento em função da temperatura do ar. 1º passo: construção da tabela auxiliar: x y x² xy y² 5,1 10,1 26,01 51,51 102,01 4,1 9,5 16,81 38,95 90,25 3,2 7,8 10,24 24,96 60,84 1,2 3,6 1,44 4,32 12,96 1,6 4,8 2,56 7,68 23,04 2,9 5,1 8,41 14,79 26,01 4,5 8 20,25 36 64 8 12,1 64 96,8 146,41 7,3 12,5 53,29 91,25 156,25 5,6 11,6 31,36 64,96 134,56 43,5 85,1 234,37 431,22 816,33 2º passo: Cálculo de Sxy, Sxx e x e y . 145,45 10 5,43 37,234 22 2 n x xS xx 12 035,61 10 1,85*5,43 22,431 * n yx xyS xy 351976,1145,45/035,61 xx xy S S b 35,410/5,43 n x x 51,810/1,85 n y y Então: 6289,2)35,4*35198,1(51,8 xbya Portanto, a equação da reta estimada é: xy 3520,16289,2ˆ Coeficiente de determinação ou coeficiente de explicação (R²) O coeficiente de determinação é um indicador da qualidadedo ajustamentos dos dados amostrais ao modelo utilizado e sempre deve ser calculado quando se ajusta um modelo de regressão. É dado por: yy xy S Sb R * 2 O coeficiente de determinação varia de 0 a 1, sendo que, quanto mais próximo de um estiver, melhor a qualidade do ajuste. Assim, o R² representa a proporção de variação total de Y que é explicada por X. 10 2 R ou %1000 2 R OBS.: O coeficiente de determinação (R²) é igual ao quadrado do coeficiente de correlação linear de Pearson (r), calculado anteriormente. No exemplo anterior: 3º passo: cálculo do coeficiente de determinação: 129,92 10 1,85 33,816 22 2 n y yS yy 89,0 129,92 )035,61(*351976,1*2 yy xy S Sb R 13 Interpretação: a temperatura explica 89% da variação do consumo de alimento pela espécie em questão. Teste de hipótese para existência de regressão linear – coeficiente Após o ajustamento da reta e cálculo de R², podemos realizar a qualidade do modelo pela realização de inferências estatísticas sobre seus parâmetros. A partir de agora iremos testar o modelo, isto é: verificarmos a existência, ou não, de regressão linear entre as variáveis X e Y. Para tanto, testamos as hipóteses: 1º passo: 0: 0: 1 0 H H 2º passo: fixar (probabilidade de erro) e escolher a variável de teste, no caso, distribuição t de Student, com 2 n . 3º passo: com auxílio da tabela t, construir as regiões de rejeição (RR) e de aceitação (RA) de H0. 4º passo: com os dados amostrais, calcular o valor da variável: xx calc S S b t sendo 2 * n SbS S xyyy 5º passo: Caso 2/ttcalc , rejeita-se H0, concluindo-se, com risco , que há regressão linear entre as variáveis. Exemplo: considerando o exemplo anterior: 1º passo: 0: 0: 1 0 H H 14 2º passo: 05,0 . Variável de teste: distribuição t de Student, com 8210 . 3º passo: regiões de rejeição (RR) e de aceitação (RA) de H0. 4º passo: cálculo do valor da variável: 2116,3 210 035,61*351976,1129,92 2 * n SbS S xyyy 8285,2 145,45 2116,3 351976,1 xx calc S S b t 5º passo: Como 2622,28285,2 , rejeita-se H0, concluindo-se, com risco , que há regressão linear entre as variáveis. 2.2 – Modelo de regressão linear múltipla Muitas aplicações práticas da análise de regressão exigem modelos mais complexos do que o modelo de regressão linear simples. Por exemplo, se desejamos estimar o crescimento em altura de mudas de araucária em função da temperatura do ar, umidade relativa do ar e temperatura do solo. O modelo de regressão linear múltipla pode ser representado da seguinte maneira: ikikiii XXXY ...2211 Onde: Yi é a variável dependente – variável que queremos estimar. No nosso exemplo, a altura das mudas. X1i, X2i,...,Xki são as variáveis independentes. No exemplo, a temperatura do ar e do solo e a umidade relativa do ar. i determina a contribuição da variável independente Xi, ou seja, representa os coeficientes. 15 i é o erro aleatório componente do modelo. Determinação da equação de regressão linear múltipla Quando o número de variáveis independentes for superior a dois, os cálculos tornam-se excessivamente trabalhosos, exigindo auxílio de software específico. Como na maioria dos casos, temos um número superior a dois de variáveis independentes, a equação de regressão linear múltipla é determinada por meio de softwares estatísticos. Dentre eles podemos citar 16 Exercícios: 1 – Dados os resultados da temperatura média diária (ºC) e do consumo de massa verde da planta pela lagarta desfolhadora do eucalipto, em mg dia-1. T 30 32 24 30 26 35 25 23 35 31 29 28 25 29 30 mg 145 150 125 157 127 140 132 107 155 145 140 142 130 135 138 T 31 32 33 25 26 28 29 30 31 35 34 33 32 28 30 mg 140 150 157 144 145 147 150 152 150 160 149 150 129 130 140 Ao nível de 5% calcule o coeficiente de correlação de Pearson entre a temperatura e o consumo de massa verde. Interprete o valor. 2 – Dados os valores de matéria seca de plantas aquáticas e de temperatura da água de um curso d’água, calcule o coeficiente de correlação de Pearson, estime uma equação de regressão linear simples (massa seca=Y) e interprete os resultados. Bibliografia recomendada: MARTINS, G.A. Estatística geral e aplicada. São Paulo: Atlas, 2010. 419 p. Massa seca (mg) Temperatura (ºC) 20,5 17,5 13,6 13,2 36,2 19,6 36,6 39,0 15,3 38,2 14,6 36,7 18,7 37,8 12,6 21,3 11,9 22,1 14,6 12,6 26,9 19,8 27,5 20,0 29,1 21,0 31,2 29,0 33,6 28,1 31,5 29,0 21,0 15,6 22,9 16,0 11,6 14,5 35,9 28,2
Compartilhar