Prévia do material em texto
Análise de Correlação e Regressão Professora: Alessandra dos Santos November 27, 2023 1 / 29 Objetivo da correlação Medir a associação linear entre duas variáveis quantitativas. O coeficiente de correlação é uma medida numérica da “força” da relação ou associação entre duas variáveis quantitativas contínuas X e Y. Esse valor é um resultado entre -1 e 1. Figure: Diagrama de dispersão das variáveis X e Y. November 27, 2023 2 / 29 Objetivo da correlação Medir a associação linear entre duas variáveis quantitativas. O coeficiente de correlação é uma medida numérica da “força” da relação ou associação entre duas variáveis quantitativas contínuas X e Y. Esse valor é um resultado entre -1 e 1. Figure: Diagrama de dispersão das variáveis X e Y. November 27, 2023 2 / 29 Tipos de correlação Coeficientes de correlação informam: Intensidade * Fortemente relacionadas (Valores próximos de 1 ou -1) * Fracamente relacionadas (Valores próximos de 0) Direção * Positiva (Se ambas as variáveis crescem no mesmo sentido) * Negativa (Se as variáveis crescem em sentidos opostos) O fato de duas variáveis serem fortemente correlacionadas não implica, em uma relação de causa e efeito entre elas. November 27, 2023 3 / 29 Tipos de correlação Coeficientes de correlação informam: Intensidade * Fortemente relacionadas (Valores próximos de 1 ou -1) * Fracamente relacionadas (Valores próximos de 0) Direção * Positiva (Se ambas as variáveis crescem no mesmo sentido) * Negativa (Se as variáveis crescem em sentidos opostos) O fato de duas variáveis serem fortemente correlacionadas não implica, em uma relação de causa e efeito entre elas. November 27, 2023 3 / 29 Coeficiente de correlação de Pearson Desenvolvido por Karl Pearson em 1896 - Mede a associação linear de X e Y. (ρ ou r) r = cov(X ,Y )√ Var(X )Var(Y ) = cov(X ,Y ) D.p(X )D.p(Y ) (1) Table: Interpretação do coeficiente de correlação Valor do coeficiente (r) Direção e força de associação 1,0 perfeito e positivo 0,8 forte e positivo 0,5 moderado e positivo 0,2 fraco e positivo 0 ausência de associação -0,2 fraco e negativo -0,5 moderado e negativo -0,8 forte e negativo -1,0 perfeito e negativo November 27, 2023 4 / 29 Coeficiente de correlação de Pearson Desenvolvido por Karl Pearson em 1896 - Mede a associação linear de X e Y. (ρ ou r) r = cov(X ,Y )√ Var(X )Var(Y ) = cov(X ,Y ) D.p(X )D.p(Y ) (1) Table: Interpretação do coeficiente de correlação Valor do coeficiente (r) Direção e força de associação 1,0 perfeito e positivo 0,8 forte e positivo 0,5 moderado e positivo 0,2 fraco e positivo 0 ausência de associação -0,2 fraco e negativo -0,5 moderado e negativo -0,8 forte e negativo -1,0 perfeito e negativo November 27, 2023 4 / 29 Covariância entre X e Y é uma medida do quanto uma das variáveis se modifica quando a outra se modifica. cov(X ,Y ) = n∑ i=1 (xi − x̄)(yi − ȳ) n − 1 = n∑ i=1 xiyi − nx̄ ȳ n − 1 Exemplo hipotético Idade (X) Peso (Y) 10 45,2 15 60 12 51 14 49 November 27, 2023 5 / 29 Covariância entre X e Y é uma medida do quanto uma das variáveis se modifica quando a outra se modifica. cov(X ,Y ) = n∑ i=1 (xi − x̄)(yi − ȳ) n − 1 = n∑ i=1 xiyi − nx̄ ȳ n − 1 Exemplo hipotético Idade (X) Peso (Y) 10 45,2 15 60 12 51 14 49 November 27, 2023 5 / 29 Exemplo hipotético Idade (X) Peso (Y) XY 10 45,2 15 60 12 51 14 49 Total Média desvio padrão (s) cov(X ,Y ) = n∑ i=1 xiyi − nx̄ ȳ n − 1 = 2650− 4.12, 75.51, 3 3 = 33, 7 3 = 11, 23 ρ = cov(X ,Y ) sxsy = 11, 23 2, 28.6, 28 = 0, 78 November 27, 2023 6 / 29 Exemplo hipotético Idade (X) Peso (Y) XY 10 45,2 15 60 12 51 14 49 Total Média desvio padrão (s) cov(X ,Y ) = n∑ i=1 xiyi − nx̄ ȳ n − 1 = 2650− 4.12, 75.51, 3 3 = 33, 7 3 = 11, 23 ρ = cov(X ,Y ) sxsy = 11, 23 2, 28.6, 28 = 0, 78 November 27, 2023 6 / 29 Considerações Variáveis são provindas dos mesmos elementos pesquisados Elemento Variável X Variável Y 1 x1 Y1 2 x2 Y2 ... ... ... n xn Yn os dados precisam satisfazer a condição de normalidade. November 27, 2023 7 / 29 Coeficiente de Correlação de Spearman Utilizado quando não existe normalidade e/ou não existe relação linear, deve ser usado quando não se deseja utilizar nenhuma suposição de normalidade ou da presença de qualquer outra distribuição para a variável ou para a estatística de teste. Este coeficiente se baseia nos postos das observações dentro de cada variável e se baseia sobre as diferenças entre os postos observados, nas variáveis X e Y, para um mesmo objeto de estudo. Ideal quando temos variáveis medidas apenas em uma escala ordinal. r = 1− 6D n3 − n , sendo: D = n∑ i=1 (Posto.xi − Posto.yi ) 2 November 27, 2023 8 / 29 Exemplo hipotético Idade (X) Posto(X) Peso (Y) Posto(Y) 10 45,2 15 60 12 51 14 49 November 27, 2023 9 / 29 Exemplo hipotético Idade (X) Posto(X) Peso (Y) Posto(Y) 10 1 45,2 1 15 4 60 4 12 2 51 3 14 3 49 2 D = n∑ i=1 (Posto.xi−Posto.yi )2 = (1−1)2 +(4−4)2 +(2−3)2 +(3−2)2 = 2 r = 1− 6D n3 − n = 1− 6.2 43 − 4 = 1− 12 60 = 1− 0, 2 = 0, 8 November 27, 2023 10 / 29 Exemplo hipotético Idade (X) Posto(X) Peso (Y) Posto(Y) 10 1 45,2 1 15 4 60 4 12 2 51 3 14 3 49 2 D = n∑ i=1 (Posto.xi−Posto.yi )2 = (1−1)2 +(4−4)2 +(2−3)2 +(3−2)2 = 2 r = 1− 6D n3 − n = 1− 6.2 43 − 4 = 1− 12 60 = 1− 0, 2 = 0, 8 November 27, 2023 10 / 29 Coeficiente de Correlação de Kendall O coeficiente de correlação Tau de Kendall serve para verificar se existe correlação entre duas variáveis ordinais. É um método adequado quando amostras têm tamanhos reduzidos, pois o método é mais preciso. E pode ser estendido a correlações parciais, quando o efeito de uma terceira variável, que age sobre X e Y, é retirado antes de determinar se X e Y estão relacionadas. Coeficiente de Kendall é, muitas vezes, interpretado como uma medida de concordância entre dois conjuntos de classificações relativas a um conjunto de objetos de estudo. τ = Quantidade de pares concordantes - quantidade de pares discordantes n(n − 1)/2 November 27, 2023 11 / 29 Exemplo hipotético Idade (X) Posto(X) Peso (Y) Posto(Y) 10 45,2 15 60 12 51 14 49 November 27, 2023 12 / 29 Exemplo hipotético Idade (X) Posto(X) Peso (Y) Posto(Y) 10 1 45,2 1 15 4 60 4 12 2 51 3 14 3 49 2 τ = Quantidade de pares concordantes - quantidade de pares discordantes n(n − 1)/2 τ = 2 - 2 4.3/2 = 0 November 27, 2023 13 / 29 Exemplo hipotético Idade (X) Posto(X) Peso (Y) Posto(Y) 10 1 45,2 1 15 4 60 4 12 2 51 3 14 3 49 2 τ = Quantidade de pares concordantes - quantidade de pares discordantes n(n − 1)/2 τ = 2 - 2 4.3/2 = 0 November 27, 2023 13 / 29 Objetivos da regressão Determinação da forma da relação entre as variáveis - ou seja, uma equação matemática; Verificação de hipóteses deduzidas de alguma teoria analisada; previsão de valores para a variável dependente a partir das variáveis independentes, realizando simulações, Em um sentido empírico, a relação raramente é exata, trata-se em geral, de uma aproximação da realidade, em que outras variáveis de importância menor talvez tenham sido omitidas, November 27, 2023 14 / 29 Interpretando Figure: Diagrama de dispersão das variáveis X e Y, November 27, 2023 15 / 29 Interpretando Figure: Ajuste do modelo de regressão linear, yi = β0 + β1xi + εi , i = 1, 2, , , , , n November 27, 2023 16 / 29 Modelo Estatístico yi = β0 + β1xi + εi , i = 1, 2, , , , , n sendo β0 e β1 os parâmetros a serem estimados; εi é o erro não observável associado a i-ésima observação, Pressupõe-se que: i) A relação entre X e Y é linear, ii) Os valores de X são fixos (ou controlados) iii) A média do erro é nula, isto é: E (x) = 0 iv) A variância do erro é constante, Var(εi ) = σ2; v) Os erros são independentes, Cov(εi , εj) = 0, i 6= j Existe normalidade dos erros, ou seja, ε ∼ ∼ N(0, σ2In) November 27, 2023 17 / 29 Estimação dos coeficientes de regressão Critério dos mínimos quadrados busca coeficientes β0 e β1 de modo a minimizar a soma de quadrados dos erros, ouseja, minimizar a variância dos erros, n∑ i=1 ε2i = n∑ i=1 (yi − ŷi ) 2 = n∑ i=1 (yi − β0 − β1xi ) 2 Utilizando conhecimentos matemáticos, encontra-se β̂0 e β̂1 pelas derivadas ∂f (β0,β1) ∂β0 = 0 e ∂f (β0,β1) ∂β1 = 0, respectivamente, Dado f (β0, β1) = n∑ i=1 (yi − β0 − β1xi ) 2 e o determinante da matriz Hessiana é positivo, November 27, 2023 18 / 29 Estimação dos coeficientes de regressão Critério dos mínimos quadrados busca coeficientes β0 e β1 de modo a minimizar a soma de quadrados dos erros, ou seja, minimizar a variância dos erros, n∑ i=1 ε2i = n∑ i=1 (yi − ŷi ) 2 = n∑ i=1 (yi − β0 − β1xi ) 2 Utilizando conhecimentos matemáticos, encontra-se β̂0 e β̂1 pelas derivadas ∂f (β0,β1) ∂β0 = 0 e ∂f (β0,β1) ∂β1 = 0, respectivamente, Dado f (β0, β1) = n∑ i=1 (yi − β0 − β1xi ) 2 e o determinante da matriz Hessiana é positivo, November 27, 2023 18 / 29 Estimadores Portanto: β̂1 = ∑n i=1(xi − x̄)(yi − ȳ)∑n i=1(xi − x̄)2 = ∑n i=1(xiyi )− ∑n i=1 xi ∑n i=1 yi n∑n i=1(xi − x̄)2 = Sxy Sx2 β̂0 = ȳ − β̂1x̄ Logo a reta estimada pelo método dos mínimos quadrados é dada por: ŷi = β̂0 + β̂1xi November 27, 2023 19 / 29 Relação entre β̂1 e a correlação de Pearson (rxy) Como: β̂1 = Sxy Sx2 rxy = Sxy√ Sx2Sy2 Então: β̂1 = rxy √ Sy2 Sx2 November 27, 2023 20 / 29 Propriedades 1 O ponto (x̄ , ȳ) é um ponto da reta estimada ŷi = β̂0 + β̂1xi , 2 O resíduos, ou erros do modelo, compensam-se aritmeticamente, ou seja, sua some é nula, n∑ i=1 εi = 0 November 27, 2023 21 / 29 Qualidade do ajuste fazer uma análise de variância do modelo análise dos resíduos calcular medidas da qualidade de ajuste - exemplo o coeficiente de determinação (R2) R2 = variação explicada variação total = ∑ (ŷi − ȳ)2∑ (yi − ȳ)2 = Correlação de Pearson2 sendo que 0 ≤ R2 ≤ 1 November 27, 2023 22 / 29 Limitações 1 Não extrapole a faixa de dados, Para além do domínio a relação linear pode não ser mantida, 2 Não use a reta de regressão linear simples quando os dados não são lineares, 3 Observe se há pontos atípicos e influentes, November 27, 2023 23 / 29 Pontos atípicos ou influentes 1 Ajuste a reta para todo o conjunto de dados, 2 Exclua o ponto atípico e faça um novo ajuste de reta, - Se não houver diferença perceptível no ajuste após a remoção do ponto, então use o ajuste sem o valor discrepante, - Se houver diferença quando removido o valor, então a faixa de valores dos coeficientes de regressão deve ser notificada, ponto influente é um valor atípico que quando removido provoca uma diferença significável para o ajuste de regressão, November 27, 2023 24 / 29 Exercício Um pesquisador deseja verificar se um instrumento para medir a concentração de determinada substância no sangue está bem calibrado, Para isto, ele tomou 15 amostras de concentrações conhecidas (X) e determinou a respectiva concentração através do instrumento (Y), obtendo: X 2,0 2,0 2,0 4,0 4,0 4,0 6,0 6,0 6,0 8,0 8,0 8,0 10,0 10,0 10,0 Y 2,1 1,8 1,9 4,5 4,2 4,0 6,2 6,0 6,5 8,2 7,8 7,7 9,6 10,0 10,1 a) Analise o diagrama de dispersão entre X e Y, b) Analise o coeficiente de correlação entre as variáveis X e Y, c) Obtenha e analise a reta de regressão da variável Y em função de X, d) De acordo com o modelo de regressão, qual o resultado esperado quando X=3,5? November 27, 2023 25 / 29 Resolução - item a November 27, 2023 26 / 29 Resolução - item b i X (Xi − X̄) (Xi − X̄ )2 Y (Yi − Ȳ ) (Yi − Ȳ )2 Xi ∗ Yi (Xi − X̄).(Yi − Ȳ ) 1 2,00 -4,00 16,00 2,10 -3,94 15,52 4,20 15,76 2 2,00 -4,00 16,00 1,80 -4,24 17,98 3,60 16,96 3 2,00 -4,00 16,00 1,90 -4,14 17,14 3,80 16,56 4 4,00 -2,00 4,00 4,50 -1,54 2,37 18,00 3,08 5 4,00 -2,00 4,00 4,20 -1,84 3,39 16,80 3,68 6 4,00 -2,00 4,00 4,00 -2,04 4,16 16,00 4,08 7 6,00 0,00 0,00 6,20 0,16 0,03 37,20 0,00 8 6,00 0,00 0,00 6,00 -0,04 0,00 36,00 -0,00 9 6,00 0,00 0,00 6,50 0,46 0,21 39,00 0,00 10 8,00 2,00 4,00 8,20 2,16 4,67 65,60 4,32 11 8,00 2,00 4,00 7,80 1,76 3,10 62,40 3,52 12 8,00 2,00 4,00 7,70 1,66 2,76 61,60 3,32 13 10,00 4,00 16,00 9,60 3,56 12,67 96,00 14,24 14 10,00 4,00 16,00 10,00 3,96 15,68 100,00 15,84 15 10,00 4,00 16,00 10,10 4,06 16,48 101,00 16,24 TOTAL 90 0 120 90,6 0 116,156 661,2 117,6 Cov(X,Y) = ∑ (Xi − X̄ )(Yi − Ȳ ) n − 1 = 117, 6 14 = 8, 4 ou Cov(X,Y) = ∑ (Xi .Yi ) − n.X̄ Ȳ n − 1 = 661, 2 − 15.6.6, 04 14 = 117, 6 14 = 8, 4 r = Cov(X,Y)√ s2x .s 2 y = 8, 4√ 120/14 ∗ 116, 156/14 = 8, 4 8, 433 0, 99608 November 27, 2023 27 / 29 Resolução - item c) Modelo de regressão: ŷi = β̂0 + β̂1.xi β̂1 = ∑n i=1(xi − x̄)(yi − ȳ)∑n i=1(xi − x̄)2 = 117, 6 120 = 0, 98 β̂0 = ȳ − β̂1x̄ = 6, 04− 0, 98 ∗ 6 = 0, 16 Logo: ŷi = 0, 16 + 0, 98.xi November 27, 2023 28 / 29 Resolução - item d) Modelo de regressão: ŷi = 0, 16 + 0, 98.xi Para xi = 3, 5, então ŷi = 0, 16 + 0, 98.3, 5 = 3, 59 November 27, 2023 29 / 29