Prévia do material em texto
Análise de Regressão e Correlação Prof. Victor Hugo Lachos Dávila Departamento Estatı́stica Universidade Estadual de Campinas, (UNICAMP-IMECC) Campinas, Brasil Análise de Regressão e Correlação – p. 1/29 Objetivos Estudar a relação linear entre duas variáveis quantitativas. Veja alguns exemplos: Tempo de prática de esportes e ritmo cardíaco; Análise de Regressão e Correlação – p. 2/29 Objetivos Estudar a relação linear entre duas variáveis quantitativas. Veja alguns exemplos: Tempo de prática de esportes e ritmo cardíaco; Resultado da produção e tempo do processo; Análise de Regressão e Correlação – p. 2/29 Objetivos Estudar a relação linear entre duas variáveis quantitativas. Veja alguns exemplos: Tempo de prática de esportes e ritmo cardíaco; Resultado da produção e tempo do processo; Número de cliente e vendas; e Análise de Regressão e Correlação – p. 2/29 Objetivos Estudar a relação linear entre duas variáveis quantitativas. Veja alguns exemplos: Tempo de prática de esportes e ritmo cardíaco; Resultado da produção e tempo do processo; Número de cliente e vendas; e Tempo de estudo e nota na prova; Análise de Regressão e Correlação – p. 2/29 Objetivos Estudar a relação linear entre duas variáveis quantitativas. Veja alguns exemplos: Tempo de prática de esportes e ritmo cardíaco; Resultado da produção e tempo do processo; Número de cliente e vendas; e Tempo de estudo e nota na prova; Sob dois pontos de vista: Explicitando a forma dessa relação: regress ão. Quantificando a força dessa relação: correlaç ão. Análise de Regressão e Correlação – p. 2/29 Exemplo 1 O gerente de uma cadeia de supermercados deseja desenvolver um modelo com a finalidade de estimar as vendas médias semanais (em milhares de dólares) Y - Vendas semanais; e X - Número de clientes. Estas variáveis foram observadas em 20 supermercados escolhidos aleatóriamente. X 907 926 506 741 789 889 874 510 529 420 Y 11,20 11,05 6,84 9,21 9,42 10,08 9,45 6,73 7,24 6,12 X 679 872 924 607 452 729 794 844 1010 621 Y 7,63 9,43 9,46 7,64 6,92 8,95 9,33 10,23 11,77 7,41 Análise de Regressão e Correlação – p. 3/29 Diagrama de dispersão Análise de Regressão e Correlação – p. 4/29 Diagrama de dispersão 400 500 600 700 800 900 1000 6 7 8 9 10 11 Numero de clientes Ve nd as se ma na is Análise de Regressão e Correlação – p. 4/29 É razoável supor que a média da variável aleatória Y , está relacionada com X pela seguinte relação E(Y |X = x) = µY |x = β0 + β1x onde βo e β1, são respectivamente, o intercepto e a inclinação da reta e recebem o nome de coeficientes de regressão. Análise de Regressão e Correlação – p. 5/29 É razoável supor que a média da variável aleatória Y , está relacionada com X pela seguinte relação E(Y |X = x) = µY |x = β0 + β1x onde βo e β1, são respectivamente, o intercepto e a inclinação da reta e recebem o nome de coeficientes de regressão. O valor real de Y será determinado pelo valor médio da função linear (µY |x) mais um termo que representa um erro aleatório, Análise de Regressão e Correlação – p. 5/29 É razoável supor que a média da variável aleatória Y , está relacionada com X pela seguinte relação E(Y |X = x) = µY |x = β0 + β1x onde βo e β1, são respectivamente, o intercepto e a inclinação da reta e recebem o nome de coeficientes de regressão. O valor real de Y será determinado pelo valor médio da função linear (µY |x) mais um termo que representa um erro aleatório, Y = µY |x + ε = β0 + β1x + ε, onde ε é o erro aleatório. Análise de Regressão e Correlação – p. 5/29 Modelo de Regressão Linear Simples Um modelo de regressão linear simples (MRLS) descreve uma relação entre uma variável independente (explicativa ou regressora) X e uma variável dependente (resposta) Y , nos termos seguintes: Y = β0 + β1X + ε,(1) onde β0 e β1 são constantes (parâmetros) desconhecidas e ε é o erro aleatório. Análise de Regressão e Correlação – p. 6/29 Suposições do MRLS (i) E(ε) = 0 V ar(ε) = σ2 (desconhecido). (ii) Os erros são não correlacionados (iii) A variável explicativa X é controlada pelo experimentador. (iv) ε ∼ N(0, σ2) Análise de Regressão e Correlação – p. 7/29 Suposições do MRLS (i) E(ε) = 0 V ar(ε) = σ2 (desconhecido). (ii) Os erros são não correlacionados (iii) A variável explicativa X é controlada pelo experimentador. (iv) ε ∼ N(0, σ2) Se (i)-(iv) se verificarem, então a variável dependente Yi é uma v.a. com distribuição normal com variância σ2 e média µYi|xi , sendo E(Y |Xi = x) = µYi|x = β0 + β1x. Análise de Regressão e Correlação – p. 7/29 Estimação dos parâmetros do MRLS Suponha que tem-se n pares de observações (x1, y1), . . . , (xn, yn). Análise de Regressão e Correlação – p. 8/29 Estimação dos parâmetros do MRLS Suponha que tem-se n pares de observações (x1, y1), . . . , (xn, yn). A figura mostra uma representação gráfica dos dados observados e um candidato para a linha de regressão. Análise de Regressão e Correlação – p. 8/29 Ao utilizar o modelo (1), é possível expressar as n observações da amostra como: yi = β0 + β1xi + εi, i = 1, . . . , n.(2) E a soma de quadrados dos desvios das observações em relação à linha de regressão é: Q = n ∑ ε2i = n ∑ (yi − β0 − β1xi)2. Análise de Regressão e Correlação – p. 9/29 Os estimadores de mínimos quadrados (EMQ) de β0 e β1 denotados por β̂0 e β̂1 devem satisfazer as seguintes equações: ∂Q ∂β0 |β̂0,β̂1 = −2 n ∑ i=1 (yi − β̂0 − β̂1xi) = 0, ∂Q ∂β1 |β̂0,β̂1 = −2 n ∑ i=1 (yi − β̂0 − β̂1xi)xi = 0. Análise de Regressão e Correlação – p. 10/29 Após simplificar as expressões anteriores, tem-se: β̂0 + β̂1 n ∑ i=1 xi = n ∑ i=1 yi(3) β̂0 n ∑ i=1 xi + β̂1x 2 i = n ∑ i=1 xiyi. As equações (3) recebem o nome de equações normais de mínimos quadrados. Análise de Regressão e Correlação – p. 11/29 A solução dessas equações fornece os EMQ, β̂0 e β̂1, dados por: β̂0 = ȳ − β̂1x̄. β̂1 = n ∑ i=1 xiyi − � nP i=1 xi �� nP i=1 yi � n n ∑ i=1 x2i − � nP i=1 xi � 2 n . onde x̄ = nP i=1 xi n e ȳ = nP i=1 yi n . Análise de Regressão e Correlação – p. 12/29 Portanto, a linha de regressão estimada ou ajustada é : ŷ = β̂0 + β̂1x e estima a média da variável dependente para um valor da variável explicativa X = x, µY |x. Note que cada par de observações satisfaz a relação: yi = β̂0 + β̂1xi + ei, i = 1, . . . , n onde ei = yi − ŷi recebe o nome de resı́duo . Análise de Regressão e Correlação – p. 13/29 Notações especiais no MRLS Sxx = nX i=1 (xi − x̄) 2 = nX i=1 x2i − � nP i=1 xi � 2 n = nX i=1 x2i − nx̄ 2, Sxy = nX i=1 (xi − x̄)(yi − ȳ) = nX i=1 (xi − x̄)yi = nX i=1 xiyi − � nP i=1 xi �� nP i=1 yi � n = nX i=1 xiyi − nx̄ȳ, Syy = nX i=1 (yi − ȳ) 2 = nX i=1 (yi − ȳ)yi = nX i=1 y2i − � nP i=1 yi � 2 n = nX i=1 y2i − nȳ 2. Os EMQ de β0 e β1 em termos da notação acima são: β̂0 = ȳ − β̂1x̄, β̂1 = Sxy Sxx . Análise de Regressão e Correlação – p. 14/29 Exemplo de aplicação Sxx = nX i=1 x2i − n(x̄) 2 = 11306209 − 20(731, 15)2 = 614603 Sxy = nX i=1 xiyi − n(x̄)(ȳ) = 134127, 90 − 20(8, 8055)(731, 15) = 5365, 08 Syy = nX i=1 y2i − n(ȳ) 2 = 1609, 0971 − 20(8, 8055) = 51, 3605. As estimativas dos parâmetros do MRLS são: β̂1 = Sxy Sxx = 5365, 08 614603 = 0, 00873; β̂0 = ȳ−β̂1x̄ = 8, 8055−(0, 00873)(731, 15) = 2, 423. Portanto, a linha de regressão ajustada ou estimada para esses dados são: ŷ = 2, 423 + 0, 00873x. Análise de Regressão e Correlação – p. 15/29 400 500 600 700 800 900 1000 6 7 8 9 10 11 Numero de clientes Ve nd as se m an ais Análise de Regressão e Correlação – p. 16/29 Estimação de σ2 Os resíduos, ei = yi − ŷi são empregados na estimação de σ2. A soma de quadrados residuais ou soma de quadrados dos erros, denotado por SQR é: SQR = n ∑ i=1 e2i = n ∑ i=1 (yi − ŷi)2 Pode-se demonstrar que o valoresperado da soma de quadrados dos residuais SQR, é dado por: E(SQR) = (n − 2)σ2 Análise de Regressão e Correlação – p. 17/29 Portanto, σ̂2 = SQR n − 2 = QMR (Quadrado m édio residual ), é um estimador não viciado de σ2, Uma fórmula mais conveniente para o cálculo da SQR é dada por: SQR = Syy − β̂1Sxy. Análise de Regressão e Correlação – p. 18/29 Exemplo Com os dados do exemplo, é feita a estimação da variância σ2. Nesse caso, Syy = 51, 3605, Sxy = 5365, 08 e β̂1 = 0, 00873. Portanto, a estimativa de σ2 para o exemplo 1. σ̂2 = SQR n − 2 = Syy − β̂1Sxy n − 2 = 51, 3605 − (0, 00873)(5365, 08) 20 − 2 = 0, 2513. Análise de Regressão e Correlação – p. 19/29 Teste de hipóteses sobre β1 Suponha que se deseje testar a hipótese de que a inclinação é igual a uma constante representada por β1,0. As hipóteses apropriadas são: H0 : β1 = β1,0, vs H1 : β1 6= β1,0 A estatística T = β̂1 − β1,0 √ σ̂2/Sxx , tem distribuição t-Student com n − 2 graus de liberdade sob H0 : β1 = β1,0. Rejeita-se H0 se |Tobs| > t1−α/2, n−2. Análise de Regressão e Correlação – p. 20/29 Teste de hipóteses sobre β0 H0 : β0 = β0,0, vs H1 : β0 6= β0,0 A estatística T = β̂0 − β0,0 √ σ̂2[ 1 n + x̄ 2 Sxx ] que tem distribuição t-Student com n − 2 graus de liberdade. Rejeitamos a hipóteses nula se |Tobs| > t1−α/2, n−2. Análise de Regressão e Correlação – p. 21/29 Teste de significância do MRLS H0 : β1 = 0, vs H1 : β1 6= 0, Deixar de rejeitar H0 : β1 = 0 é equivalente a concluir que não há nenhuma relação linear entre X e Y. Análise de Regressão e Correlação – p. 22/29 Se H0 : β1 = 0 é rejeitado, implica que X tem importância ao explicar a variabilidade de Y Análise de Regressão e Correlação – p. 23/29 Exemplo Teste de significância para o MRLS para os dados do exemplo 1, com α = 0, 05. As hipóteses são H0 : β0 = 0, vs H1 : β0 6= 0 Análise de Regressão e Correlação – p. 24/29 Exemplo Teste de significância para o MRLS para os dados do exemplo 1, com α = 0, 05. As hipóteses são H0 : β0 = 0, vs H1 : β0 6= 0 Do exemplo tem-se: β̂1 = 0, 00873, n = 20 Sxx = 614603, σ̂ 2 = 0, 2512, De modo que a estatística de teste, é: Tobs = β̂1 √ σ̂2/Sxx = 0, 00873 √ 0, 2513/614603 = 13, 65. Análise de Regressão e Correlação – p. 24/29 Exemplo Teste de significância para o MRLS para os dados do exemplo 1, com α = 0, 05. As hipóteses são H0 : β0 = 0, vs H1 : β0 6= 0 Do exemplo tem-se: β̂1 = 0, 00873, n = 20 Sxx = 614603, σ̂ 2 = 0, 2512, De modo que a estatística de teste, é: Tobs = β̂1 √ σ̂2/Sxx = 0, 00873 √ 0, 2513/614603 = 13, 65. Como Tobs = 13, 65 > t0,975,18 = 2, 101, rejeita-se a hipótese H0 : β1 = 0. Análise de Regressão e Correlação – p. 24/29 Adequação do modelo de regressão Análise residual, Análise de Regressão e Correlação – p. 25/29 Adequação do modelo de regressão Análise residual, Coeficiente de determinação Análise de Regressão e Correlação – p. 25/29 Adequação do modelo de regressão Análise residual, Coeficiente de determinação Os resíduos de um modelo de regressão são definidos como ei = yi − ŷi, i = 1, . . . , n onde yi é uma observação real de Y e ŷi é o valor correspondente estimado através do modelo de regressão. Análise de Regressão e Correlação – p. 25/29 Adequação do modelo de regressão Análise residual, Coeficiente de determinação Os resíduos de um modelo de regressão são definidos como ei = yi − ŷi, i = 1, . . . , n onde yi é uma observação real de Y e ŷi é o valor correspondente estimado através do modelo de regressão. Resíduos padronizados di = ei√ QMR , i = 1, . . . , n Análise de Regressão e Correlação – p. 25/29 Adequação do modelo de regressão Análise residual, Coeficiente de determinação Os resíduos de um modelo de regressão são definidos como ei = yi − ŷi, i = 1, . . . , n onde yi é uma observação real de Y e ŷi é o valor correspondente estimado através do modelo de regressão. Resíduos padronizados di = ei√ QMR , i = 1, . . . , n Análise de Regressão e Correlação – p. 25/29 Análise de Regressão e Correlação – p. 26/29 Gráfico de resíduos do exemplo 1 Análise de Regressão e Correlação – p. 27/29 Coeficiente de Determinação A quantidade: R2 = 1 − SQR SQT onde, SQT = n ∑ i=1 (Ŷi − Ȳ )2, recebe o nome de coeficiente de determinaç ão que é usado para julgar a adequação do modelo de regressão. Pode ser interpretado como a proporção da variabilidade presente nas observações da variável resposta Y, que é explicada pela variável independente X no modelo de regressão. Análise de Regressão e Correlação – p. 28/29 Exemplo Para os dados dos supermercados do exemplo1, determinar R2. Análise de Regressão e Correlação – p. 29/29 Exemplo Para os dados dos supermercados do exemplo1, determinar R2. Da definição tem-se: R2 = 0, 912 Análise de Regressão e Correlação – p. 29/29 Exemplo Para os dados dos supermercados do exemplo1, determinar R2. Da definição tem-se: R2 = 0, 912 Esse resultado significa que o modelo ajustado explicou 91,2% da variação na variável resposta Y (vendas semanais). Isto é, 91,2% da variabilidade de Y é explicada pela variável regressora X (número de clientes). Análise de Regressão e Correlação – p. 29/29 Objetivos Objetivos Objetivos Objetivos Objetivos Exemplo 1 Diagrama de dispers~{a}o Diagrama de dispers~{a}o Modelo de Regress~{a}o Linear Simples Suposic {c}~{o}es do MRLS Suposic {c}~{o}es do MRLS Estimac {c}{~a}o dos par{^a}metros do MRLS Estimac {c}{~a}o dos par{^a}metros do MRLS Notac {c}{~o}es especiais no MRLS Exemplo de aplicac {c}~{a}o Estimac {c}~{a}o de $sigma ^2$ Exemplo Teste de hip{'o}teses sobre $�eta _1$ Teste de hip{'o}teses sobre $�eta _0$ Teste de signific^{a}ncia do MRLS Exemplo Exemplo Exemplo Adequac {c}{~a}o do modelo de regress{~a}o Adequac {c}{~a}o do modelo de regress{~a}o Adequac {c}{~a}o do modelo de regress{~a}o Adequac {c}{~a}o do modelo de regress{~a}o Adequac {c}{~a}o do modelo de regress{~a}o Gr{'a}fico de res{'i }duos do exemplo 1 Coeficiente de Determinac {c}~{a}o Exemplo Exemplo Exemplo