Prévia do material em texto
Modelos de regressão linear: abordagem clModelos de regressão linear: abordagem cláássicassica Prof. Marcelo Rubens mrubens@ime.uerj.br Depto. Estatística Análise de Regressão Objetivo: Determinar uma função matemática que descreva a relação entre uma variável contínua (variável explicada ou dependente) e uma ou mais variáveis explicativas ou independentes. y = f(x1,x2,...,xK) + εεεε � y denota a variável dependente. � x1,x2,...,xK denotam as variáveis independentes. � f(x1,x2,...,xK) descreve a variação sistemática (determinística) � εεεε representa a variação não sistemática (erro aleatório) Modelos de regressão (função f) podem ser lineares ou não lineares. Exemplo 1 O gerente de vendas de uma empresa varejista está interessado em obter uma equação que sintetize a relação existente entre o investimento em propaganda e o volume de vendas da empresa com o objetivo de realizar projeções do volume de vendas. Amostra de tamanho n=10 obtida no departamento de vendas (milhões de R$) Diagrama de dispersão representação gráfica que permite visualizar a relação/associação entre duas variáveis 0 10 20 30 40 50 60 0 10 20 30 40 50 Investimento em propaganda (X) V o l u m e d e v e n d a s ( Y ) Um incremento no investimento em propaganda produz um aumento nas vendas A relação entre as variáveis não é precisa (estocástica) Exemplo 1 A boa aderência da nuvem de pontos ao redor de um reta imaginária indica que a relação entre as duas variáveis pode ser aproximada por uma relação linear. 0 10 20 30 40 50 60 0 5 10 15 20 25 30 35 40 45 Investimento em propaganda (X) V o l u m e d e v e n d a s ( Y ) A essência da relação entre o investimento em propaganda e o volume de vendas pode ser expressa por uma reta. A identificação desta reta pode ser efetuada por meio de um modelo de regressão linear simples. Exemplo 1 0 10 20 30 40 50 60 0 5 10 15 20 25 30 35 40 45 Investimento em propaganda (X) V o l u m e d e v e n d a s ( Y ) Para um investimento de R$ 25 milhões em propaganda espera-se um volume de vendas da ordem de R$ 37 milhões (valor ajustado) Exemplo 1 Neste caso o nível de vendas (y) é explicado pelo investimento em propaganda (x), então, y=f(x): x = nível de vendas = variável dependente y = investimento em propaganda = variável independente A relação estocástica entre as duas variáveis pode ser modelada da seguinte forma: y = β0 + β1x + ε Onde: � β0 e β1 são coeficientes desconhecidos da reta que relaciona as variáveis x e y (estimados a partir dos dados da amostra). � ε é um termo aleatório (erro) que representa a imprecisão na relação entre x e y. Modelos de regressão linear Modelo de regressão linear simples: uma variável dependente explicada por uma variável independente. yi = β0 + β1xi + εi Modelo de regressão linear múltipla: Uma variável dependente explicada por pelo menos duas variáveis independentes. yi = β0 + β1x1, i + ... + βKxK, i + εi (K≥2) Objetivo: Identificar uma função y=f(x) que permita explicar uma variável dependente (y) em função das variáveis explicativas (x), ou seja, como y varia de acordo com mudanças em x. Significado do erro εεεε O erro ε representa: � Todos os outros fatores que afetam a variável dependente Y, mas que não estão contempladas nas variáveis explicativas X. � Erros de medição. � Forma funcional inadequada, por exemplo, y = β0 + β1x ou y = β0 + β1x + β1x2 ? � Inerente variabilidade no comportamento dos agentes econômicos. Modelo de Regressão Linear Simples Equação de regressão populacional: yi = β0 + β1xi + εi (apenas uma variável independente) Os coeficientes ββββ0 e ββββ1 não são conhecidos e devem ser estimados a partir de uma amostra aleatória de tamanho n da população: Amostra aleatória ⇒ (xi , yi), i=1,n Em cada unidade amostrada tem-se que yi = β0 + β1xi + εi i=1,n Variável aleatória não-observável Componente determínistica Hipóteses assumidas pelo modelo H1) A relação entre as variáveis é linear yi = β0 + β1xi + εi i=1,n: H2) Média nula: E(εi|xi) = 0 para todo i=1,n H3) Variância constante: V(εi) = σ2 para todo i=1,n H4) Erros não correlacionados: Cov(εi,εk) = 0 para todo i≠k H5) Distribuição Normal: εi ~ N(0,σ2) para todo i=1,n εi são independentes e identicamente distribuídos N(0,σσσσ2) H6) A variável explicativa X é fixa, i.e., não é estocástica Modelo de Regressão Linear Simples ( ) 2x|yV σ= ε+β+β= xy 10 Como o valor esperado do erro é zero E(εεεε)=0, o valor esperado de y condicionado ao valor de x é igual a: ( ) ( )x|xEx|yE 10 εββ ++= ( ) ( )x|Exx|yE 10 εββ ++= ( ) xxyE 10| β+β= Por hipótese a variável independente não é aleatória, assim tem-se: ( )210 ,~ σβ+β xNy Como o erro tem distribuição Normal com média 0 e variância σσσσ2 Modelo de Regressão Linear Simples ( ) xyE 10 β+β= Modelo de Regressão Linear Simples Reta de regressão Modelo de Regressão Linear Simples Estimador de mínimos quadrados Modelo de Regressão Linear Simples yi = β0 + β1xi + εi ⇒ εi = yi - β0 - β1xi ( )[ ]∑∑ == β+β−=ε= n i ii n i i xyf 1 2 10 1 2 ( )[ ]∑ = ββ β+β−= n i ii xyfMin 1 2 10 , 10 Soma dos quadrados dos erros As estimativas de ββββ0 e ββββ1 devem minimizar a soma sos quadrados dos desvios No ponto de mínimo as derivadas parciais são nulas Sistema de equações normais A solução deste sistema fornece os estimadores de ββββ0 e ββββ1 ( ) 0ˆˆ0 ˆ 1 ˆ 10 0 = β+β−⇒=β∂ ∂ ∑ = ε n i ii i xyf 44 344 21 ( ) 0ˆˆ0 ˆ 1 ˆ 10 1 = β+β−⇒=β∂ ∂ ∑ = ε i n i ii xxy f i 44 344 21 ∑∑ == =β+β n i i n i i yxn 11 10 ˆˆ ∑∑∑ === =β+β n i ii n i i n i i yxxx 11 2 1 1 0 ˆˆ Estimador de mínimos quadrados Modelo de Regressão Linear Simples Solução do sistema de equações normais xy 10 ˆˆ β−=β ( )( ) ( )∑ ∑ = = − −− =β n i i n i ii xx yyxx 1 2 1 1 ˆ Sistema de equações normais Estimadores de mínimos quadrados ∑∑∑ === =β+β n i ii n i i n i i yxxx 11 2 1 1 0 ˆˆ ∑∑ == =β+β n i i n i i yxn 11 10 ˆˆ Estimador de mínimos quadrados Modelo de Regressão Linear Simples ii xy 10 ˆˆˆ β+β=Valor estimado da variável dependente y dado que x é igual a xi Resíduo da i-ésima observação é igual a diferença entre o valor observado e o valor estimado da variável yi ( )iii iii xy yy 10 ˆˆ ˆ ˆˆ β+β−=ε −=ε Equação de regressão estimada ( ) xxyEy 10 ˆˆ|ˆ β+β== ( )∑ ∑ = = β − σ =σ n i i n i i xxn x 1 2 1 22 2 ˆ0 ∑ = β − σ =σ n i i xx 1 22 2 2 ˆ1 Se as hipóteses H1 até H6 forem satisfeitas, os estimadores de mínimos quadrados são estimadores lineares não tendenciosos de variância mínima (Teorema de Gauss Markov) ( ) 00ˆ β=βE ( ) 11ˆ β=βE ( )2 ˆ00 0 ,~ˆ βσββ N ( )2 ˆ11 1 ,~ˆ βσββ N ( ) 2n xˆˆy 2n ˆ ˆ n 1i 2 i10i n 1i 2 i 2 − −− = − = ∑∑ == ββε σ Modelo de regressão linear simples Estimador da variância do erro Modelo de regressão linear simples Decomposição do erro: y x y y = b0 + b1x^ * yi (valor observado) yi - y yi (valor estimado)^yi - y^ yi - yi^ Decomposição da soma de quadrados total SQT = SQE + SQR SQT = Soma dos Quadrados Total SQE = Soma dos Quadrados dos Erros SQR = Soma dos Quadrados da Regressão Modelo de regressão linear simples ( ) ( ) ( )∑∑ ∑ == = −+−=− n i i n i n i iii yyyyyy 1 2 1 1 22 ˆˆ ( ) ( ) SQT SQE1 yy yyˆ SQT SQRR n 1i 2 i n 1i 2 i 2 −= − − == ∑ ∑ = = Coeficiente de determinação Modelo de regressão linear simples 10 2 ≤≤ R � Se R estiver próximo de 1, a variável x explica a maior parte das variações de y. Neste caso, a variável x é uma boa preditora da variável y. � Se R estiver próximo de 0, a variável x explica muito pouco das variaçães de y. Neste caso, a variável x não é uma boa preditora da variável y. Análise da variância (ANOVA) Modelo de regressão linear simples Inferência Estatística no Modelo de Regressão Linear 2σˆ Estimador da variância do erro SQT SQRR =2 ( )2nSQE SQRF − = Causas de Variação Graus de Liberdade Soma dos Quadrados Quadrados Médios Regressão 1 ( )∑ = −= n i i xxSQR 1 22 1 ˆβ QMR=SQR/1 Erros n-2 ( )∑ = −= n i ii yySQE 1 2 ˆ QME=SQE/(n-2) Total n-1 ( )∑ = −= n i i yySQT 1 2 2n,1F~ 2n SQE 1 SQR F − − = Testa o efeito conjunto das variáveis explicativas sobre a variável dependente, No caso do modelo linear simples testa o efeito de X sobre Y H0 : ββββ1 = 0 ( ausência do efeito ) H1 : ββββ1 ≠≠≠≠ 0 ( presença do efeito ) F > Ftabelado rejeita H0 F < Ftabelado aceita H0 Modelo de regressão linear simples Teste F Inferência Estatística no Modelo de Regressão Linear Sob H0 2n ˆ 1 t~ ˆ ˆ t 1 − = βσ β H0 : ββββ1 = 0 H1 : ββββ1 ≠≠≠≠ 0 Testa o efeito individual de X e do termo constante Modelo de regressão linear simples Inferência Estatística no Modelo de Regressão Linear Teste t Testa a significância do coeficiente de regressão linear associado com uma determinada variável explicativa. Sob H0 t > ttabelado rejeita H0 t < ttabelado aceita H0 2 1 ˆ11 2 11 ˆ1 tˆˆtˆˆ 1 αβαβ σββσβ −− ⋅+≤≤⋅− Modelo de regressão linear simples Inferência Estatística no Modelo de Regressão Linear Intervalo de confiança 100(1-αααα)% Previsor ( ) hhh xxyE 10 ˆˆ|ˆ ββ += Erro de previsão ( ) ( ) ( ) ( ) hhhhhh xxyExyEe 1100 ˆˆ|ˆ| ββββ −+−=−= ( ) ( ) ( ) − − += ∑ = n i i h h xx xx n eV 1 2 2 2 1 ˆ ˆ σ Intervalo de previsão ( ) ( ) ( ) ( ) +− hchhhchh eVtxyEeVtxyE |ˆ,|ˆ Modelo de regressão linear simples Previsão do valor esperado Dado xT+h prever yT+h Previsor hh xy 1ˆˆˆ 0 ββ += Erro de previsão ( ) ( ) hhhhh xyye εββββ +−+−=−= 1100 ˆˆˆ ( ) ( ) ( ) − − ++= ∑ = n 1i 2 i 2 h2 h xx xx n 11ˆeVˆ σ Intervalo de previsão ( ) ( ) +− hchhch eVtyeVty ˆ,ˆ Modelo de regressão linear simples Previsão de uma observação Exemplo modelo de regressão linear simples O gerente de uma empresa varejista está interessado em obter uma equação que sintetize a relação entre o investimento em propaganda (X) e o volume de vendas (Y) da empresa, com a finalidade de projetar o nível de vendas em função do investimento no programa de marketing da empresa. Histórico (dados anuais) Diagrama de dispersão Relação linear entre as variáveis N = 10 observações Exemplo modelo de regressão linear simples εββ ++= yy 10Modelo de regressão linear Estimação dos coeficientes por mínimos quadrados 03823,125,26975916,09,37ˆˆ 10 =⋅−=β−=β XY 97916,0 265801910 3792651101610 XXn YXYXn ˆ 22 n 1i i n 1i 2 i n 1i n 1i i n 1i iii 1 = −⋅ ⋅−⋅ = − − = ∑∑ ∑ ∑∑ == = ==β Equação de projeção XY 9792,00382,12ˆ += Exemplo modelo de regressão linear simples Construção da ANOVA Soma dos quadrados dos resíduos SQE Soma dos quadrados explicados pela regressão SQR Soma dos quadrados totais SQT resíduos XY 9792,00382,12ˆ += > regressao <- lm(Y~X,data=dados_venda_propaganda)Código R: Exemplo modelo de regressão linear simples Construção da ANOVA Fonte de variação Soma dos quadrados (A) Graus de liberdade (B) Quadrado médio (C=A/B) F Regressão SQR 949,08 1 949,08 949,08 / 38,98=24,35 Resíduo SQE 311,82 n-2=8 38,98 Total SQT 1260,90 n-1=9 ANOVA 1 variável explicativa 2 coeficientes estimados α e β Por isso n - 2 O quadrado médio do resíduo é uma estimativa da variância do erro 2σˆ Coeficiente de determinação R2 75,0 90.1260 08.949 SQT SQRR2 === > anova(regressao)Código R: Exemplo modelo de regressão linear simples Estimativas dos erros padrão de e ( ) 3661,315,26108019 5,269778,38 10 1 XXn Xˆ ˆ 2 2 n 1i 2 i n 1i 2 i 2 2 ˆ 0 = ⋅− ⋅ ⋅= − = ∑ ∑ = = σ σ β 0391,0 5,26108019 9778,38ˆ ˆ 22 1 2 2 2 ˆ1 = ⋅− = − σ =σ ∑ = β XNX N i i 0 ˆβ 1ˆβ 6,53661,31ˆˆ 2 ˆˆ 00 ==σ=σ ββ 1978,00391,0ˆˆ 2 ˆˆ1 ==σ=σ ββ Erro padrão Erro padrão Exemplo modelo de regressão linear simples Inferência no modelo H0 : ββββ1 = 0 ( ausência do efeito ) H1 : ββββ1 ≠≠≠≠ 0 ( presença do efeito ) 2n,1F~ 2n SQE 1 SQR F − − = F > Ftabelado rejeita H0 Sob H0 35.24=F Ao nível de significância de 5% o valor tabelado (Ftabelado) de uma F com 1 grau de liberdade no numerador e 8 graus de liberdade no denominador é 5,3177. No R: > qf(0.95,1,8) [1] 5.317655 Distribuição F Testes de hipóteses Teste F: Testa o efeito conjunto das variáveis explicativas sobre a variável dependente, No caso do modelo linear simples testa o efeito de X sobre Y Exemplo modelo de regressão linear simples Inferência no modelo H0 : ββββ0 = 0 ( ausência do efeito ) H1 : ββββ0 ≠≠≠≠ 0 ( presença do efeito ) t < ttabelado não rejeita H0 Sob H0 1495,2 3661,31 0382.12 ==t Ao nível de significância de 5% o valor tabelado (ttabelado) de uma t com 8 graus de liberdade no numerador é 2,31. No R: > qt(0.975,8) [1] 2.306004 Distribuição t 2n ˆ 0 t~ ˆ ˆ t 0 − = βσ β Testes de hipóteses Teste t: Testa a significância do coeficiente de regressão linear associado com uma determinada variável explicativa. Exemplo modelo de regressão linear simples Inferência no modelo H0 : ββββ1 = 0 ( ausência do efeito ) H1 : ββββ1 ≠≠≠≠ 0 ( presença do efeito ) t > ttabelado rejeita H0 Sob H0 9354,4 0391,0 9792.0 ==t Ao nível de significância de 5% o valor tabelado (ttabelado) de uma t com 8 graus de liberdade no numerador é 2,31. No R: > qt(0.975,8) [1] 2.306004 Distribuição t 2n ˆ 1 t~ ˆ ˆ t 1 − = βσ β Testes de hipóteses Teste t: Testa a significância do coeficiente de regressão linear associado com uma determinada variável explicativa. 9531,248766,031,2 6,5 0382,1231,2 00 ≤β≤−⇒≤β−≤− Exemplo modelo de regressão linear simples Inferência no modelo Intervalos de confiança com 95% de confiança 2n 00 t~ ˆ ˆ 0 − − βσ ββ 2n ˆ 11 t~ ˆ ˆ 1 − − βσ ββ 95,031,2 ˆ ˆ 31,2 0 00 = ≤ σ β−β≤− β P Distribuição t 95%95,031,2 ˆ ˆ 31,2 1ˆ 11 = ≤ σ β−β≤− β P 4320,15198,031,21978,0 9792,031,2 11 ≤β≤⇒≤β−≤− Exemplo modelo de regressão linear simples no R > (dados_venda_propaganda <- data.frame(cbind("X"=c(30,20,35,40,38,18,10,15,35,24),"Y"=c(40,34,52,49,47,21,20,27,41,48)))) X Y 1 30 40 2 20 34 3 35 52 4 40 49 5 38 47 6 18 21 7 10 20 8 15 27 9 35 41 10 24 48 > regressao <- lm(Y~X,data=dados_venda_propaganda) > summary(regressao) Call: lm(formula = Y ~ X, data = Gujarati_C3) Residuals: Min 1Q Median 3Q Max -8.605 -2.111 -1.556 1.913 12.540 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 12.0382 5.6005 2.149 0.06383 . X 0.9759 0.1978 4.934 0.00114 ** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 6.243 on 8 degrees of freedom Multiple R-squared: 0.7527, Adjusted R-squared: 0.7218 F-statistic: 24.35 on 1 and 8 DF, p-value: 0.001143 Exemplo modelo de regressão linear simples no R Alguns gráficos para diagnósticos Útil na verificação da hipótese de variância constante do erro: Útil na verificação da hipótese de normalidade do erro (valores ao redor de uma reta imaginária indicam que a hipótese de normalidade não foi violada): Útil na avaliação da qualidade do ajuste: > plot(dados_venda_propaganda$X,regressao$resid,type="p" ,main="Gráfico dos resíduos",xlab="X - Investimento em propaganda", ylab="Resíduos",xlim=c(- 0,50),bty="n",col.main="blue",xaxp=c(0,50,11),xaxs="i",xaxt="n",ylim=c(-10,15),yaxp=c(- 10,15,5),yaxs="i",cex.axis=.8,pch=16) > axis(1,at=seq(0,50,5),pos=c(0,0),cex.axis=.8) > plot(dados_venda_propaganda$X, dados_venda_propaganda$Y,type="p" ,main="Plotagem do ajuste",xlab="X - Investimento em propaganda", ylab="Y - Vendas",xlim=c(0,45),bty="n",col.main="blue",xaxp=c(0,45,10),xaxs="i",xaxt="n",ylim=c(0,55),yax p=c(0,55,11),yaxs="i",cex.axis=.8,pch=16) > axis(1,at=seq(0,45,5),pos=c(0,0),cex.axis=.8,xaxs="r") > abline(regressao) > text(14,11,expression(hat(Y)),adj=0) >text(15,10.5,paste("=",as.character(round(data.frame(regressao$coeff)[1,1],4)),"+",as.character(r ound(data.frame(regressao$coeff)[2,1],4)),"X"),adj=0) > text(14,6.5,expression(R^2),adj=0) > text(15.5,6,paste("=",as.character(round(summary(regressao)$r.squared,4))),adj=0) > plot(regressao) A variável dependente é uma função linear de duas ou mais variáveis independentes ikikiii xxxy εββββ +++++= K22110 Notação matricial i=1,...,n εβ += XY = ny y y Y M 2 1 = knn1 2k12 1k11 xx1 xx1 xx1 X L MOMM L L = kβ β β β M 1 0 = nε ε ε ε M 2 1 Modelo de regressão linear múltipla K variáveis explicativas ββββ1, ββββ2, ββββ3,..., ββββk, σσσσ2 são parâmetros do modelo que devem ser estimados Hipóteses H1 - E(ε)=0 H2 – H3 E(ε ε’)=σσσσ2I, I matriz identidade V(ε)= σσσσ2 e COV(εi, εj)=0 H4 - Os erros tem distribuição normal εi~N(0, σσσσ2) H5 - A matriz X é não aleatória H6 - O posto de X é k+1<n Problemas de especificação � Escolher o tipo de função matemática � Determinar que variáveis independentes devem ser consideradas no modelo Modelo de regressão linear múltipla ( ) YXXX ''ˆ 1−=β = ∑∑∑∑ ∑∑∑∑ ∑∑∑∑ ∑∑∑ ==== ==== ==== === n 1i 2 ki n 1i kii2 n 1i kii1 n 1i Ki n 1i kii2 n 1i 2 i2 n 1i i2i1 n 1i i2 n 1i kii1 n 1i i2i1 n 1i 2 i1 n 1i i1 n 1i ki n 1i i2 n 1i i1 xxxxxx xxxxxx xxxxxx xxxn X'X L MOMMM L L L Estimador de Mínimos Quadrados (MQ) Modelo de regressão linear múltipla = ∑ ∑ ∑ ∑ = = = = n 1i iki n 1i ii2 n 1i ii1 n 1i i yx yx yx y Y'X M ( ) ( ) 21'ˆ σβ −= XXV )1k(n ' ˆ 2 +− = εε σ ( )jjjj aN 2,~ˆ σββ ajj elemento da diagonal principal da inversa de X’X Modelo de regressão linear múltipla Estimador de Mínimos Quadrados (MQ) Teste t H0 : ββββ j = 0 H1 : ββββ j ≠≠≠≠ 0 ( )1kn j t~ ˆ ˆ t j +−= βσ β ( )1knE.Q.S kR.Q.SF +− = H0 : ββββ 1 = ββββ 2 = ββββ 3 =...= ββββ k =0 H1 : pelo menos um ββββj ≠≠≠≠ 0 Teste F t t rejeita Htabelado≥ ⇒ 0 F F rejeita Htabelado≥ ⇒ 0 Modelo de regressão linear múltipla Inferência Estatística no Modelo de Regressão Linear Análise da variância 2 2 2 ynY'Y ynY'X'ˆ SQT SQRR − − == β ( ) )1k(n 1nR11R 2 2 +− − −−= ( )[ ]1knSQE kSQR QME QMRF +− == Modelo de regressão linear múltipla Inferência Estatística no Modelo de Regressão Linear Causas de variação Graus de liberdade (A) Soma dos quadrados (B) Quadrados médios (C=B/A) F Regressão k QMR=SQR/k F=QMR/QME Erros n–(k+1) QME=SQE/[n–(k+1)] Total n–1 2ynY'X'ˆSQR −= β Y'X'ˆY'YSQE β−= 2ynY'YSQT −= Análise da variância – contribuições das variáveis independentes ao modelo global – função Anova() do pacote “car” do R Modelo de regressão linear múltipla Inferência Estatística no Modelo de Regressão Linear 1 Causas de variação Graus de liberdade (A) Soma dos quadrados (B) Quadrados médios (C=B/A) F 1 Erros n–(k+1) QME=SQE/[n–(k+1)] Total n–1 Y'X'ˆY'YSQE β−= 2ynY'YSQT −= 1x kx M M M ( )( ) ( )( ) ∑∑∑ === =−−++−−=−= n 1i x n 1i ikkik n 1i i1i11 2 i SQRyyxxˆyyxxˆynY'X'ˆSQR βββ L ( )( )∑ = −−= n 1i i1i11x yyxxˆSQR 1 β ( )( )∑ = −−= n 1i ikkikx yyxxˆSQR k β 1x SQR kx SQR M QMESQEF 11 xx = QMESQEF kk xx = M Fórmula (C.3.17) do Gujarati com a notação adaptada: [ ]khh2h1h xxx1'x L= Previsão Dado b'xyˆ hh = estima ( ) khkh110h xxyE βββ +++= K ( ) ( ) 2h1hh ˆxX'X'xyˆVˆ σ−= b'xyˆ hh = estima hkhkh110h xxy εβββ ++++= K ( ) ( )[ ] 2h1hh ˆxX'X'x1yˆVˆ σ−+= Modelo de regressão linear múltipla Exemplo modelo de regressão linear múltipla X1 X2 Y 68,5 16,7 174,4 45,2 16,8 164,4 91,3 18,2 244,2 47,8 16,3 154,6 46,9 17,3 181,6 66,1 18,2 207,5 49,5 15,9 152,8 52 17,2 163,2 48,9 16,6 145,4 38,4 16 137,2 87,9 18,3 241,9 72,8 17,1 191,1 88,4 17,4 232 42,9 15,8 145,3 52,5 17,8 161,1 85,7 18,4 209,7 41,3 16,5 146,4 51,7 16,3 144 89,6 18,1 232,6 82,7 19,1 224,1 52,3 16 166,5 Uma empresa de artigos infantis opera em 21 cidades de médio porte. A empresa está analisando a possibilidade de expansão em outras cidades de médio porte e para isso deseja investigar se a vendas (Y) em uma localidade podem ser preditas com base no número de pessoas com até 16 anos de idades (X1) e a renda per capita na localidade (X2). Atualmente a empresa está presente em 21 localidades (N = 21), cujos dados são apresentados na tabela abaixo: ii2i10i xxy εβββ +++= Modelo de regressão linear múltipla a ser estimado > (exemplo <- data.frame(cbind("X1"=c(68.5,45.2,91.3,47.8,46.9,66.1,49.5,52,48.9,38.4,87.9,72.8,88.4,42.9,52.5,85.7,41.3,51.7,89.6,82.7,52.3),"X2" =c(16.7,16.8,18.2,16.3,17.3,18.2,15.9,17.2,16.6,16,18.3,17.1,17.4,15.8,17.8,18.4,16.5,16.3,18.1,19.1,16),"Y"=c(174.4,164.4,244.2,154. 6,181.6,207.5,152.8,163.2,145.4,137.2,241.9,191.1,232,145.3,161.1,209.7,146.4,144,232.6,224.1,166.5)))) Exemplo modelo de regressão linear múltipla Modelo de regressão linear Estimação dos coeficientes de regressão por mínimos quadrados ii2i10i xxy εβββ +++= 1 68,5 16,7 1 45,2 16,8 1 91,3 18,2 147,8 16,3 1 46,9 17,3 1 66,1 18,2 1 49,5 15,9 1 52 17,2 1 48,9 16,6 1 38,4 16 1 87,9 18,3 1 72,8 17,1 1 88,4 17,4 1 42,9 15,8 1 52,5 17,8 1 85,7 18,4 1 41,3 16,5 1 51,7 16,3 1 89,6 18,1 1 82,7 19,1 1 52,3 16 X = 174,4 164,4 244,2 154,6 181,6 207,5 152,8 163,2 145,4 137,2 241,9 191,1 232 145,3 161,1 209,7 146,4 144 232,6 224,1 166,5 Y = 21,00 1.302,40 360,00 1.302,40 87.707,94 22.609,19 360,00 22.609,19 6.190,26=XX T 3.820,00 249.643,35 66.072,75 =YX T 29,7289 0,0722 -1,9926 0,0722 0,0004 -0,0055 -1,9926 -0,0055 0,1363( ) =−1XX T ( ) YXXX TT 1ˆ −=β − = 3655,9 4546,1 8571,68 ˆ ˆ ˆ 2 1 0 β β β > regressao2 <- lm(Y~X1+X2,data=exemplo) > summary(regressao2)Código R: Exemplo modelo de regressão linear múltipla Construção da ANOVA i2i1i x3655,9x4546,18571,68yˆ ++−= SQR SQE SQT Exemplo modelo de regressão linear múltipla Construção da ANOVA Fonte de variação Soma dos quadrados (A) Graus de liberdade (B) Quadrado médio (C=A/B) F Regressão SQE 24015,28 2 12007,64 12007,64 / 121.1626 = 99,1035 Resíduo SQR 2180,93 N-3=18 121,1626 Total SQT 26196,21 N-1=20 ANOVA 2 variáveis explicativas 3 coeficientes estimados Por isso N – 3 O quadrado médio do resíduo é uma estimativa da variância do erro 2σˆ Coeficiente de determinação R2 917,0 21,26196 28.24015 SQT SQRR2 === > anova(lm(Y~1,data=exemplo),regressao2)Código R: Exemplo modelo de regressão linear múltipla Modelo de regressão linear Estimativas dos erros padrão dos coeficientes de regressão ( ) 12 2 ˆˆˆˆˆ ˆˆ 2 ˆˆˆ ˆˆˆˆ 2 ˆ ˆ ˆˆˆ ˆˆˆ ˆˆˆ 22120 21110 20100 − ⋅= =Σ XX Tσ σσσ σσσ σσσ βββββ βββββ βββββ β 0170,600347,3602ˆˆ 2 ˆˆ 00 === ββ σσ Erro padrão Resultado na ANOVA = 121,1626 29,7289 0,0722 -1,9926 0,0722 0,0004 -0,0055 -1,9926 -0,0055 0,1363 =Σβ 3.602,0347 8,7459 -241,4230 8,7459 0,0449 -0,6724 -241,4230 -0,6724 16,5158 2118,00449,0ˆˆ 2 ˆˆ 11 === ββ σσ 0640,45158,16ˆˆ 2 ˆˆ 22 === ββ σσ Variâncias na diagonal principal Covariâncias fora da diagonal principal ii2i10i xxy εβββ +++= > vcov(regressao2)Código R: Exemplo modelo de regressão linear múltipla Inferência no modelo H0 : ββββ1 = ββββ2 = 0 ( ausência do efeito ) H1 : ββββ1 ≠≠≠≠ 0 ou ββββ2 ≠≠≠≠ 0 ( presença do efeito ) 3n,2F~ 3N SQE 2 SQR F − − = F > Ftabelado rejeita H0 Sob H0 1035,99=F Ao nível de significância de 5% o valor tabelado (Ftabelado) de uma F com 2 graus de liberdade no numerador e 18 graus de liberdade no denominador é 3,5546. No R: > qf(0.95,2,18) [1] 3.554557 Distribuição F Testes de hipóteses Teste F: Testa o efeito conjunto das variáveis explicativas sobre a variável dependente, No caso do modelo linear simples testa o efeito de X sobre Y Exemplo modelo de regressão linear múltipla Inferência no modelo H0 : ββββ0 = 0 ( ausência do efeito ) H1 : ββββ0 ≠≠≠≠ 0 ( presença do efeito ) t < ttabelado não rejeita H0 Sob H0 1473,1 0170,60 8571,68 −= − =t Ao nível de significância de 5% o valor tabelado (ttabelado) de uma t com 18 graus de liberdade no numerador é 2,1009. No R: > qt(.975,18) [1] 2.100922 Distribuição t 3n ˆ 0 t~ ˆ ˆ t 0 − = βσ β Testes de hipóteses Teste t: Testa a significância do coeficiente de regressão linear associado com uma determinada variável explicativa. Exemplo modelo de regressão linear múltipla Inferência no modelo t > ttabelado rejeita H0 Sob H0 Distribuição t Testes de hipóteses Teste t: Testa a significância do coeficiente de regressão linear associado com uma determinada variável explicativa. H0 : ββββ1 = 0 ( ausência do efeito ) H1 : ββββ1 ≠≠≠≠ 0 ( presença do efeito ) 3n ˆ 1 t~ ˆ ˆ t 1 − = βσ β 8682,6 2118,0 4546,1 ==t Ao nível de significância de 5% o valor tabelado (ttabelado) de uma t com 18 graus de liberdade no numerador é 2,1009. No R: > qt(.975,18) [1] 2.100922 Exemplo modelo de regressão linear múltipla Inferência no modelo t > ttabelado rejeita H0 Sob H0 Distribuição t Testes de hipóteses Teste t: Testa a significância do coeficiente de regressão linear associado com uma determinada variável explicativa. H0 : ββββ2 = 0 ( ausência do efeito ) H1 : ββββ2 ≠≠≠≠ 0 ( presença do efeito ) 3n ˆ 2 t~ ˆ ˆ t 2 − = βσ β 3045,2 0640,4 3655,9 ==t Ao nível de significância de 5% o valor tabelado (ttabelado) de uma t com 18 graus de liberdade no numerador é 2,1009. No R: > qt(.975,18) [1] 2.100922 Exemplo modelo de regressão linear múltipla Inferência no modelo Intervalos de confiança com 95% de confiança 3n 00 t~ ˆ ˆ 0 − − βσ ββ && 95,01,2 ˆ ˆ 1,2 0 ˆ 00 = ≤−≤− βσ ββP Distribuição t 95% 2339,57948,1941,2 0170,60 8571,681,2 00 ≤≤−⇒≤ −−≤− ββ 3n 11 t~ ˆ ˆ 1 − − βσ ββ && 95,01,2 ˆ ˆ 1,2 1 ˆ 11 = ≤−≤− βσ ββP 3n 22 t~ ˆ ˆ 2 − − βσ ββ && 95,01,2 ˆ ˆ 1,2 2 ˆ 22 = ≤−≤− βσ ββP 8995,10096,11,2 2118,0 4546,11,2 11 ≤≤⇒≤ −≤− ββ 9036,178274,01,2 0640,4 3655,91,2 22 ≤≤⇒≤ −≤− ββ Exemplo modelo de regressão linear múltipla no R > (exemplo <- data.frame(cbind("X1"=c(68.5,45.2,91.3,47.8,46.9,66.1,49.5,52,48.9,38.4,87.9,72.8,88.4,42.9,52.5,85.7,41.3,51.7,89.6,82.7,52.3),"X2"=c(16.7,16.8,18.2,16.3,17.3,18.2,15.9,17.2,16.6,16,18.3,17. 1,17.4,15.8,17.8,18.4,16.5,16.3,18.1,19.1,16),"Y"=c(174.4,164.4,244.2,154.6,181.6,207.5,152.8,163.2,145.4,137.2,241.9,191.1,232,145.3,161.1,209.7,146.4,144,232.6,224.1,166.5)))) X1 X2 Y 1 68.5 16.7 174.4 2 45.2 16.8 164.4 3 91.3 18.2 244.2 4 47.8 16.3 154.6 5 46.9 17.3 181.6 6 66.1 18.2 207.5 7 49.5 15.9 152.8 8 52.0 17.2 163.2 9 48.9 16.6 145.4 10 38.4 16.0 137.2 11 87.9 18.3 241.9 12 72.8 17.1 191.1 13 88.4 17.4 232.0 14 42.9 15.8 145.3 15 52.5 17.8 161.1 16 85.7 18.4 209.7 17 41.3 16.5 146.4 18 51.7 16.3 144.0 19 89.6 18.1 232.6 20 82.7 19.1 224.1 21 52.3 16.0 166.5 > regressao2 <- lm(Y~X1+X2,data=exemplo) > summary(regressao2) Call: lm(formula = Y ~ X1 + X2, data = exemplo) Residuals: Min 1Q Median 3Q Max -18.4239 -6.2161 0.7449 9.4356 20.2151 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -68.8571 60.0170 -1.147 0.2663 X1 1.4546 0.2118 6.868 2e-06 *** X2 9.3655 4.0640 2.305 0.0333 * --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 11.01 on 18 degrees of freedom Multiple R-squared: 0.9167, Adjusted R-squared: 0.9075 F-statistic: 99.1 on 2 and 18 DF, p-value: 1.921e-10 Exemplo modelo de regressão linear múltipla no R Exemplo modelo de regressão linear múltipla no R > plot(exemplo$X1,regressao2$resid,type="p" ,main="Gráfico dos resíduos x X1",xlab="X1 - Qtd. pessoas com até 16 anos de idade", ylab="Resíduos",xlim=c(0,100),bty="n",col.main="blue",xaxp=c(0,100,11),xaxs="i",xaxt="n",ylim=c(-30,30),yaxp=c(-30,30,6),yaxs="i",cex.axis=.8,pch=16) > axis(1,at=seq(0,100,10),pos=c(0,0),cex.axis=.8) > plot(exemplo$X2,regressao2$resid,type="p" ,main="Gráfico dos resíduos x X2",xlab="X2 - Renda per capita na localidade", ylab="Resíduos",xlim=c(14.8,20),bty="n",col.main="blue",xaxp=c(15,20,6),xaxs="i",xaxt="n",ylim=c(-40,40),yaxp=c(-40,40,8),yaxs="i",cex.axis=.8,pch=16) > axis(1,at=seq(15,20,1),pos=c(0,0),cex.axis=.8)> library(rgl, pos=4) > library(mgcv, pos=4) > scatter3d(exemplo$X1, exemplo$Y, exemplo$X2, fit="linear", residuals=TRUE, bg="white", axis.scales=TRUE, grid=TRUE, ellipsoid=FALSE, xlab="X1", ylab="Y", zlab="X2") > plot(regressao2) Código R para os gráficos: