MÉTODOS AVANÇADOS EM ECONOMETRIA

•
UCAM

Bárbara Oliveira
25/01/2016
Prévia do material em texto
Modelos de regressão linear: abordagem clModelos de regressão linear: abordagem cláássicassica
Prof. Marcelo Rubens
mrubens@ime.uerj.br
Depto. Estatística
Análise de Regressão
Objetivo: Determinar uma função matemática que 
descreva a relação entre uma variável contínua 
(variável explicada ou dependente) e uma ou mais 
variáveis explicativas ou independentes.
y = f(x1,x2,...,xK) + εεεε
� y denota a variável dependente.
� x1,x2,...,xK denotam as variáveis independentes.
� f(x1,x2,...,xK) descreve a variação sistemática (determinística)
� εεεε representa a variação não sistemática (erro aleatório)
Modelos de regressão (função f) podem ser lineares 
ou não lineares.
Exemplo 1
O gerente de vendas de uma empresa varejista está interessado 
em obter uma equação que sintetize a relação existente entre o 
investimento em propaganda e o volume de vendas da empresa 
com o objetivo de realizar projeções do volume de vendas.
Amostra de tamanho 
n=10 obtida no 
departamento de 
vendas (milhões de R$)
Diagrama de dispersão 
representação gráfica que permite visualizar a 
relação/associação entre duas variáveis
0
10
20
30
40
50
60
0 10 20 30 40 50
Investimento em propaganda (X)
V
o
l
u
m
e
 
d
e
 
v
e
n
d
a
s
 
(
Y
)
Um incremento no investimento 
em propaganda produz um 
aumento nas vendas
A relação entre as variáveis não 
é precisa (estocástica)
Exemplo 1
A boa aderência da nuvem de pontos ao redor de um reta 
imaginária indica que a relação entre as duas variáveis pode ser 
aproximada por uma relação linear.
0
10
20
30
40
50
60
0 5 10 15 20 25 30 35 40 45
Investimento em propaganda (X)
V
o
l
u
m
e
 
d
e
 
v
e
n
d
a
s
 
(
Y
)
A essência da relação entre o investimento em propaganda e o 
volume de vendas pode ser expressa por uma reta.
A identificação desta reta pode ser efetuada por meio de um 
modelo de regressão linear simples.
Exemplo 1
0
10
20
30
40
50
60
0 5 10 15 20 25 30 35 40 45
Investimento em propaganda (X)
V
o
l
u
m
e
 
d
e
 
v
e
n
d
a
s
 
(
Y
)
Para um investimento de R$ 25 milhões em propaganda espera-se um 
volume de vendas da ordem de R$ 37 milhões (valor ajustado)
Exemplo 1
Neste caso o nível de vendas (y) é explicado pelo investimento 
em propaganda (x), então, y=f(x):
x = nível de vendas = variável dependente
y = investimento em propaganda = variável independente
A relação estocástica entre as duas variáveis pode ser modelada 
da seguinte forma:
y = β0 + β1x + ε
Onde:
� β0 e β1 são coeficientes desconhecidos da reta que relaciona as 
variáveis x e y (estimados a partir dos dados da amostra).
� ε é um termo aleatório (erro) que representa a imprecisão na 
relação entre x e y.
Modelos de regressão linear
Modelo de regressão linear simples: 
uma variável dependente explicada por uma variável 
independente.
yi = β0 + β1xi + εi
Modelo de regressão linear múltipla:
Uma variável dependente explicada por pelo menos duas 
variáveis independentes.
yi = β0 + β1x1, i + ... + βKxK, i + εi (K≥2)
Objetivo: Identificar uma função y=f(x) que permita explicar uma 
variável dependente (y) em função das variáveis explicativas (x), 
ou seja, como y varia de acordo com mudanças em x.
Significado do erro εεεε
O erro ε representa:
� Todos os outros fatores que afetam a variável dependente Y, 
mas que não estão contempladas nas variáveis explicativas X.
� Erros de medição.
� Forma funcional inadequada, por exemplo,
y = β0 + β1x ou y = β0 + β1x + β1x2 ?
� Inerente variabilidade no comportamento dos agentes 
econômicos.
Modelo de Regressão Linear Simples
Equação de regressão populacional:
yi = β0 + β1xi + εi (apenas uma variável independente)
Os coeficientes ββββ0 e ββββ1 não são conhecidos e devem ser 
estimados a partir de uma amostra aleatória de tamanho n da 
população:
Amostra aleatória ⇒ (xi , yi), i=1,n
Em cada unidade amostrada tem-se que
yi = β0 + β1xi + εi i=1,n
Variável aleatória 
não-observável
Componente 
determínistica
Hipóteses assumidas pelo modelo
H1) A relação entre as variáveis é linear yi = β0 + β1xi + εi i=1,n:
H2) Média nula: E(εi|xi) = 0 para todo i=1,n
H3) Variância constante: V(εi) = σ2 para todo i=1,n
H4) Erros não correlacionados: Cov(εi,εk) = 0 para todo i≠k
H5) Distribuição Normal: εi ~ N(0,σ2) para todo i=1,n
εi são independentes e identicamente distribuídos N(0,σσσσ2)
H6) A variável explicativa X é fixa, i.e., não é estocástica
Modelo de Regressão Linear Simples
( ) 2x|yV σ=
ε+β+β= xy 10
Como o valor esperado do erro é zero E(εεεε)=0, o valor esperado de y condicionado 
ao valor de x é igual a:
( ) ( )x|xEx|yE 10 εββ ++=
( ) ( )x|Exx|yE 10 εββ ++=
( ) xxyE 10| β+β=
Por hipótese a variável independente não é aleatória, assim tem-se:
( )210 ,~ σβ+β xNy
Como o erro tem distribuição Normal com média 0 e variância σσσσ2
Modelo de Regressão Linear Simples
( ) xyE 10 β+β=
Modelo de Regressão Linear Simples
Reta de regressão 
Modelo de Regressão Linear Simples
Estimador de mínimos quadrados
Modelo de Regressão Linear Simples
yi = β0 + β1xi + εi ⇒ εi = yi - β0 - β1xi
( )[ ]∑∑
==
β+β−=ε=
n
i
ii
n
i
i xyf
1
2
10
1
2
( )[ ]∑
=
ββ
β+β−=
n
i
ii xyfMin
1
2
10
, 10
Soma dos quadrados dos erros
As estimativas de ββββ0 e ββββ1 devem minimizar a 
soma sos quadrados dos desvios
No ponto de mínimo as 
derivadas parciais são nulas
Sistema de equações normais
A solução deste sistema fornece 
os estimadores de ββββ0 e ββββ1
( ) 0ˆˆ0
ˆ
1
ˆ
10
0
=










β+β−⇒=β∂
∂
∑
=
ε
n
i
ii
i
xyf
44 344 21
( ) 0ˆˆ0
ˆ
1
ˆ
10
1
=










β+β−⇒=β∂
∂
∑
=
ε
i
n
i
ii xxy
f
i
44 344 21
∑∑
==
=β+β
n
i
i
n
i
i yxn
11
10
ˆˆ
∑∑∑
===
=β+β
n
i
ii
n
i
i
n
i
i yxxx
11
2
1
1
0
ˆˆ
Estimador de mínimos quadrados
Modelo de Regressão Linear Simples
Solução do sistema de equações normais
xy 10 ˆˆ β−=β
( )( )
( )∑
∑
=
=
−
−−
=β
n
i
i
n
i
ii
xx
yyxx
1
2
1
1
ˆ
Sistema de equações normais
Estimadores de mínimos quadrados
∑∑∑
===
=β+β
n
i
ii
n
i
i
n
i
i yxxx
11
2
1
1
0
ˆˆ
∑∑
==
=β+β
n
i
i
n
i
i yxn
11
10
ˆˆ
Estimador de mínimos quadrados
Modelo de Regressão Linear Simples
ii xy 10 ˆˆˆ β+β=Valor estimado da variável dependente y dado que x é igual a xi
Resíduo da i-ésima observação é igual 
a diferença entre o valor observado e o 
valor estimado da variável yi ( )iii
iii
xy
yy
10
ˆˆ
ˆ
ˆˆ
β+β−=ε
−=ε
Equação de regressão estimada ( ) xxyEy 10 ˆˆ|ˆ β+β==
( )∑
∑
=
=
β
−
σ
=σ
n
i
i
n
i
i
xxn
x
1
2
1
22
2
ˆ0
∑
=
β
−
σ
=σ
n
i
i xx
1
22
2
2
ˆ1
Se as hipóteses H1 até H6 forem satisfeitas, os estimadores de mínimos 
quadrados são estimadores lineares não tendenciosos de variância 
mínima (Teorema de Gauss Markov)
( ) 00ˆ β=βE
( ) 11ˆ β=βE
( )2
ˆ00 0
,~ˆ βσββ N
( )2
ˆ11 1
,~ˆ βσββ N
( )
2n
xˆˆy
2n
ˆ
ˆ
n
1i
2
i10i
n
1i
2
i
2
−
−−
=
−
=
∑∑
==
ββε
σ
Modelo de regressão linear simples
Estimador da 
variância do 
erro
Modelo de regressão linear simples
Decomposição do erro:
y
x
y
y = b0 + b1x^
*
yi (valor observado)
yi - y yi (valor estimado)^yi - y^
yi - yi^
Decomposição da soma de quadrados total
SQT = SQE + SQR
SQT = Soma dos Quadrados Total
SQE = Soma dos Quadrados dos Erros
SQR = Soma dos Quadrados da Regressão
Modelo de regressão linear simples
( ) ( ) ( )∑∑ ∑
== =
−+−=−
n
i
i
n
i
n
i
iii yyyyyy
1
2
1 1
22
ˆˆ
( )
( ) SQT
SQE1
yy
yyˆ
SQT
SQRR
n
1i
2
i
n
1i
2
i
2
−=
−
−
==
∑
∑
=
=
Coeficiente de determinação
Modelo de regressão linear simples
10 2 ≤≤ R
� Se R estiver próximo de 1, a variável x explica a maior parte das variações de y. 
Neste caso, a variável x é uma boa preditora da variável y.
� Se R estiver próximo de 0, a variável x explica muito pouco das variaçães de y.
Neste caso, a variável x não é uma boa preditora da variável y.
Análise da variância (ANOVA)
Modelo de regressão linear simples
Inferência Estatística no Modelo de Regressão Linear
2σˆ
Estimador da 
variância do erro
SQT
SQRR =2
( )2nSQE
SQRF
−
=
Causas de Variação Graus de Liberdade Soma dos Quadrados Quadrados Médios 
Regressão 1 ( )∑
=
−=
n
i
i xxSQR
1
22
1
ˆβ QMR=SQR/1 
Erros n-2 ( )∑
=
−=
n
i
ii yySQE
1
2
ˆ QME=SQE/(n-2) 
Total n-1 ( )∑
=
−=
n
i
i yySQT
1
2
 
 
2n,1F~
2n
SQE
1
SQR
F
−
−
=
Testa o efeito conjunto das variáveis explicativas sobre a variável 
dependente, No caso do modelo linear simples testa o efeito de X
sobre Y
H0 : ββββ1 = 0 ( ausência do efeito )
H1 : ββββ1 ≠≠≠≠ 0 ( presença do efeito )
F > Ftabelado rejeita H0
F < Ftabelado aceita H0
Modelo de regressão linear simples
Teste F
Inferência Estatística no Modelo de Regressão Linear
Sob H0
2n
ˆ
1 t~
ˆ
ˆ
t
1
−
=
βσ
β
H0 : ββββ1 = 0
H1 : ββββ1 ≠≠≠≠ 0
Testa o efeito individual de X e do termo constante
Modelo de regressão linear simples
Inferência Estatística no Modelo de Regressão Linear
Teste t
Testa a significância do coeficiente de regressão linear associado 
com uma determinada variável explicativa.
Sob H0
t > ttabelado rejeita H0
t < ttabelado aceita H0
2
1
ˆ11
2
11
ˆ1 tˆˆtˆˆ 1 αβαβ σββσβ
−−
⋅+≤≤⋅−
Modelo de regressão linear simples
Inferência Estatística no Modelo de Regressão Linear
Intervalo de confiança 100(1-αααα)%
Previsor ( ) hhh xxyE 10 ˆˆ|ˆ ββ +=
Erro de previsão ( ) ( ) ( ) ( ) hhhhhh xxyExyEe 1100 ˆˆ|ˆ| ββββ −+−=−=
( ) ( )
( )












−
−
+=
∑
=
n
i
i
h
h
xx
xx
n
eV
1
2
2
2 1
ˆ
ˆ σ
Intervalo de previsão
( ) ( ) ( ) ( )



 +− hchhhchh eVtxyEeVtxyE |ˆ,|ˆ
Modelo de regressão linear simples
Previsão do valor esperado
Dado xT+h prever yT+h
Previsor hh xy 1ˆˆˆ 0 ββ +=
Erro de previsão ( ) ( ) hhhhh xyye εββββ +−+−=−= 1100 ˆˆˆ
( ) ( )
( )












−
−
++=
∑
=
n
1i
2
i
2
h2
h
xx
xx
n
11ˆeVˆ σ
Intervalo de previsão
( ) ( )



 +− hchhch eVtyeVty ˆ,ˆ
Modelo de regressão linear simples
Previsão de uma observação
Exemplo modelo de regressão linear simples
O gerente de uma empresa varejista está interessado em obter uma 
equação que sintetize a relação entre o investimento em propaganda (X) e 
o volume de vendas (Y) da empresa, com a finalidade de projetar o nível 
de vendas em função do investimento no programa de marketing da 
empresa.
Histórico (dados anuais) Diagrama de dispersão
Relação linear 
entre as variáveis
N = 10 observações
Exemplo modelo de regressão linear simples
εββ ++= yy 10Modelo de regressão linear
Estimação dos coeficientes por mínimos quadrados
03823,125,26975916,09,37ˆˆ 10 =⋅−=β−=β XY
97916,0
265801910
3792651101610
XXn
YXYXn
ˆ
22
n
1i
i
n
1i
2
i
n
1i
n
1i
i
n
1i
iii
1 =
−⋅
⋅−⋅
=






−
−
=
∑∑
∑ ∑∑
==
= ==β Equação de projeção
XY 9792,00382,12ˆ +=
Exemplo modelo de regressão linear simples
Construção da ANOVA
Soma dos 
quadrados 
dos resíduos 
SQE
Soma dos 
quadrados 
explicados pela 
regressão SQR
Soma dos 
quadrados 
totais SQT
resíduos
XY 9792,00382,12ˆ +=
> regressao <- lm(Y~X,data=dados_venda_propaganda)Código R:
Exemplo modelo de regressão linear simples
Construção da ANOVA
Fonte de 
variação
Soma dos 
quadrados
(A)
Graus de 
liberdade
(B)
Quadrado 
médio
(C=A/B)
F
Regressão SQR 
949,08
1 949,08 949,08 / 38,98=24,35
Resíduo SQE
311,82
n-2=8 38,98
Total SQT
1260,90
n-1=9
ANOVA
1 variável 
explicativa 2 coeficientes 
estimados α e β
Por isso n - 2
O quadrado médio do 
resíduo é uma estimativa 
da variância do erro
2σˆ
Coeficiente de 
determinação R2
75,0
90.1260
08.949
SQT
SQRR2 === > anova(regressao)Código R:
Exemplo modelo de regressão linear simples
Estimativas dos erros padrão de e 
( ) 3661,315,26108019
5,269778,38
10
1
XXn
Xˆ
ˆ
2
2
n
1i
2
i
n
1i
2
i
2
2
ˆ
0
=
⋅−
⋅
⋅=
−
=
∑
∑
=
=
σ
σ β
0391,0
5,26108019
9778,38ˆ
ˆ 22
1
2
2
2
ˆ1
=
⋅−
=
−
σ
=σ
∑
=
β
XNX
N
i
i
0
ˆβ 1ˆβ
6,53661,31ˆˆ 2
ˆˆ 00
==σ=σ ββ
1978,00391,0ˆˆ 2
ˆˆ1
==σ=σ ββ
Erro padrão
Erro padrão
Exemplo modelo de regressão linear simples
Inferência no modelo
H0 : ββββ1 = 0 ( ausência do efeito )
H1 : ββββ1 ≠≠≠≠ 0 ( presença do efeito )
2n,1F~
2n
SQE
1
SQR
F
−
−
=
F > Ftabelado rejeita H0
Sob H0
35.24=F
Ao nível de significância de 
5% o valor tabelado (Ftabelado) 
de uma F com 1 grau de 
liberdade no numerador e 8 
graus de liberdade no 
denominador é 5,3177. No R:
> qf(0.95,1,8)
[1] 5.317655
Distribuição F
Testes de hipóteses
Teste F: Testa o efeito conjunto das variáveis explicativas sobre a variável 
dependente, No caso do modelo linear simples testa o efeito de X sobre Y
Exemplo modelo de regressão linear simples
Inferência no modelo
H0 : ββββ0 = 0 ( ausência do efeito )
H1 : ββββ0 ≠≠≠≠ 0 ( presença do efeito )
t < ttabelado não rejeita H0
Sob H0
1495,2
3661,31
0382.12
==t
Ao nível de significância de 
5% o valor tabelado (ttabelado) 
de uma t com 8 graus de 
liberdade no numerador é
2,31. No R:
> qt(0.975,8)
[1] 2.306004
Distribuição t
2n
ˆ
0 t~
ˆ
ˆ
t
0
−
=
βσ
β
Testes de hipóteses
Teste t: Testa a significância do coeficiente de regressão linear associado com 
uma determinada variável explicativa.
Exemplo modelo de regressão linear simples
Inferência no modelo
H0 : ββββ1 = 0 ( ausência do efeito )
H1 : ββββ1 ≠≠≠≠ 0 ( presença do efeito )
t > ttabelado rejeita H0
Sob H0
9354,4
0391,0
9792.0
==t
Ao nível de significância de 
5% o valor tabelado (ttabelado) 
de uma t com 8 graus de 
liberdade no numerador é
2,31. No R:
> qt(0.975,8)
[1] 2.306004
Distribuição t
2n
ˆ
1 t~
ˆ
ˆ
t
1
−
=
βσ
β
Testes de hipóteses
Teste t: Testa a significância do coeficiente de regressão linear associado com 
uma determinada variável explicativa.
9531,248766,031,2
6,5
0382,1231,2 00 ≤β≤−⇒≤β−≤−
Exemplo modelo de regressão linear simples
Inferência no modelo
Intervalos de confiança com 95% de confiança
2n
00 t~
ˆ
ˆ
0
−
−
βσ
ββ
2n
ˆ
11 t~
ˆ
ˆ
1
−
−
βσ
ββ
95,031,2
ˆ
ˆ
31,2
0
00
=








≤
σ
β−β≤−
β
P Distribuição t
95%95,031,2
ˆ
ˆ
31,2
1ˆ
11
=








≤
σ
β−β≤−
β
P
4320,15198,031,21978,0
9792,031,2 11 ≤β≤⇒≤β−≤−
Exemplo modelo de regressão linear simples no R
> (dados_venda_propaganda <- data.frame(cbind("X"=c(30,20,35,40,38,18,10,15,35,24),"Y"=c(40,34,52,49,47,21,20,27,41,48))))
X Y
1 30 40
2 20 34
3 35 52
4 40 49
5 38 47
6 18 21
7 10 20
8 15 27
9 35 41
10 24 48
> regressao <- lm(Y~X,data=dados_venda_propaganda)
> summary(regressao)
Call:
lm(formula = Y ~ X, data = Gujarati_C3)
Residuals:
Min 1Q Median 3Q Max 
-8.605 -2.111 -1.556 1.913 12.540 
Coefficients:
Estimate Std. Error t value Pr(>|t|) 
(Intercept) 12.0382 5.6005 2.149 0.06383 . 
X 0.9759 0.1978 4.934 0.00114 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 6.243 on 8 degrees of freedom
Multiple R-squared: 0.7527, Adjusted R-squared: 0.7218 
F-statistic: 24.35 on 1 and 8 DF, p-value: 0.001143
Exemplo modelo de regressão linear simples no R
Alguns gráficos para diagnósticos
Útil na verificação da hipótese de 
variância constante do erro:
Útil na verificação da hipótese de 
normalidade do erro (valores ao redor de 
uma reta imaginária indicam que a 
hipótese de normalidade não foi violada):
Útil na avaliação da qualidade do ajuste:
> plot(dados_venda_propaganda$X,regressao$resid,type="p" ,main="Gráfico dos 
resíduos",xlab="X - Investimento em propaganda", ylab="Resíduos",xlim=c(-
0,50),bty="n",col.main="blue",xaxp=c(0,50,11),xaxs="i",xaxt="n",ylim=c(-10,15),yaxp=c(-
10,15,5),yaxs="i",cex.axis=.8,pch=16)
> axis(1,at=seq(0,50,5),pos=c(0,0),cex.axis=.8)
> plot(dados_venda_propaganda$X, dados_venda_propaganda$Y,type="p" ,main="Plotagem do 
ajuste",xlab="X - Investimento em propaganda", ylab="Y -
Vendas",xlim=c(0,45),bty="n",col.main="blue",xaxp=c(0,45,10),xaxs="i",xaxt="n",ylim=c(0,55),yax
p=c(0,55,11),yaxs="i",cex.axis=.8,pch=16)
> axis(1,at=seq(0,45,5),pos=c(0,0),cex.axis=.8,xaxs="r")
> abline(regressao)
> text(14,11,expression(hat(Y)),adj=0)
>text(15,10.5,paste("=",as.character(round(data.frame(regressao$coeff)[1,1],4)),"+",as.character(r
ound(data.frame(regressao$coeff)[2,1],4)),"X"),adj=0)
> text(14,6.5,expression(R^2),adj=0)
> text(15.5,6,paste("=",as.character(round(summary(regressao)$r.squared,4))),adj=0)
> plot(regressao)
A variável dependente é uma função linear de duas ou mais 
variáveis independentes
ikikiii xxxy εββββ +++++= K22110
Notação matricial
i=1,...,n
εβ += XY












=
ny
y
y
Y
M
2
1












=
knn1
2k12
1k11
xx1
xx1
xx1
X
L
MOMM
L
L












=
kβ
β
β
β
M
1
0












=
nε
ε
ε
ε
M
2
1
Modelo de regressão linear múltipla
K variáveis explicativas
ββββ1, ββββ2, ββββ3,..., ββββk, σσσσ2 são parâmetros do modelo que devem ser estimados
Hipóteses
H1 - E(ε)=0
H2 – H3 E(ε ε’)=σσσσ2I, I matriz identidade
V(ε)= σσσσ2 e COV(εi, εj)=0
H4 - Os erros tem distribuição normal εi~N(0, σσσσ2)
H5 - A matriz X é não aleatória
H6 - O posto de X é k+1<n
Problemas de especificação
� Escolher o tipo de função matemática 
� Determinar que variáveis independentes devem ser 
consideradas no modelo
Modelo de regressão linear múltipla
( ) YXXX ''ˆ 1−=β
























=
∑∑∑∑
∑∑∑∑
∑∑∑∑
∑∑∑
====
====
====
===
n
1i
2
ki
n
1i
kii2
n
1i
kii1
n
1i
Ki
n
1i
kii2
n
1i
2
i2
n
1i
i2i1
n
1i
i2
n
1i
kii1
n
1i
i2i1
n
1i
2
i1
n
1i
i1
n
1i
ki
n
1i
i2
n
1i
i1
xxxxxx
xxxxxx
xxxxxx
xxxn
X'X
L
MOMMM
L
L
L
Estimador de Mínimos Quadrados (MQ)
Modelo de regressão linear múltipla
























=
∑
∑
∑
∑
=
=
=
=
n
1i
iki
n
1i
ii2
n
1i
ii1
n
1i
i
yx
yx
yx
y
Y'X
M
( ) ( ) 21'ˆ σβ −= XXV
)1k(n
'
ˆ
2
+−
=
εε
σ
( )jjjj aN 2,~ˆ σββ ajj elemento da diagonal principal da inversa de X’X
Modelo de regressão linear múltipla
Estimador de Mínimos Quadrados (MQ)
Teste t H0 : ββββ j = 0
H1 : ββββ j ≠≠≠≠ 0
( )1kn
j t~
ˆ
ˆ
t
j
+−=
βσ
β
( )1knE.Q.S
kR.Q.SF
+−
=
H0 : ββββ 1 = ββββ 2 = ββββ 3 =...= ββββ k =0
H1 : pelo menos um ββββj ≠≠≠≠ 0 
Teste F
t t rejeita Htabelado≥ ⇒ 0
F F rejeita Htabelado≥ ⇒ 0
Modelo de regressão linear múltipla
Inferência Estatística no Modelo de Regressão Linear
Análise da variância
2
2
2
ynY'Y
ynY'X'ˆ
SQT
SQRR
−
−
==
β
( ) )1k(n
1nR11R 2
2
+−
−
−−=
( )[ ]1knSQE
kSQR
QME
QMRF
+−
==
Modelo de regressão linear múltipla
Inferência Estatística no Modelo de Regressão Linear
Causas de 
variação
Graus de 
liberdade (A)
Soma dos quadrados
(B)
Quadrados médios 
(C=B/A) F
Regressão k QMR=SQR/k F=QMR/QME
Erros n–(k+1) QME=SQE/[n–(k+1)]
Total n–1
2ynY'X'ˆSQR −= β
Y'X'ˆY'YSQE β−=
2ynY'YSQT −=
Análise da variância – contribuições das variáveis independentes ao modelo global 
– função Anova() do pacote “car” do R 
Modelo de regressão linear múltipla
Inferência Estatística no Modelo de Regressão Linear
1
Causas de 
variação
Graus de 
liberdade (A)
Soma dos quadrados
(B)
Quadrados médios 
(C=B/A) F
1
Erros n–(k+1) QME=SQE/[n–(k+1)]
Total n–1
Y'X'ˆY'YSQE β−=
2ynY'YSQT −=
1x
kx
M M M
( )( ) ( )( ) ∑∑∑
===
=−−++−−=−=
n
1i
x
n
1i
ikkik
n
1i
i1i11
2
i
SQRyyxxˆyyxxˆynY'X'ˆSQR βββ L
( )( )∑
=
−−=
n
1i
i1i11x yyxxˆSQR 1 β
( )( )∑
=
−−=
n
1i
ikkikx yyxxˆSQR k β
1x
SQR
kx
SQR
M
QMESQEF
11 xx
=
QMESQEF
kk xx
=
M
Fórmula (C.3.17) do Gujarati com a notação adaptada:
[ ]khh2h1h xxx1'x L=
Previsão
Dado
b'xyˆ hh = estima ( ) khkh110h xxyE βββ +++= K
( ) ( ) 2h1hh ˆxX'X'xyˆVˆ σ−=
b'xyˆ hh = estima hkhkh110h xxy εβββ ++++= K
( ) ( )[ ] 2h1hh ˆxX'X'x1yˆVˆ σ−+=
Modelo de regressão linear múltipla
Exemplo modelo de regressão linear múltipla
X1 X2 Y
68,5 16,7 174,4
45,2 16,8 164,4
91,3 18,2 244,2
47,8 16,3 154,6
46,9 17,3 181,6
66,1 18,2 207,5
49,5 15,9 152,8
52 17,2 163,2
48,9 16,6 145,4
38,4 16 137,2
87,9 18,3 241,9
72,8 17,1 191,1
88,4 17,4 232
42,9 15,8 145,3
52,5 17,8 161,1
85,7 18,4 209,7
41,3 16,5 146,4
51,7 16,3 144
89,6 18,1 232,6
82,7 19,1 224,1
52,3 16 166,5
Uma empresa de artigos infantis opera em 21 cidades de médio porte. A empresa 
está analisando a possibilidade de expansão em outras cidades de médio porte e 
para isso deseja investigar se a vendas (Y) em uma localidade podem ser preditas 
com base no número de pessoas com até 16 anos de idades (X1) e a renda per 
capita na localidade (X2).
Atualmente a empresa está presente em 21 localidades (N = 21), cujos dados são 
apresentados na tabela abaixo:
ii2i10i xxy εβββ +++=
Modelo de regressão linear múltipla a ser estimado
> (exemplo <-
data.frame(cbind("X1"=c(68.5,45.2,91.3,47.8,46.9,66.1,49.5,52,48.9,38.4,87.9,72.8,88.4,42.9,52.5,85.7,41.3,51.7,89.6,82.7,52.3),"X2"
=c(16.7,16.8,18.2,16.3,17.3,18.2,15.9,17.2,16.6,16,18.3,17.1,17.4,15.8,17.8,18.4,16.5,16.3,18.1,19.1,16),"Y"=c(174.4,164.4,244.2,154.
6,181.6,207.5,152.8,163.2,145.4,137.2,241.9,191.1,232,145.3,161.1,209.7,146.4,144,232.6,224.1,166.5))))
Exemplo modelo de regressão linear múltipla
Modelo de regressão linear
Estimação dos coeficientes de regressão por mínimos quadrados
ii2i10i xxy εβββ +++=
1 68,5 16,7
1 45,2 16,8
1 91,3 18,2
147,8 16,3
1 46,9 17,3
1 66,1 18,2
1 49,5 15,9
1 52 17,2
1 48,9 16,6
1 38,4 16
1 87,9 18,3
1 72,8 17,1
1 88,4 17,4
1 42,9 15,8
1 52,5 17,8
1 85,7 18,4
1 41,3 16,5
1 51,7 16,3
1 89,6 18,1
1 82,7 19,1
1 52,3 16
X =
174,4
164,4
244,2
154,6
181,6
207,5
152,8
163,2
145,4
137,2
241,9
191,1
232
145,3
161,1
209,7
146,4
144
232,6
224,1
166,5
Y =
21,00 1.302,40 360,00
1.302,40 87.707,94 22.609,19
360,00 22.609,19 6.190,26=XX
T
3.820,00
249.643,35
66.072,75
=YX T
29,7289 0,0722 -1,9926
0,0722 0,0004 -0,0055
-1,9926 -0,0055 0,1363( ) =−1XX T
( ) YXXX TT 1ˆ −=β









−
=










3655,9
4546,1
8571,68
ˆ
ˆ
ˆ
2
1
0
β
β
β
> regressao2 <- lm(Y~X1+X2,data=exemplo)
> summary(regressao2)Código R:
Exemplo modelo de regressão linear múltipla
Construção da ANOVA
i2i1i x3655,9x4546,18571,68yˆ ++−=
SQR SQE SQT
Exemplo modelo de regressão linear múltipla
Construção da ANOVA
Fonte de 
variação
Soma dos 
quadrados
(A)
Graus de 
liberdade
(B)
Quadrado 
médio
(C=A/B)
F
Regressão SQE 
24015,28
2 12007,64 12007,64 / 121.1626 = 
99,1035
Resíduo SQR
2180,93
N-3=18 121,1626
Total SQT
26196,21
N-1=20
ANOVA
2 variáveis 
explicativas 3 coeficientes 
estimados
Por isso N – 3
O quadrado médio do 
resíduo é uma estimativa 
da variância do erro
2σˆ
Coeficiente de 
determinação R2
917,0
21,26196
28.24015
SQT
SQRR2 === > anova(lm(Y~1,data=exemplo),regressao2)Código R:
Exemplo modelo de regressão linear múltipla
Modelo de regressão linear
Estimativas dos erros padrão dos coeficientes de regressão
( ) 12
2
ˆˆˆˆˆ
ˆˆ
2
ˆˆˆ
ˆˆˆˆ
2
ˆ
ˆ
ˆˆˆ
ˆˆˆ
ˆˆˆ
22120
21110
20100
−
⋅=












=Σ XX Tσ
σσσ
σσσ
σσσ
βββββ
βββββ
βββββ
β
0170,600347,3602ˆˆ 2
ˆˆ
00
=== ββ σσ
Erro padrão
Resultado na ANOVA = 121,1626
29,7289 0,0722 -1,9926
0,0722 0,0004 -0,0055
-1,9926 -0,0055 0,1363
=Σβ
3.602,0347 8,7459 -241,4230
8,7459 0,0449 -0,6724
-241,4230 -0,6724 16,5158
2118,00449,0ˆˆ 2
ˆˆ
11
=== ββ σσ
0640,45158,16ˆˆ 2
ˆˆ
22
=== ββ σσ
Variâncias na diagonal principal
Covariâncias fora da diagonal principal
ii2i10i xxy εβββ +++=
> vcov(regressao2)Código R:
Exemplo modelo de regressão linear múltipla
Inferência no modelo
H0 : ββββ1 = ββββ2 = 0 ( ausência do efeito )
H1 : ββββ1 ≠≠≠≠ 0 ou ββββ2 ≠≠≠≠ 0 ( presença do efeito )
3n,2F~
3N
SQE
2
SQR
F
−
−
=
F > Ftabelado rejeita H0
Sob H0
1035,99=F
Ao nível de significância de 5% o 
valor tabelado (Ftabelado) de uma 
F com 2 graus de liberdade no 
numerador e 18 graus de 
liberdade no denominador é
3,5546. No R:
> qf(0.95,2,18)
[1] 3.554557
Distribuição F
Testes de hipóteses
Teste F: Testa o efeito conjunto das variáveis explicativas sobre a variável 
dependente, No caso do modelo linear simples testa o efeito de X sobre Y
Exemplo modelo de regressão linear múltipla
Inferência no modelo
H0 : ββββ0 = 0 ( ausência do efeito )
H1 : ββββ0 ≠≠≠≠ 0 ( presença do efeito )
t < ttabelado não rejeita H0
Sob H0
1473,1
0170,60
8571,68
−=
−
=t
Ao nível de significância de 
5% o valor tabelado (ttabelado) 
de uma t com 18 graus de 
liberdade no numerador é
2,1009. No R:
> qt(.975,18)
[1] 2.100922
Distribuição t
3n
ˆ
0 t~
ˆ
ˆ
t
0
−
=
βσ
β
Testes de hipóteses
Teste t: Testa a significância do coeficiente de regressão linear associado com 
uma determinada variável explicativa.
Exemplo modelo de regressão linear múltipla
Inferência no modelo
t > ttabelado rejeita H0
Sob H0
Distribuição t
Testes de hipóteses
Teste t: Testa a significância do coeficiente de regressão linear associado com 
uma determinada variável explicativa.
H0 : ββββ1 = 0 ( ausência do efeito )
H1 : ββββ1 ≠≠≠≠ 0 ( presença do efeito )
3n
ˆ
1 t~
ˆ
ˆ
t
1
−
=
βσ
β
8682,6
2118,0
4546,1
==t
Ao nível de significância de 
5% o valor tabelado (ttabelado) 
de uma t com 18 graus de 
liberdade no numerador é
2,1009. No R:
> qt(.975,18)
[1] 2.100922
Exemplo modelo de regressão linear múltipla
Inferência no modelo
t > ttabelado rejeita H0
Sob H0
Distribuição t
Testes de hipóteses
Teste t: Testa a significância do coeficiente de regressão linear associado com 
uma determinada variável explicativa.
H0 : ββββ2 = 0 ( ausência do efeito )
H1 : ββββ2 ≠≠≠≠ 0 ( presença do efeito )
3n
ˆ
2 t~
ˆ
ˆ
t
2
−
=
βσ
β
3045,2
0640,4
3655,9
==t
Ao nível de significância de 
5% o valor tabelado (ttabelado) 
de uma t com 18 graus de 
liberdade no numerador é
2,1009. No R:
> qt(.975,18)
[1] 2.100922
Exemplo modelo de regressão linear múltipla
Inferência no modelo
Intervalos de confiança com 95% de confiança
3n
00 t~
ˆ
ˆ
0
−
−
βσ
ββ
&&
95,01,2
ˆ
ˆ
1,2
0
ˆ
00
=








≤−≤−
βσ
ββP Distribuição t
95%
2339,57948,1941,2
0170,60
8571,681,2 00 ≤≤−⇒≤
−−≤− ββ
3n
11 t~
ˆ
ˆ
1
−
−
βσ
ββ
&&
95,01,2
ˆ
ˆ
1,2
1
ˆ
11
=








≤−≤−
βσ
ββP
3n
22 t~
ˆ
ˆ
2
−
−
βσ
ββ
&&
95,01,2
ˆ
ˆ
1,2
2
ˆ
22
=








≤−≤−
βσ
ββP
8995,10096,11,2
2118,0
4546,11,2 11 ≤≤⇒≤
−≤− ββ
9036,178274,01,2
0640,4
3655,91,2 22 ≤≤⇒≤
−≤− ββ
Exemplo modelo de regressão linear múltipla no R
> (exemplo <-
data.frame(cbind("X1"=c(68.5,45.2,91.3,47.8,46.9,66.1,49.5,52,48.9,38.4,87.9,72.8,88.4,42.9,52.5,85.7,41.3,51.7,89.6,82.7,52.3),"X2"=c(16.7,16.8,18.2,16.3,17.3,18.2,15.9,17.2,16.6,16,18.3,17.
1,17.4,15.8,17.8,18.4,16.5,16.3,18.1,19.1,16),"Y"=c(174.4,164.4,244.2,154.6,181.6,207.5,152.8,163.2,145.4,137.2,241.9,191.1,232,145.3,161.1,209.7,146.4,144,232.6,224.1,166.5))))
X1 X2 Y
1 68.5 16.7 174.4
2 45.2 16.8 164.4
3 91.3 18.2 244.2
4 47.8 16.3 154.6
5 46.9 17.3 181.6
6 66.1 18.2 207.5
7 49.5 15.9 152.8
8 52.0 17.2 163.2
9 48.9 16.6 145.4
10 38.4 16.0 137.2
11 87.9 18.3 241.9
12 72.8 17.1 191.1
13 88.4 17.4 232.0
14 42.9 15.8 145.3
15 52.5 17.8 161.1
16 85.7 18.4 209.7
17 41.3 16.5 146.4
18 51.7 16.3 144.0
19 89.6 18.1 232.6
20 82.7 19.1 224.1
21 52.3 16.0 166.5
> regressao2 <- lm(Y~X1+X2,data=exemplo)
> summary(regressao2)
Call:
lm(formula = Y ~ X1 + X2, data = exemplo)
Residuals:
Min 1Q Median 3Q Max 
-18.4239 -6.2161 0.7449 9.4356 20.2151 
Coefficients:
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -68.8571 60.0170 -1.147 0.2663 
X1 1.4546 0.2118 6.868 2e-06 ***
X2 9.3655 4.0640 2.305 0.0333 * 
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 11.01 on 18 degrees of freedom
Multiple R-squared: 0.9167, Adjusted R-squared: 0.9075 
F-statistic: 99.1 on 2 and 18 DF, p-value: 1.921e-10
Exemplo modelo de regressão linear múltipla no R
Exemplo modelo de regressão linear múltipla no R
> plot(exemplo$X1,regressao2$resid,type="p" ,main="Gráfico dos resíduos x X1",xlab="X1 - Qtd. pessoas com até 16 anos de idade", 
ylab="Resíduos",xlim=c(0,100),bty="n",col.main="blue",xaxp=c(0,100,11),xaxs="i",xaxt="n",ylim=c(-30,30),yaxp=c(-30,30,6),yaxs="i",cex.axis=.8,pch=16)
> axis(1,at=seq(0,100,10),pos=c(0,0),cex.axis=.8)
> plot(exemplo$X2,regressao2$resid,type="p" ,main="Gráfico dos resíduos x X2",xlab="X2 - Renda per capita na localidade", 
ylab="Resíduos",xlim=c(14.8,20),bty="n",col.main="blue",xaxp=c(15,20,6),xaxs="i",xaxt="n",ylim=c(-40,40),yaxp=c(-40,40,8),yaxs="i",cex.axis=.8,pch=16)
> axis(1,at=seq(15,20,1),pos=c(0,0),cex.axis=.8)> library(rgl, pos=4)
> library(mgcv, pos=4)
> scatter3d(exemplo$X1, exemplo$Y, exemplo$X2, fit="linear", residuals=TRUE, bg="white", 
axis.scales=TRUE, grid=TRUE, ellipsoid=FALSE, xlab="X1", ylab="Y", zlab="X2")
> plot(regressao2)
Código R para os gráficos: