Erros Não Esféricos na Regressão Linear

•

USP-SP

0

Estudante de Econo

26/11/2012

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 14 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 14 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 14 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Econometria

6.322 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Universidade de Sa˜o Paulo - Departamento de Economia
EAE 5811 - Econometria I
Prof. Dr. Ricardo Avelino
1o Semestre de 2007
Erros Na˜o Esfe´ricos no Modelo de Regressa˜o
Linear, Casos Especiais
Caso 1: Heteroscedasticidade
Comum em regresso˜es cross-section. Implica que a variaˆncia do erro, condi-
cional nos regressores, difere entre as observac¸o˜es.
Ω = E [εε0|X] =


V (ε1|X) cov (ε1, ε2|X) · · · cov (ε1, εn|X)
cov (ε1, ε2|X) V (ε2|X) · · · cov (ε2, εn|X)
...
...
...
cov (ε1, εn|X) cov (ε2, εn|X) · · · V (εn|X)


=


σ21 0 · · · 0
0 σ22 · · · 0
...
...
...
0 0 · · · σ2n


Para ser mais preciso, dever´ıamos nos referir a ela como heteroscedasticidade
condicional.
Exemplo 1: Uma regressa˜o cross-section de consumo das famı´lias em renda
familiar, ci = α + βyi + εi. Famı´lias com uma renda e consumo mais altos
provavelmente teˆm uma variaˆncia maior do erro. Assumindo a mesma variaˆncia
para todas as famı´lias implica que, na me´dia, o erro quadra´tico me´dio teria que
ter a mesma magnitude para algue´m com yi = $1.000.000 ou para algue´m com
yi = $100.
Exemplo 2: Dados agrupados. Suponha que tenhamos dados agrupados para
um dado nu´mero de famı´lias dentro de cada um dos estados brasileiros e que o
modelo verdadeiro seja
yij = x0ijβ + εij
onde i indexa os estados e j as famı´lias. Todos os ε0ijs na˜o sa˜o correlacionados
e teˆm variaˆnca condicional σ2. Suponha que decidamos agrupar os dados por
estado e rodar a seguinte regressa˜o
yi = x0iβ + εi
onde yi = 1nj
Pnj
j=1 yij , xi =
1
nj
Pnj
j=1 xij , εi =
1
nj
Pnj
j=1 εij e nj e´ o nu´mero de
observac¸o˜es do estado j.
1
εi sera´ heterosceda´stico se o nu´mero de famı´lias diferir por estado:
V (εi) = V
µ
1
nj
Pnj
j=1 εij
¶
=
1
nj
σ2
Portanto, agrupar os dados induz heteroscedasticidade.
Estimac¸a˜o eficiente
Quando Ω e´ conhecido
Me´todo 1: Mı´nimos quadrados generalizados
O estimador
Ω−1 =


1
σ21
0 · · · 0
0 1σ22
· · · 0
...
...
...
0 0 · · · 1σ2n


⇒ P =


1√
σ21
0 · · · 0
0 1√
σ22
· · · 0
...
...
...
0 0 · · ·
q
1
σ2n


Pre´ multiplique o modelo de regressa˜o linear por P :
Py = PXβ + Pε ou y∗ = X∗β + ε∗
onde
y∗ =


y1
σ1y2
σ2
...
yn
σn


n×1
, X∗ =


x11
σ1
x12
σ1
. . . x1Kσ1
x21
σ2
x22
σ2
. . . x2Kσ2
...
...
...
xn1
σn
xn2
σn
. . . xnKσn


n×K
, ε∗ =


ε1
σ1
ε2
σ2
...
εn
σn


n×1
Portanto, GLS corresponde a uma regressa˜o de mı´nimos quadrados ordina´rios
de y∗i = yi/σi em x
∗
i = xi/σi. Essa regressa˜o e´ a forma mais simples de mı´nimos
quadrados ponderados. Note como essa transformac¸a˜o torna os erros ε∗ ho-
mosceda´sticos.
O estimador de mı´nimos quadrados generalizados nesse caso e´ dado por
βˆGLS = (X
∗0X∗)−1X∗0y∗ =
¡
X 0Ω−1X
¢−1
X 0Ω−1y
=
µ
nP
i=1
1
σ2i
xix0i
¶−1µ nP
i=1
1
σ2i
xiyi
¶
A variaˆncia de βˆGLS e´
V
³
βˆGLS
´
= (X∗0X∗)−1 =
¡
X 0Ω−1X
¢−1
=
µ
nP
i=1
1
σ2i
xix
0
i
¶−1
2
que, por sua vez, e´ menor que
V
³
βˆOLS
´
= (X 0X)−1X 0ΩX (X 0X)−1
=
µ
nP
i=1
xix
0
i
¶−1µ nP
i=1
σ2ixix
0
i
¶µ
nP
i=1
xix
0
i
¶−1
como sabemos.
Intuic¸a˜o
Por que a ponderac¸a˜o produz um estimador mais eficiente? Voceˆ tem n
observac¸o˜es de x e y, relacionadas por yi = x0iβ + εi. Voceˆ deseja inferir β.
O erro adiciona perturbac¸a˜o adicional a` relac¸a˜o, tornando o seu trabalho mais
dif´ıcil. Que observac¸o˜es de xi e yi conteˆm mais informac¸o˜es sobre β? Aquelas
para as quais as equac¸o˜es contenham menor perturbac¸a˜o, isto e´, aquelas para as
quais a variaˆncia do erro seja menor. Dando um peso maior a essas observac¸o˜es,
voceˆ obte´m um estimador mais preciso (com menor variaˆncia).
Exemplo
Suponha que as diferenc¸as em σ2i entre as observac¸a˜o na˜o tendem a ser
correlacionadas com as diferenc¸as em xi. Enta˜o e´ aproximadamente verdade
para n grande que
V
³
βˆGLS
´
=
µ
nP
i=1
1
σ2i
xix0i
¶−1
'
µµ
1
n
nP
i=1
1
σ2i
¶µ
nP
i=1
xix0i
¶¶−1
=
µ
nP
i=1
xix
0
i
¶−1µ
1
n
nP
i=1
1
σ2i
¶−1
V
³
βˆOLS
´
=
µ
nP
i=1
xix
0
i
¶−1µ nP
i=1
σ2ixix
0
i
¶µ
nP
i=1
xix
0
i
¶−1
'
µ
nP
i=1
xix
0
i
¶−1µ
1
n
nP
i=1
σ2i
¶µ
nP
i=1
xix
0
i
¶µ
nP
i=1
xix
0
i
¶−1
=
µ
nP
i=1
xix0i
¶−1µ
1
n
nP
i=1
σ2i
¶
Portanto,
V
³
βˆOLS
´
V
³
βˆGLS
´ =
µ
1
n
nP
i=1
σ2i
¶
µ
1
n
nP
i=1
1
σ2i
¶−1 = µ 1n nPi=1σ2i
¶µ
1
n
nP
i=1
1
σ2i
¶
≥ 1
3
pois, pela desigualdade de Jensen, E
h
1
σ2i
i
≥ 1
E[σ2i ]
⇔ E
£
σ2i
¤
E
h
1
σ2i
i
≥ 1.
Note como MQO se torna progressivamente mais ineficiente a` medida que σ2i
difere mais entre as observac¸o˜es. Assumindo uma dada distribuic¸a˜o para σ2i na
populac¸a˜o, e´ poss´ıvel calcular exatamente a eficieˆncia relativa de mı´nimos quadra-
dos generalizados com relac¸a˜o a mı´nimos quadrados ordina´rios.
A matriz de variaˆncia de MQO calculada incorretamente e´ maior
ou menor do que a matriz correta?
Quando as diferenc¸as em σi entre as observac¸o˜es na˜o tendem a ser rela-
cionadas com as diferenc¸as em xi, ela na˜o e´ sistematicamente menor ou maior.
Mas se as diferenc¸as em σi entre as observac¸o˜es estiverem relacionadas com as
diferenc¸as em xi, sera´ importante calcularmos os desvios-padro˜es corretos dados
pela fo´rmula de White.
Me´todo 2: Ma´xima verossimilhanc¸a. Mesmo que mı´nimos quadrados gener-
alizados
Quando Ω e´ desconhecido
Me´todo 1: Mı´nimos quadrados generalizados fact´ıveis (FGLS)
Como discutido anteriormente, no´s precisamos impor alguma estrutura em
Ω a fim de estima´-la consistentemente. Considere os seguintes exemplos de
mı´nimos quadrados generalizados fact´ıveis.
Exemplo:
Assuma que a heteroscedasticidade tenha a seguinte forma:
σ2i = E
£
ε2i |X
¤
= E
£
ε2i |xi
¤
= α0+α1zi = z¯0iα, para z¯i =
·
1
zi
¸
, α =
·
α0
α1
¸
z e´ uma varia´vel aleato´ria que pode coincidir ou na˜o com um dos regressores.
Para implementar mı´nimos quadrados generalizados fact´ıveis, procedemos da
seguinte maneira:
1. Estime o modelo yi = x0iβ + εi usando MQO e compute os res´ıduos εˆi.
2. Use εˆ2i para obter estimativas consistentes de α0 e α1 (e, portanto, de
σ2i ) atrave´s de uma regressa˜o por MQO de εˆ
2
i em uma constante e zi. Enta˜o
calcule Ωˆ e o estimador de mı´nimos quadrados generalizados fact´ıveis βˆFGLS =³
X 0Ωˆ−1X
´−1
X 0Ωˆ−1y.
4
Como no´s sabemos que o segundo passo produz estimativas consistentes de
α0 e α1 e, portanto, de σ2i ?
αˆ =
³X
z¯iz¯0i
´−1 ³X
z¯0iεˆ
2
i
´
εˆi = yi − x0iβˆOLS = yi − x0iβ − x0i
³
βˆOLS − β
´
= εi − x0i
³
βˆOLS − β
´
Portanto,
εˆ2i = ε
2
i +
³
x0i
³
βˆOLS − β
´´2
− 2εix0i
³
βˆOLS − β
´
Como
ε2i = E
£
ε2i |xi
¤
+
¡
ε2i −E
£
ε2i |xi
¤¢
= α0 + α1zi + ui, ui = ε
2
i −E
£
ε2i |xi
¤
segue-se que
εˆ2i = α0+α1zi+ui+
³
x0i
³
βˆOLS − β
´´2
−2εix0i
³
βˆOLS − β
´
= z¯0iα+ui+v1i+v2i
Os dois u´ltimos termos na˜o importam para a distribuic¸a˜o assinto´tica de αˆ
pela consisteˆncia de mı´nimos quadrados ordina´rios no primeiro esta´gio. A dis-
tribuic¸a˜o assinto´tica de
√
n (αˆ− α) e´, portanto, igual a` distribuic¸a˜o assinto´tica
de
¡
1
n
P
z¯iz¯0i
¢−1 ³ 1√
n
P
z¯0iui
´
.
Assuma que µ
1
n
X
z¯iz¯0i
¶−1
=
µ
Z¯0Z¯
n
¶−1
p→ QZ¯0Z¯
por uma lei dos grandes nu´meros apropriada e que
1√
n
X
z¯0iui =
1√
n
Z¯0u d→ N (0, B) (e, portanto, Z¯
0u
n
p→ 0)
por um teorema central do limite apropriado.
As observac¸o˜es teˆm uma distribuic¸a˜o heterogeˆnea, pois ui e´ heterosceda´stico:
E (ui|xi) = 0
mas
V (ui|xi) = E
h¡
ε2i −E
£
ε2i |xi
¤¢2 |xii = E £ε4i |xi¤− ¡E £ε2i |X¤¢2
= E
£
ε4i |xi
¤
−
¡
σ2i
¢2
Enta˜o, αˆ e´ consistente e assintoticamente normal:
√
n (αˆ− α) d→ N
¡
0, QZ¯0Z¯BQ
0¯
Z0Z¯
¢
5
Importante
Embora mı´nimos quadrados generalizados fact´ıveis assintoticamente seja
mais eficiente do que mı´nimos quadrados ordina´rios, e´ poss´ıvel que a variaˆncia
do estimador de MQO seja menor do que a variaˆncia do estimador de FGLS em
amostras pequenas. Isso porque FGLS requer a estimac¸a˜o de mais paraˆmetros.
Suponha, por exemplo, que a variaˆncia dos primeiros n/2 termos de erro seja
σ2a e que avariaˆncia dos u´ltimos n/2 termos de erro seja σ
2
b . No´s sabemos duas
coisas:
1) Do teorema de Gauss-Markov, se σ2a = σ
2
b , MQO e´ eficiente. Portanto, se
σ2a = σ
2
b , FGLS, permitindo que σ
2
a 6= σ2b , e´ ineficiente.
2) Da eficieˆncia assinto´tica de FGLS, se σ2a 6= σ2b , para n suficientemente
grande, a variaˆncia do estimador de FGLS e´ menor do que a variaˆncia do esti-
mador de MQO.
Portanto, a questa˜o e´ qua˜o diferente σ2a e σ
2
b devem ser para que a variaˆncia
de FGLS seja menor do que a variaˆncia de MQO para uma dada amostra finita.
Isso dependera´ de como σ2i depende dos x
0s
Me´todo 2: Ma´xima verossimilhanc¸a.
A func¸a˜o de log-verossimilhanc¸a, assumindo normalidade dos erros com Ω =
Ω (θ), era dada por
lnL (y, β, θ) = −n
2
ln (2π)− 1
2
ln |Ω (θ)|− 1
2
(y −Xβ)0 (Ω (θ))−1 (y −Xβ)
e, no caso de heteroscedasticidade, mas auseˆncia de autocorrelac¸a˜o, podia ser
simplificada para
lnL (y, β, θ) = −n
2
ln (2π)− 1
2
nP
i=1
µ
lnσ2i (θ) +
1
σ2i (θ)
(yi − x0iβ) (yi − x0iβ)
¶
No exemplo anterior, σ2i = E
£
ε2i |X
¤
= E
£
ε2i |xi
¤
= α0 + α1zi. Portanto,
lnL (y, β, θ) = −n
2
ln (2π)− 1
2
nP
i=1
(ln (α0 + α1zi)
+
1
α0 + α1zi
(yi − x0iβ) (yi − x0iβ)
¶
que e´ enta˜o maximizada a fim de obter βˆMLE , αˆ0MLE e αˆ1MLE .
No presente caso, ε2i = E
£
ε2i |X
¤
= E
£
ε2i |xi
¤
= α0 + α1zi na˜o depende
de β. Portanto, mı´nimos quadrados generalizados e mı´nimos quadrados gener-
alizados fact´ıveis sa˜o assintoticamente equivalentes a` ma´xima verossimilhanc¸a
e, consequ¨entemente, assintoticamente eficientes. Isso pode ser comprovado
6
calculando-se a matriz de informac¸a˜o I = −E
h
∂2 lnL(y,β,α0,α1)
∂ϕ∂ϕ0
i
(ϕ0 = β, α0, α1)
e invertendo-a. O elemento no canto superior esquerdo de I−1 e´ precisamente
a variaˆncia de mı´nimos quadrados generalizados e de mı´nimos quadrados gen-
eralizados fact´ıveis para esse exemplo.
Testes de Heteroscedasticidade
Teste de White
H0 : σ2i = σ
2, ∀i
H1 : H0 e´ falso
a) Estime o modelo yi = x0iβ + εi por OLS e compute os res´ıduos εˆ
2
i
b) Regresse εˆ2i em uma constante e em todas as combinac¸o˜es de xi ⊗ xi,
excluindo-se a constante. Denote o nu´mero de regressores, excluindo-se a con-
stante, por P e compute o R2. Sob H0,
nR2
d→ χ2P
Rejeite H0 se o valor observado de nR2 e´ maior do que o valor cr´ıtico.
Teste de Goldfeld-Quandt
Assume normalidade dos erros e divide os dados em dois grupos, com n1 e
n2 observac¸o˜es.
H0 : σ21 = σ
2
2
H1 : σ21 > σ
2
2 (inverta os subscritos se suspeita-se que a variaˆncia do grupo
2 seja maior).
a) Estime o modelo yi = x0iβ + εi por OLS separadamente para cada grupo
e compute os res´ıduos εˆ21 e εˆ
2
2.
b) Sob H0,
F =
εˆ01εˆ1/ (n1 − k)
εˆ02εˆ2/ (n2 − k)
∼ Fn1−k,n2−k
Rejeite H0 se o valor observado de F e´ maior do que o valor cr´ıtico.
Teste de Breusch-Pagan
H1 : σ2i = σ
2f (α0 + z0iα1) (heteroscedasticidade), com p varia´veis em zi.
H0 : α1 = 0 (homoscedasticidade)
a) Estime o modelo yi = x0iβ + εi por OLS e compute os res´ıduos εˆ
2
i .
7
b) Regresse
εˆ2i
εˆ0εˆ
n
em uma constante e zi e compute a soma dos quadrados
explicados. Sob H0,
LM =
1
2
(soma dos quadrados explicados)
d→ χ2P
Rejeite H0 se o valor observado da estat´ıstica e´ maior do que o valor cr´ıtico.
Teste LR para heteroscedasticidade entre grupos
Assume normalidade dos erros e divide os dados em G grupos, com n1, ..., nG
observac¸o˜es.
Assume normalidade dos erros e divide os dados em dois gupos, com n1 e
n2 observac¸o˜es.
H0 : σ21 = ... = σ
2
G
H1 : H0 e´ falso
Sob H0 : lnL0 = −n2 ln (2π)−
n
2 ln
¡
σ2
¢
− 12σ2
Pn
i=1 ε
2
i (modelo restrito)
Sob H1 : lnL1 = −n2 ln (2π) −
1
2
PG
g=1 ng ln
¡
σ2g
¢
− 12
PG
g=1
³
1
σ2g
Png
i=1 ε
2
ig
´
(modelo irrestrito)
Portanto, sob H0,
LR = −2 (lnL0 − lnL1) = n ln σˆ2 −
PG
g=1 ng ln σˆ
2
g
d→ χ2G−1
onde σˆ2 = εˆ
0εˆ
n (σˆ
2
MLE do modelo restrito) e σˆ
2
g =
εˆ0g εˆg
ng
(σˆ2g,MLE do modelo
irrestrito)
RejeiteH0 se o valor observado de LR e´ maior do que o valor cr´ıtico da χ2G−1.
Podemos utilizar βˆ da regressa˜o utilizando todas as observac¸o˜es para calcular
tanto εˆ quanto εˆg, ∀g, a fim de aumentar o poder do teste.
Caso 2: Correlac¸a˜o serial
Ω = E [εε0|X] =


V (ε1|X) cov (ε1, ε2|X) · · · cov (ε1, εn|X)
cov (ε1, ε2|X) V (ε2|X) · · · cov (ε2, εn|X)
...
...
...
cov (ε1, εn|X) cov (ε2, εn|X) · · · V (εn|X)


=


σ21 σ12 · · · σ1n
σ21 σ22 · · · σ2n
...
...
...
σn1 σn2 · · · σ2n


8
Para o modelo AR(1), no´s temos
yt = x0tβ + εt, εt = ρεt−1 + ut, ut ∼ N
¡
0, σ2u
¢
, |ρ| < 1, t = 1, ..., T
Nesse caso, σ2ε = γ0 =
σ2u
1−ρ2 , γj = E [εtεt−j ] = ρ
j σ
2
u
1−ρ2 , j > 1. Portanto,
Ω = E [εε0|X] =


σ21 σ12 · · · σ1n
σ21 σ22 · · · σ2n
...
...
...
σn1 σn2 · · · σ2n


=
σ2u
1− ρ2


1 ρ · · · ρT−1
ρ 1 · · · ρT−2
...
...
...
ρT−1 ρT−2 · · · 1


Derivac¸a˜o de σ2ε e γj para um processo AR(1).
Xt = c+ ρXt−1 + εt
onde εt e´ um ru´ıdo branco. Por substituic¸a˜o,
Xt = c+ ρ (c+ ρXt−2 + εt−1) + εt = c+ ρc+ ρ
2Xt−2 + εt + ρεt−1
= c+ ρc+ ρ2 (c+ ρXt−3 + εt−2) + εt + ρεt−1
= c+ ρc+ ρ2c+ ρ3Xt−3 + εt + ρεt−1 + ρ
2εt−2
= c+ ρc+ ρ2c+ ...+ εt + ρεt−1 + ρ
2εt−2 + ...
O termo do lado direito envolvendo X converge para 0 a` medida que con-
tinuamos substituindo se |ρ| < 1. Portanto,
E [Xt] =
c
1− ρ
γ0 = V [Xt] =
σ2
1− ρ2
γj = cov (Xt,Xt−j) = E [(Xt − µ) (Xt−j − µ)]
= E
£¡
εt + ρεt−1 + ρ
2εt−2 + ...
¢ ¡
εt−j + ρεt−j−1 + ρ
2εt−j−2 + ...
¢¤
= ρjσ2 + ρj+2σ2 + ρj+4σ2 + ... =
ρjσ2
1− ρ2
9
Estimac¸a˜o eficiente
Quando Ω e´ conhecido
Me´todo 1: Mı´nimos quadrados generalizados
O estimador
Ω−1 =
1
σ2u


1 −ρ 0 · · · 0
−ρ 1 + ρ2 −ρ
...
0 −ρ . . . 0
... 1 + ρ2 −ρ
0 · · · 0 −ρ 1 + ρ2


⇒ P = Ω−1/2 = 1
σu


p
1− ρ2 0 0 · · · 0
−ρ 1 0
...
0 −ρ 0
... 1 0
0 · · · 0 −ρ 1


Pre´ multiplique o modelo de regressa˜o linear por P :
Py = PXβ + Pε ou y∗ = X∗β + ε∗
onde
y∗ =


p
1− ρ2y1
y2 − ρy1
...
yT − ρyT−1


n×1
, X∗ =


p
1− ρ2x01
x02 − ρx01
...
x0T − ρx0T−1


n×K
,
ε∗ =


p
1− ρ2ε1
ε2 − ρε1
...
εT − ρεT−1


n×1
Note como essa transformac¸a˜o torna os erros ε∗ na˜o auto correlacionados.
O estimador de mı´nimos quadrados generalizados e´ calculado da maneira usual
por
βˆGLS = (X
∗0X∗)−1X∗0y∗ = (X 0P 0PX)−1X 0P 0Py =
¡
X 0Ω−1X
¢−1
X 0Ω−1y
10
Intuic¸a˜o
Por que esse procedimento produz um estimador mais eficiente que MQO?
βˆOLS = argmin
β
ε0ε = argmin
β
¡
ε21 + ...+ ε
2
T
¢
βˆGLS = argmin
β
(y∗ −X∗β)0 (y∗ −X∗β) = argmin
β
(y −Xβ)0Ω−1 (y −Xβ)
= argmin
β
ε0Ω−1ε
= argmin
β
³¡
1− ρ2
¢
ε21 + (ε2 − ρε1)
2
+ ...+ (εT − ρεT−1)2
´
Portanto, MQO tenta escolher β de modo que cada um dos ε0ts seja zero. Se
yt e xt, para uma observac¸a˜o particular, sa˜o tais que εt seria grande, a menos que
β estivesse pro´ximo de um determinado valor, isso fara´ com que MQO escolha
como estimativa de β um valor βˆ pro´ximo dessa observac¸a˜o particular.
Esse e´, no entanto, um uso sub o´timo da informac¸a˜o dispon´ıvel. Suponha que
ρ seja positivo e que εt−1 tambe´m seja positivo. Enta˜o E [εt|εt−1] = ρεt−1 >
0 e o valor verdadeiro de β satisfaz E [yt − x0tβ|εt−1] = ρεt−1. Portanto, no´s
devemos tentar escolher βˆ de modo que εt = yt−x0tβ seja pro´ximo de ρεt−1, na˜o
de zero. Isso e´ precisamente o que GLS faz, exceto para a primeira observac¸a˜o.
Me´todo 2: Ma´xima verossimilhanc¸a. Mesmo que mı´nimos quadrados gener-
alizados
Quando Ω e´ desconhecido
Me´todo 1: Mı´nimos quadrados generalizados fact´ıveis (FGLS)
Na pra´tica, ρ e´ desconhecido. O seguinte procedimento de mı´nimos quadra-
dos generalizados fact´ıveis e´ denominado Prais-Winsten (Cochrane-Orcutt se
excluirmos a primeira observac¸a˜o).
1. Estime o modelo yt = x0tβ + εt usando MQO e compute os res´ıduos εˆt.
2. Estime o modelo εˆt = ρεˆt−1+vt usando MQO e compute ρˆ =
PT
t=2 εˆtεˆt−1PT
t=2 εˆ
2
t−1
3. Transforme os dados da seguinte forma:
y∗1 =
q
1− ρˆ2y1, x∗1 =
q
1− ρˆ2x1
y∗t = yt − ρˆyt−1, x∗t = xt − ρˆxt−1, t= 2, ..., T
11
4. Regresse y∗ em X∗ e obtenha βˆFGLS
Se os erros forem AR(1), o primeiro passo e´ justificado pelo fato de que
MQO e´ ainda consistente. Isso implica que ρ no segundo passo tambe´m e´ con-
sistente e isso e´ tudo que e´ necessa´rio para implementar mı´nimos quadrados
generalizados fact´ıveis. A exclusa˜o da primeira observac¸a˜o na˜o afeta as pro-
priedades assinto´ticas do estimador, mas as propriedades em amostras finitas
podem ser afetadas severamente se os regressores apresentarem uma tendeˆncia.
Me´todo 2: Ma´xima verossimilhanc¸a.
Se ε ∼ N (0,Ω (ρ)) (condicional em X), no´s podemos estimar β, ρ e σ2u por
ma´xima verossimilhanc¸a. A func¸a˜o de log-verossimilhanc¸a e´ dada por
lnL (y, β, ρ) = −T
2
ln (2π)− 1
2
ln |Ω (ρ)|− 1
2
ε0 (Ω (ρ))−1 ε
= −T
2
ln (2π)− 1
2
ln |Ω (ρ)|− 1
2
(y −Xβ)0 (Ω (ρ))−1 (y −Xβ)
Na˜o e´ conveniente maximizar a func¸a˜o de log-verossimilhanc¸a nessa forma.
Reescreva-a como
f (yt, ..., y1) = f (yt|yt−1, ..., y1) f (yt−1, ..., y1)
= f (yt|yt−1, ..., y1) f (yt−1|yt−2..., y1) f (yt−2, ..., y1)
=
Qt
s=2 f (ys|ys−1..., y1) f (y1)
Como a distribuic¸a˜o conjunta de (y1, ..., yT ) , condicional em X, e´ normal,
as distribuic¸o˜es condicionais na fo´rmula acima tambe´m sa˜o normais.
Se |ρ| < 1 no modelo AR(1) , a distribuic¸a˜o de εt e´ independente de t e dada
por εt ∼ N
³
0, σ
2
u
1−ρ2
´
, t=1,...,T
Portanto, para t = 1
y1 = x
0
1β + ε1, ε1 ∼ N
µ
0,
σ2u
1− ρ2
¶
⇒ y1 = x01β + ε1 ∼ N
µ
x01β,
σ2u
1− ρ2
¶
Para t ≥ 2
yt − ρyt−1 = x0tβ − ρx0t−1β + εt − ρεt−1, εt − ρεt−1 ∼ N
¡
0, σ2u
¢
⇒ yt|yt−1, ..., y1 = yt|yt−1 = ρyt−1 + x0tβ − ρx0t−1β + εt − ρεt−1
∼ N
¡
ρyt−1 + x0tβ − ρx0t−1β, σ2u
¢
Portanto,
f (y1) =
1p
2πσ2u/ (1− ρ)
exp
Ã
−1
2
(y1 − x01β)
2
σ2u/ (1− ρ)
!
12
f (yt|yt−1, ..., y1) = 1p
2πσ2u
exp
Ã
−1
2
¡
yt − ρyt−1 + x0tβ − ρx0t−1β
¢2
σ2u
!
e, consequ¨entemente, a func¸a˜o de log-verossimilhanc¸a pode ser escrita como
lnL (y, β, ρ) =
Ã
−1
2
ln (2π)− 1
2
lnσ2u +
1
2
¡
1− ρ2
¢
− 1
2
(y1 − x01β)
2
σ2u/ (1− ρ)
!
−T − 1
2
ln (2π)− T − 1
2
lnσ2u
− 1
2σ2u
PT
t=2
¡
y1 − ρyt−1 + x0tβ − ρx0t−1β
¢2
Assintoticamente, na˜o importa se no´s ignorarmos o primeiro termo.
Se no´s simplesmente rodarmos MQO no modelo transformado, obteremos
estimadores consistentes de ρ, β e ρβ, mas no´s temos uma restric¸a˜o entre os
coeficientes (pois ρ vezes β e´ igual a ρβ). Para impor essa restric¸a˜o, no´s devemos
estimar atrave´s de mı´nimos quadrados na˜o lineares.
Testes de Autocorrelac¸a˜o
Teste de Durbin-Watson
Assume normalidade dos erros. Na˜o e´ va´lido se a regressa˜o incluir varia´veis
dependentes defasadas entre os regressores. Va´lido para testar autocorrelac¸a˜o
de primeira ordem mesmo se correlac¸o˜es de ordem superior estiverem presentes.
H0 : Auseˆncia de autocorrelac¸a˜o
H1 : Autocorrelac¸a˜o positiva de primeira ordem (e´ poss´ıvel testar autocor-
relac¸a˜o de primeira ordem negativa utilizando 4−DW )
a) Estime o modelo yt = x0tβ + εt por OLS e compute os res´ıduos εˆt
b) Estat´ıstica do teste:
DW =
PT
t=2 (εˆt − εˆt−1)
2PT
t=1 εˆ
2
t
(≈ 2(1− r), 0 ≤ DW ≤ 4)
onde r e´ a autocorrelac¸a˜o amostral de primeira ordem.
Rejeite H0 se DW < dL,T,k,α.
Na˜o rejeite H0 se DW > dU,T,k,α.
O teste e´ inconclusivo se dL,T,k,α ≤ DW ≤ dU,T,k,α.
α e´ o n´ıvel de significaˆncia e dL,T,k,α e dU,T,k,α sa˜o tabulados.
13
Teste de Breusch-Godfrey
H0 : Auseˆncia de autocorrelac¸a˜o
H1 : εt e´ AR(p) ou MA(p)
a) Estime o modelo yt = x0tβ + εt por OLS e compute os res´ıduos εˆt
b) Regresse εˆt em xt e εˆt−1, ..., εˆt−p e compute o R2.
A estat´ıstica do teste e´ dada por
nR2
d→ χ2p
sob H0. Note a similaridade com o teste de White para heteroscedasticidade.
14