Buscar

Notas de Aula series de tempo

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 18 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 18 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 18 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

1 
Notas de Aulas – Econometria de Séries de Tempo 
© Eduardo Pontual Ribeiro, 2013 
 
INTRODUÇÃO 
 
A ideia central na construção de previsões econométricas consiste na busca por 
estimativas mais precisas (com menor erro em um conjunto de previsões) do que utilizar 
a média ou tendência histórica de uma série, dependendo se buscamos, ou podemos, 
prever o valor de uma série ou seu crescimento, respectivamente. 
 
O modelo básico de análise divide a série em um valor esperado, previsível (E(yt)), e 
desvios inesperados, imprevisíveis, aleatórios (t), desta média: yt = E(yt) + t. 
Incialmente, pressupomos E(yt)=, constante para qualquer data, calculado baseado em 
uma amostra representativa de dados históricos. Assim a análise tenta incorporar a 
informação disponível até a data mais recente yt = E(yt| t-1) + t. 
 
Este tipo de previsão utilizando apenas a média histórica é muito simples e o objetivo da 
metodologia econométrica é melhorar a previsão utilizando um conjunto maior de 
informações disponíveis, seja na própria série (modelos univariados), seja em outras 
variáveis (modelos multivariados). A melhora na previsão é mensurada através de 
funções que essencialmente comparam o erro de previsão, principalmente em sua forma 
quadrático: ∑ - 
2
< ∑ 
2
 . Um exemplo conhecido deste 
critério é a avaliação do R
2
 de uma regressão. 
 
O modelo mais simples baseia-se no modelo clássico de séries de tempo com 
linearidade, e modela a série em elementos de tendência (e ciclo), sazonalidade e um 
componente irregular: yt=+t+1ds1t+2ds2t+3ds3t+t, onde t é uma variável de 
tendência (t=1,2,3,...), e dsst uma dummy que indica se aquela observação t é do 
trimestre s (para o caso de dados trimestrais). 
 
Os modelos ARIMA abaixo exploram a correlação da própria série consigo mesmo, em 
diferentes pontos no tempo, as autocorrelações, para melhorar a previsão. 
 
 
MODELOS ARIMA: 
 
Modelo Autoregressivo 
 
Partiremos do caso mais simples, de um modelo autoregressivo de 1ª ordem ou AR(1): 
yt =  yt-1 + t ou yt =  yt-1 + t 
onde t é dito um ruído banco, ou seja, não autocorrelacionado ou heterocedástico e 
com média constante. Para a modelagem em geral se pressupõe t ~iidN(0,
2
). 
 
A idéia é que 
E[yt | t-1] = E [yt | yt-1] =  +  yt-1 
 
No AR(p), yt=+1yt-1+2yt-2+...+pyt-p+t, a memória é mais longa, no sentido de que 
yt-1 não resume de forma suficiente a trajetória de yt até o momento t-1. Note que o 
modelo pode ser escrito em termos do operador de defasagens: 
 2 
yt =  yt-1 + t = L yt + t => (1–L)yt =  +t 
 
A série pode ser representada com um polinômio de 1
a
 ordem em L, que está entre 
parêntesis(1–L). Para um AR(p) temos (1–1L–2L
2
–...–pL
p
), que pode ser escrito 
como (1–a1L)(1–a2L)...(1–apL). 
 
Para entender as propriedades da série, podemos fazer de duas formas. Primeiro, 
encontrando a solução por interação da equação em diferenças que é o processo gerador 
de dados. Segundo, estudar as soluções homogêneas, que pode ser visto de modo 
simplificado como a solução (raízes) do polinômio da série. Este caso que veremos em 
um segundo momento. 
 
Para entender o valor da série em cada ponto, buscamos expressá-la baseado apenas nos 
elementos externos (não recursivos) ao modelo, ou seja, os parâmetros e a sequencia 1, 
2, ..., t. Substituindo para trás, 
yt =  +  [ +  yt-2 + t-1] + t 
=  +   +  2 yt-2 + t +  t-1 
=  +   +  2  +  3 yt-3 + t +  t-1 
=  +   +  2  +  3 yt-3 + t +  t-1+ 
 2t-2 
... 
yt =  (1 +  + 
 2
...) +  t y0 + j=0
t j t-j 
yt =  (j=0
t j) +  t y0 + j=0
t j t-j 
 
Note que yt depende do que acontece em toda a história passada da série, ou seja, pelos 
valores dos choques passados (s, s≤t), além dos parâmetros e do ponto de partida da 
série (y0). Todavia, para modelagem, apenas yt-1 é relevante, pois este sintetiza o 
passado. 
 
Sob as hipóteses acima, podemos avaliar as propriedades estatísticas da série: 
 
E[yt] = E[  j=0
t j ] + E [ty0 ] + E[j=0
t j t-j] 
=  (j=0
t j) +  t y0 + j=0
t j E[t-j] 
=  (j=0
t j) +  t y0 
A princípio, parece que a média da série não é constante no tempo. Todavia, podemos 
avaliar o comportamento da série nas seguintes condições: (i) ||<1, e (ii) com t 
“grande” (t→∞) Dadas as duas condições, com y0<∞ , limt→∞ 
 t
y0 = 0, e, j=0
∞ j = 
1/(1–) e com isto E[yt] =  / (1 – ). 
 
Por outro lado, se, ||=1, E[yt] =  (t+1) + y0. Sob a condição (ii), E[yt]= ∞. Vemos 
que para que a série tenha uma média que não dependa do tempo ou que não exploda, 
necessitamos que ||<1, no mínimo. 
 
Para a variância: 
V[yt] = E[ (yt – E[yt]
2
) ] = E[j=0
t j t-j] 
 = E[(j=0
t 
(j)2 t-j
2
 + 2*ij (i≠j) 
i
 j t-it-j] 
 = j=0
t
 2j 
 3 
pois a os choques são um ruído branco. Aqui, mais uma vez, podemos aplicar as 
condições (i) e (ii) acima. Com isto teremos V[yt] = 

/ (1–2). Por outro lado, se | = 
1, V[Yt] = (t+1)
2
 e com a condição (ii), V[yt]= ∞. 
 
Para terminar a análise, vamos avaliar as covariâncias no tempo: 
Cov[ yt yt-1]= E[(yt –E[yt])(yt-1–E[yt-1])]= E[ (j=0
t j t-j)(j=0
t j-1 t-j-1) ] 
 = E[t(t-1+
 t-2+
 2t-3++
 t-10 )+ t-1 (t-1+
 t-2+
 2t-3+ +
 t-10) 
 + 2t-2 (t-1+
 t-2+
 2t-3+ +
 t-10 )+...
t0 (t-1+
 t-2+ +
 t-10 )] 
 = 0 + 2+32+52+...+ 2t-12, 
pois t ~iidN(0,
2
), como já mencionado. Aplicando as condições (i) e (ii), temos Cov[yt 
yt-1]=
2
/( 1- 2)= V(yt). Por outro lado, se | = 1, Cov[yt yt-1] = t
2
 e com a 
condição (ii), Cov[yt yt-1]= ∞. 
 
Generalizando para qualquer defasagem s≠0, sob as condições (i) e (ii): 
Cov[yt yt-s]=
s2/( 1- 2)= s V(yt) 
 
De posse da Covariância, podemos calcular a Auto-Correlação da série, para qualquer 
defasagem: Cor(yt yt-s)= Cov(yt yt-s)/[V(yt )V(yt-s)]
1/2
. Sob as condições (i) e (ii), 
Cor(yt yt-s)= 
s
. 
 
Considerando as condições para estacionariedade (fraca) de uma série de tempo, temos 
que, para um processo AR(1), para que E(yt), V(yt) e Cov(yt yt-s) sejam constantes e não 
dependam da data t, necessitamos das condições (i) e (ii) acima, em particular com a 
condição |<1. 
 
Para avaliar se uma série AR(p) é estacionária, o procedimento de substituição recursiva 
não é prático. Com isto, devemos empregar outro método. Aqui veremos o método da 
solução homogênea. 
 
Condições de Estabilidade – Solução Homogênea 
 
Considere a parte homogênea de uma modelo AR(1), yt =  yt-1 + t, por exemplo: 
yt – yt-1=0. Uma solução para uma equação em diferenças expressa o valor de yt como 
uma função dos elementos de t, do tempo (t) e de condições iniciais (y0) e termos fixos 
() . No caso de uma solução homogênea, como especificamos os termos fixos e os 
termos t iguais a zero, a solução vai envolver apenas o tempo e constantes. Em geral, 
uma solução será da forma yt*=Aa
t
, onde A e a são constantes. Pode-se verificar que 
neste caso, o modelo AR(1) passa a ser Aa
t
 =  Aat-1, e temos a=. A solução yt*=A
 t
 
pode ser estudada da seguinte forma. 
a) Se ||<1, seqüência A t será estável, convergindo para zero para t→∞; 
b) Se ||=1, a seqüência é estável e válida para qualquer valor de A, mas não 
converge (meta estável para = –1); 
c) Se ||>1, a seqüência não é estável. Para >1, a solução homogênea explode, 
e para <–1, a solução homogênea oscila de modo explosivo. 
 
Aqui a similaridade entre as condições necessárias para encontrar uma série estacionária 
e as condições para que a solução homogênea seja estável e convergente não é gratuita. 
Na verdade elas são iguais. Nosso objetivo é estudar séries de tempo e iremos 
 4 
considerar as condições de estabilidade para equações de 2
a
 ordem e ordens superiores e 
as condições de estabilidadeem polinômios em defasagens. 
 
Considere para um AR(2), yt –1yt-1–2yt-2 =0, que como visto acima, pode escrito como 
(1–1L–2L)yt=0 ou ainda como (1–a1L)(1–a2L)yt=0. Não é difícil ver que Os 
parâmetros j e as raízes do polinômio de 2º grau aj relacionam-se através de 1=a1+a2 e 
2=–a1a2. Mas ao invés de resolver este sistema de equações, usamos a solução da 
forma acima yt*=Aa
t
, para a expressâo do polinômio no tempo Aa
t
 – 1 Aa
t-1
– 2 Aa
t-2
 
=0. E dividindo por Aa
t-2
, devemos achar a solução para a equação característica 
a
2
– 1a– 2 =0 
Lembrando a fórmula, temos as duas raízes características a1
*
 a2
*
, calculadas através de 
a1
*
, a2
*
=(1 √d )/2 d=(1
2
+4 2) 
A partir das raízes características, podemos escrever a solução 
yt
*
=A1(a1
*
)
t
+ A2(a2
*
)
t
 
Aqui não é dificil ver que a trajetório da solução depende das raízes características, que 
por sua vez dependem dos parâmetros do modelo. As raízes, precisam estar dentro do 
círculo central, ou de modo simplificado, a1
*
+a2
*
<1. Um estudo completo das 
condições de estabilidade em relação ao parâmetros estimados no modelo AR(p) indica 
o seguinte: 
 1. em uma equação de ordem n, uma condição necessária para que as raízes 
características estejam dentro do circulo unitário é i=1
n
 i<1. 
 2. em uma equação de ordem n, uma condição suficiente para que as raízes 
características estejam dentro do circulo unitário é i=1
n
 |i|<1. 
 3. Ao menos uma das raízes características será igual à unidade, se i=1
n
 i=1 
 
Para um modelo AR(2), as condições para estacionariedade podem ser escritas como 
1+2<1, -1+2<1 e –2<1. 
 
Quando trabalhamos com uma série de tempo, escrevemos a série usando um polinômio 
em defasagens: 
(1– 1L +2 L
2
 + +pL
p
 ) =0 
 
Comparando com o polinômio tratado acima a
n
– 1a
n-1 2a
n-2–... –n =0, vemos que 
as raízes do polinômio em defasagens são os recíprocos dos polinômios da solução 
homogênea. Com isto, temos que a condição de estabilidade é que as raízes 
características do polinômio em defasagens estejam fora do círculo central. Mas as 
restrições sobre os parâmetros não mudam. 
 
 
Modelo Integrado 
 
Vimos que para uma série autoregresiva ser estacionária, precisamos que o coeficiente 
autoregressivo seja menor que a unidade (em módulo). Se esta condição não for 
verificada, podemos transformar a série, para que passe a ser estacionária, através de 
diferenciação no tempo. Por exemplos, 
yt= 1 yt-1+t => yt – yt-1= yt-1– yt-1+t=> yt = t 
yt= 1,2 yt-1 – 0,2 yt-2+t => yt=0,2 yt-1+ t 
Desta forma, o modelo autoregressivo não estacionário de 2
a
 ordem pode ser escrito 
como um modelo ARIMA(1,1,0) (mais detalhes abaixo). Usando os conceitos da seção 
 5 
anterior, vemos que a transformação da série envolve resolver problema de encontrar 
um termo a tal que (1–1,2L + 0,2L
2
) = (1 – L)(1–aL) e aplicamos na expressão(1–1,2L 
+ 0,2L
2
)yt=t => (1 – aL)(1–L)yt=t => (1 – aL)yt=t => (1 – aL)zt=t, onde zt=yt. 
A necessidade de diferenciação surge quando pelo menos uma das raízes é unitária, para 
garantir que as raízes do polinômio da série transformada (zt) sejam menores que a 
unidade. 
 
 
Modelo de Média Móvel 
 
Um processo de média movel apresenta a seguinte forma, no caso mais simples: 
yt= + t-1+t 
e no caso mais geral (MA(q)): 
yt= +t+1 t-1+2 t-2+3 t-3+...+q t-q 
yt= +t(1+1L+2 L
2
+3 L
3
+...+q L
q
) 
 
Neste caso vemos que para calcular os momentos da série de tempo, não precisamos 
fazer nenhuma substituição pois yt depende apenas de teremos que têm suas 
propriedades conhecidas, ao contrário de um modelo AR(p). Desta forma, como t é um 
ruído branco, para um MA(1), 
E(yt)=
V(yt) = E[(t+1 t-1)
2
] = 2(1+1
2
)
Cov(yt, yt-1) = E[(t+1 t-1) (t-1+1 t-2)]=
21 
Cov(yt, yt-s) = E[(t+1 t-1) (t-s+1 t-s-1)]= 0, para s>1. 
 
Quanto às condições de estacionariedade, vemos que elas são verificadas para um 
MA(1) para quaisquer valores de 1 finitos. Dizemos então que processos MA são 
sempre estacionários. 
 
Generalizando para um MA(q) 
E(yt)= 
V(yt) = 
2
(1+1
2
+2
2
+3
2
+...+q
2
) 
Cov(yt, yt-s)=
2
(s+1s+1+2s+2+3s+3+...+4s+4), para s≤q, e 
Cov(yt, yt-s)=, para s>q 
 
As correlações têm uma fórmula complexa, mas uma característica importante: elas são 
zero para s>q. Por exemplo, nos casos de um MA(1) e MA(2), respectivamente, 
Cor(yt yt-1)= 1/(1+1
2
) e Cor(yt yt-s)=0, para s>1, 
e 
Cor(yt yt-1)= (1+12)/(1+1
2
+2
2
), 
Cor(yt yt-2)= 2/(1+1
2
+2
2
) 
e 
 Cor(yt yt-s)=0, para s>2. 
 
Note que todo modelo MA(q) pode ser escrito como um AR(∞). Usando operadores de 
defasagens e o exemplo de um MA(1), 
yt= +t(1+L) 
yt(1+L)
 -1
= (1+L)-1+t 
yt(1+L+
2
L
2
+3L3+...)= ’+t 
 6 
yt =’yt-1
2
yt-2
3
yt-3+...+t 
 
Implicitamente, necessitamos que o polinômio (chamado de B(L)) de um MA(q) tenha 
todas as raízes fora do círculo unitário. Uma preocupação quando trabalhamos com 
séries MA passa a ser que elas possam ser invertidas. As condições são análogas à não 
existência de raiz unitária em um modelo AR(p). 
 
Um caso especial de média móvel ocorre quando q→∞ e os coeficientes j forem 
exponencialmente declinantes j=
j
 (e, claro, |<1). 
yt= +t(1+
1
L+2 L2+3 L3+...) 
yt= +t(1–L)
-1
 
yt(1–L)= +t 
yt= +yt-1+t 
 
Vimos que um modelo AR(1) pode ser escrito como um MA(∞). O resultado pode ser 
generalizado para um AR(p). 
 
Neste momento pode surgir a dúvida de como diferenciar um MA(q) de uma AR(p), se 
um modelo MA pode ser escrito como um AR. A resposta está nos padrões de 
autocorrelação dos dois tipos de modelo que são bastante distintos. Por exemplo, 
enquanto que para um AR(1) as autocorrelações caem exponencialmente com o número 
de defasagens s, para um MA(1), as autocorrelações são zero para s>1. Para analisar as 
autocorrelações de um AR(p) – que por definição é estacionário – o seguinte resultado 
pode ser demonstrado (equações Yule-Walker), denominando Cov(yt yt-s)=s e Cor(yt yt-
s)=s : 
s=j=1
p
 j s-j s>0 
s=j=1
p
 j s-j s>0 
 
Teoricamente, cada modelo AR(p) possui apenas uma seqüência de autocorrelações. 
Isto pode ser usado para identificar o modelo. Em particular, as autocorrelação de um 
AR(p) decaem até o zero, para s>p. Já para um MA(q), as autocorrelações são iguais a 
zero, para s>q. 
 
 
 
Modelo ARIMA 
 
Um modelo ARIMA(p,d,q) é a combinação de um modelo AR(p) e MA(q) de uma série 
estacionária ou que possuia uma raiz unitária e foi transformada para que passasse a ser 
estacionária através de diferenças no tempo d vezes. Ou seja, 
 
zt=  +1zt-1 +2zt-2 + +pzt-p+t+1t-1+2t-2+3t-3+...+qt-q 
onde zt=(1-L)
d
yt=
d
yt. O modelo é usualmente escrito também como 
(1+1L+2L
2
+3L
3
+...+qL
p
)zt= +(1+1L+2L
2
+3L
3
+...+qL
q
)t 
A(L)zt=+ B(L)t 
Como dito acima, o polinômio A(L) possui todas as raízes fora do círculo unitário, e, em 
geral, se supõe que B(L) pode ser invertido. Se houver alguma raíz unitária em A(L), 
esta raíz deve ser retirada (fatorada) através da aplicação do filtro (1–L) na série, para 
que o novo polinômio A’(L) de ordem p-1 tenha todas as raízes fora do círculo unitário. 
 7 
 
Mesmo que o polinômio B(L) não possa ser invertido, uma série ARIMA(0,d,q) é 
estacionária. Com isto a não estacionariedade de uma série de termpo que segue um 
modelo ARIMA(p,d,q) depende apenas das raízes do polinômio A(L) estarem fora do 
círculo unitário. 
 
Uma série que segue um modelo ARIMA(p,d,q) pode ser escrita como uma série de 
tempo que segue um modelo AR(p’) onde p’ é potencialmente infinito. Isto pois 
podemos encontrar um polinômio C(L)=A(L)/B(L), C(L)zt='+t. De modo inverso, a 
série pode ser escrita como um modelo MA(q’) potencialmente infinito, ao definirmosum polinômio D(L)=B(L)/A(L) em um modelo zt=”+ D(L)t. É interessante notar que 
há situações em que a ordem de, digamos, C(L) pode menor que A(L). Isto ocorre 
quando as raízes de B(L) são comuns às de A(L). Por exemplo, considere um modelo 
ARIMA(2,0,1) zt=  +0,2zt-1 +0,35zt-2 –0,7t-1+t, que pode ser escrito como (1– 0,2L – 
0,35L
2
) zt=  +(1–0,7L)t. Como as raízes do polinômio A(L) podem ser calculadas 
como 0,7 e –0,5, podemos escrever o modelo como (1– 0,7L)(1+ 0,5L) zt=  +(1–
0,7L)t. Este modelo pode ser escrito como uma ARIMA(1,0,0) da forma zt= ' –0,5zt-1 
+t. 
 
As propriedades estatísticas de um modelo ARIMA(p,d,q) de uma série yt, ou 
ARMA(p,q) de uma série zt podem ser calculadas diretamente. Para o valor esperado 
temos 
E(zt)=/A(1) 
Para o cálculo da variância e co-variâncias, podemos empregar o método Yule-Walker, 
que implica trabalhar com a série com média zero e seguir os seguintes passos: 
a) multiplicar ambos os lado por yt-s (no caso do cálculo da variância, s=0); 
b) aplicar a esperança e calcular os elementos individualmente. 
 
Tome como exemplo o modelo ARMA(2,1) zt= 1zt-1 +2zt-2+t+t-1: 
Eztzt= 1Eztzt-1 +2Eztzt-2+Eztt+Eztt-1 
0=11 +22+
2+ (1+)
2
 
 
Eztzt-1= 1Ezt-1zt-1 +2Ezt-1zt-2+Ezt-1t+Ezt-1t-1 
1=10 +21+0+ 1
2
 
 
Eztzt-2= 1Ezt-2zt-1 +2Ezt-2zt-2+Ezt-2t+Ezt-2t-1 
2=11 +20 
(...) 
s=1s-1 +2s-2 
 
As autocorrelações podem ser calculadas lembrando da expressão s=s/0. A princípio, 
seria possível identificar os parâmetros 1, 2, e  a partir da seqüência de 
autocovariâncias calculadas. Para o caso geral ARMA(p,q), o resultado é 
s=1s-1 +2s-2 + ... +ps-p, para s≥q 
 
 
 
 
 
 8 
Metodologia Box-Jenkins 
 
Box e Jenkins em 1970 sintetizaram uma metodologia para estimar modelos do tipo 
ARIMA em séries de tempo univariadas. A metodologia passa por três etapas: 
i) identificação; 
ii) estimação; 
iii) testes de diagnóstico. 
A etapa de identificação consiste na identificação das ordens p,d e q do modelo. Para 
isto duas ferramentas são usadas: função de autocorrelação (ACF), como também as 
autocorrelações parciais (PACF). 
 
Se a função de autocorrelação parcial é dada pela seqüência de autocorrelações s, as 
autocorrelações parciais s são calculadas controlando as correlações até s-1. O modo de 
calcular estas autocorrelações parciais são através de estimativas por MQ de modelos de 
regressão. A seqüência s s=1,2,..,S é obtida estimando os modelos de regressão 
yt=a+ 1 yt-1 + ut 
yt=a+ c1 yt-1 + 2yt-2 + ut 
yt=a+ c1 yt-1 + c2yt-2 + 3yt-3 + ut 
(...) 
yt=a+ c1 yt-1 + c2yt-2 +...+ syt-s + ut 
Por outro lado, as autocorrelações podem ser estimadas também através de modelos de 
regressão da forma 
yt=a+ 1 yt-1 + ut 
yt=a+ 2yt-2 + ut 
yt=a+ 3yt-3 + ut 
(...) 
yt=a+ syt-s + ut 
 
As propriedades da função de autocorrelação de um modelo ARIMA(p,d,q) foram vistas 
acima. Já as propriedades da PACF de um modelo ARIMA(p,d,q) serão avaliados aqui. 
Para um ARIMA(p,0,0) não é difícil ver que os coeficientes s são os coeficientes j. 
Desta forma, s=0, para s>p. Por outro lado, para um ARIMA(0,0,q), o modelo de 
regressão para estimação de s vem da inversão do polinômio B(L). Desta forma, os j 
começam a decair exponencialmente a partir de s>q. 
 
Um modelo ARIMA(p,0,q) apresenta uma união destas duas características no ACF e 
PACF. 
 
Um comentário importante refere-se à escolha da ordem d. Se uma série possui raiz 
unitária, pode-se mostrar que a função de autocorrelação segue 
s=(t–s)/[(t–s)t]
1/2
 = [(t–s)/t]
1/2
, 
pois V(yt)=t
2
, V(yt-s)= (t–s)
2
 e s=(t–s)
2
. Como t é “grande”por hipótese, s≈1, para 
s pequeno. Mas s cai lentamente. Desta forma, se a ACF de uma série cai lentamente, 
Box e Jenkins sugerem transformar a série, aplicando diferenças no tempo até o ponto 
em que a ACF comece a cair mais rapidamente. 
 
Após decidir a ordem d, e especificar termos determinísticos, como constante, dummies 
sazonais e/ou tendências, o próximo passo passa a ser especificar as ordens p e q, a 
partir da avaliação da ACF e PACF. Resultados estatísticos indicam que V(s)=T
-1
 para 
 9 
s>p e que V(r1)= T
-1
 e V(r1)= T
-1
(1+2 j=1
s-1
 rj2), sob certas hipóteses. Os resultados 
podem ser empregados para avaliar quais termos da ADF e PACF são significativos. 
 
A estimação é feita por Máxima Verossimilhança, supondo erros normais. Mesmo em 
casos relativamente simples, desde que haja um termo MA, a estimação emprega 
métodos não lineares e a função de log-verossimilhança é aproximada, pois não 
observamos os erros, e sim, apenas os resíduos. 
 
Após a estimação vem a etapa de testes de diagnóstico. Dois pontos devem ser 
observados. Primeiro, as ordens devem ser avaliados com folga, para que, através de 
testes de significância, avalie-se que coeficientes não são significativos. Esta conclusão 
também pode ser feita através de testes LR para os diferentes modelos (aninhados). De 
modo alternativo, critérios de informação como o AIC e BIC podem orientar na escolha 
do melhor modelo. 
 
Os critérios de informação AIC e BIC são transofrmações do critério básico de 
avaliação de precisão de previsões, ou seja de qualidade do modelo, incluindo o 
princípio da parcimônia, em que modelos com menos parâmetros e igual capacidade 
explicativa são preferidos a modelos com mais parâmetros e a mesma capacidade 
explicativa. Veja mais abaixo sobre este princípio. Os critérios AIC e BIC (este último 
também conhecido como SIC) são calculados através de AIC=ln(t et
2
/T +2K/T) e 
BIC=ln(t et
2
/T +K/T ln(T)), onde et é o resíduo do modelo estimado, T o número de 
observações utilizadas na estimação e K o número de parâmetros do modelos 
(K=p+q+constantes). O melhor modelo será aquele com menor AIC ou BIC. Quando 
so critérios forem conflitantes, recomenda-se por parcimônia o uso do BIC, mas é um 
critério entre outros. 
 
Segundo, a escolha das defasagens deve ser tal que os resíduos sigam um ruído branco. 
Se testes de autocorrelação como o Breush-Pagan ou as estatísticas Q de Box-Pierce (e 
Ljung e Box) identificarem alguma autocorrelação nos resíduos as ordens de p e q tem 
de ser revistas. O teste de Box-Pierce, para H0: k=0, k=1,...,s é calculado pela 
expressão Q=k=1
s
 rk
2
, e segue 2s. O teste de Ljung e Box é uma correção de pequenas 
amostras para o teste acima, e é calculado por Q= T(T+2)k=1
s
 rk
2
/(T-k). Todavia, como 
teste de especificação, se, por exemplo um ARMA(p,q) é estimado, o teste de 
significância de autocorrelações de ordem s>p+q, segue, em realidade, 2(s-p-q). Um 
problema destes testes é que eles não são construtivos, ou seja, a rejeição de um teste 
não indica se devemos aumentar a ordem p ou a ordem q. Por exemplo, considere um 
modelo (1– a1L)(1+a2L)yt=t. Se estimarmos um ARMA(1,0) apenas, o modelo 
estimado será próximo de (1–(a1–a2)L)yt=ut e os resíduos seguem (1–a1L)(1+a2L)ut= 
(1–(a1–a2)L)t. Claramente os resíduos são autocorelacionados, mas seguem uma 
autocorrelação infinita. 
 
Por fim, um princípio que é observado. Uma justificativa da parcimônia é a situação em 
que a especificação de um polinômio de ordem p*>p, pode gerar polinômios de médias 
móveis, quando nenhum deveria ser especificado. Por exemplo, considere yt=et, ou seja, 
ARIMA(0,0,0). Este modelo é equivalente a um ARIMA (1,0,1), zt= 1zt-1 +t+t-1, 
onde 1= – . Da mesma forma, o modelo ARIMA(0,0,0) é equivalente a um 
ARIMA(0,1,1), sendo que o polinômio B(L) não pode ser invertido. Outro argumento 
para parcimônia é o fato de que um modelo super-parametrizado pode ter muito bom 
desempenho dentro da amostra, mas possui desempenho de previsão fraco fora da 
 10 
amostra, pois o modelo tenta ajustar muito as especificidades dos dados, sem concetrar-
se nos padrões permanentes da série. 
 
 
Previsão 
 
Como mencionado na introdução,o principal objetivo de trabalhar com um modelo 
ARIMA é fazer previsões. Este tipo de modelo é recomendado para previsões de curto 
prazo apenas, por razões que serão claras a seguir. Para previsões de médio e longo 
prazo, modelos multivariados, e/ou estruturais são recomendados. 
 
É importante diferenciar entre previsões dentro da amostra de estimação e fora da 
amostra de estimação. Em geral, para uma dada amostra, várias observações não são 
usadas na estimação e empregadas apenas para fazer a avaliação da capacidade preditiva 
do modelo. Para seleção entre modelos baseados em previsões dentro da amostra, os 
critérios de informação vistos acima são bastante utilizados, já que dentro da amostra as 
estimativas dos parâmetros são ótimas no sentido de minimizar o erro quadratico, pelo 
uso de mínimo quadrados ou Máxima Verossimilhança com erros Gaussianos 
(Normais). Para previsão fora da amostra de estimação outros critérios devem ser 
usados, e novos conceitos explorados. 
 
Dois tipos de previsão fora da amostra de estimaçaõ podem ser considerados: one-step 
forecasts e multistep forecasts, também chamados de static e dynamic forecasts, 
respectivamente. Uma diferenciação entre os termos é a possibilidade empregar valores 
observados ou ter de empregar previsões para calcular previsões. No primeiro caso, de 
previsões estáticas, a previsão de yt+1 usa a informação disponível até t. Em um modelo 
AR(2) 
yt= +1yt-1+2yt-2+t 
a previsão um passo à frente é dada por 
E(yt+1|t)=Etyt+1=ÿt+1 +1yt+2yt-1 
e para yt+2, supondo que yt+1 seja observado 
Et+1yt+2=ÿt+2 +1yt+1+2yt. 
 
Se yt+1 não é observado, temos uma previsão dita dinâmica, que emprega as próprias 
previsões no modelo 
 Etyt+2=ÿt+2 +1Etyt+1+2yt +1ÿt+1+2yt, 
e 
Etyt+3= +1ÿt+2+2ÿt+1. 
(...) 
 
O leitor deve verificar que, à medida que k aumenta em Etyt+k, o valor calculado se 
estabiliza e tende para Eyt, ou seja, a média não condicional de yt. 
 
Para o caso de um modelo com termos de média móvel, o único ajuste necessário é 
incluir os termos de erro defasados, ou seja, por exemplo, para um ARMA(1,1), yt= 
+1yt-1+1t-1+t , 
Etyt+1=ÿt+1 +1yt+1t, 
em que t é substituído pelo resíduo do modelo. Todavia, para valores não observados 
do erro, lembrando que yt+2= +1yt+1+1t+1+t+2, temos 
Etyt+2= +1 Etyt+1+1 Ett+1+ Ett+2 
 11 
Etyt+2= +1 ÿt+1 
Como visto acima, as previsões vários passos a frente não dependem dos erros do 
modelo. O erro do modelo, também conhecido como choque, deve ser distinguido do 
erro de previsão. O erro de previsão é dado por et(1) = yt+1 – Etyt+1, ou ainda et+1(2) = 
yt+2 – Et+1yt+2 e no caso geral, 
et(j) = yt+j – Etyt+j. 
Quando a esperança é tomada com apenas uma defasagem, e com dados observados, o 
erro de previsão é similar ao erro do modelo. No exemplo do AR(2), 
et(1)= yt+1–Etyt+1= yt+1 –ÿt+1 yt+1 –( +1yt+2yt-1)=t+1 
Mas note que 
et(2)= yt+2–Etyt+2=  +1yt+1+2yt+t+2 –( +1Etyt+1+2yt) 
et(2)= 1(yt+1– Etyt+1)+t+2 
et(2)= 1t+1+t+2 
e generalizando, para uma ARMA(p,q) 
et(j)= (B(L)/A(L))t+j. 
onde todos os termos com data t ou menor são zero, pois Ett+k=0, para k≥0. Os erros de 
previsão são não-viesados, pois Etet(j)=0 se tivermos os valores teóricos dos 
parâmetros. Não é difícil ver que Vtet(j)≠0. A variância da previsão aumenta com o 
intervalo que está sendo previsto, isto é, com j. Se t→∞, Vtet(j) → V(yt). 
 
Na prática, não sabemos os valores dos parâmetros. Empregamos apenas estimativas 
dos mesmos, obtidas através de estimadores não viesados. Como as estimativas não são 
exatas, temos o problema do erro das estimativas dos parâmetros influenciando a 
variância dos erros de previsão. Por exemplo, 
et(1)= yt+1–Etyt+1= +1yt+2yt-1+t+1–( a +b1Etyt+ b2yt-1) 
et(1)= (–a) +(1–b1)yt+(2–b2) yt-1+t+1, 
ou 
et(2)= (–a) +(1 yt+1–b1 Etyt+1)+(2–b2) yt+t+2 
 
Em palavras, a variância dos estimadores dos parâmetros influencia a variância do erro 
de previsão. A literatura mostra que é bastante difícil derivar fórmulas fechadas para a 
variância de erro de previsão. Muitas vezes, os softwares usam fórmulas que supõem 
parâmetros conhecidos. 
 
De qualquer forma aqui surge a possibilidade de um modelo estimado de modo mais 
preciso em alguns parâmetros, mesmo que seja de ordem errada, possa ser superior no 
erro de previsão. É um fato estilizado da literatura que o modelo AR(1) consegue os 
menores erros de previsão em vários testes comparativos com outros modelos, mesmo 
sendo erroneamente especificado. 
 
Várias fórmulas que podem ser usadas para fazer avaliação de previsão fora da amostra, 
em adição aos critérios de informação AIC e BIC acima. Elas são a raiz do erro 
quadrático médio (RMSE), o erro absoluto médio (MAE) e o erro relativo absoluto 
médio (MAPE). Para um grupo de M observações previstas, sendo ÿt os valors 
previstos, temos 
RMSE = (t=T+1
T+M
(ÿt – yt)
2
/M) 
RMSE = (t=T+1
T+M
| ÿt – yt |/M) 
RMSE = (t=T+1
T+M
|( ÿt – yt)/yt |/M) 
 
 12 
Outras fórmulas podem ser consideradas, dependendo do objetivo do pesquisador. É 
importante ter claro que o uso de valores esperados como estimativas de previsão seria 
justificado em duas condições apenas: se os custos associados aos erros de previsão 
forem quadráticos e/ou se os dados tiverem uma distribuição Normal. Se estas 
condições não forem verificadas é possível que outros critérios de avaliação e outros 
estimadores (como de mediana condicional) devam ser empregados. Um bom exemplo, 
são custos assimétricos. Por exemplo, no caso de previsão de energia elétrica, 
superestimar a demanda, quando da decisão de investir pode levar a gastos de capital 
imobilizado em excesso; já subestimar a demanda pode levar a um “apagão”e 
racionamento e energia e penalidades por falta de suprimento. Neste contexto, 
dependendo das penalidades, pode ser mais importante prever um percentil alto da 
distribuição, ao invés do valor médio. 
 
Testes para emprego de Primeiras Diferenças – Testes de Raiz Unitária 
 
Os testes de raiz unitária em uma série temporal são importantes para diferenciar séries 
estacionárias de não estacionárias. De modo mais preciso, para diferenciar séries 
estacionárias na tendência (Trend stationary) de séries estacionárias na diferença 
(Difference stationary). No primeiro caso, o uso de uma tendência determinística na 
modelagem é suficiente para retirar a não estacionariedade. No segundo caso, a não 
estacionariedade advém da presença de uma raiz unitária que implica na necessidade de 
aplicar a diferença no tempo para gerar uma série estacionária. 
Em detalhe, uma série trend stationary é da forma yt=+t+t, enquanto uma série 
difference stationary é da forma xt=+xt-1 +t. Ambas as séries apresentam tendência 
em um gráfico, enquanto apenas a segunda é autocorrelacionada. Para visualizar a 
tendência na segunda série, voltemos à solução recursiva da mesma: xt =t+x0+j=0
tt-j. 
A não estacionariedade da série advém da presença de um tendência e principalmente 
da persistência dos choques. Se a constante for zero, a série não apresenta tendência, 
mas ainda será não estacionária. 
 
 Se modelarmos a série estacionária na tendência através da primeira diferença, teremos 
uma série estacionária mas com uma média móvel: 
yt=yt – yt-1= +t+t –(+t-1)+t-1) =>yt=+t –t-1. 
Se modelarmos a série estacionária na diferença através de uma tendência, a série 
continuará não estacionária (sem reversão à média) mesmo que sem uma tendência de 
longo prazo. 
zt= xt – at=x0+j=0
tt-j => zt=zt-1+t 
 
O primeiro teste, e o mais popular para testar a presença de raiz unitária é o teste de 
Dickey e Fuller. Partindo de um modelo AR(1), a idéia é avaliar de o coeficiente 
autoregressivo é igual à unidade ou não através de uma transformação simples do 
modelo 
yt =  yt-1 + t => yt =  –1) yt-1 + t=>yt =  yt-1 + t 
 
A hipótese nula é H0:=0, com Ha:<0, que é equivalente a H0:=1 com Ha:<1. A 
transformação da série é muito didática para mostrar que se não for presente uma raiz 
unitária o crescimento da série depende do patamar do mesmo. Isto gera uma reversão à 
média. Se a série estiver acima da média, a taxa de crescimento tenderá a ser negativa 
( yt-1<0). Já se a série estiver abaixo da média, espera-se a taxa de crescimento 
positiva, fazendo a série voltar para perto do valor médio. 
 13 
A tabela para o teste é diferente da Normal, mesmo em grandes amostras, por causa da 
não estacionariedade sob a hipótese nula. A distribuição também depende da presença 
ou não de termos determinísticos como constante ou tendência. Isto levou à sugestão de 
uma metodologia de teste em que avalia-se o modelo mais geral, com constante e 
tendência e avalia-se se a tendência é significativa. Se não for, repete-se o teste 
utilizando uma regressão apenas com constante como acima. Se a constante não for 
significativa, repete-se o teste utilizando uma regressão sem constante e observa-se o 
resultado do teste neste caso. 
 
Para um modelo autoregressivo de ordem maior, como AR(2), a metodologia é a do 
teste ADF (Dickey-Fuller aumentado). Lembre-se que se há pelo menos uma raiz 
unitária, a soma dos coeficientes autoregressivos é igual a 1. Assim os autores proporam 
o seguinte teste para um modelo yt = 1 yt-1 2 yt-2+ t: 
yt =  yt-1 1 yt-1+ t: 
Verifique as expressões de  e  1. No caso de um AR(3) a regressão de teste seria yt = 
yt-11yt-12yt-2+t: 
 
Como um modelo MA pode ser escrito como AR, o teste ADF pode ser utilizado 
quando a série segue um ARMA(p,q) e quer se verificar se o modelo seria, na verdade 
ARIMA(p-1,1,q). A escolha do número de defasagens da diferença segue os seguintes 
critérios: i) melhor AIC ou SIC; ii) ausência de autocorrelação no correlograma dos 
resíduos; iii) significância das defasagens da diferença. 
 
O teste ADF embora muito popular pela sua simplicidade, é criticado pelo seu baixo 
poder (dificuldade de rejeitar uma hipótese nula falsa), ou seja tende a indicar a 
presença de raiz unitária quando em verdade ela não existe. Várias alternativas foram 
propostas, como o teste PP e ADF-GLS. Alternativas que partem de um modelo 
econométrico diferente, buscando testar a presença de raiz unitária (não 
estacionariedade) é o teste KPSS, cuja hipótese nula é de estacionariedade (não raiz 
unitária). 
 
Modelos com variáveis explicativas – Modelos Dinâmicos 
 
Fazer a previsão de uma série usando apenas a própria série (e informação qualitativa 
disponível, como sazonalidade) é limitar de modo significativo o conjunto de 
informações disponíveis. O mais razoável é considerar que existem variáveis xt que 
influenciam a variável yt. Desta forma o modelo ARIMA passa a ser chamado de função 
de transferência por alguns autores e passa a ser escrito como 
 
A(L) yt=a+C(L)xt+B(L)t. 
 
Teoricamente, para estimação por MQ ser válida, E(xt t-s)=0 para s≥0, ou seja, xt é 
(fracamente) exógeno em relação à equação que está sendo estimada. Algumas vezes, xt 
é dito um indicador antecedente de yt. Um outro problema que deve ser tratado, se a 
estimação é por MQ é a existência de correlação serial nos erros e uma variável 
dependente defasada como explicativa. Neste caso, a estimação deve ser feita por 
variáveis instrumentais ou deve-se buscar a reespecificação dinâmica do modelo. 
 
 14 
Antes de passarmos para o modelo dinâmico, vale a pena revisar a análise da dinâmica 
temporal em um modelo de regressão yt=+xt+t , em geral, estudada a partir da 
autocorrelação dos erros t. 
 
A autocorrelação é apresentada como a violação da hipótese: E [t. t-s] = 0, para s > 0, 
como por exemplo, t=t-1+ut, onde ut é ruído branco. Neste caso E(´)=Ω≠I. Como 
esta hipótese é importante para demonstrar que V(b)=2(X´X)-1, se violarmos a hipótese 
de independência dos erros, os pacotes estatísticos irão errar no cálculo do desvio 
padrão dos coeficientes e errar nos valores dos testes de hipótese. Este é o principal 
problema da autocorrelação. O estimador de MQO ainda irá gerar estimativas não –
viesadas, embora não mais eficientes (supondo a ordem de autocorrelação). 
 
Na verdade, V(b) = (X´X)
-1
X´ΩX(X´X)
-1
, onde Ω é uma matriz complexa (desenvolvida 
abaixo). Para identificar o problema, é necessário fazer testes de especificação. Este é o 
diagnóstico. Os testes mais comuns são os de Durbin-Watson e de Breush-Godfey. O 
uso do correlograma para os resíduos não é recomendado, embora indicado em alguns 
livros, pois as propriedades estatísticas do correlograma são conhecidas apenas para 
uma série observada, ao invés de uma série estimada, como os resíduos de uma 
regressão. 
 
Para entender o teste, vamos especificar uma forma de classificação dos erros 
autorregressivos. Há o caso geral de t = 1 t-1 +2 t-2 + +p t-p + ut chamado de 
modelo autoregressivo de ordem p (AR(p)), como visto acima. A regressão é sem 
constante, pois se mantém a hipótese de que E[t]=0. 
 
Para o caso especial de p=1, o modelo AR(1) para a variável t é dado por t =  t-1 + 
erro, e a ausência de autocorrelação está associado ao parâmetro : H0: não há 
autocorrelação, => Ho:  = 0. 
 
O teste de DW possui uma tabela específica, e o teste é calculado por 
DW = 
 
 r
e
eeT
t T
t t
tt 





 12~
2
1
2
2
1 
onde r = Tt=2(et - et-1)
2
/(tet-1
2
), ou seja, uma regressão do resíduo em função do 
resíduo defasado um período. A regra de decisão é :Rejeitamos Ho se DW < D (Lower); 
Aceitamos Ho se DW > D (Upper) e Inconclusivo se D (lower) < DW < D (upper), 
onde D(upper) e D(lower) são os valores tabulados. 
 
Para o teste de Breusch-Godfrey, estimamos uma regressão do resíduo contra o residuo 
defasado p vezes e as explicativas e fazemos um teste F da significância dos 
coeficientes angulares dos resíduos defasados. Obs: se as explicativas não incluem a 
dependente defasada yt-1, então o teste pode ser calculado da regressão de et contra et-1, 
....,et-p apenas e pode-se usar o F de significância. 
 
Para entender melhor a matriz de variância-covariância dos coeficientes de regressão, 
tomemos o caso de um modelo de regressão com erros AR(1), escrita em : Y = X 
 + , com t =  t-1 + ut, onde ut ~ iid (0, 
Temos que b = (X´X)-1 X´Y, como 
sempre, mas V(b) ≠  (X´X)-1 e na verdade, V(b) = (X´X)-1X´ΩX(X´X)-1, onde 
 15 
Ω = E [´] = E 
















2
1
2
212
121
2
1
..
..
..
nn
n



 
 
Ω = u/(1-

)



















1
..
..
1
..1
21
2
1




TT
T
T
. 
 
As soluções para obter boas estimativas de  e estimativas de V(b) corretas são, 
primeiro, o uso de uma matriz de variância-covariância que acomoda a Autocorrelação 
(também chamada matriz de Newey-West, e apresentada como opção nos softwares na 
estimação por MQ); segundo o uso de MQG, através de transformação das variáveis 
explicativas e explicada. Ou seja, como em heterocedasticidade, o problema matemático 
para encontrar os coeficientes da regressão usando MQ é Min (Y - X)´ Ω-1(Y - X), que 
gera estimativas bGLS = (X´ Ω 
-1
X) (X´ Ω 
–1
Y), com V(bGLS) = (X´ Ω 
-1
X)
-1
. Estas podem 
ser obtidas através de bGLS = (X
*
´X
*
)
 -1
(X
*
´Y
*
), onde X
* 
= PX Y
*
 = PY e onde P´P=Ω
–1
. 
Para o caso de autocorrelação de primeira ordem (para regressão simples) 
 
X
*
 = 
























1
23
12
)1(
..
..
)1(
)1(
TT rxxr
rxxr
rxxr
 Y
* 
 = 



















1
12
.
.
TT ryy
ryy
 
 
As variáveis são ditas em quase-diferenças, pois ao invés de ser utilizado yt=yt–yt-1, 
emprega-se yt–ryt-1, onde r é a estimativado coeficiente de autoregressão de 1ª ordem 
dos erros. As quase-diferenças seriam equivalentes a estimar um modelo com as 
variáveis em primeiras diferenças apenas no caso em que r=1, o que indicaria erros não 
estacionários. Este caso exige um tratamento especial da autocorrelação como veremos 
abaixo. 
 
Há dois modos alternativos a MQG. O primeiro é o método de Máxima 
Verossimilhança, que envolve uma estimação não linear do modelo de regressão com 
autocorrelação. O segundo é uma Transformação do Modelo de Regressão. Tomando o 
exemplo de regressão simples, 
yt =  +  xt+ t e t =  t-1 + ut (§) 
onde ut ~ iid (0, 
et = 1,..., T

Substituindo t = yt -  -  xt na segunda equação, temos: 
 16 
yt –  –  xt =  (yt-1 –  –  xt-1) + ut 
 
(*)yt = – yt-1 +  xt –   xt-1 + ut 
 
(**)yt = 
 yt-1 +  xt +  xt-1 + ut 
 
O termo não observado (ut ) nos modelos (*) e (**) são independente no tempo, i.e., não 
possuem autocorrelação. Por isto, podem ser estimado por MQO sem problemas, sob a 
hipótese de exogeneidade (não correlação contemporânea entre a explicativa e o termo 
de erro) usual do modelo de regressão. 
 
Note que se  , o modelo (*) pode ser escrito como (§), sendo então o modelo 
de regressão com autocorrelação de 1ª ordem um caso especial de um modelo mais 
geral. O modelo (**) é chamado ADL(1,1) – Autoregressive Distributed Lag de ordem 
1 e 1. 
 
O teste de COMFAC (common factor) é um teste para avaliar se um modelo dinâmico 
(**) pode ser escrito como um modelo estático com erro autoregressivo (§). O modelo 
autoregressivo (onde COMFAC é válido, isto é  ) apresenta uma peculiaridade 
em relação aos efeitos de curto e longo prazo [qual?]. Esta peculiaridade nos permite 
identificá-los. O teste COMFAC é não linear e recomenda-se que seja feito via um teste 
de razão de verossimilhança Q=–2[loglikADL(p,p) – loglikAR(p)], que segue uma 
distribuição qui-quadrado com p graus de liberdade. 
 
Muito freqüentemente séries econômicas apresentam forte autocorrelação, associadas a 
presença de tendências ou demora para reversão à “média de longo prazo”. Nestes casos 
de séries não estacionárias, os modelos de regressão apresentam erros com fortíssima 
autocorrelação. No caso extremo ||=1, ou seja o processo autoregressivo apresenta raiz 
unitária. Esta forte autocorrelação pode levar a conclusões de inferência errônea, pois os 
estimadores apresentam distribuição limite diferente da Normal. Desta forma, deve-se 
testar, além da presença de autocorrelação, a ausência de autocorrelação extrema, 
através do teste de co-integração dos resíduos de uma regressão com séries com 
tendência estocástica. O teste de cointegração possui uma tabela específica, apresentada 
por Engle e Granger (ganhadores do prêmio Nobel em Economia). 
 
É importante testar co-integração para evitarmos o problema de regressão espúria. De 
acordo com Granger e Newbold, uma regressão é espúria quando, erroneamente, o 
modelo e testes estatísticos sugerem uma correlação entre variáveis quando em 
realidade tal correlação não existe. Os autores mostraram que a regressão de dois 
passeios aleatórios não correlacionados terá testes de significância do coeficiente de 
regressão próximos a 2 com chance bem acima do nível de significância. Um sintoma 
seria um R
2
 maior que a estatística Durbin-Watson. 
 
O teste Engle-Granger é realizado em duas etapas: i) estima-se o modelo de regressão 
estático, sem correção para autocorrelação e salvam-se os resíduos; ii) procede-se a um 
teste de raiz unitária com a metodologia do teste ADF, mas utilizando uma tabela 
específica de valores críticos. A hipótese nula é de não-cointegração, ou seja =1. 
 
Se o teste de não-cointegração não for rejeitado, deve-se estimar o modelo com as 
variáveis em diferenças (taxas de variação). 
 17 
yt =  +  xt+ t e t = ut (FD) 
Se o teste de não-cointegração for rejeitado, deve-se estimar o modelo na forma de 
modelo de correção de erros descrito acima: 
yt =  +  xt+ t e t =( –1)t-1 + ut 
yt =  +  xt+ ( –1)t-1 + ut 
yt =  +  xt+  ( yt-1 –  –  xt-1) + ut (ECM) 
 
Há outros dois tipos de teste de cointegração. O segundo, explora o modelo ADL e o 
terceiro a estimação por um VAR. Vejamos agora o modelo ADL em detalhe. 
 
Como visto acima, o caso mais simples de modelo dinâmico é 
yt = yt-1 +xt + xt-1 + ut 
onde ut ~ (0, 
2
u). Este é um modelo ADL (1,1) ou Autoregressive Distributed Lags 
(1,1). O caso geral de ADL(p,q) é 
yt = yt-1 ++ pyt-pxt + … + qxt-q +ut 
 
A partir de um ADL(1,1) podemos avaliar os impactos de curto e longo prazo de x sobre 
y. Para o ADL(1,1), eles são, respectivamente, 0 e (0+1)/(1–). Em mais detalhe, os 
coeficientes podem ser interpretados a partir das seguintes expressões: 
 
E [yt| yt-1, xt, xt-1] = 
 yt-1 +  xt –  xt-1 
∂E[yt| . ]/∂xt =  (efeito de curto prazo
limt->∞ ∂E[yt| . ]/∂xt = ((efeito de longo prazoonde || < 1 
 
Para entender, lembre-se que, no steady-state (longo prazo), yt = yt-1 = .. = y e xt = xt-1 
= .. = x na média da regressão. Substituindo na expressão da média condicional, 
y = + y+  x – x e y = x 
 
Há uma forma alternativa de representar os efeitos de curto e longo prazo em um 
modelo dinâmico, que seria o modelo de correção de erros (MCE ou ECM em inglês). 
Da equação acima é possível chegar na equação 
yt =  + xt - (1-)[yt-1 - xt-1] +ut 
 
onde yt =yt -yt-1. O coeficiente , como acima, mede o efeito de curto prazo. Já o 
coeficiente  mede o efeito de longo prazo, onde: +(1-. A demonstração é 
a seguinte: 
yt =  + yt-1 + xt + xt-1 + ut 
yt =+yt-1+xt+xt-1+ut +(yt-1-yt-1)+(xt-1-xt-1) 
yt - yt-1 =  -(1-yt-1+xt-xt-1+xt-1+xt-1+ut 
yt =  -(1-yt-1 + xt + (+xt-1 + ut 
yt = -(1-yt-1+xt+(1-(1-

(+xt-1+ut 
yt =  + xt - (1-)[yt-1 - xt-1] + ut 
 
Para estimar o MCE, no lugar do termo em colchetes, estimamos o modelo estático, yt 
=  + xt + t , salvamos o resíduo e usamos no MCE o resíduo daquela regressão 
defasado um período, pois observe que t =yt -xt - , então t-1=yt-1-xt-1- . Esta forma 
de estimação remete ao teste de cointegração de Engle-Granger. Outra forma, sem 
imposição de restrições sobre os coeficientes, envolve estimar 
yt =  + xt +1

yt-1 - 2

xt-1 + ut. () 
 18 
 
Note que no MCE se =1 isso implica que a velocidade de ajustamento (1 –)=0. Ou 
seja, choques passados não são ajustados na trajetória de longo prazo entre y e x. Em 
outras palavras, não há relação de longo prazo entre o valor das variáveis, apenas uma 
relação entre as taxas de crescimento. Como mencionado, o conceito de relação de 
longo prazo entre duas variáveis também é conhecido como co-integração, quando as 
variáveis, individualmente, são não-estacionárias. Isto implica que uma combinação 
linear das variáveis é estacionária. 
 
Por várias razões, inclusive o viés dos estimadores em pequenas amostras (mesmo 
havendo consistência nos estimadores em amostras infinitas), a tabela para teste de 
cointegração não é a tabela t. Há várias tabelas dependendo do teste. O mais comum é o 
teste Engle-Granger visto acima. Um menos comum, mas ainda baseado em um modelo 
de apenas uma regressão, é o teste do termo de correção de erros (teste ECM). Um 
terceiro, mais complexo, é o teste de Johansen. 
 
O teste de co-integração via ECM envolve estimar () e utilizar uma tabela específica 
para um teste de significância de *1,utilizando uma tabela de valores críticos 
específicos, apresentado em Ericsson e MacKinnon (2002). 
 
 
 
 
 
Referências 
 
BUENO, R. L. Econometria de Séries Temporais. São Paulo: Cengage, 2009. 
ENDERS, W.Applied Econometric Time Series, 3
rd
 Ed. New York:Willey, 2011 
ERICSSON, N. e MACKINNON, J. (2002) Distributions of error correction tests for 
cointegration. Econometrics Journal 5, 285-318. 
GRANGER, C. e NEWBOLD, Forecasting Economic Time Series. San Diego: 
Academic Press, 1986. 
MADDALA, G.S. Introdução à Econometria 3ª Ed. Rio de Janeiro:LTC, 2003. 
WOOLDRIDGE, J. Introdução à Econometria 2ª Ed. São Paulo:Cengage, 2010.

Outros materiais