Séries Temporais - Apostilas

•
UENF

Samara
29/06/2019
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 66 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 66 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 66 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Métodos Estatísticos

1.224 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
1 
 
SÉRIES TEMPORAIS 
(GURAJATI, D.N., Econometria Básica, Terceira Edição. Pearson & Makron Books, 2000) 
 
Uma série temporal é “um conjunto de observações dos valores que uma variável 
assume em diferentes momentos”. Os dados, tipicamente, coletam-se a intervalos 
regulares (diariamente, semanalmente, trimestralmente, etc.) e podem ser 
quantitativos (por exemplo, renda, preços, temperatura, vendas, etc.) ou qualitativos 
(por exemplo, gênero, estado civil, nível de educação, etc.) – estas variáveis, também 
se denominam de variáveis dummy ou categóricas. 
Uma série temporal será denotada por 
{𝑌𝑡}𝑡=1
𝑇 ≔ {𝑌1, 𝑌2, … , 𝑌𝑇}. (1) 
A maioria dos modelos em séries temporais assume que estas são estacionárias, o 
que, grosso modo, significa que a média e a variância das variáveis 𝑌𝑡 não se alteram 
com o tempo. (Capítulo 1). 
Nos modelos de regressão envolvendo dados de séries temporais, se o modelo incluir 
dados atuais e defasados das variáveis explicativas (𝑋𝑡), denomina-se modelo de 
defasagem distribuída; se o modelo incluir um ou mais valores da variável dependente 
(𝑌𝑡) entre as variáveis explicativas, denomina-se modelo auto-regressivo (Capítulo 17). 
Assim, 
𝑌𝑡 = 𝛼 + 𝛽0𝑋𝑡 + 𝛽1𝑋𝑡−1 + 𝛽2𝑋𝑡−2 + 𝑢𝑡 (2) 
representa um modelo de defasagem distribuída; já 
𝑌𝑡 = 𝛼 + 𝛽𝑋𝑡 + 𝛾𝑌𝑡−1 + 𝑢𝑡 (3) 
é um modelo auto-regressivo (também chamado de modelo dinâmico, pois estabelece 
o valor atual da variável dependente em função de valores passados), onde 𝑢𝑡 é um 
erro aleatório na determinação de 𝑌𝑡 pelas variáveis explicativas (tipicamente 𝑢𝑡 se 
assume distribuída normalmente, com média 0 e variância constante). 
Modelos auto-regressivos de defasagem distribuída são usados com frequência, pois é 
raro que a dependência de uma variável 𝑌 (variável dependente) em relação a outra 
ou outras variáveis 𝑋 (variável explicativa) seja instantânea. Ocorre que 𝑌 reage a 𝑋 
com um lapso de tempo, denominado defasagem (“lag”) 
Assim, o modelo: 
𝑌𝑡 = 𝛼 + 𝛽0𝑋𝑡 + 𝛽1𝑋𝑡−1 + 𝛽2𝑋𝑡−2 + ⋯ + 𝛽𝑘𝑋𝑡−𝑘 + 𝑢𝑡 (4) 
Usuario
Nota
Usuario
Nota
Usuario
Nota
aleatória
Usuario
Nota
Accepted definida por Usuario
Usuario
Nota
Accepted definida por Usuario
Usuario
Realce
Usuario
Realce
arica
Nota
ou artificiais
2 
 
denomina-se modelo de defasagem distribuída com defasagem finita de período k. O 
coeficiente 𝛽0 denomina-se multiplicador de curto prazo ou de impacto, pois dá a 
alteração do valor médio de 𝑌 devido à alteração de uma unidade de 𝑋 no mesmo 
período de tempo (tecnicamente, 𝛽𝑖 = 𝜕𝑌𝑡 𝜕𝑋𝑡−𝑖⁄ ). Se a alteração em 𝑋 se mantiver 
unitária depois disso, a alteração média de 𝑌 será (𝛽0 + 𝛽1) no período (𝑡, 𝑡 − 1), 
(𝛽0 + 𝛽1 + 𝛽2) no período (𝑡, 𝑡 − 1, 𝑡 − 2) e assim por diante. Essas somas parciais se 
denominam multiplicadores ínterim (ou intermediários). Depois de k períodos, tem-se 
∑ 𝛽𝑖 = 𝛽
𝑘
𝑖=1 , · (5) 
denominado multiplicador de defasagem distribuída de longo prazo ou total (desde 
que exista a soma 𝛽, como será discutido depois). A expressão 
𝛽𝑖
∗ =
𝛽𝑖
∑ 𝛽𝑖
𝑘
𝑖=1
=
𝛽𝑖
𝛽
, · (6) 
denomina-se 𝛽𝑖 “padronizado”, cujas somas parciais dão a proporção de impacto a 
longo prazo (ou total) sentido em um certo período de tempo. 
 
SÉRIES TEMPORAIS: ESTACIONARIEDADE, RAIZES UNITÁRIAS E COINTEGRAÇÃO 
(CAPÍTUO 21) 
Os modelos de séries temporais trabalham com a hipótese e de que as séries são 
estacionárias. Discutir-se-á agora o significado de estacionariedade. 
Por outo lado, ao regredir uma variável de uma série temporal sobre outra variável de 
série temporal, muitas vezes se obtém valores de 𝑅2 muito altos, embora não exista 
relação real entre as duas variáveis (relação espúria). Isto acontece se o 
comportamento das séries for parecido (fortes tendências análogas, movimentos 
ascendentes ou descendentes continuados). O 𝑅2 alto se deve, nesse caso, à presença 
da tendência, mas não a uma verdadeira relação entre elas. Portanto é necessário 
estabelecer se a relação entre variáveis de uma série temporal é verdadeira ou 
espúria. Ver-se-á como pode surgir uma relação espúria se a serie temporal não for 
estacionária. 
Por fim, desde que os modelos de séries temporais são usados para previsão, vamos 
discutir se a previsão é valida quando a série temporal não for estacionária. 
 
 
 
 
3 
 
21.1 UM EXAME DE SÉRIES TEMPORAIS SELECIONADAS DOS EUA 
Para estabelecer alguns conceitos associados a séries temporais, examinar-se-ão dados 
de séries temporais econômicas dos EUA, fornecidos na Tabela 21.1. 
 
onde GDP é o Produto Interno Bruto (PIB), PDI é a Renda Pessoal Disponível (RPD), PCE 
é a Despesa Pessoal de Consumo (DPC), Profits é Lucros e Dividend é Dividendos. 
 
PIB Renda Pessoal Disponível Despesa Pessoal de Consumo 
4 
 
A Fig. 21.1 mostra um diagrama das séries temporais para PIB, RDP e DPC da Tabela 
21.1 e a Fig. 21.2 as outras duas séries temporais. A representação gráfica dos dados é 
o primeiro passo da análise de uma série temporal. Como se nota da Fig. 21.1 e Fig. 
21.2 é que elas parecem tender para cima, embora não seja uniforme, especialmente 
no caso dos Lucros. As séries mostradas correspondem a séries temporais não 
estacionárias, como se explica a seguir. 
 
 
 
5 
 
21.2 PROCESSO ESTOCÁSTICO 
Um processo estocástico ou aleatório é uma coleção de variáveis aleatórias ordenadas 
no tempo (“estocástico” vem do grego στόκος -“stóchos”-, que significa alvo, e alude à 
distribuição aleatória dos dardos no tabuleiro de tiro ao alvo). 
 
Seja 𝑌 uma variável aleatória que depende do tempo, se for contínua, sues valores se 
denotam por 𝑌(𝑡); já se for discreta, denotam-se por 𝑌𝑡. A leitura de um 
eletrocardiograma exemplifica uma variável aleatória contínua, já o PIB, o RPD, etc. da 
Tabela 21.1 são exemplos de variáveis discretas. Desde que se trabalhará com dados 
colecionados em tempos discretos, usar-se-á a notação {𝑌𝑡}𝑡=1
𝑇 (ou 𝑌𝑡.) ao invés de 
𝑌(𝑡). Assim, se 𝑌 é o PIB da Tabela 21.1, os dados correspondem a {𝑌𝑡}𝑡=1
88 =
𝑌1 , 𝑌2, 𝑌3, … , 𝑌86 , 𝑌87, 𝑌88}, onde os subíndices denotam a ordem em que os dados 
foram tomados no tempo: 1 para o primeiro trimestre de 1970 e 88 para o quarto 
trimestre de 1991. Lembre que cada uma dessas 𝑌′𝑠 é uma variável aleatória. 
 
Em que sentido se considera o PIB como um processo estocástico? Considere, por 
exemplo, o valor do PIB de 1970-I ($2.872,8 bilhões). Teoricamente, o valor do PIB 
para o primeiro trimestre de 1970 poderia ter tido qualquer valor, dependendo das 
condições econômicas prevalecentes na época. O valor de 2.872,8 é uma realização 
(i.e., uma amostra) de todas essas possibilidades. Assim, pode-se dizer que o PIB é um 
processo estocástico e que os valores obtidos na Tabela 21.1 são uma realização 
particular desse processo (uma amostra). A distinção entre processo estocástico e sua 
realização é análoga à distinção entre população e amostra. Da mesma forma na que 
se usam as amostras para fazer inferências sobre a população, em séries temporais 
usam-se as realizações para fazer inferências sobre o processo estocástico subjacente. 
 
Processo Estocástico estacionário 
Grosso modo, um processo estocástico se diz estacionário (fracamente ou na 
covariância ou de segunda ordem ou no sentido amplo) se suas média e variância 
forem constantes ao longo do tempo e o valor da covariância entre dos períodos de 
tempo depender apenas da distância ou defasagem entre os dois períodos e não do 
período do tempo específico no que se calcula a covariância. 
Considere 𝑌𝑡 uma série temporal estocástica. Diz-seque a série temporal é 
estacionária (fracamente) se, para todo valor de t, cumprem-se as seguintes 
propriedades: 
6 
 
Média: 𝐸(𝑌𝑡) = 𝜇 (7) 
 Variância: 𝑣𝑎𝑟(𝑌𝑡) = 𝐸(𝑌𝑡 − 𝜇)
2 = 𝜎2 (8) 
 Covariância: 𝛾𝑘 = 𝐸[(𝑌𝑡 − 𝜇)(𝑌𝑡+𝑘 − 𝜇)], 𝑘 = 1, 2, … (9) 
 
onde 𝛾𝑘, a covariância (ou autocovariância) na defasagem k, é a covariância entre os 
valores de 𝑌𝑡 e 𝑌𝑡+𝑘; i.e., entre dois valores de 𝑌 separados por k períodos. Para k=0, 
𝛾0 = 𝜎
2; para k=1, 𝛾1 = covariância entre dois valores adjacentes de 𝑌𝑡. As séries 
temporais estacionárias têm média, variância e autocovariâncias (em qualquer 
defasagem) que não variam independentemente do ponto em são medidas; i.e., são 
invariantes no tempo. 
 
Uma série temporal que não satisfaz alguma das propriedades anteriores, diz-se série 
temporal não estacionária (fracamente). Tais séries podem ter médias ou variâncias 
(ou ambas) que variam com o tempo. Note que as séries temporais das Fig. 21.1 e 21.2 
parecem ser não estacionárias, já que as médias e/ou as variâncias parecem variar no 
tempo. Por que é importante a estacionariedade de uma série temporal? Porque se 
não o for, só poderá ser estudada no período de tempo em consideração. Cada 
período diferente será uma nova série. Portanto, não será possível generalizar seu 
comportamento. 
 
Come estabelecer se uma dada série é não estacionária? Veremos alguns testes mais 
adiante. 
 
Por enquanto é conveniente introduzir um tipo de série temporal (processo 
estocástico) especial, denominado processo puramente aleatório ou de ruído branco: 
processo aleatório com média zero, variância constante 𝜎2 e não autocorrelacionado1. 
Lembrar que os erros no modelo de regressão linear supõem-se independentes 
normalmente distribuídos, com média zero e variância constante (o que se denota por 
𝑢𝑡~𝑁𝐷𝐼𝐼(0, 𝜎
2); i.e., os 𝑢𝑡estão normalmente distribuídos, independentemente e 
identicamente); assim, resultam ser ruído branco. 
 
1 A correlação (ou autocorrelação) na defasagem k, 𝜌𝑘, define-se como: 
𝜌𝑘 =
𝐸[(𝑌𝑡 − 𝜇)(𝑌𝑡+𝑘 − 𝜇)]
√𝑣𝑎𝑟(𝑌𝑡)√𝑣𝑎𝑟(𝑌𝑡+𝑘)
=
𝛾𝑘
√𝑣𝑎𝑟(𝑌𝑡)√𝑣𝑎𝑟(𝑌𝑡+𝑘)
 
7 
 
Processo Estocástico estacionário 
Mesmo sendo o interesse nas séries estacionárias, com frequência se encontram séries 
não estacionárias. Um exemplo clássico é o modelo do caminho aleatório (comparado 
com o andar de um bêbado que sai do bar; ele anda uma distância 𝑢𝑡, no tempo t, e se 
continuar a andar indefinidamente, no final irá vagar cada vez mais longe do bar). 
Tipicamente, o preço das ações na bolsa de valores segue um caminho aleatório, uma 
série temporal não estacionária. Distinguem-se dois tipos de caminho aleatório: (1) 
sem deslocamento e (2) com deslocamento. 
Caminho aleatório sem deslocamento. Considere que 𝑢𝑡 é um termo de erro de ruído 
branco com média zero, variância constante 𝜎2. A série 
𝑌𝑡 = 𝑌𝑡−1 + 𝑢𝑡 (10) 
Denomina-se caminho aleatório sem deslocamento. Note que (10) é um modelo auto-
regressivo de primeira ordem (AR(1), ver relação (3)); i.e., pode-se entender o valor da 
variável 𝑌 no tempo t como a regressão do seu valor defasado um período. 
De (10), pode-se escrever: 
𝑌1 = 𝑌0 + 𝑢1 
𝑌2 = 𝑌1 + 𝑢2 = 𝑌0 + 𝑢1 + 𝑢2 
𝑌3 = 𝑌2 + 𝑢3 = 𝑌0 + 𝑢1 + 𝑢2 + 𝑢3 
Em geral, o processo começa no tempo o com valor 𝑌0. Assim, 
𝑌𝑡 = 𝑌0 + ∑ 𝑢𝑡 (11) 
Logo, 
𝐸(𝑌𝑡) = 𝐸(𝑌0 + ∑ 𝑢𝑡) = 𝑌0 (12) 
Analogamente, 
𝑣𝑎𝑟(𝑌𝑡) = 𝑡𝜎
2 (13) 
Como as relações anteriores mostram, a média de 𝑌 é constante, mas a variância 
muda com o tempo. Assim, o caminho aleatório sem deslocamento é um processo 
estocástico não estacionário. Com frequência, 𝑌0 = 0, resultando 𝐸(𝑌𝑡) = 0. 
Uma característica interessante do caminho aleatório é a persistência do choque 
aleatório (note, de (11), que o valor atual pode ser interpretado como o valor inicial 
mais uma soma de erros – choques – aleatórios). Assim, se eventualmente 𝑢2 = 2, ao 
invés de 𝑢2 = 0, por exemplo, todos os valores de 𝑌𝑡, a partir de 𝑡 = 3, serão 
8 
 
deslocados 2 unidades (o efeito do choque não morre nunca). Diz-se que o caminho 
aleatório tem memória infinita. 
Interessantemente, se se escreve (10) como: 
𝑌𝑡 − 𝑌𝑡−1 = ∆(𝑌𝑡) = 𝑢𝑡 , (14) 
onde ∆ é o operador diferença de primeira ordem, pode-se provar facilmente que o 
processo estocástico 𝑌𝑡 − 𝑌𝑡−1 é estacionário; i.e., que as primeiras diferenças da série 
temporal caminho aleatório resulta numa série temporal estacionária. 
Caminho aleatório com deslocamento. Considere a modificação de (10) como segue 
𝑌𝑡 = 𝛿 + 𝑌𝑡−1 + 𝑢𝑡, (15) 
onde 𝛿 se conhece como parâmetro de deslocamento. O nome deslocamento vem do 
fato de que (15) pode ser escrito como 
𝑌𝑡 − 𝑌𝑡−1 = ∆𝑌𝑡 = 𝛿 + 𝑢𝑡, (16) 
Note que (15) também é um modelo AR(1). 
Como antes, pode-se provar que: 
𝐸(𝑌𝑡) = 𝑌0 + 𝑡𝛿 (17) 
𝑣𝑎𝑟(𝑌𝑡) = 𝑡𝜎
2 (18) 
Observe que o neste caso, tanto a média como a variância aumentam com o tempo, 
novamente violando as condições de estacionariedade (fraca). 
Para dar uma idéia do caminho aleatório, foram conduzidas duas simulações. A 
primeira simulação para: 
𝑌𝑡 = 𝑌𝑡−1 + 𝑢𝑡 (19) 
onde 𝑢𝑡~𝑁(0,1). De um gerador de números aleatórios, obtiveram-se 500 valores 
para 𝑢 e geraram-se os valores de 𝑌𝑡 como em (19), para 𝑌0 = 0. Assim, (19) resulta 
um caminho aleatório sem deslocamento. 
A segunda simulação para: 
𝑌𝑡 = 𝛿 + 𝑌𝑡−1 + 𝑢𝑡, (20) 
um caminho aleatório com deslocamento, com 𝛿 = 2 e 𝑢𝑡 e 𝑌0 como em (19). 
Os gráficos dos modelos (19) e (20) se mostram nas Fig. 21.3 e 21.4, respectivamente. 
Podem-se comparar esses diagramas à luz da discussão do caminho alaeatório sem e 
com deslocamento. 
9 
 
O modelo de caminho aleatório é um exemplo do que se conhece como processo de 
raiz unitária. Desde que esse termo tem ganhado relevância na literatura de séries 
temporais, explica-se em que consiste um processo de raiz unitária. 
 
10 
 
21.4 PROCESSOS ESTOCÁSTICOS DE RAIZ UNITÁRIA 
Considere o processo de caminho aleatório (10) como 
𝑌𝑡 = 𝜌𝑌𝑡−1 + 𝑢𝑡, −1 ≤ 𝜌 ≤ 1. (21) 
Se 𝜌 = 1, (21) é o modelo de caminho aleatório sem deslocamento. Se perguntamos 
se 𝜌 é 1, tem-se o problema de raiz unitária, que uma situação de não 
estacionariedade (que como já sabemos é o caso no que a variância é não 
estacionária). O nome raiz unitária se deve ao fato de que 𝜌 = 1: 
Nesse caso, (21) pode ser escrito como 𝑌𝑡 − 𝑌𝑡−1 = 𝑢𝑡; assim, usando o operador 
defasagem 𝐿, definido por 𝐿𝑌𝑡 = 𝑌𝑡−1, 𝐿
2𝑌𝑡 = 𝑌𝑡−2 e assim por diante, pode-se 
escrever (21) como (1 − 𝐿)𝑌𝑡 = 𝑢𝑡, onde o termo raiz unitária se refere à raiz do 
operador defasagem: fazendo (1 − 𝐿) = 0, obtém-se 𝐿 = 1, raiz unitária. 
Portanto, os termos não estacionariedade e raiz unitária se tratam como sinônimos. 
Entretanto, se |𝜌| < 1, pode-se provar que a série temporal 𝑌𝑡 é estacionária (no 
sentido fraco): considerando, em (21), 𝑌0 = 0, |𝜌| < 1 e 𝑢𝑡 ruído branco, com média 
zero, variância unitária e normalmente distribuído, tem-se que 𝐸(𝑌𝑡) = 0 e 
𝑣𝑎𝑟(𝑌𝑡) = 1 (1 − 𝜌
2)⁄ ; assim, 𝑌𝑡 resulta estacionária. 
Na prática, é importante estabelecer se uma dada serie temporal possui raiz unitária. 
Mais adiante se estabelecerão alguns testes de raiz unitária (i.e., teste de 
estacionariedade). 
21.5 PROCESSO ESTOCÁSTICO DE TENDÊNCIA ESTACIONÁRIA (TE) E ESTACIONÁRIO 
EM DIFERENÇAS (ED) 
A diferença entre um processo estocástico (ou uma série temporal) ser estacionário ou 
não estacionáriotem importância crucial sobre se a tendência (o comportamento da 
evolução de longo prazo da série temporal em consideração), observada nas séries 
temporais construídas nas Fig. 21.3 e 21.4 ou nas séries temporais econômicas das Fig. 
21.1 e 21.2, é determinística ou estocástica. Grosso modo, se a tendência numa série 
temporal é completamente previsível e não variável, chama-se tendência 
determinística; entretanto, se não é previsível, chama-se tendência estocástica. 
Tipos de Tendência: 
 Determinística: 𝑌𝑡 = 𝛽1 + 𝛽2𝑡 
 Estocástica: 𝑌𝑡 = 𝑌𝑡−1 + 𝑢𝑡 
 Determinística + Estocástica: 𝑌𝑡 = 𝛽1 + 𝑌𝑡−1 + 𝑢𝑡 (𝑌𝑡 = 𝑌0 + 𝑡𝛽1 + ∑ 𝑢𝑖
𝑡
𝑖=0 ) 
 Estacionária em Tendência: 𝑌𝑡 = 𝛽1 + 𝛽2𝑡 + 𝑢𝑡 
 Estacionária em Diferenças: 𝑌𝑡 = 𝑌𝑡−1 + 𝑢𝑡, 𝑌𝑡 = 𝛽1 + 𝑌𝑡−1 + 𝑢𝑡 
Arica
Realce
11 
 
 
Para fazer a definição formal, considere o seguinte modelo de série de temporal 𝑌𝑡: 
𝑌𝑡 = 𝛽1 + 𝛽2𝑡 + 𝛽3𝑌𝑡−1 + 𝑢𝑡 ,. (22) 
onde 𝑢𝑡 é um termo de erro de ruído branco e t é o tempo medido cronologicamente. 
Têm-se então as seguintes possibilidades: 
 Caminho aleatório puro: Se em (22) 𝛽1 = 0, 𝛽2 = 0 e 𝛽3 = 1, tem-se: 
𝑌𝑡 = 𝑌𝑡−1 + 𝑢𝑡 ,. (23) 
que é um caminho aleatório sem deslocamento; portanto, não estacionário. Note, 
entretanto, que se se escreve (23) como: 
∆𝑌𝑡 = 𝑌𝑡 − 𝑌𝑡−1 = 𝑢𝑡 , (24) 
esta série se torna estacionária. Daqui que, o caminho aleatório sem deslocamento é 
chamado de processo estacionário em diferenças (PED). 
Caminho aleatório com deslocamento: Se em (22) 𝛽1 ≠ 0, 𝛽2 = 0 e 𝛽3 = 1, 
tem-se 
𝑌𝑡 = 𝛽1 + 𝑌𝑡−1 + 𝑢𝑡 ,. (25) 
que é um caminho aleatório com deslocamento; portanto, não estacionário. Se se 
escreve 
∆𝑌𝑡 = 𝑌𝑡 − 𝑌𝑡−1 = 𝛽1 + 𝑢𝑡 , (25.a) 
significa que 𝑌𝑡 terá uma tendência positiva (𝛽1 > 0) ou negativa (𝛽1 < 0) (ver Fig. 
21.4). Tal tendência é denominada tendência estocástica. A relação (25.a) é um PED, 
pois a não estacionaridade se elimina tomando as diferenças entre os termos da serie 
temporal. 
Tendência determinística: Se em (22) 𝛽1 ≠ 0, 𝛽2 ≠ 0 e 𝛽3 = 0, tem-se 
𝑌𝑡 = 𝛽1 + 𝛽2𝑡 + 𝑢𝑡 ,. (26) 
que é chamado de processo estacionário em tendência (PET). Embora a média de 𝑌𝑡 
seja 𝛽1 + 𝛽2𝑡, que não é constante, a variância de 𝑌𝑡 (𝜎
2) é constante. Uma vez que 𝛽1 
e 𝛽2 são conhecidos, a média pode ser perfeitamente prevista. Portanto, se subtrai-se 
a média de 𝑌𝑡 de 𝑌𝑡, a série resultante é estacionária, daqui o nome de estacionário 
em tendência. Este processo de remover a tendência (determinística) se chama tirar a 
tendência (“detrending”). 
12 
 
Caminho aleatório com defasagem e têndencia determinística: Se em (22) 
𝛽1 ≠ 0, 𝛽2 ≠ 0 e 𝛽3 = 1, tem-se 
𝑌𝑡 = 𝛽1 + 𝛽2𝑡 + 𝑌𝑡−1 + 𝑢𝑡, (27) 
um caminho aleatório com deslocamento e tendência determinística, o que pode ser 
visto se se escreve a relação: 
∆𝑌𝑡 = 𝑌𝑡 − 𝑌𝑡−1 = 𝛽1 + 𝛽2𝑡 + 𝑢𝑡, (27.a) 
que significa que 𝑌𝑡 é não estacionário. 
Tendência determinística com componente estacionária AR(1): Se em (22) 
𝛽1 ≠ 0, 𝛽2 ≠ 0 e 𝛽3 < 1, tem-se 
𝑌𝑡 = 𝛽1 + 𝛽2𝑡 + 𝛽3𝑌𝑡−1 + 𝑢𝑡 ,. (28) 
que é estacionária ao redor da tendência determinística. 
Para ver a diferença entre tendências estocástica e determinística, considere a Fig. 
21.5. A série chamada estocástica na figura gera-se por um modelo de caminho 
aleatório: 𝑌𝑡 = 0,5 + 𝑌𝑡−1 + 𝑢𝑡, onde 500 valores de 𝑢𝑡 foram gerados de uma 
distribuição normal padrão e onde o valor inicial de 𝑌 foi 1. A série chamada 
determinística foi gerada do modelo 𝑌𝑡 = 0,5𝑡 + 𝑢𝑡, onde 𝑢𝑡 se gerou como antes e t é 
o tempo medido cronologicamente. 
 
 
𝑌𝑡 = 0,5𝑡 + 𝑢𝑡 
𝑌𝑡 = 0,5𝑡 + 𝑌𝑡−1 + 𝑢𝑡 
13 
 
Como se pode ver na Fig. 21.5, no caso da tendência determinística, os desvios da linha 
de tendêndencia (que representa média não estacionária) são puramente aleatórios e 
tendem a voltar a zero rapidamente; não contribuem para o desenvolvimento de 
longo prazo da série, que está determinado pela componente 0,5𝑡. No caso da 
tendência estocástica, por outro lado, a componente 𝑌𝑡−1 afeta o desenvolvimento de 
longo prazo da série 𝑌𝑡. 
 
 
21.6 PROCESSOS ESTOCÁSTICOS INTEGRADOS 
O modelo do caminho aleatório é um caso especial de processos estocásticos 
denominados processos integrados. O modelo de caminho aleatório sem 
deslocamento não é estacionário, mas sua primeira diferença (14) é estacionária. Pelo 
que o processo do caminho aleatório sem deslocamento se denomina série temporal 
integrada de ordem 1 e se denota por 𝐼(1). Analogamente, se para uma série devem-
se realizar diferenças de ordem 2 (i.e., diferenças de primeira ordem das diferenças de 
primeira ordem) para fazê-la estacionária, a série será denominada série temporal 
integrada de ordem 2; i.e., considerando as séries temporais 𝑌𝑡 e ∆𝑌𝑡 não 
estacionárias, tem-se que a série: 
∆2𝑌𝑡 = ∆∆𝑌𝑡 = ∆(𝑌𝑡 − 𝑌𝑡−1) = ∆𝑌𝑡 − ∆𝑌𝑡−1 = 𝑌𝑡 − 2𝑌𝑡−1 + 𝑌𝑡−2 
é estacionária. 
Em geral, se uma série não estacionária deve ser diferenciada d vezes para virar 
estacionária, denomina-se integrada de ordem d, denotando-se por 𝑌𝑡~𝐼(𝑑). Uma 
série estacionária, diz-se de ordem zero, denotada por 𝐼(0). 
 
Propriedades das séries integradas 
Têm-se as seguintes propriedades das séries integradas: Sejam 𝑋𝑡, 𝑌𝑡 e 𝑍𝑡 três séries 
temporais e a e b constantes, 
1. Se 𝑋𝑡~𝐼(𝑑), então 𝑍𝑡 = 𝑎 + 𝑏𝑋𝑡~𝐼(𝑑). 
2. Se 𝑋𝑡~𝐼(𝑑1) e 𝑌𝑡~𝐼(𝑑2), então 𝑍𝑡 = 𝑎𝑋𝑡 + 𝑏𝑌𝑡~𝐼(𝑑2), onde 𝑑1 < 𝑑2. 
3. Se 𝑋𝑡~𝐼(𝑑) e 𝑌𝑡~𝐼(𝑑), então 𝑍𝑡 = 𝑎𝑋𝑡 + 𝑏𝑌𝑡~𝐼(𝑑
∗), onde 𝑑∗ é geralmente 
igual a d, mas em alguns casos 𝑑∗ < 𝑑 (como se verá depois!). 
 
 
14 
 
21.7 O FENÔMENO DA REGRESSÃO ESPÚRIA 
Para ver porque as séries de tempo estacionárias são importantes, considere os 
seguintes dois modelos de caminho aleatório: 
𝑌𝑡 = 𝑌𝑡−1 + 𝑢𝑡 ,. (29) 
𝑋𝑡 = 𝑋𝑡−1 + 𝑣𝑡,. (30) 
onde foram geradas 500 observações de 𝑢𝑡~𝑁(0,1), 500 de 𝑣𝑡~𝑁(0,1). Assume-se 
que os valores iniciais de 𝑌 e de 𝑋 são zero e que 𝑢𝑡 e 𝑣𝑡 são serial e mutuamente não 
correlacionadas. Sabe-se que essas séries são não estacionárias; i.e., são 𝐼(1) e 
possuem tendência estocástica. 
Suponha que se regride 𝑌𝑡 sobre 𝑋𝑡. Desde que estes são processos não 
correlacionados 𝐼(1), o coeficiente 𝑅2 da regressão deveria ser próximo de zero; i.e., 
não se deveria ter relação entre as variáveis, mas veja o que resulta: 
 
Variável Coeficiente Desvio padrão Estatístico t 
Constante -13,2556 0,6203 -21,36856 
X 0,3376 0,0443 7,61223 
𝑅2 = 0,1044 
𝑑 = 0,0121 
 
 
Como se pode ver, o coeficiente de 𝑋 é altamente significativo, pois 𝑡𝑥 = 7,6122 >
𝑡𝛼 2⁄ , 𝑛−2 = 𝑡0,01 2⁄ , 498 ≅ 2,576 (rejeita-se a hipótese nula 𝐻0: 𝛽𝑥 = 0, se |𝑡𝑥| >
𝑡𝛼 2⁄ , 𝑛−2) e mesmo que 𝑅
2 seja pequeno, é significativamente diferente de zero. 
Daqui, poder-se-ia pensar que existe uma relação estatística significativa entre 𝑌 e 𝑋, 
embora se saiba a priori que não existe tal relação. Este é o caso do fenômeno de 
regressão espúria ou sem sentido (duvidosa). Que existe alguma coisa estranha na 
regressão anterior está sugerido pelo valor 𝑑 = 0,0121 (“d de Durbin-Watson”), muito 
baixo. Como se sabe, 𝑅2 > 𝑑 é uma boa regra para suspeitar que uma regressão é 
espúria 
Que a regressão anterior é espúria, pode-se ver regredindo as primeiras diferenças ∆𝑌𝑡 
contra ∆𝑋𝑡; lembrar que estas são estacionárias. Resulta 𝑅
2 praticamente zero e d 
próximo de 2. Como conclusão, insiste-se em que regredir séries temporais com 
comportamento estocástico pode conduzira erros graves. O mesmo pode acontecer 
com séries com tendência determinística. 
 
 
15 
 
21.8 TESTE DE ESTACIONARIEDADE 
Trata-se, agora, dos seguintes assuntos: (1) Como saber se dada uma série temporal é 
estacionária? (2) Se uma dada série temporal não é estacionária, existe alguma forma 
de torna-la estacionária? Nesta seção discutir-se-á a primeira questão, a segunda será 
discutida na Seção 21.10. 
O primeiro assunto a lembrar é que estamos tratando de estacionariedade (ou 
covariância) fraca. 
Existem vários testes de estacionariedade, aqui se discutem os mais usados: (1) análise 
gráfica e (2) teste de correlograma. Dada a importância associada recentemente, na 
próxima seção se discute o teste da raiz unitária. 
 
1. Análise Gráfica 
Como mencionado anteriormente, antes de usar um teste formal é conveniente plotar 
a série temporal sob estudo, como se fez na Fig 21.1 e Fig. 21.2, para os dados da 
Tabela 21.1, o que frequentemente dá uma pista sobre a natureza da série. Considere, 
por exemplo, os dados do PIB da Tabela 21.1. O gráfico mostra que no período em 
estudo o PIB tem crescido, i.e., mostra uma tendência para cima, sugerindo, talvez, 
que a média do PIB tem mudado. O que pela sua vez sugere que a série do PIB é não 
estacionária. O que mais ou menos também se visualiza nas outras séries da Fig. 21.2. 
Esta sensação é o ponto de partida para testes formais de estacionariedade. 
 
2. Função de Autocorrelação (FAC) e Correlograma 
Um teste simples de estacionariedade se baseia na chamada função de autocorrelação 
(FAC). A FAC na defasagem k, denotada por 𝜌𝑘, define-se por 
 
𝜌𝑘 =
𝛾𝑘
𝛾0
=
𝑐𝑜𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 𝑛𝑎 𝑑𝑒𝑓𝑎𝑠𝑎𝑔𝑒𝑚 𝑘
𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎
 (31) 
onde 𝛾𝑘 foi definida em (9). Note que 𝜌0 = 1. 
 
Desde que 𝛾𝑘 e 𝛾0 têm as mesmas unidades, 𝜌𝑘 é adimensional (ou puro), variando 
entre -1 e +1, como qualquer coeficiente de correlação. A representação gráfica de 𝜌𝑘 
contra k se conhece como correlograma populacional. 
Desde que na prática só se tem uma realização (i.e., uma amostra) de um processo 
estocástico, só se pode calcular a função autocorrelação amostral (FACA), �̂�𝑘. Para 
tanto, deve-se calcular primeiro a covariância amostral na defasagem k, 𝛾𝑘, e a 
variância amostral, 𝛾0, definidas como: 
 
𝛾𝑘 =
∑(𝑌𝑡−�̅�)(𝑌𝑡+𝑘−�̅�)
𝑛−𝑘
 (32) 
16 
 
 
𝛾0 =
∑(𝑌𝑡−�̅�)
2
𝑛−1
 (33) 
onde n é o tamanho da amostra e �̅� a média amostral. 
Assim, a função autocorrelação amostral na defasagem k é: 
 
�̂�𝑘 =
�̂�𝑘
�̂�0
. (34) 
A representação gráfica de �̂�𝑘 contra k se conhece como correlograma amostral. 
 
Para ter uma ideia de como se trabalha com o correlograma amostral, considerar-se-á 
dois casos, o caso do processo de ruido branco e o caso do caminho aleatório (o caso 
do caminho aleatório sem deslocamento, em (19): 𝑌𝑡 = 𝑌𝑡−1 + 𝑢𝑡). Para o caso do 
ruido branco foi gerada uma amostra de 500 termos de erro (os u’s) da distribuição 
normal padrão. O correlograma desses erros puramente aleatórios se mostra na Fig. 
21.6; mostra-se o correlograma até com defasagem 30. Comentar-se-á, 
posteriormente, como escolher o comprimento da defasagem. 
 
Por enquanto, olhe para coluna rotulada por AC, que é a função de correlação 
amostral, e para o primeiro diagrama da esquerda, rotulado autocorrelação. A linha 
vertical sólida neste diagrama representa o eixo zero; observações acima da linha são 
positivas e abaixo são negativas. Como se pode ver nesse diagrama, para o caso do 
processo de ruído branco a autocorrelação para várias defasagens varia ao redor de 
zero. Este é o quadro de um correlograma para uma série temporal estacionária. 
Portanto, se o correlograma de uma série temporal lembra o correlograma de uma 
série temporal de ruído branco, pode-se dizer que provavelmente se trata de uma 
série estacionária. 
 
17 
 
 
Considere, agora, o correlograma de uma série de caminho aleatório, como da relação 
(19): 𝑌𝑡 = 𝑌𝑡−1 + 𝑢𝑡. A Fig.21.7 mostra o quadro. A característica mais notável desse 
correlograma é que os coeficientes de autocorrelação nas várias defasagens são muito 
altos, mesmo para defasagens até de 33 períodos (de fato, se forem consideradas 
defasagens até de 60 períodos, os coeficientes de autocorrelação ainda resultam 
muito altos; para defasagem de 60, o coeficiente resulta 0,7). A Fig. 21.7 é o 
correlograma típico de uma série temporal não estacionária. Os coeficientes de 
autocorrelação começam com um valor muito alto e declinam muito lentamente para 
zero na medida que o comprimento da defasagem aumenta. 
 
18 
 
 
 
Agora considere a série temporal do PIB, da Tabela 21.1. O correlograma até de 
defasagem 25 se mostra na Fig. 21.8. O correlograma do PIB até defasagem 25 mostra 
um padrão similar ao correlograma do modelo de caminho aleatório (Fig. 21.7). Os 
valores dos coeficientes de autocorrelação começam num valor muito alto (0,969) e 
declinam lentamente. Parece ser que a série temporal do PIB é não estacionária. Se se 
plotam as outras séries temporais mostradas nas Fig. 21.1-21.2, observar-se-á um 
comportamento similar, levando à consideração de que essas séries são não 
estacionárias. Poderiam ser não estacionárias em média, variância ou ambas. 
 
19 
 
 
 
Duas questões práticas surgem. Primeiro, como escolher a defasagem para calcular a 
FAC? Segundo, como decidir se o coeficiente de autocorrelação numa certa defasagem 
é estatisticamente significativo? Vejamos as respostas a estas questões nas próximas 
linhas. 
 
A escolha do comprimento da defasagem. Está é uma questão empírica. Uma regra 
útil é calcular a FAC entre um terço e um quarto do total do comprimento da série. 
Desde que nos dados econômicos mostrados se têm 88 trimestres observados, por 
essa regra poder-se-ia escolher defasagens entre 22 e 28 trimestres. Uma boa 
sugestão é começar com defasagens suficientemente grandes e ir reduzindo-as por 
algum critério estatístico, como o critério de informação de Akaike ou Schwarz (ver 
Capítulo 13). Pode-se alternativamente, usar os seguintes testes estatísticos. 
 
 
 
Significância Estatística do Coeficiente de Autocorrelação 
20 
 
A maneira de exemplo considere o correlograma da série temporal do PIB, na Fig. 21.8. 
Como decidir se o coeficiente de correlação de 0,638 na defasagem 10 trimestres é 
estatisticamente significativo? A significância estatística de qualquer �̂�𝑘 pode ser 
estabelecida pelo seu erro padrão. Bartlett mostrou que se uma série temporal é 
puramente aleatória (i.e., comporta-se como ruído branco, Fig. 21.6), os coeficientes 
de correlação amostral �̂�𝑘 são aproximadamente 
 
�̂�𝑘~𝑁(0, 1 𝑛⁄ ), (35) 
i.e., em amostras grandes o coeficiente de autocorrelação amostral se distribui 
normalmente, com média zero e variância igual a um dividido pelo tamanho da 
amostra. Desde que se tem 88 observações, a variância é 1/88=0,01136 e o desvio 
padrão √0,01136 = 0,1066. Assim, pelas propriedades da distribuição normal padrão, 
o intervalo de 95% de confiança para qualquer 𝜌𝑘 populacional é: 
 
�̂�𝑘 ∓ 1,96 × 0,1066 (36) 
 
Em outras palavras, 
 
𝑃(�̂�𝑘 − 0,2089 ≤ 𝜌𝑘 ≤ �̂�𝑘 + 0,2089) = 0,95 (37) 
 
Se o intervalo (36) inclui o valor de zero, não se rejeita a hipótese de que o verdadeiro 
valor de 𝜌𝑘 seja zero; caso contrário, rejeita-se essa hipótese. Aplicando essa regra ao 
valor �̂�10 = 0,638, pode-se verificar que o intervalo de 95% de confiança para 𝜌10 é 
(0,638 ∓ 0,2089)=(0,4291, 0,8469), que não contém zero. Portanto, pode-se afirmar, 
com 95% de confiança, que 𝜌10 é significativamente diferentede zero. Como se pode 
checar, mesmo com defasagem de 20 o valor estimado de 𝜌20 é estatisticamente 
significativo ao nível 5%. 
 
Ao invés de testar a significância dos coeficientes de autocorrelação individualmente, 
pode-se testar a hipótese conjunta de que todos os 𝜌𝑘 acima de certa defasagem são 
simultaneamente zero. Isso pode ser feito usando o estatístico Q desenvolvido por Box 
e Pierce, definido como: 
 
𝑄 = 𝑛 ∑ �̂�𝑘
2𝑚
𝑘=1 , (38) 
 
onde n é o tamanho da amostra e m é o comprimento da defasagem. O estatístico Q se 
usa com frequência para estabelecer se uma série temporal é ruído branco ou não. Em 
amostras grandes Q se distribui aproximadamente como uma chi-quadrado com m 
graus de liberdade. Se numa aplicação, o Q calculado é maior que o Q crítico, da 
distribuição chi-quadrado ao nível escolhido de significância, rejeita-se a hipótese nula 
de que todos os 𝜌𝑘 são zero; ao menos um deles deve ser diferente de zero. 
21 
 
 
Uma variante do estatístico Q de Box-Pierce é o estatístico Ljung-Box (LB), definido 
como: 
 
𝐿𝐵 = 𝑛(𝑛 + 2) + ∑ (
�̂�𝑘
2
𝑛−𝑘
)𝑚𝑘=1 ~𝜒𝑚
2 . (39) 
 
Mesmo que para amostras grandes os estatísticos Q e LB se distribuam segundo uma 
chi-quadrado com m graus de liberdade (𝜒𝑚
2 ), o estatístico LB tem mostrado melhor 
comportamento (mais potência, no sentido estatístico) para pequenas amostras do 
que o estatístico Q. 
 
Voltando ao caso do PIB, Fig. 21.8, o valor do estatístico LB na defasagem 25 é cerca de 
891,25. A probabilidade de obter tal valor de LB sob a hipótese nula de que a soma dos 
quadrados dos coeficientes de autocorrelação estimados seja zero é praticamente 
zero, como mostra a última coluna da figura. Portanto, a conclusão é que a série 
temporal do PIB é não estacionária. Pode-se verificar que as outras quatro séries 
temporais que acompanham o PIB também são não estacionárias. 
 
 
21.9 O TESTE DA RAIZ UNITÁRIA 
Um teste de estacionariedade que se tem tornado muito popular nos últimos anos é o 
teste da raiz unitária. Primeiro será explicado, para depois ser ilustrado, considerando 
algumas limitações do teste. 
O ponto inicial é a raiz unitária de um processo estocástico, discutido na Seção 21.4. 
Começa-se com a relação (21): 
 
𝑌𝑡 = 𝜌𝑌𝑡−1 + 𝑢𝑡, −1 ≤ 𝜌 ≤ 1, (21) 
onde 𝑢𝑡 é um termo de erro de ruído branco. 
Sabe-se que se 𝜌 = 1, i.e., o caso da raiz unitária, (21) é o modelo de caminho 
aleatório sem deslocamento, que é um processo estocástico não estacionário. Então, 
porque não regredir 𝑌𝑡 em relação a sua defasagem de um período, 𝑌𝑡−1, e verificar se 
o 𝜌 estimado é estatisticamente igual a 1? Se for, então 𝑌𝑡 é não estacionário. Esta é a 
ideia por trás do teste de raiz unitária. 
Por razões teóricas, escreve-se (21) da seguinte forma: 
 
𝑌𝑡 − 𝑌𝑡−1 = 𝜌𝑌𝑡−1 − 𝑌𝑡−1 + 𝑢𝑡 
 = (𝜌 − 1)𝑌𝑡−1 + 𝑢𝑡 (40) 
que ainda pode ser escrito como: 
22 
 
∆𝑌𝑡 = 𝛿𝑌𝑡−1 + 𝑢𝑡, (41) 
 
onde 𝛿 = 𝜌 − 1 e ∆ é o operador diferença de primeira ordem. 
 
Na prática, ao invés de estimar (21) estima-se (41) e testa-se a hipótese nula 𝛿 = 0. Se 
𝛿 = 0, então 𝜌 = 1, i.e., tem-se raiz unitária, significando que a série considerada é 
não estacionária. 
 
Antes de proceder a estimar (41), pode-se notar que se 𝛿 = 0, (41) será: 
 
∆𝑌𝑡 = 𝑌𝑡 − 𝑌𝑡−1 = 𝑢𝑡 . (42) 
 
Desde que 𝑢𝑡 é um termo de ruído branco, é estacionário, o que significa que a 
primeira diferença de uma série temporal de caminho aleatório é estacionária, que já 
tinha sido estabelecido anteriormente. 
 
Voltando, agora, para o caso de estimar (41), veja-se que é simples, o único a fazer é 
tomara as primeiras diferenças de 𝑌𝑡, regredi-las em relação a 𝑌𝑡−1 e verificar se o 
coeficiente estimado na regressão (𝛿) é ou não zero. Se for zero, conclui-se que 𝑌𝑡 é 
não estacionária. Mas se for negativo, conclui-se que a série é estacionária (lembrar 
que, desde que 𝛿 = 𝜌 − 1, para a série ser estacionária 𝜌 deve ser menor do que 1). A 
questão aqui é qual teste usar para verificar se o coeficiente de 𝑌𝑡−1 é zero ou não é. 
Pois, sob a hipótese nula 𝛿 = 0, o valor t do coeficiente estimado de 𝑌𝑡−1 não segue 
uma distribuição t de student, mesmo para amostras grandes. 
 
Qual a alternativa? Dickey e Fuller (ver texto original) mostraram que sob a hipótese 
nula 𝛿 = 0, o valor estimado t do coeficiente estimado de 𝑌𝑡−1 em (41) segue a 
distribuição do estatístico 𝝉. Os autores calcularam os valores críticos do estatístico 𝜏 
com base em simulações de Monte Carlo. Uma amostra desses valores críticos se dá 
no Apêndice D do texto, Tabela D.7 (ver tabela na página seguinte). A tabela é limitada, 
mas tabelas extensas estão incorporadas na maioria dos pacotes computacionais. Na 
literatura o teste ou estatístico 𝝉 se conhece como teste Dickey-Fuller (DF). 
Interessantemente, se a hipótese 𝛿 = 0 se rejeita, pode ser usado o teste t de student 
usual. 
 
O procediemto real de implementação do teste DF envolve várias decisões. Na 
discussão da natureza do processo de raiz unitária, nas seções 21.4 e 21.5, notou-se 
que um processo de caminho aleatório pode não ter deslocamento, pode ter 
deslocamento, pode ter tendência determinística ou tendência estocástica. Para 
permitir todas as alternativas, o teste DF se estima de três formas diferentes; i.e., sob 
três hipóteses nulas diferentes: 
23 
 
 
 
 
𝒀𝒕 é um caminho aleatório: ∆𝑌𝑡 = 𝛿𝑌𝑡−1 + 𝑢𝑡, (41) 
 
𝒀𝒕 é um caminho aleatório com 
deslocamento: ∆𝑌𝑡 = 𝛽1 + 𝛿𝑌𝑡−1 + 𝑢𝑡, (43) 
 
𝒀𝒕 é um caminho aleatório com 
deslocamento e tendência estocástica: ∆𝑌𝑡 = 𝛽1 + 𝛽2𝑡 + 𝛿𝑌𝑡−1 + 𝑢𝑡, (44) 
 
onde t é o tempo ou variável tendência. Em cada caso a hipótese nula é 𝛿 = 0; i.e., 
existe raiz unitária (a série temporal é não estacionária). A hipótese alternativa é 𝛿 <
0; i.e., a série temporal é estacionária (o caso 𝛿 > 0 se elimina, pois nesse caso 𝜌 > 1 
e a série temporal não se estabiliza). Se a hipótese nula se rejeita, significa que a série 
temporal é estacionária com média zero para o caso (41), é estacionária com média 
não nula [= 𝛽1 (1 − 𝜌)⁄ ] para o caso (43) e é estacionária com tendência 
determinística no caso (44). 
 
 
É importante notar que os valores críticos do teste tau para testar a hipótese 𝛿 = 0 
são diferentes em cada um dos três casos específicos anteriores, o que se pode 
verificar na Tabela D.7, acima. Além disso, se, por exemplo, o modelo (43) é correto, 
mas se estima o modelo (41), estar-se-á cometento um erro de especificação (ver 
Capítulo 13). O mesmo acontecerá se se estima (43) em vez de (44). De fato, não existe 
forma de saber qual é a especificação correta. Deve-se empregar por tentaiva e erro, e 
estudar os dados. 
 
O procediemto real de estimação é como segue. Estimar (41), (43) ou (44) por mínimos 
quadrados; dividir o coficiente estimado de 𝑌𝑡−1 pelo seu erro padrão para calcular o 
24 
 
estístico tau (𝜏); e compare com a tabela DF (ou use qualquer pacote estatístico). Se o 
|𝜏| (o valor absoluto do 𝜏 calculado) for maior que o valor crítico do tau DF, rejeita-se a 
hipótese 𝛿 = 0, em cujo caso a série temporal é estacionária. Caso contrário, não se 
rejeita a hipótese nula, em cujo caso a série temporal é não estacionária. 
 
Considere o caso da série temporal do PIB. Para essa série, os resultados das três 
regressões (41), (43) e (44) são (a variável dependente em cada caso é ∆𝑌𝑡 = ∆𝑃𝐼𝐵𝑡): 
 
∆𝑌�̂� = 0,00576 𝑌𝑡−1, 
 𝑡 = 5,7980, 𝑅2 = 0,0152, 𝑑 = 1,34 (45)∆𝑌�̂� = 28,2054 − 0,00136 𝑌𝑡−1, 
 𝑡 = 1,1576, − 0,2191, 𝑅2 = 0,00056, 𝑑 = 1,35 (46) 
 
∆𝑌�̂� = 190,3857 + 1,4776 𝑡 − 0,0603 𝑌𝑡−1, (47) 
 𝑡 = 1,8389, 1,6109 − 1,6252 𝑅2 = 0,0305, 𝑑 = 1,31 
 
O primeiro interesse aqui é no valor t (=𝜏) do coeficiente de 𝑌𝑡−1. Os valores críticos de 
𝜏 para erros de 1%, 5% e 10% para o modelo (41) são -2,5897, -1,9439 e -1,6177, 
respectivamente; -3,5064, -2,8947 e -2,5842 para o modelo (42); e , -4,0661, -3,4614 e 
-3,1567 para o modelo (43). Como mencionado anteriormente, esses valores críticos 
são diferentes para cada modelo. 
 
Antes examinar os resultados, deve se decidir qual é o modelo o mais apropriado. Note 
que o modelo (45) deve ser eliminado, pois o coeficiente de 𝑌𝑡−1, que correposnde a 
𝛿 = 𝜌 − 1, é positivo. Resultando 𝜌 > 1, que naõ cumpre a condição de estabilidade 
|𝜌| < 1. Já para os modelos (46) e (47) se têm o coeficiente 𝛿 estimado negativo 
(satisfazendo a condição de estabilidade da série). Para estes dois modelos os valores 
estimados de 𝜌 são 0,9986 e 0,9397, respectivamente. Ainda falta estabelecer se estes 
valores são significativamente menores do que 1, de forma a declara a série temporal 
do PIB estacionária. 
 
Para o modelo (46) o valor estimado de 𝜏 é -0,2191, que é menor em valor absoluto 
mesmo no caso do valor crítico ao 10%, -2,5842. Desde que |𝜏| = |−0,2191| <
|−2,5842|, conclui-se que a série do PIB é não estacionária (Outra forma de 
estabelecer este resultado é que o valor do 𝜏 calculado deve ser mais negativo que o 
valor crítico do 𝜏. Desde que se espera que 𝛿 seja negativo, valores negativos grandes 
para 𝜏 indicam que a série é estacionária). 
 
O mesmo acontece para o modelo (47). O valor calculado de 𝜏 é -1,6252, sendo o valor 
crítico de 𝜏, ao 10% de erro, -3,1567, indicando não estacionariedade da série do PIB. 
25 
 
 
Conclui-se, então, em função da análise gráfica, do correlograma e do teste Dickey-
Fuller, que a série temporal do PIB é não estacionária; i.e., contém uma raiz unitária. 
 
O Teste de Dickey-Fuller Aumentado (DFA) 
Ao aplicar o teste DF nos modelos (41), (43) e (44) assumiu-se que o termo de erro 𝑢𝑡 é 
não correlacionado. Para o caso no que o erro é correlacionado, Dickey-Fuller 
desenvolveram um teste, conhecido como teste de Dickey-Fuller aumentado (DFA). 
Este teste se realiza “aumentando” às três equações anteriores os valores defasados 
das variáveis dependentes ∆𝑌𝑡. Para o caso (44), por exemplo, o teste DFA consiste de 
estimar a seguinte regressão: 
 
∆𝑌𝑡 = 𝛽1 + 𝛽2𝑡 + 𝛿𝑌𝑡−1 + ∑ 𝛼𝑖∆𝑌𝑡−𝑖 +
𝑚
𝑖=1 𝜀𝑡, (48) 
 
onde 𝜀𝑡 é um termo de erro de ruído branco puro e ∆𝑌𝑡−1 = 𝑌𝑡−1 − 𝑌𝑡−2, ∆𝑌𝑡−2 =
𝑌𝑡−2 − 𝑌𝑡−3, etc. O número de termos de diferença defasados a ser incluído se 
determina empiricamente, sendo a ideia incluir um número suficientemente grande de 
termos de forma a fazer com que o termo de erro em (48) seja uma série não 
correlacionada. No teste DFA ainda se testa se 𝛿 = 0, sendo que o teste segue 
asintóticamente a mesma distribuição que o estatístico DF; assim, os mesmos valores 
críticos podem ser usados. 
 
Para dar uma ideia do procedimento, estima-se (48) para a série temporal do PIB 
usando uma diferença defasada do PIB. Os resultados se mostram a seguir (o autor 
declara que considerou diferenças defasadas de maior ordem, mas que resultaram não 
significativas): 
 
∆𝑌�̂� = 234,9729 + 1,892𝑡 − 0,0786𝑌𝑡−1 + 0,3557∆𝑌𝑡−1 
 𝑡 = 2,3833, 2,1522 − 2,2152 3,4647 
 𝑅2 = 0,1526, 𝑑 = 2,0858 (49) 
O valor t (=𝜏) do coeficiente de 𝑌𝑡−1 (𝛿) é −2,2152, que, em valor absoluto, é menor 
que o valor crítico de maior erro (10%) –3,1570. Sugere-se, então, que mesmo 
tomando o cuidado de possível autocorrelação nos termos de erro, a série do PIB é 
não estacionária. 
 
Testando a Significância de mais de um Coeficiente: O Teste F 
Suponha que se trabalha com o modelo (44) e que se testa a hipótese 𝛽1 = 𝛽2 = 0; 
i.e., que o modelo é um caminho aleatório sem deslocamento nem tendência. Para 
testar esta hipótese conjunta, pode-se usar o teste F restrito (Capítulo 8). Isto é, 
estima-se a regressão para o modelo (44) (sem restrições) e depois, novamente, o 
modelo (44), eliminando o intercepto e a tendência. Em continuação, usa-se o teste F 
26 
 
restrito, como na relação (8.7.9), exceto que não se usa a tabela F convencional para 
conseguir os valores F críticos. Dickey-Fuller, como com o estatístico 𝜏, desenvolveram 
valores críticos para F para este caso, uma amostra do qual se dá no Apêndice D, 
Tabela D.7. Um exemplo se mostra no Exercício 21.21 do texto. 
 
O Teste da Raiz Unitária de Phillips-Perron (PP) 
Uma hipótese importante no teste DF é que os termos de erro 𝑢𝑡 se distribuem 
independente e identicamente. O teste DFA ajusta o teste DF para ter cuidado com 
possíveis correlações dessa série, adicionando termos de diferença defasados como 
regressores. Phillips e Perron usam métodos não paramétricos para tomar cuidado 
com as correlações da série de erros, sem adicionar termos de diferença defasados. 
Desde que a distribuição assintótica do teste PP é a mesma que o teste DFA, este 
assunto não será discutido aqui. 
 
Uma Crítica aos Testes de Raiz Unitária 
Têm-se discutido vários testes de raiz unitária e existem outros tantos. Porque são 
necessários tantos testes? A resposta está no tamanho e potência dos testes. Pelo 
tamanho do teste entende-se o nível de significância (i.e., a probabilidade de cometer 
o erro Tipo I: “rejeitar a hipótese nula sendo verdadeira”) e pela potência entende-se a 
probabilidade de “rejeitar a hipótese nula sendo falsa” (ver tabela abaixo) 
 
 Aceitar 𝑯𝟎 Rejeitar 𝑯𝟎 
𝑯𝟎 verdadeira Decisão correta Erro Tipo I 
𝑯𝟎 falsa Erro Tipo II Decisão correta 
 
Sabe-se que: 
Potência = 1 − P(Erro Tipo II), 
onde o Erro Tipo II é o erro cometido ao aceitar H0 sendo falsa. A potência máxima é 1. 
A maioria dos testes de raiz unitária se baseia na hipótese nula de que a série temporal 
em consideração tem raiz unitária; i.e., de que é não estacionária (sendo a hipótese 
alternativa a de que a série é estacionária). 
 
Tamanho do Teste 
O teste DF é sensível à forma em que aplicado. Lembre que o teste pode ser aplicado a 
três modelos possíveis: caminho aleatório puro, (2) caminho aleatório com 
deslocamento e (3) caminho aleatório com deslocamento e tendência. Se, por 
exemplo, o verdadeiro modelo for o (1), mas se estima o (2) e se conclui que ao nível 
de 5% a série temporal é estacionária, a conclusão pode estar errada, pois o 
verdadeiro nível de significância neste caso é maior do que 5%. Outros fatores no 
modelo considerado também podem afetar a distorção do tamanho (como se verá 
mais adiante). 
 
27 
 
 
Potência do Teste 
A maioria dos testes tipo DF tem pouca potência; i.e., tendem a aceitar a raiz unitária 
com mais frequência que o garantido, encontram raiz unitária quando não existe. 
Existem várias razões para isto. Primeiro, a potência do teste depende da extensão (no 
tempo) dos dados mais do que o tamanho da amostra. Para uma amostra dada de 
tamanho n, a potência é maior quando a extensão é grande. Assim, o(s) teste(s) de raiz 
unitária baseado(s) em 30 anos de observações pode(m) ter maior potência que 
aquele(s) baseados em 100 observações ao longo de 100 dias. Segundo, se 𝜌 ≅ 1 mais 
não é exatamente 1, o teste pode declarar a série temporal não estacionária. Terceiro, 
esses testes supõem uma única raiz unitária; i.e., supõem que a série temporal dada é 
𝐼(1);mas se a série temporal é integrada de ordem maior do que 1, por exemplo, 
𝐼(2), haverá mais do que uma raiz unitária (usa-se, nesse caso, o teste de Dickey-
Pantula, ver o livro texto). Quarto, se existirem mudanças estruturais na série 
temporal, devido, por exemplo, a mudanças inesperadas, os testes de raiz unitária não 
as captam. 
 
Portanto, ao aplicar testes de raiz unitária se deve ter em consideração as limitações 
destes. Diversas modificações têm sido propostas (ver texto original). Mais ainda, por 
esses motivos, outros autores propõem que os testes tradicionais DF, DFA e PP 
deveriam ser desconsiderados. A discussão ainda está aberta. 
 
 
21.10 TRANSFORMAÇÃO DE SÉRIES TEMPORAIS NÃO ESTACIONÁRIAS 
Agora que se conhecem alguns dos principais problemas associados ao 
comportamento das séries temporais não estacionárias, surge a questão prática: o quê 
fazer? Para evitar o problema de regressão espúria que pode surgir de regredir séries 
temporais não estacionárias sobre uma ou mais séries não estacionárias, deve-se 
transformar a série temporal não estacionária numa série temporal estacionária. O 
método de transformação depende de se a série temporal é um processo estacionário 
em diferenças (PED), ver (24), ou estacionário em tendência (PET), ver (26). Cada caso 
será visto oportunamente. 
 
Processo estacionário em diferenças 
Se uma série temporal tem uma raiz unitária, a série de as primeiras diferenças é 
estacionária (Observação: Cumpre-se que, se a série é 𝐼(2), contém duas raizes 
unitárais e devem-se fazer as diferenças duas vezes; se é 𝐼(𝑑), devem-se fazer as 
diferenças d vezes). Portanto, a solução consiste de tomar a série temporal das 
primerias diferenças. 
 
28 
 
Lembrando que para a série temporal do PIB (𝑌𝑡), já se viu que tem uma raiz unitária. A 
seguir, considera-se que acontece se se toma a primeria diferença. 
 
Seja ∆𝐷𝑡 = 𝑌𝑡 − 𝑌𝑡−1e considere-se a regressão: 
 
∆𝐷𝑡 = 16,0049 − 0,06827𝐷𝑡−1 
 𝑡 = 3,6402, − 6,6303, 𝑅2 = 0,3435, 𝑑 = 2,0344 (50) 
 
O valor crítico de 𝜏 ao 1% é -3,5073. Desde que o valor calculado de 𝜏 (𝑡 = −6,6303) é 
mais negativo que o valor crítico, conclui-se que a prmeria diferença do PIB é uma 
série temporal estacionária; i.e., é 𝐼(0). Isto se mostra na Fig. 21.9. Comparando a Fig. 
21.9 coma Fig. 21.1 a diferença entre as duas é obvia. 
 
 
 
Processo estacionário em tendência 
Como se viu na Fig. 21.5, um PTE é estacionário ao redor da linha de tendência. 
Portanto, a maneira mais simples de fazer estacionária uma série temporal desse tipo 
é regredi-la em relação ao tempo, os resíduos dessa regressão serão estacionários. 
 
Em outras palavras, rodar a seguinte regressão: 
 
𝑌𝑡 = 𝛽1 + 𝛽2𝑡 + 𝑢𝑡 (51) 
onde 𝑌𝑡 é a série temporal sob estudo e t á variável de tendência medida 
cronologicamente. 
 
29 
 
Então, 
�̂�𝑡 = 𝑌𝑡 − (�̂�1 + �̂�2𝑡) (52) 
é estacionária. A variável �̂�𝑡 se conhece como série temporal sem tendência 
(linearmente). 
 
É importante notar que a tendência poderia ser não linear. Por exemplo, poderia 
ocorrer que: 
 
𝑌𝑡 = 𝛽1 + 𝛽2𝑡 + 𝛽3𝑡
2 + 𝑢𝑡 (53) 
 
que é uma tendência quadrática. Para este caso, os resíduos de (53) resultarão numa 
série temporal sem tendência (quadraticamente). 
 
Se uma série temporal é PED , mas se trata como se fosse PET, isto se conhece como 
subdiferenciação. Por outro lado se a série tempporal é PET , mas se trata como se 
fosse PED, chama-se sobrediferenciação. As consequências destes erros de 
especificação podem ser sérios. 
 
 
21.11 COINTEGRAÇÃO: REGRESSÃO DE UMA SÉRIE TEMPORAL DE RAIZ UNITÁRIA 
SOBRE OUTRA SÉRIE TEMPORAL DE RAIZ UNITÁRIA 
Já se tem advertido que a regressão de uma série temporal não estacionária sobre 
outra série temporal não estacionária pode produzir regressão espúria. Considere, 
agora, as séries temporais PDI (Renda Pessoal Disponível-RPD) e PCE (Despesa Pessoal 
de Consumo-DPC) da Tabela 21.1. Submetendo individualmente cada uma dessas 
séries à análise de raiz unitária, encontra-se que ambas são 𝐼(1); i.e., ambas contêm 
raiz unitária. Suponha que se regride PCE sobre PDI, como segue: 
 
𝑃𝐶𝐸𝑡 = 𝛽1 + 𝛽2𝑃𝐷𝐼𝑡 + 𝑢𝑡. (54) 
 
Daqui: 
𝑢𝑡 = 𝑃𝐶𝐸𝑡 − (𝛽1 + 𝛽2𝑃𝐷𝐼𝑡). (55) 
 
Suponha agora que se submete 𝑢𝑡 à análise de raiz unitária e se encontra que é 
estacionária (i.e., 𝐼(0)). Note que, mesmo que 𝑃𝐶𝐸𝑡 e 𝑃𝐷𝐼𝑡 sejam individualmente 
𝐼(1), isto é, que tenham tendência estocástica, sua combinação linear (55) é 𝐼(0). A 
combinação linear elimina a tendência estocástica das duas séries. Se se toma 
30 
 
consumo e renda como duas variáveis 𝐼(1), a poupança (renda – consumo) pode ser 
𝐼(0). 
 
Como resultado, a regressão do consumo sobre a renda, como em (54), pode ser 
significativa (i.e., não espúria). Neste caso, diz-se que as duas variáveis são 
cointegradas. Em outras palavras, duas variáveis temporais estão cointegradas se 
existe uma relação de longo prazo, ou de equilíbrio, entre elas. 
 
Em resumo, entanto se verifique que os resíduos de uma regressão como (54) são 
𝐼(0), a metodologia tradicional de regressão (incluídos os testes t e F) é aplicável a 
dados envolvendo séries de tempo (não estacionárias). A valiosa contribuição dos 
conceitos de raiz unitária, cointegração, etc. está em obrigar a determinar se os 
resíduos da regressão são estacionários. Como os pesquisadores no tema afirmam 
“Um teste de cointegração pode ser pensado como um pre-teste para evitar situações 
de regressão espúria”. 
 
Na linguagem da teoria de cointegração, uma regressão como (54) se conhece como 
regressão cointegrante e o parâmetro 𝛽2 como parâmetro cointegrante. O conceito 
de cointegração pode extender-se a modelos de regressão com k regressores. Neste 
caso, ter-se-á k parâmetros cointegrantes. 
 
Teste de Cointegração 
Vários métodos para testar Cointegração têm sido propostos na literatura. Aqui se 
consideram dois métodos comparativos simples: (1) o teste da raiz unitária DF ou DFA 
nos resíduos estimados da regressão cointegrante e (2) o teste da regressão 
cointegrante Durbin-Watson (CRDW) (“existe diferença entre testes da raiz unitária e 
testes de Cointegração: Testes para raiz unitária se aplicam em séries temporais 
univariadas (uma única variável), já Cointegração trata com relações entre grupos de 
variáveis, onde (incondicionalmente) cada uma tem uma raiz unitária”, ver texto 
original). 
 
O Teste Engel-Granger (EG) ou Engel-Granger Aumentado (EGA) 
Já se sabe como aplicar os testes DF e DFA para raízes unitárias. O que se deve fazer é 
estimar a regressão, como em (54), obter os resíduos e usar os testes DF ou DFA (se 
PCE e PDI não estão cointegradas, nenhuma combinação linear delas será estacionária 
e, portanto, os 𝑢𝑡 tampouco o serão). Entretanto, é necessário tomar uma precaução. 
Desde que o 𝑢𝑡 estimado está baseado no parâmetro cointegrante 𝛽2, os valores 
críticos de significância não são muito apropriados. Engle e Granger calcularam valores 
melhores (ver texto original), pelo que os testes DF e DFA neste contexto se conhecem 
como testes Engel-Granger (EG) e Engel-Granger Aumentado (EGA). Vários pacotes 
estatísticos apresentam estes valores críticos junto com outros resultados. 
31 
 
 
Ilustram-se estes resultados usando as séries temporais PCE e PDI conhecidas. 
Regredindo PCE sobre PDI, obtém-se: 
𝑃𝐶�̂�𝑡 = −171,4412 + 0,9672 𝑃𝐷𝐼𝑡. (56) 
 𝑡 = −7,4808, − 119,8712, 𝑅2 = 0,9940, 𝑑 = 0,5316 
Sendo PCE e PDI individualmente estacionárias, existe a possibilidade deregressão 
espúria. Mas , quando realizado o teste de raiz unitária para (56), obtêm-se os 
seguintes resultados: 
 
∆�̂̂�𝑡 = −0,2753 �̂�𝑡−1. (57) 
 𝑡 = −3,7791, 𝑅2 = 0,1422, 𝑑 = 2,2775 
 
O valor de 𝜏 crítico, ao 1% de nível de significância, é -2,5899. Desde que o valor 
calculado de 𝜏 (𝑡 = −3,7791) é mais negativo que aquele, a conclusão é de que os 
resíduos da regressão do PCE sobre o PDI são 𝐼(0); i.e., são estacionários. Daqui, (56) é 
uma regressão cointegrante e a regressão não é espúria, mesmo que ambas as séries 
sejam individualmente não estacionárias. A relação (56) pode ser chamada de função 
consumo estática ou de longo prazo, interpretando seus parâmetros como 
parâmetros de longo prazo. 
 
O Teste da Regressão Cointegrante Durbin-Watson (CRDW) 
Um método alternativo, mais rápido, de determinar se PCE e PDI são cointegradas é o 
teste CRDW. Neste teste se usa o d de Durbin-Watson obtido da regressão 
cointegradas, tal como 𝑑 = 0,5316, em (56). Mas agora a hipótese nula é que 𝑑 = 0, 
em vez do valor padrão 𝑑 = 2. Isso, porque 𝑑 ≅ 2(1 − �̂�) (ver Capítulo 12); assim, se é 
para existir uma raiz unitária, o 𝜌 estimado deve estar cerca de 1, fazendo com que d 
esteja cerca de zero. 
 
Na base de 10.000 simulações de 100 observações cada uma, os valores críticos para 
1%, 5% e 10% de erro são 0,511, 0,386 e 0, 322, respectivamente. Assim, se o valor 
calculado de d for menor que 0,511, rejeita-se a hipótese nula de cointegração ao nível 
de significância de 1%. No exemplo anterior, o valor é de 0,5316 é maior do que esse 
valor crítico, indicando que PCE e PDI são cointegradas, reforçando o sugerido pelo 
teste EG. 
 
Resumindo, baseados nos testes EG e CDRW, conclui-se que PCE e PDI são 
cointegradas. (OBS: O autor indica que os testes EG e CDRW atualmente 
suplementam-se (ou substituem-se) por um teste de maior potência, o método de 
Johansen, que não apresenta devido a que as ferramentas matemáticas escapam ao 
texto apresentado). 
 
32 
 
Cointegração e Mecanismo de Correção do Erro (MCE) 
Acabou-se de ver que as séries temporais PCE e PDI são cointegradas; i.e., que existe 
uma relação de longo prazo de equilíbrio entre elas. É claro que no curto prazo poderia 
existir desequilíbrio. Portanto, o termo de erro da relação (55), 𝑢𝑡 = 𝑃𝐶𝐸𝑡 − (𝛽1 +
𝛽2𝑃𝐷𝐼𝑡), poderia ser visto como “erro do equilíbrio” e usar esse termo para ajustar o 
comportamento de curto prazo do PCE com o longo prazo. O mecanismo de correção 
do erro (MCE) foi popularizado por Engle e Granger (ver texto original) e corrige o 
desequilíbrio. Um resultado importante, conhecido como Teorema de representação 
de Granger, estabelece que se duas variáveis Y e X são cointegradas, então a relação 
entre as duas pode ser expressa como MCE. Para entender o significado disso, 
reconsidere o exemplo correspondente ao PCE e ao PDI, com o seguinte modelo: 
 
∆𝑃𝐶𝐸𝑡 = 𝛼0 + 𝛼1∆𝑃𝐷𝐼𝑡 + 𝛼2𝑢𝑡−1 + 𝜀𝑡. (58) 
 
onde ∆ é o operador da primeira diferença, 𝜀𝑡 é um termo de erro aleatório e 
𝑢𝑡−1 = 𝑃𝐶𝐸𝑡−1 − (𝛽1 + 𝛽2𝑃𝐷𝐼𝑡−1) (i.e., o erro defasado de ordem 1 da regressão 
cointegrante (54)). 
 
A relação do MCE, (58), estabelece que ∆𝑃𝐶𝐸 depende de ∆𝑃𝐷𝐼 e de um termo de 
erro de equilíbrio. Se este último termo for diferente de zero, o modelo está fora de 
equilíbrio. Suponha que ∆𝑃𝐷𝐼 = 0 e 𝑢𝑡−1 > 0. Então, 𝑃𝐶𝐸𝑡−1 > 𝛽1 + 𝛽2𝑃𝐷𝐼𝑡−1; i.e., o 
consumo está acima do seu valor de equilíbrio em relação à renda. Neste caso, espera-
se que 𝛼2 < 0, para fazer com que o termo 𝛼2𝑢𝑡−1 seja negativo e ∆𝑃𝐶𝐸𝑡 < 0, para 
restabelecer o equilíbrio. Isto é, se 𝑃𝐶𝐸𝑡 está acima do seu valor de equilíbrio, 
começará a cair no próximo período para corrigir o erro de equilíbrio; daqui o nome de 
MCE. Analogamente, se 𝑢𝑡−1 < 0 (i.e., se 𝑃𝐶𝐸 está por baixo do seu valor de 
equilíbrio), 𝛼2𝑢𝑡−1 será positivo, para forçar que ∆𝑃𝐶𝐸𝑡 > 0, fazendo com que 𝑃𝐶𝐸𝑡 
aumente no período t. Assim, o valor absoluto de 𝛼2 estabelece que tão rapidamente 
se estabelece o equilíbrio. Na prática se estima 𝑢𝑡−1 por �̂�𝑡−1 = 𝑃𝐶𝐸𝑡−1 − �̂�1 −
�̂�2𝑃𝐷𝐼𝑡−1. 
 
Voltando para o exemplo do PCE e o PDI, o ajuste de (58) resulta: 
 
∆𝑃𝐶�̂�𝑡 = 11,6918 + 0,2906∆𝑃𝐷𝐼𝑡 − 0,0867𝑢𝑡−1. (59) 
 𝑡 = 5,3249, 4,1717, − 1,6003 𝑅2 = 0,1717, 𝑑 = 1,9233 
 
Estatisticamente, o termo de equilíbrio é zero, sugerindo que PCE se ajusta a 
mudanças no PDI no mesmo período de tempo. Como (59) mostra, mudanças de curto 
prazo no PDI têm impacto positivo em mudanças de curto prazo no PCE. O coeficiente 
0,2906 pode ser interpretado como a propensão marginal ao consumo de curto prazo; 
33 
 
a propensão marginal ao consumo de longo prazo está dada pela relação de equilíbrio 
estimada (56), como 0,9672. 
 
 
21.12 ALGUMAS APLICAÇÕES ECONÔMICAS 
Conclui-se este capítulo considerando alguns exemplos. 
 
EXEMPLO 21.1 
OFERTA MENSAL DE DINHEIRO M1 NOS ESTADOS UNIDOS, DE JANEIRO 1951 A 
SETEMBRO DE 1999 
A Fig. 21.10 mostra a oferta dinheiro M1 nos Estados Unidos entre janeiro de 1959 e 
Setembro de 1999. Até onde podemos observar, a série temporal parece não 
estacionária, o que pode ser confirmado pela análise de raiz unitária (segundo o autor, 
os dados correspondentes podem ser obtidos no Federal Reserve Board ou Federal 
Reserve Bank of St. Louis). 
 
 
∆𝑀𝑡̂ = 0,2618 + 0,0159𝑡 − 0,0044𝑀𝑡−1, (60) 
 𝑡 = 0,7919, 4,4227, − 3,0046 𝑅2 = 0,0670, 𝑑 = 0,7172 
Os valores críticos de 𝜏 para 1%, 5% e 10% são -3,9811, -3,4210 e -3,1329. Desde que o 
valor de t de -3,0046 é menos negativo que os valores críticos, conclui-se que a série 
temporal M1 é não estacionária; i.e., contém uma raiz unitária (é 𝐼(1)). Mesmo 
tentando vários valores defasados de ∆𝑀𝑡 (como no teste DFA), a conclusão não 
muda. Por outro lado, a série de primeiras diferenças de M1 resulta estacionária. 
34 
 
 
 
 
 
EXEMPLO 21.2 
TIPO DE CÂMBIO EUA/RU: 1 DE JANEIRO DE 1973 A 10 DE OUTIBRO DE 1996 
A Fig. 21.11 dá o gráfico da taxa de câmbio $/£ entre janeiro de 1973 e Outubro de 
1996, para um total de 286 observações. Pelo gráfico, pode-se dizer que parece não 
estacionária. Aplicando os testes de raiz unitária, obtêm-se os seguintes valores para o 
estatístico 𝜏: -1,2749 (sem intercepto nem tendência), -1,7710 (intercepto) e -1,6269 
(com intercepto e tendência). Esses valores são menores (em valor absoluto) que os 
valores críticos de 𝜏 das tabelas do teste DF, confirmando a impressão gráfica de que a 
série temporal da taxa de câmbio $/£ é não estacionária. 
 
 
EXEMPLO 21.3 
ÍNDICE DE PREÇOS AO CONSUMIDOR (IPC) NOS EUA: JANEIRO DE 1947 A JANEIRO DE 
2000 
A Fig. 21.12 mostra o IPC nos EUA entre Janeiro de 1947 e janeiro de 2000, para um 
total de 649 observações. Esta série, como a série M1, mostra tendência crescente 
sustentada. O teste de raiz unitária resulta: 
∆𝐼𝑃𝐶𝑡̂ = −0,0094 + 0,00051𝑡 − 0,00066𝐼𝑃𝐶𝑡−1 + 0,5473∆𝐼𝑃𝐶𝑡−1, (61) 
 𝑡 = −0,6538, 4,3441, − 1,5472 16,4448 
35 
 
 𝑅2 = 0,5177, 𝑑 = 2,1410 
 
O valor de t (=𝜏) do IPC é -1,5472. O valor crítico para 10% é -3,1317. Sendo o valor 
calculado de 𝜏 menor em valor absoluto que o valor crítico, conclui-se que o IPC não é 
estacionário. Pode-se notar que a série tem tendência estocástica (ver relação (44)). Se 
se toma série das primeiras diferenças, encontrar-se-á estacionariedade. Assim, resultaque a série do IPC é uma série temporal estacionária em diferenças (ED). 
 
 
 
EXEMPLO 21.4 
SÃO COINTEGRADOS OS TÍTULOS DO TESOURO A TRÊS E SEIS MESES? 
A Fig. 21.13 mostra as taxas dos Títulos do Tesouro dos EUA (com vencimento 
constante) a três e seis meses, de janeiro 1982 a Junho de 2001 (234 observações). A 
figura parece mostrar que as duas taxas são cointegradas; i.e., existe uma relação de 
equilíbrio entre as duas? Do ponto de vista da teoria das finanças, espera-se que esse 
seja o caso, de outra forma a arbitragem exploraria qualquer discrepância entre as 
taxas de curto e o longo prazo. Veja-se primeiro se as séries temporais são 
estacionárias. 
 
Sobre a base do modelo do caminho puramente aleatório (i.e., sem intercepto nem 
tendência), ambas as taxas são estacionárias. Incluindo intercepto, tendência e 
defasagem de um período, os resultados sugerem que as duas taxas poderiam ser 
36 
 
estacionárias; o coeficiente da tendência em ambos os casos resultou negativo e 
significante a um nível de 7%. Assim, dependendo do resultado aceito, as duas taxas 
são estacionárias ou estacionárias em tendência. 
 
Regredindo os títulos de seis meses (TB6) sobre os de três meses (TB3), obtém-se a 
seguinte regressão: 
 
 𝑇𝐵6𝑡̂ = −0,0456 + 1,0466𝑇𝐵3𝑡, (62) 
 𝑡 = −1,1207, 171,7239, 𝑅2 = 0,9921, 𝑑 = 0,4055 
 
 
Aplicando o teste de raiz unitária a os resíduos da regressão anterior, encontra-se que 
estes são estacionários, sugerindo-se que as taxas dos títulos a três e seis meses são 
cointegradas. Usando este resultado, obtém-se o seguinte modelo de correção do erro 
(MCE): 
∆𝑇𝐵6�̂� = −0,0067 + 0,9360∆𝑇𝐵3𝑡 − 0,2030�̂�𝑡−1, (63) 
 𝑡 = −0,8662, 41,9592, − 5,3837 
 𝑅2 = 0,8852, 𝑑 = 1,5604 
onde �̂�𝑡−1 é o valor do termo de erro correção defasado do período anterior. Como 
sugerem estes resultados, 0,2030 da discrepância das duas taxas no mês anterior 
elimina-se no mês atual. Além disso, mudanças nas taxas de curto prazo (TB3) 
37 
 
refletem-se rapidamente nas taxas dos títulos de seis meses, na medida em que o 
coeficiente de inclinação entre as duas é 0,9360 (evidenciando a eficiência dos 
mercados de moeda nos EUA). 
 
 
21.13 RESUMO E CONCLUSÕES 
1. A análise de regressão baseada em séries temporais implicitamente supõe que 
as séries temporais em estudo são estacionárias. Os testes clássicos t, F, etc. 
baseiam-se nessa hipótese. 
2. Na prática uma grande maioria de séries temporais não é estacionária. 
3. Um processo estocástico diz-se ser fracamente estacionário se sua média, 
variância e autocovariâncias são constantes no tempo (i.e., são invariantes no 
tempo). 
4. Informalmente, a estacionariedade fraca pode ser testada pelo correlograma 
de uma série temporal, que é um gráfico da autocorrelação em várias defasagens. 
Para séries temporais estacionárias o correlograma decresce rapidamente, entanto 
que para séries temporais não estacionárias o faz gradualmente. Para séries 
temporais puramente aleatórias, a autocorrelação na defasagem 1 e maiores do 
que 1 é zero. 
5. Formalmente, a estacionariedade pode ser verificada encontrando se a série 
contém uma raiz unitária. Os testes de Dickey-Fuller (DF) e Dickey-Fuller 
Aumentado (DFA) podem ser usados com esse propósito. 
6. Uma série temporal pode ser estacionária em tendência (ET) ou estacionária 
em diferenças (ED). Uma série temporal ET tem tendência determinística, entanto 
que uma série temporal ED tem tendência variável ou estocástica. A prática 
comum de incluir a variável tempo ou tendência variável num modelo de regressão 
para eliminar a influência da tendência nos dados só se justifica para série de 
tempo ET. Os testes DF ou DFA podem ser aplicados para determinar se uma série 
temporal é ET ou ED. 
7. Regressões de uma série temporal sobre outras séries temporais podem sem 
sentido. Este fenômeno se conhece com regressão espúria. Uma forma de evitar 
este problema é verificar se as séries são cointegradas. 
8. A cointegração significa que embora a séries temporais sejam individualmente 
não estacionárias uma combinação linear delas resulte estacionária. Os testes EG 
EGA e CRDW podem ser usados para testar se duas ou mais séries temporais são 
cointegradas. 
9. A cointegração de duas ou mais séries temporais sugere que existe uma relação 
de longo prazo (ou de equilíbrio) entre elas. 
10. O mecanismo de correção de erro (MCE) desenvolvido por Engle e Granger é 
um meio de reconciliar o comportamento de curto prazo de uma variável com seu 
comportamento de longo prazo. 
38 
 
SÉRIES TEMPORAIS: PREVISÃO COM MODELOS ARIMA E VAR 
(CAPÍTULO 22) 
 
Neste capítulo discutem-se dois métodos de previsão muito populares: (1) o método 
auto-regressivo integrado de média móvel (ARIMA), popularmente conhecido como 
metodologia de Box-Jenkins (Box, G.P.E.; Jenkins, G.M., Time Series Analysis: 
Forecasting and Control, revised ed. Holden Day, San Francisco, 1978) e (2) o método 
auto-regressão vetorial (VAR). 
 
Discutir-se-á, também neste capítulo o problema especial que envolve preços de ativos 
financeiros, tais como preços de ações e taxas de câmbio. Estes preços estão 
caracterizados pelo fenômeno conhecido como acumulação da volatilidade (clustering 
volatility), i.e., períodos nos que se apresentam grandes variações durante tempo 
prolongado, seguidos por períodos de tranquilidade relativa (mudanças na variância de 
valores grandes em períodos prolongados, seguidas de valores pequenos). Por 
exemplo, o índice Dow Jones no passado recente. Os chamados modelos auto-
regressivos de heteroscedasticidade condicional (auto-regressive conditional 
heteroscedasticity - ARCH) ou auto-regressivos generalizados de heteroscedasticidade 
condicional (generalized auto-regressive conditional heteroscedasticity - GARCH) 
conseguem captar tal acumulação da volatilidade. (Homoscedasticidade e 
Heteroscedasticidade são os termos técnicos usados em Estatística para indicar que 
uma sequência de variáveis possui ou não, respectivamente, variância constante; 
“homo”: igual, “scedasticidade”; dispersão). 
 
Neste capítulo assume-se a hipótese de que a série temporal tratada pelos métodos a 
serem discutidos é estacionária ou pode ser feita estacionária com transformações 
adequadas. 
 
22.1 ABORDAGENS DE PREVISSÃO ECONÔMICA 
De forma geral, existem cinco abordagens para previsão econômica baseadas em série 
temporal: (1) métodos de suavização exponencial, (2) modelo de regressão de uma 
única equação, (3) modelo de regressão de equações simultâneas, (4) modelo auto-
regressivo integrado de média móvel (ARIMA) e (5) modelo de auto-regressão vetorial 
(VAR). 
 
Métodos de Suavização Exponencial 
Estes são basicamente métodos que ajustam adequadamente uma curva aos dados 
históricos de uma série temporal. Existe uma variedade destes métodos, tais como 
suavização exponencial simples, o método linear de Holt, o método de Holt-Winter e 
suas variações. Apesar de ainda serem usados em várias áreas de previsão de negócios 
e economia, agora estão sendo complementados (substituídos?) pelos outros quatro 
39 
 
métodos acima mencionados. Não serão discutidos neste capítulo, por se afastarem 
muito da proposta deste trabalho. 
 
Modelos de Regressão de Uma Única Equação 
O foco deste texto é modelos de regressão de uma única equação. Como exemplo cita-
se a demanda por automóveis. Postula-se que a demanda por automóveis é uma 
função do preço do bem,dos gastos em propaganda, da receita dos consumidores, 
taxas de interesse e outras variáveis (como tamanho da família e distância de viagem 
ao trabalho). De dados de séries temporais, estima-se um modelo apropriado de 
demanda por automóveis (linear, log-linear ou não linear), que pode ser usado para 
prever a demanda por automóveis no futuro. De fato, os erros de previsão aumentam 
rapidamente se avança no futuro. 
 
Modelos de Regressão de equações simultãneas 
Consideram-se modelos de equações simultãneas nos Capítulos 18, 19 e 20. No seu 
apogeo, durante os anos 1960 e 1970, elaborados modelos econômicos baseados em 
equações simultâneas dominaram as previssões econômicas nos EUA. Mas, desde 
então, o interesse por desses modelos de previsão econômica terminou devido a seu 
pobre desempenho em previsão, especialmente desde os choques do petróleo de 
1973 e 1979 (devidos a os embargos da OPEP) e á crítica de Lucas (Lucas, R, 
Econometric Policy Evaluation: A Critique, in Carniege-Rochester Conference series, 
The Phillipe Curve, North-Holland, Amasterdam, 1976, pp. 19-46. Este artigo, entre 
outros valeu a Lucas o Prêmio Nobel em economia). O argumento da crítica é que os 
parâmetros estimados num modelo econométrico dependem da política prevalecente 
no momento no que se estima o modelo e mudam se a política muda. Em resumo, os 
parâmetros estimados não são invariantes à mudanças na política. 
 
Modelos ARIMA 
A publicação da obra Time Series Analysis: Forecasting and Control, por Box e Jenkins 
(1978), deu início a uma nova geração de ferramenttas de previsão. Popularmente 
conhecida como metodologia de Box-Jenkins (BJ), mas tecnicamente denominada 
metodologia ARIMA, a ênfase desses métodos não está na construção de modelos de 
equações, mas em analizar as proprideades probabilísiticas ou estocásticas das séries 
temporais à luz da filosofia “deixem os dados falar por eles mesmos”. A diferença dos 
modelos de regressão, nos que 𝑌𝑡 se explica por k regressores 𝑋1, 𝑋2, … , 𝑋𝑘, os 
modelos de séries temporais do tipo BJ explicam 𝑌𝑡 por valores passados ou defasados 
de si mesma e de termos de erro estocástico. Por esta razão, às vezes, os modelos 
ARIMA se denominam ateóricos, pois não derivam de uma teoria específica. 
 
40 
 
Diga-se de passagem que a ênfase neste capítulo é em modelos ARIMA univariados; 
i.e., modelos envolvendo uma única série temporal. A análise, entretanto, pode-se 
extender a modelos ARIMA multivariados. 
 
Modelos VAR 
A metodologia VAR relembra os modelos de equações simultâneas, nos que se 
consideram várias variáveis endôgenas juntamente. Mas cada variável endôgena se 
explica pelos seus valores defasados ou passados e os valores defasados de todas as 
outras variáveis endôgenas no modelo. Geralmente não existem variávesi exôgenas no 
modelo. 
 
No que segue se discutem os fundamentos das abordagens de Box-Jenkins e VAR. A 
análise é elementar e heurística. O texto apresenta referências adicionais para quem 
quizer aprofundar no tema. 
 
 
22.2 MODELOS DE SÉRIES DE TEMPO AR, AM E ARIMA 
Para introduzir diversas ideias, algumas novas e outras antigas, trabalha-se com os 
dados da série temporal do PIB dos EUA da Tabela 21.1. Gráficos dessa série temporal 
se dão na Fig. 21.1 (PIB original) e Fig. 21.9 (primeira diferença do PIB). Lembrar que a 
série temporal do PIB é não estacionária na sua forma original, mas é estacionária na 
sua primeira diferença. 
 
Se uma série temporal é estacionária pode ser modelada de várias formas. 
 
Um Processo Auto-Regressivo (AR) 
Seja 𝑌𝑡 a série temporal do PIB no tempo t. Modelando 𝑌𝑡 como: 
 
(𝑌𝑡 − 𝛿) = 𝛼1(𝑌𝑡−1 − 𝛿) + 𝑢𝑡 (64) 
 
onde 𝛿 é a média de 𝑌 e 𝑢𝑡 o termo de erro aleatório não correlacionado, com média 
zero e variância constante 𝜎2 (i.e., ruído branco), diz-se que 𝑌𝑡 segue um processo 
estocástico auto-regressivo de primeira ordem (AR1). Aqui o valor de 𝑌 no tempo t 
depende de seu valor no período anterior e um termo de erro aleatório; os valores de 
𝑌 se expressam como desvios dos seus valores médios. Em outras palavras, este 
modelo diz que o valor previsto de 𝑌 no tempo t é simplesmente uma proporção (=
𝛼1) do seu valor no tempo t-1 mais um choque ou perturbação aleatório no tempo t; 
novamente, os valores de 𝑌 se expressam como desvios dos seus valores médios. 
 
Mas, se se considera o seguinte modelo: 
 
41 
 
(𝑌𝑡 − 𝛿) = 𝛼1(𝑌𝑡−1 − 𝛿) + 𝛼2(𝑌𝑡−2 − 𝛿) + 𝑢𝑡 (65) 
 
diz-se que 𝑌𝑡 segue um processo estocástico auto-regressivo de segunda ordem (AR2); 
i.e., o valor de 𝑌 no tempo t depende de seu valor nos dois períodos anteriores, sendo 
os valores de 𝑌 expressos ao redor do seu valor médio 𝛿. 
 
Em geral, pode-se ter: 
 
(𝑌𝑡 − 𝛿) = 𝛼1(𝑌𝑡−1 − 𝛿) + 𝛼2(𝑌𝑡−2 − 𝛿) + ⋯ + 𝛼𝑝(𝑌𝑡−𝑝 − 𝛿) + 𝑢𝑡 (66) 
 
neste caso, 𝑌𝑡 segue um processo estocástico auto-regressivo de p-ésima ordem 
(ARp). 
 
Note que em todos os modelos anteriores só estão envolvidos o valor atual e os 
valores prévios de 𝑌; não existem outros regressores. Neste sentido, diz-se que “os 
dados falam por si mesmos”. 
 
Um processo de Média Móvel (MA) 
Os processos AR apresentados acima não são o único mecanismo que pode gerar 𝑌. 
Suponha que o modelo e 𝑌 é como segue: 
 
𝑌𝑡 = 𝜇 + 𝛽0𝑢𝑡 + 𝛽1𝑢𝑡−1 (67) 
 
onde 𝜇 é uma constante e 𝑢, como antes, é o termo de ruído branco estocástico. Aqui 
𝑌 no tempo t é igual a uma constante mais a média móvel do termo de erro atual e o 
passado. Diz-se que 𝑌 segue um processo de média móvel de primeira ordem MA(1). 
 
Se 𝑌 segue a expressão 
 
𝑌𝑡 = 𝜇 + 𝛽0𝑢𝑡 + 𝛽1𝑢𝑡−1 + 𝛽2𝑢𝑡−2 (68) 
 
é um processo MA(2). Em geral, 
 
𝑌𝑡 = 𝜇 + 𝛽0𝑢𝑡 + 𝛽1𝑢𝑡−1 + 𝛽2𝑢𝑡−2 + ⋯ + 𝛽𝑞𝑢𝑡−𝑞 (69) 
 
é um processo MA(q). Em resumo, um processo de média móvel é simplesmente uma 
combinação linear de termos de ruído branco. 
 
 
 
 
42 
 
Um Processo Auto-Regressivo e Média Móvel (ARMA) 
De fato é possível que 𝑌 tenha características de ambos os processos AR e MA e seja, 
portanto, um processo ARMA. Assim, 𝑌𝑡 segue um processo ARMA(1,1) se se pode 
escrever como: 
𝑌𝑡 = 𝜃 + 𝛼1𝑌𝑡−1 + 𝛽0𝑢𝑡 + 𝛽1𝑢𝑡−1 (70) 
 
onde 𝜃 representa um termo constante. 
 
Em geral um processo ARMA(p,q) terá p termos autoregressivos e q de média móvel. 
 
Um Processo Auto-Regressivo Integrado de Média Móvel (ARIMA) 
Os modelos de séries temporais discutidos baseiam-se na hipótese de que as séries 
temporais envolvidas são estacionárias (fracamente); i.e., a média e variância 
constantes e sua covariância invariante no tempo. Sabe-se, entretanto, que muitas 
séries temporais são não estacionárias, isto é, integradas; por exemplo, as séries da 
Tabela 21.1 são integradas. 
 
Sabe-se também que se uma série temporal é integrada de ordem 1, 𝐼(1), a série das 
suas primeiras diferenças é 𝐼(0); i.e., estacionária. Analogamente, se a série temporal 
é 𝐼(2), suas segundas diferenças são 𝐼(0). Em geral se uma série temporal é 𝐼(𝑑), sua 
diferença de ordem d é 𝐼(0). 
 
Portanto, se para uma série temporal devem se fazer as diferenças d vezes para torná-
la estacionária e depois aplicar o modelo ARMA(p,q), diz-se que a série temporal 
original é ARIMA(p,d,q), isto é, auto-regressiva integrada de média móvel, onde p 
denota o número de termos de auto-regressão, d o número de vezes que a série deve 
ser diferenciada para torna-la estacionária e q o número de termos de média móvel. 
 
Assim, uma série temporal ARIMA(2,1,2) deve ser diferenciada uma vez (d=1) para ser 
estacionária e a série temporal estacionária