Logo Passei Direto
Buscar
Material

Prévia do material em texto

Lecture Notes - Econometria
Prof. Rodrigo Moura
rodrigoleandro@gmail:com
EPGE/FGV
Primeira Versão: 19/06/2009
Versão Atual: 15/06/2010
Sumário
1 Introdução 4
1.1 Tipos de Dados: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Casualidade 6= Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Dados Experimentais x Dados Não-Experimentais . . . . . . . . . . . . . . 5
2 Regressão Linear Simples (RLS) 6
2.1 Método de Mínimos Quadrados (MQO ou Ordinary Least Squares - OLS) . 7
2.2 O Coe…ciente de Determinação: RLS . . . . . . . . . . . . . . . . . . . . . . 11
3 Hipóteses do Modelo Clássico de Regressão Linear (MCRL) 13
4 Regressão Linear Múltipla (RLM) 28
4.1 Geometria do MQO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.2 Coe…ciente de Determinação (R2): Regressão Múltipla . . . . . . . . . . . . 32
4.3 Propriedades dos EMQ: Regressão Múltipla . . . . . . . . . . . . . . . . . . 34
5 Inferência Estatística 37
5.1 O Teste t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.2 Testes de Restrições Lineares Múltiplas: O Teste F . . . . . . . . . . . . . . 43
6 Teoria Assintótica do MQO 45
6.1 Consistência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
6.2 Normalidade Assintótica e Inferência em Amostras Grandes . . . . . . . . . 48
6.3 Estatística do Multiplicador de Lagrange (LM) . . . . . . . . . . . . . . . . 51
6.4 E…ciência Assintótica do MQO . . . . . . . . . . . . . . . . . . . . . . . . . 51
1
7 Formas Funcionais da Regressão 52
7.1 Formas Funcionais Logarítmicas . . . . . . . . . . . . . . . . . . . . . . . . 52
7.2 Formas Funcionais Quadráticas . . . . . . . . . . . . . . . . . . . . . . . . . 53
7.3 Formas Funcionais com Termos de Interação . . . . . . . . . . . . . . . . . . 54
7.4 Adicionando Regressores para Reduzir a Variância do Erro . . . . . . . . . 55
7.5 Variáveis Binárias (ou Dummy) como Variáveis Explicativas . . . . . . . . . 55
7.5.1 Testando para Diferenças em Funções de Regressões de Gru-
pos diferentes (Teste de Quebra Estrutural ou Teste de Chow) 58
7.6 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
8 Máxima Verossimilhança 65
8.1 Testes baseados na verossimilhança . . . . . . . . . . . . . . . . . . . . . . . 71
8.1.1 Teste LR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
8.1.2 Teste de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
8.1.3 Teste LM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
9 Multicolinearidade 73
10 Heterocedasticidade 78
11 Mais sobre Problemas nos Dados e na Especi…cação 86
11.1 Má especi…cação da Forma Funcional . . . . . . . . . . . . . . . . . . . . . . 86
11.2 Usando Variáveis Proxy para Variáveis Explicativas Não-Observadas . . . . 87
11.3 Propriedades de MQO sob Erro de Medida . . . . . . . . . . . . . . . 88
12 Endogeneidade 90
12.1 Estimação por Variáveis Instrumentais (VI ou IV) em RLS . . . . . . . . . 93
12.2 Estimação de VI em RLM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
12.3 Mínimos Quadrados de 2 Estágios (2SLS ou MQ2E) . . . . . . . . . . . . . 97
12.4 Testes para Endogeneidade e Restrições de Sobreidenti…cação . . . . . . . . 99
13 Equações Simultâneas 101
14 Análise de Regressão com Dados de Séries Temporais 111
14.1 Propriedades Amostrais Finitas do OLS sob Hipóteses Clássicas . . . . . . . 111
14.2 Tendências e Sazonalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
15 Aspectos Adicionais no uso do OLS com Dados de Séries Temporais 115
15.1 Séries de Tempo Fracamente Dependentes e Estacionárias . . . . . . . . . . 115
15.2 Propriedades Assintóticas do OLS . . . . . . . . . . . . . . . . . . . . . . . 117
15.3 Usando Séries Temporais Altamente Persistentes (ou Fortemente Depen-
dentes) em Análise de Regressão . . . . . . . . . . . . . . . . . . . . . . . . 119
2
15.4 Correlação Serial e Heterocedasticidade nas Regressões de Séries Temporais 121
15.4.1 Propriedades do OLS com Erros correlacionados serialmente . . . . . 121
15.5 Testando para Correlação Serial . . . . . . . . . . . . . . . . . . . . . . . . . 123
16 Tópicos Avançados em Séries Temporais 127
16.1 Testes para Raiz Unitária . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
16.2 Regressão Espúria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
17 Variável dependente binária 129
17.1 Modelo de Probabilidade Linear (MPL) . . . . . . . . . . . . . . . . . . . . 129
17.1.1 Modelos de Probabilidade Não-Linear: Probit e Logit . . . . . . . . 131
17.2 Estimação por Máxima Verossimilhança . . . . . . . . . . . . . . . . . . . . 133
3
1 Introdução
A Econometria tem a …nalidade de responder questôes econômicas. Nosso interesse pode
estar em identi…car e mensurar uma relação de causalidade entre duas variáveis. Como
exemplos, podemos citar:
1. Testes de validação de teorias econômicas
2. Avaliação de Políticas Públicas
3. Previsão (PIB, in‡ação, retorno de ativos …nanceiros etc)
4. Construção e interpretação de modelos estruturais
1.1 Tipos de Dados:
Cross-Section (Corte Transversal) - Microeconometria
Fixo uma unidade temporal e vari os dados no espaço
Por exemplo, a PNAD (Pesquisa Nacional por Amostra
e Domicílios) é uma base com dados em cross-section
pois aplica um questionário para uma amostra de
pessoas em um dado ano.
Séries Temporais - Macroeconometria
Fixo um espaço e vario os dados ao longo do tempo
Por exemplo, o IPEAData é uma base que coleta o
PIB a cada ano (ou trimestralmente).
Painel = Cross-Section + Séries Temporais
Os dados variam no espaço e ao longo do tempo.
Por exemplo, a PME (Pesquisa Mensal do Emprego) é uma base a qual segue
o mesmo domícilio por alguns meses coletando informações sobre mercado de trabalho.
1.2 Casualidade 6= Correlação
Gr�afico
PIB = f (temperatura m�edia do asfalto das rodovias)
Podemos encontrar alguma correlação, mas é completamente desprovida de alguma
casualidade.
4
Buscaremos modelar o comportamento médio. Então devemos tomar cuidado com as
observações com valores muito altos ou muito baixos (denominadas outliers). Por exemplo,
na PNAD existe a variável renda com valor 999.999.999 que se refere a valor ignorado e,
portanto, deve ter seu valor alterado para missing. Ou ainda, indivíduos com renda muito
alta (R$1.000.000) ou muito baixa (R$10) podem ser retirados da amostra pois podem
viesar o resultado. Podemos restringir a amostra para, por exemplo, indivíduos que ganham
entre 0.5*Salários Mínimos e 100*Salários Mínimos.
Mas nem sempre os métodos econométricos geram estimativas providas de causalidade.
Na seção seguinte veremos uma breve discussão sobre este ponto.
1.3 Dados Experimentais x Dados Não-Experimentais
Suponha que desejamos inferir uma relação causal entre educação e salários:
w = f(educ)
Espera-se que um maior nível educacional gere um maior nível salarial. Assim, neces-
sitamos coletar dados para inferir que educ causa w.
Podemos ter dois tipos de dados:
1. Dados Experimentais: geralmente coletados em ambientes de laboratório nas ciências
naturais. Nas ciências sociais (como por exemplo, na Economia) tal coleta é muito
difícil.
No exemplo acima, é como se aleatoriamente atribuíssemos um nível educacional para
cada pessoa independemente de outras características da mesma.
2. Dados Não-Experimentais: geralmente coletados através de questionários aplicados
aos agentes (indivíduos, …rmas etc). Aqui, é importante isolar o efeito de educ de
outros potenciais fatores que afetam salário.
Por exemplo, pessoas podem ganhar um nível salarial maior pois têm uma maior
idade (ou experiência) ou por serem do sexo masculino.
Logo, a idéia é incluir fatores que afetam também o salário e assim medirisoladamente
(ceteris paribus) o impacto de educ em w.
No entanto, existem fatores não-observáveis que podem gerar dúvida se estamos
realmente medindo um efeito causal de educ sobre w. Por exemplo, habilidade do
indivíduo é um fator que varia com educ. Ou seja, indivíduos com maior nível de
habilidade tendem a ter um maior nível educacional e consequentemente um maior
w. Logo não seria (totalmente) educ que gera um maior w e sim (parcialmente) as
habilidades intrínsecas do indivíduo.
5
2 Regressão Linear Simples (RLS)
Seja o seguinte modelo:
yi = �+ �xi + ui
onde yi é salário, xi é educação. Este é um modelo de regressão linear simples.
Mas podemos ter outra variáveis que afetam yi? Então vamos adicionar mais variáveis
ao modelo:
yi = �+ �1x1i + �2x2i + �3x3i + ui
onde, x1i é educação, x2i é genêro e x3i é idade do indivíduo.
Nesta seção trataremos do primeiro modelo e na seção seguinte do segundo.
Então:
yi = �+ �xi + ui
onde,
� = intercepto;
� =coe…ciente angular;
y =variável dependente (ou explicada, regredida, de resposta, controlada)
x =variável independente (ou explicativa, regressor, de controle)
u =erro, medida da ignorância
Suponha o seguinte modelo:
y = �+ �x+ u
onde � e � são os parâmetros (coe…cientes) verdadeiros:
Função de regressão Populacional (FRP): yi = �+ �xi + ui
�; � são desconhecidos, mas supomos que existem. Assim a FRP é algo …xo, mas
desconhecido, na população de interesse.
A partir de dados de uma amostra estimaremos � e �, sendo �^ é um estimador de � e
�^ é um estimador de �.
São estimadores não-viesados: E (�^) = �, E
�
�^
�
= �.
Entre os estimadores não-viesados, sobressaem-se os estimadores com menor variância.
Gr�afico
Função de Regressão Amostral (FRA): yi = �^+ �^xi + u^i
Necessitamos de uma amostra da população para estimar � e �.
Então �^ e �^ são os parâmetros estimados a partir de uma amostra.
E u^i é o resíduo.
Assim FRA é a versão estimada da FRP.
Veremos o método mais tradicional para estimar tais parâmetros na subseção seguinte.
6
2.1 Método de Mínimos Quadrados (MQO ou Ordinary Least Squares -
OLS)
Seja o modelo:
yi = �^+ �^xi| {z }
y^i
+ u^i
onde y^i é o yi predito, previsto ou porção explicada e u^i é o resíduo.
Gr�afico
Qual critério devo utilizar para obter os estimadores?
Podemos minimizar:
1. Soma dos Erros: Não é um bom critério pois pode anular positivos e negativos.
2. Soma Absoluta dos Resíduos: Gera um estimador pouco utilizado denominado LAD
(Least Absolute Deviations)
3. Soma do Quadrado dos Erros: Tem propriedades estatísticas (que veremos adiante)
que o tornam bastante atrativo.
Então, devemos resolver o seguinte problema de minimização:
min
f�;�g
nX
i=1
u2i = minf�^;�^g
nX
i=1
(yi � �� �xi)2
As CPOs serão:
�^ : �2
X
i
�
yi � �^� �^xi
�
= 0 =)
X
i
u^i = 0
Esta CPO nos mostra que a escolha do intercepto ótimo implica que a soma dos resíduos
será zero.
Continuando com esta CPO: X
i
�
yi � �^� �^xi
�
= 0X
i
yi �
X
i
�^�
X
i
�^xi = 0
n�y � n�^� �^n�x = 0
�^MQO = �y � �^�x (1)
Este é o estimador de Mínimos Quadrados Ordinários do intercepto (�).
7
Exercício 1 Prove que, em um modelo com intercepto, a reta da regressão (y^) sempre
passa pelo ponto médio (�x; �y).
Obtendo a CPO para �^:
�^ : �2
X
i
�
yi � �^� �^xi
�
xi = 0 =)
X
i
u^ixi = 0 (2)
Esta CPO nos mostra que a correlação entre o resíduo u^i e xi é nula.
Observação 2 Podemos notar isso mais claramente se minimizarmos o modelo em termos
de desvios da média, ou seja:
yi = �+ �xi + ui
Tomando a média, teremos:
�y = �+ ��x
(A média dos erros é zero: é uma das hipóteses que veremos na próxima seção).
Tomando a diferença entre as duas equações acima:
yi � �y = � (xi � �x) + ui
y�i = �x
�
i + ui
onde, o sobrescrito * indica que a variável está especi…cada em termos de desvios da
média. Assim: minimizando:
min
�
nX
i=1
u2i = min
�
nX
i=1
(y�i � �x�i )2
obtemos na derivação do � :
�2
X
i
�
y�i � �^x�i
�
x�i = 0 =)
X
i
u^ix
�
i = 0
Dividindo a última expressão por n� 1 (considerando n > 1), teremos:P
i u^i (xi � �x)
n� 1 = Cov (u^i; xi) = 0
Ou de forma mais simples ainda, retome a CPO da equação (2) e note que:X
i
u^ixi = 0X
i
u^ixi �
X
i
u^i = 0
8
que não altera em nada a expressão, pois como vimos
P
i u^i = 0. Multiplicando pela
constante �x: X
i
u^ixi � �x
X
i
u^i = 0X
i
u^i (xi � �x) = 0
Dividindo por n� 1: P
i u^i (xi � �x)
n� 1 = Cov (u^i; xi) = 0
Retomando a CPO (2) do �^, temos que:X
i
�
yi � �^� �^xi
�
xi = 0X
i
yixi �
X
i
�^xi �
X
i
�^x2i = 0X
i
yixi = �^
X
i
xi + �^
X
i
x2iX
i
yixi =
�
�y � �^�x
�X
i
xi + �^
X
i
x2i (
h
�^ = �y � �^�x
i
)
X
i
yixi = �y
X
i
xi + �^
 X
i
x2i � �x
X
i
xi
!
�^MQO =
P
i yixi � �y
P
i xi�P
i x
2
i � �x
P
i xi
�
Podemos escrever este estimador também de uma forma diferente. O denominador
9
pode ser escrito como:X
i
(xi � �x)2 =
X
i
�
x2i � 2xi�x+ �x2
�
=
X
i
x2i �
X
i
2xi�x+
X
i
�x2
=
X
i
x2i � 2�x
X
i
xi + n�x
2
=
X
i
x2i � 2�xn�x+ n�x2
=
X
i
x2i � n�x2
=
X
i
x2i � �xn�x
=
X
i
x2i � �x
X
i
xi
E o numerador pode ser escrito como:X
i
(xi � �x) (yi � �y) =
X
i
(xi � �x) yi �
X
i
(xi � �x) �y
=
X
i
(xi � �x) yi � �y
X
i
(xi � �x)| {z }
=
P
i xi �
P
i �x
= n�x� n�x = 0
=
X
i
xiyi �
X
i
�xyi =
X
i
yixi � �x
X
i
yi
=
X
i
yixi �
P
i xi
n
P
i yi
=
X
i
yixi �
X
i
xi�y =
X
i
yixi � �y
X
i
xi
Assim, o estimador MQO do � pode ser escrito como:
�^MQO =
P
i (xi � �x) (yi � �y)P
i (xi � �x)2
Exercício 3 Obtenha o estimador MQO do � a partir do modelo exposto na 2, ou seja,
continue a partir da CPO do problema já derivada.
10
O estimador MQO acima pode ser escrito também de outra forma usual; basta dividir
o numerador e denominador por n� 1 e assim:
�^MQO =
P
i (xi � �x) (yi � �y) =n� 1P
i (xi � �x)2 =n� 1
=
Cov (x; y)
V ar (x)
Exercício 4 Faça a Condição de Segunda Ordem (CSO) e mostre que o problema de
minimização da soma do quadrado dos resíduos resulta realmente em um mínimo. Dica=
monte a matriz hessiana e mostre que o determinante é positivo).
2.2 O Coe…ciente de Determinação: RLS
Existe alguma medida que me mostre se o meu modelo tem um bom poder preditivo?
Ou seja, se o regressor(es) (x) que eu inclui no meu modelo explica(m) bem a variável
dependente (y).
Seja a FRA:
yi = �^+ �^xi| {z }
y^i
+ u^i
Tomando a média:
�y = y^i
Assim, ambas as médias são iguais. Subtraindo �y dos dois lados da FRA:
(yi � �y) = (y^i � �y) + u^i
y�i = y^
�
i + u^i
onde o sobrescrito * indica que a variável está especi…cada em termos de desvios em
relação à média. Assim temos:
y�i = y^
�
i + u^i
Elevando ao quadrado:
(y�i )
2 = (y^�i )
2 + 2y^�i u^i + u^
2
i
Somando a expressão para todas as observações da amostra:X
i
(y�i )
2 =
X
i
(y^�i )
2 + 2
X
i
y^�i u^i +
X
i
u^2i
Note que:
P
i y^
�
i u^i =
P
i
�
�^+ �^x�i
�
u^i = �^
P
i u^i + �^
P
i x
�
i u^i = 0. Os dois termos são
iguais a zero e vem das CPOs do � e do � (2). Assim:X
i
(y�i )
2 =
X
i
(y^�i )
2 +
X
i
u^2i
11
onde: X
i
(y�i )
2 = Soma dos Quadrados Totais (SQT)X
i
(y^�i )
2 = Soma dos Quadrados Explicados (SQE)X
i
u^2i = Soma dos Quadrados dos Resíduos (SQR)
Assim:
SQT = SQE + SQR
Dividindo a expressão por SQT , teremos:
1 =
SQE
SQT| {z }
R2
+
SQR
SQT
OR2 mede o quanto da variação da variável dependente pode ser explicado pelavariação
do regressor. Assim:
R2 =
SQE
SQT
= 1� SQR
SQT
R2 =
P
i (y^
�
i )
2P
i (y
�
i )
2 =
Pn
i=1 (byi � �y)2Pn
i=1 (yi � �y)2
= 1�
P
i u^
2
iPn
i=1 (yi � �y)2
onde R2 2 [0; 1].
Observação 5 Esta expressão é válida apenas se o intercepto é íncluído no modelo. Caso
contrário, o R2 não pode ser mais utilizado pois não necessariamente ele estará no intervalo
[0; 1], podendo inclusive ser negativo. Sem intercepto, estamos forçando o modelo partir
da origem. Se o valor verdadeiro do intercepto, �, for diferente de zero, então ~� será um
estimador viesado de �.
Exercício 6 Prove que no modelo sem intercepto o R2 não estará necessariamente no
intervalo [0; 1].
Exercício 7 Mostre que no modelo com intercepto: yi = �^+�^xi+u^i, o R2 = [corr (x; y)]
2.
12
3 Hipóteses doModelo Clássico de Regressão Linear (MCRL)
Hipótese 1 (Linearidade dos Parâmetros) A relação entre a variável dependente y e
as explicativas x1; ::::; xk é linear:
y1 = �0 + �1x1i + :::+ �kxki + ui
De…nição 8 Um modelo de regressão é linear nos parâmetros se as CPOs associadas ao
problema de obtenção dos EMQ (Estimadores de MQO) gerarem um sistema linear nos
parâmetros.
Exemplo 9 Seja o seguinte modelo:
yi = �+ �xi + ui
Assim, o problema de minimização será:
min
�;�
X
i
(yi � �� �xi)2
As CPOs serão:
�^ : �2
X
i
�
yi � �^� �^xi
�
= 0 =)
X
i
yi = n�^+ �^
X
i
xi
�^ : �2
X
i
�
yi � �^� �^xi
�
xi = 0 =)
X
i
yixi = �^
X
i
xi + �^
X
i
x2i
�
n
P
i xiP
i xi
P
i x
2
i
� � b�b�
�
=
� P
i yiP
i yixi
�
Logo é um sistema linear e o modelo é linear nos parâmetros.
Exemplo 10 Seja o seguinte modelo:
yi = �+ �x
i + ui
O problema de minimização é:
min
f�;�;
g
X
i
(yi � �� �x
i )2
A CPO:
� : �2
X
i
(yi � �� �x
i ) = 0
Logo não é linear por causa do 
.
13
Exemplo 11 Seja o seguinte modelo:
yi = �x
�1
1i x
�2
2i e
ui
Tomando o ln, teremos:
ln yi = ln�+ �1 lnx1i + �2 lnx2i + ui
Portanto, o modelo é linear.
Hipótese 2 (Amostragem Aleatória) : Podemos extrair uma amostra aleatória:
f(x1i; :::; xki; yi) ; i = 1; ::::; ng
da população.
Observação 12 Nos livros-texto esta hipótese é geralmente substituída por uma hipótese
de que X é não-estocástico (aleatório).
Hipótese 3 (Média Condicional Zero) : E (ujx) = 0
Exercício 13 Mostre que:
(i) E (ujx) = 0 =) E (u) = 0
(ii) E (ujx) = 0 =) Cov (u; x) = 0.
Dicas: Usem a Lei das Expectativas Iteradas (L.E.I): EX (EY (Y jX)) = E (Y ) e a
seguinte propriedade: E (Y XjX) = XE (Y jX).
Se Cov (u; x) = 0, dizemos que os regressores são exógenos e, assim, podemos seaparar
y em parte explicada e erro sem haver relação entre elas.
Se Cov (u; x) 6= 0, dizemos que os regressores são endógenos e teremos um problema
de endogeneidade no modelo que viesa os estimadores MQO (isto será visto em seção
posterior).
Exemplo 14
lnw = �+ �educ+ u
onde w = sal�ario e educ = anos de estudo. Em u podemos ter diversas variáveis não
observáveis, como por exemplo: habilidades (cognitivas/não-cognitivas) de um indivíduo.
A habilidade de um indivíduo pode estar correlacionada com educação. Assim, o efeito de
um maior nível educacional no salário pode estar viesado pois indivíduos com maior nível
de habilidade é de se esperar que avancem mais nos ciclos escolares e, conseqüentemente,
obtenham um maior nível salarial.
14
Hipótese 4 (Não há Multicolinearidade Perfeita) : As variáveis explicativas 1; x1; :::; xk
são linearmente independentes. Logo, xj ; j = 1; :::; k; não podem ser constante.
X =
26666664
1 x11 x21 : : : xk1
1 x12 x22 : : : xk2
: : : : :
: : : : :
: : : : :
1 x1n x2n xkn
37777775
n�(k+1)
Esta hipótese implica que posto (X) = k + 1, pois n � k + 1.
Relembre das propriedades de algebra matricial que:
posto (X) = posto
�
X 0X
�
= k + 1
Assim, (X 0X) é uma matriz invertível pois possui posto pleno (ou posto cheio ou
máximo). Assim, 9 (X 0X)�1 e portanto, podemos obter os parâmetros estimados:�
X 0X
�
�^ = X 0Y�
X 0X
��1 �
X 0X
�
�^ =
�
X 0X
��1
X 0Y
�^ =
�
X 0X
��1
X 0Y
Hipótese 5 (Homocedasticidade) : V ar (uijx) = �2;8i, ou seja, a variância do erro é
constante.
Hipótese 6 (Ausência de (Auto)Correlação (Serial)) : Cov (ui; uj jx) = 0;8i; j; i 6=
j.
Hipótese 7 (n > k) : Número de observações maior do que o número de regressores.
Essa hipótese é importante para obtermos os EMQ.
Hipótese 8 (Normalidade) : ui � N
�
0; �2
�
para todo i. Tal hipótese será necessária
para inferência.
15
Hipótese 9 (O modelo está corretamente especi…cado) : Não podemos incluir no
erro variáveis que estejam correlacionadas com as demais variáveis explicativas, pois assim
violaríamos a H.3.
Assim, dadas estas hipóteses, podemos enunciar um teorema (que será mais adiante
provado), que mostra a importância do EMQ.
Teorema 15 (de Gauss-Markov) : Dentro da classe dos estimadores lineares e não-
viesados, e dadas as hipóteses do MCRL, os EMQ são os estimadores que possuem a
menor variância (BLUE - Best Linear Unbiased Estimator)
Figura
Agora, veremos, no caso da RLS, que:
(i) EMQ são lineares
(ii) EMQ são não viesados
(iii) Qual a variância dos EMQ?
(iv) Qual a Cov
�
�^; �^
�
?
(v) Quem é o "EMQ"de �2?
Proposição 16 (i) Os estimadores MQO �^ e �^ são estimadores lineares se puderem ser
escritos como uma combinação linear de y.
Prova. O estimador �^ é escrito como:
�^ = �y � �^�x
Assim, sua linearidade depende de �^.
�^ =
P
i (xi � �x) (yi � �y)P
i (xi � �x)2
=
P
i (xi � �x) yi �
P
i (xi � �x) �yP
i (xi � �x)2
�^ =
P
i (xi � �x) yi � �y
P
i (xi � �x)P
i (xi � �x)2
P
i(xi��x)=0=
P
i (xi � �x) yiP
i (xi � �x)2
�^ =
X
i
"
(xi � �x)P
i (xi � �x)2
yi
#
=
�^ =
X
i
diyi
onde, di =
(xi��x)P
i(xi��x)2
. Logo, �^ é um estimador linear.
16
Em relação ao intercepto:
�^ = �y � �^�x =
P
i yi
n
� �x
P
i (xi � �x) yiP
i (xi � �x)2
=
X
i
"
1
n
� �x
P
i (xi � �x)P
i (xi � �x)2
#
yi
=
X
i
ciyi
onde, ci =
h
1
n �
�x
P
i(xi��x)P
i(xi��x)2
i
= 1n � �xdi. Logo �^ é um estimador linear.
Proposição 17 (ii) EMQ são não-viesados.
Prova.
�^ =
X
i
diyi =
X
i
di (�+ �xi + ui)
=
X
i
di�+
X
i
di�xi +
X
i
diui
= �
X
i
di + �
X
i
dixi +
X
i
diui
Analisando o segundo e terceiro termo do lado direito da expressão:X
i
di =
X
i
(xi � �x)P
i (xi � �x)2
=
1P
i (xi � �x)2
X
i
(xi � �x)| {z }
=0
= 0
X
i
dixi =
X
i
(xi � �x)xiP
i (xi � �x)2
=
Note que
P
i (xi � �x) (xi � �x) =
P
i (xi � �x) (xi � �x) =
P
i (xi � �x)xi�
P
i (xi � �x) �x =P
i (xi � �x)xi � �x
P
i (xi � �x) =
P
i (xi � �x)xi:
Assim, substituindo
P
i (xi � �x) (xi � �x) =
P
i (xi � �x)xi, acima:X
i
dixi =
X
i
(xi � �x) (xi � �x)P
i (xi � �x)2
=
P
i (xi � �x)2P
i (xi � �x)2
= 1
Substituindo
P
i di = 0 e
P
i dixi = 1, de volta na expressão de �^ :
�^ = � +
X
i
diui
17
Analisamos 2 casos aqui:
(1) X não-estocástico (não-aleatório ou …xo).
E
�
�^
�
= E
 
� +
X
i
diui
!
= � + E
 X
i
diui
!
= � +
X
i
E (diui)
Como X é não-estocástico e di depende apenas dos regressores logo di é …xo também.
Logo:
E
�
�^
�
= � +
X
i
diE (ui)| {z }
=0
E
�
�^
�
= �
(2) X estocástico (aleatório). Neste caso devemos tomar a esperança condicional:
E
�
�^jx
�
= � + E
 X
i
diuijx
!
= � +
X
i
E (diuijx)
= � +
X
i
diE (uijx)| {z }
=0
E
�
�^jx
�
= �
Exercício 18 Prove que �^ é não-viesado. Dica: mostre primeiramente que �^ pode ser
escrito como: �^ = �+
P
i ciui.
Apartir de (i) e (ii) note a partir do seguinte modelo (FRA):
y = �^+ �^x+ u
Tomando a esperança condicional:
E (yjx) = �+ �x
Ou seja, o que estamos tentando modelar é o comportamento médio dos agentes (indi-
víduos, …rmas, governo, países etc).
(iii) Qual a variância dos EMQ?
18
�^0 = �0 +
X
i
ciui
�^1 = �1 +
X
i
diui
Assim:
V ar
�
�^1
�
= E
��
�^1 � E
�
�^1
��2�
= E
��
�^1 � �1
�2�
= E
��X
diui
�2�
= E
�
d21u
2
1 + d
2
2u
2
2 + :::+ d
2
nu
2
n + 2d1d2u1u2 + :::+ 2dn�1dnun�1un
�
= d21E
�
u21
�| {z }
�2
+ d22E
�
u22
�| {z }
�2
+ :::+ d2nE
�
u2n
�| {z }
�2
+
+2d1d2E (u1u2)| {z }
0
+ :::+ 2dn�1dnE (un�1un)| {z }
0
V ar
�
�^1
�
= �2
X
i
d2i
Mas:
X
i
d2i =
X
i
 
xi � �xP
i (xi � �x)2
!2
=
1hP
i (xi � �x)2
i2 X
i
(xi � �x)2 = 1P
i (xi � �x)2
Substituindo na expressão acima, teremos:
V ar
�
�^1
�
=
�2P
i (xi � �x)2
19
V ar
�
�^0
�
= E
��
�^0 � �0
�2�
= E
24 �0 +X
i
ciui � �0
!235
= E
�
c21u
2
1 + :::+ c
2
nu
2
n + 2c1c2u1u2 + :::+ 2cncn�1unun�1
�
= E
�
c21u
2
1
�
+ :::+ E
�
c2nu
2
n
�
+ 2c1c2E (u1u2) + :::+ 2cncn�1E (unun�1)
= �2
X
i
c2i = �
2
X
i
 
1
n
� �x (xi � �x)P
i (xi � �x)2
!2
= �2
X0B@ 1
n2
� 2�x (xi � �x)
n
P
(xi � �x)2
+
�x2 (xi � �x)2�P
(xi � �x)2
�2
1CA
= �2
264X
i
1
n2
�
X
i
2�x (xi � �x)
n
P
(xi � �x)2
+
X
i
�x2 (xi � �x)2�P
(xi � �x)2
�2
375
= �2
264 1
n
� 2�x
n
X� (xi � �x)P
(xi � �x)2
�
+ �x2
X0B@ (xi � �x)2�P
(xi � �x)2
�2
1CA
375
= �2
264 1
n
� 2�x
n
P
(xi � �x)P
(xi � �x)2
+ �x2
P
(xi � �x)2�P
(xi � �x)2
�2
375
= �2
�
1
n
+ �x2
1P
(xi � �x)2
�
= �2
"P
(xi � �x)2 + n�x2
n
P
(xi � �x)2
#
= �2
�P
x2i � 2�x
P
xi +
P
�x2 + n�x2
n
P
(xi � �x)2
�
= �2
�P
x2i � 2�xn�x+ n�x2 + n�x2
n
P
(xi � �x)2
�
V ar
�
�^0
�
=
�2
P
x2i
n
P
(xi � �x)2
:
(iv) Quem é Cov
�
�^0; �^1
�
?
20
Cov
�
�^0; �^1
�
= Cov
�
�y � �^1�x; �^1
�
= Cov
�
�y; �^1
�
| {z }
0
+ Cov
�
��^1�x; �^1
�
= ��xCov
�
�^1; �^1
�
= ��xV ar
�
�^1
�
Cov
�
�^0; �^1
�
=
��x�2P
(xi � �x)2
Observação 19 A variância para um vetor de variáveis é calculado como:
V ar (x) = E
�
(x�E (x)) (x�E (x))0�
onde x é um vetor coluna de tamanho n. Esta expressão é chamada também de matriz
de variância-covariância.
Assim, seja �^ =
�
�^0
�^1
�
o vetor de parâmetros. Então, no nosso caso teríamos:
V ar
�
�^
�
= E
��
�^ �E
�
�^
���
�^ �E
�
�^
��0�
= E
240@� �^0
�^1
�
�
0@ E ��^0�
E
�
�^1
� 1A1A�� �^0 �^1 ��� E ��^0� E ��^1� ��
35
= E
240@ �^0 � E ��^0�
�^1 � E
�
�^1
� 1A� �^0 � E ��^0� �^1 � E ��^1� �
35
=
2664 E
��
�^0 � E
�
�^0
��2�
E
h�
�^0 � E
�
�^0
���
�^1 � E
�
�^1
��i
E
h�
�^0 � E
�
�^0
���
�^1 � E
�
�^1
��i
E
�
�^1 � E
�
�^1
�2�
3775
=
24 V ar ��^0� Cov ��^0; �^1�
Cov
�
�^0; �^1
�
V ar
�
�^1
� 35
=
24 �2Px2inP(xi��x)2 ��x�2P(xi��x)2��x�2P
(xi��x)2
�2P
i(xi��x)2
35
21
(v) Estimador "MQO"de �2 (variância do erro):
yi = y^i + u^i
yi � �y = y^i � �y + u^i
Retomando a FRP (Função de Regressão Populacional) temos:
yi = �+ �xi + ui
�y = �+ ��x+ �u
�
yi � �y = � (xi � �x) + ui � �u
Retomando a FRA (Função de Regressão Amostral) temos:
y^i = �^+ �^xi
�y = �^+ �^�x
�
y^i � �y = �^ (xi � �x)
Logo:
u^i = (yi � �y)� (y^i � �y)
u^i = � (xi � �x) + ui � �u� �^ (xi � �x)
u^i = �
�
�^ � �
�
(xi � �x) + ui � �uX
u^2i =
�
�^ � �
�2X
(xi � �x)2| {z }
A
+
X
(ui � �u)2| {z }
B
� 2
�
�^ � �
�X
(xi � �x) (ui � �u)| {z }
C
Tomando a esperança, para obtermos E
�P
u^2i
�
.
22
Assim, analisando termo a termo:
E (A) = E
24 Pi (xi � �x)uiP
i (xi � �x)2
!2 P
(xi � �x)2
35 (�^ � � =Pi diui)
= E
264(Pi (xi � �x)ui)2�P
i (xi � �x)2
�2 P (xi � �x)2
375
=
1P
i (xi � �x)2
E
h
(
P
i (xi � �x)ui)2
i
=
1P
i (xi � �x)2
E
h
((x1 � �x)u1 + :::+ (xn � �x)un)2
i
=
1P
i (xi � �x)2
E
24 (x1 � �x)2 u21 + :::+ (xn � �x)2 u2n+2 (x1 � �x)u1 (x2 � �x)u2 + :::
+2 (xn�1 � �x)un�1 (xn � �x)un
35
=
1P
i (xi � �x)2
h
(x1 � �x)2 �2 + :::+ (xn � �x)2 �2
i
=
1P
i (xi � �x)2
"X
i
(xi � �x)2 �2
#
=) E (A) = �2
23
Em relação a B:
E (B) = E
�X
(ui � �u)2
�
= E
�X�
u2i + �u
2 � 2ui�u
��
= E
�X
u2i +
X
�u2 � 2�u
X
ui
�
= E
�X
u2i + n�u
2 � 2�un�u
�
= E
�X
u2i � n�u2
�
= E
�X
u2i
�
� E
 
n
�P
ui
n
�2!
=
X
E
�
u2i
�� E � 1
n
�X
ui
�2�
= n�2 � 1
n
E
h
(u1 + :::+ un)
2
i
= n�2 � 1
n
�
E
�
u21
�
+ :::+ E
�
u2n
��
= n�2 � �2
E (B) = (n� 1)�2
Em relação a C:
E (C) = E
h�
�^ � �
�X
(xi � �x) (ui � �u)
i
= E
" P
i (xi � �x)uiP
i (xi � �x)2
!X
(xi � �x) (ui � �u)
#
= E
26664
�
(x1 � �x)2 u21 + :::+ (xn � �x)2 u2n + 2 (x1 � �x) (x2 � �x)u1u2 + :::
+2 (xn�1 � �x) (xn � �x)un�1un
�
P
i (xi � �x)2
37775
=
1P
i (xi � �x)2
�
(x1 � �x)2 �2 + :::+ (xn � �x)2 �2
�
=
1P
i (xi � �x)2
 
�2
X
i
(xi � �x)2
!
E (C) = �2
24
Substituindo as expressões em E
�P
u^2i
�
, teremos:
E
�X
u^2i
�
= E (A) + E (B)� 2E (C)
= �2 + (n� 1)�2 � 2�2
E
�X
u^2i
�
= (n� 2)�2
Então um estimador não viesado para a variância do erro (�2) será:
�^2 =
P
u^2i
n� 2 =
SQR
n� 2
pois vimos que:
E
�
�^2
�
= E
�P
u^2i
n� 2
�
=
1
n� 2E
�X
u^2i
�
=
1
n� 2 (n� 2)�
2 = �2
Veremos em regressão múltipla que, de forma geral:
�^2 =
P
u^2i
n� k � 1 =
SQR
n� k � 1
onde k é o número de regressores. Como estamos tratando de regressão linear simples,
então k = 1.
Teorema 20 (Gauss-Markov) Dadas as hipóteses do MCRL, dentro da classe dos esti-
madores lineares e não-viesados, os EMQ são os que apresentam a menor variância.
Prova. Seja �^1 =
P
i diyi. Tomemos um outro estimador ~�1 =
P
iwiyi, o qual é linear e
não viesado. Para este ser não viesado, devemos observar que:
~�1 =
X
i
wiyi
=
X
i
wi (�0 + �1xi + ui)
= �0
X
i
wi + �1
X
i
wixi +
X
i
wiui
Para que este outro estimador seja não viesado devemos ter que:
E
�
~�1
�
= �1
25
E para ocorrer isso, devem valer as seguintes condições:X
i
wi = 0X
i
wixi = 1
Para que o estimador possa ser escrito como:
~�1 = �1 +
X
i
wiui
Como estamos supondo que X é não-estocástico, então:
E
 X
i
wiui
!
=
X
i
E (wiui) =
X
i
wiE (ui) = 0
visto que wi é função de xi, o qual é não-estocástico.
Analisando a variância de ~�1:
V ar
�
~�1
�
= E
��
~�1 � E
�
~�1
��2�
= E
��
~�1 � �1
�2�
= E
��X
wiui
�2�
= E
h
(w1u1 + :::+ wnun)
2
i
= E
�
w21u
2
1
�
+ :::+ E
�
w2nu
2
n
�
V ar
�
~�1
�
= �2
X
w2i
Agora, vejamos qual o wi que gera a menor variância. Para isso:
min
wi
X
i
w2i
s:t:X
i
wi = 0 ([�1])X
i
wixi = 1 ([�2])
L =
X
i
w2i � �1
X
i
wi � �2
 X
i
wixi � 1
!
26
As CPOs serão:
@L
@wi
= 2wi � �1 � �2xi = 0 =) 2wi = �1 + �2xi (3)X
i
wi = 0 (4)X
i
wixi = 1 (5)
Passando o somatório na equação (3), temos:
2
X
i
wi =
X
i
�1 + �2
X
i
xiX
i
wi = n�1 + �2
X
i
xi
Substituindo (4) acima, teremos:
0 = n�1 + �2
X
i
xi
�1 = ��2
P
i xi
n
= ��2�x (6)
Substituindo wi de (3) em (5), teremos:Xi
wixi| {z }
1
=
X
i
(�1 + �2xi)
2| {z }
wi
xi
1 =
1
2
 
�1
X
i
xi + �2
X
x2i
!
(7)
2 =
 
�1
X
i
xi + �2
X
x2i
!
(8)
Substituindo (6) em (7), teremos:
��2�x
X
i
xi + �2
X
x2i = 2
�2
 
��x
X
i
xi +
X
x2i
!
= 2
�2
�
��xn�x+
X
x2i
�
= 2
�2
�X
x2i � n�x2
�
= 2 (9)
27
Agora, relembre que:X
i
(xi � �x)2 =
X
i
�
x2i � 2xi�x+ �x2
�
=
X
i
x2i � 2�x
X
i
xi +
X
i
�x2
=
X
i
x2i � 2�xn�x+ n�x2X
i
(xi � �x)2 =
X
i
x2i � n�x2
Então podemos substituir esta expressão em (9):
�2
X
i
(xi � �x)2 = 2
�2 =
2P
i (xi � �x)2
(10)
Substituindo (10) em (6), temos:
�1 =
�2�xP
i (xi � �x)2
(11)
Substituindo (10) e (11) em (3), temos:
wi =
1
2
(�1 + �2xi)
wi =
1
2
 
�2�xP
i (xi � �x)2
+
2xiP
i (xi � �x)2
!
wi =
 
��xP
i (xi � �x)2
+
xiP
i (xi � �x)2
!
wi =
x� �xP
i (xi � �x)2
= di
Então, o próprio di gera a menor variância. Logo, �^1 =
P
i diyi (EMQ) é o estimador
que possui menor variância, dentro da classe de estimadores lineares não-vieados.
4 Regressão Linear Múltipla (RLM)
Seja o seguinte modelo de regressão múltipla:
yi = �0 + �1x1i + �2x2i + :::+ �kxki + ui;
28
onde agora, temos k variáveis explicativas.
Os estimadores MQO são obtidos através do seguinte problema de minimização:
min
f�^0;�^1;:::;�^kg
X
i
u^2i = minf�^0;�^1;:::;�^kg
X
i
(yi � �0 � �1x1i � �2x2i � :::� �kxki)2
As CPOs serão:
�^0 : �2
X
i
(yi � �0 � �1x1i � �2x2i � :::� �kxki) = 0
�^1 : �2
X
i
(yi � �0 � �1x1i � �2x2i � :::� �kxki)x1i = 0
:
:
:
�^k : �2
X
i
(yi � �0 � �1x1i � �2x2i � :::� �kxki)xki = 0
Resolvendo o sistema:
n�^0 + �^1
X
i
x1i + :::+ �^k
X
i
xki =
X
i
yi
�^0
X
i
x1i + �^1
X
i
x21i + :::+ �^k
X
i
x1ixki =
X
i
yix1i
:
:
:
�^0
X
i
xki + �^1
X
i
x1ixki + :::+ �^k
X
i
x2ki =
X
i
yixki
Matricialmente o sistema …ca: �
X 0X
�
�^ =X 0Y
29
onde:
X =
26666664
1 x11 x21 : : : xk1
1 x12 x22 : : : xk2
: : : : :
: : : : :
: :: : : :
1 x1n x2n : : : xkn
37777775
n�(k+1)
; �^ =
266666664
�^0
�^1
:
:
:
�^k
377777775
(k+1)�1
; Y=
26666664
y1
y2
:
:
:
yn
37777775
n�1
;
u^ =
26666664
u^1
u^2
:
:
:
u^n
37777775
n�1
Assim, podemos escrever a FRP e FRA em termos matriciais:
Y = X� + u (FRP)
Y = X�^ + u^ (FRA)
Uma das hipóteses do MCRL que vimos em termos matriciais foi:
posto (X) = k + 1 = posto pleno
Sendo:
Xn�(k+1) ! X 0(k+1)�nXn�(k+1) =
�
X 0X
�
(k+1)�(k+1)
! posto (X) = posto �X 0X�
Retomando: �
X 0X
�
�^ =X 0Y
Logo, se posto (X 0X) = k + 1 =posto pleno então 9 (X 0X)�1 e portanto:�
X 0X
�
�^ = X 0Y�
X 0X
��1 �
X 0X
�
�^ =
�
X 0X
��1
X 0Y
�^MQO =
�
X 0X
��1
X 0Y (12)
Observação 21 Uma forma de se escrever os estimadores de MQO, em termos de so-
matório, é:
�^j =
P
i r^jiyiP
i r^
2
ji
; j = 1; :::; k (13)
30
onde r^ji é o resíduo MQO de uma regressão de xj contra x�j, ou seja, contra todos os
outros regressores exceto o próprio xj. Esta fórmula dá uma outra interpretação do efeito
parcial de xj sobre y (que é medido pelo �^j, que é nada mais que uma derivada parcial de
y em relação xj). Os resíduos r^ji representam a parte de xj que não está correlacionada
com os outros regressores (x�j) (Ou seja, ao rodarmos uma regressão: xji = 
0 + 
1x1i +
::: + 
j�1xj�1i + 
j+1xj+1i + ::: + 
kxki + r^ji, este resíduo pode ser interpretado como a
parte de xj após excluir (ou deduzir ou isolar) o efeito dos outros regressores). Assim �^j
mede o efeito de xj sobre y, isolando o efeito de x�j.
4.1 Geometria do MQO
Consideremos o modelo com duas variáveis explicativas:
yi = �0 + �1x1i + �2x2i + ui:
Em termos matriciais:
Y = X�^ + u^
= X
�
X 0X
��1
X 0| {z }
Px
Y + u^
= PY + u^
onde P é a matriz de projeção no span(X). Span(X) é o subespaço gerado pelas colunas
de X. Assim, PY projeta o vetor Y no span(X).
Além disso, note que:
u^ = Y � PY = [I � P ]| {z }
M
Y
u^ = MY
onde M = I � X (X 0X)�1X 0 é a matriz de projeção ortogonal ao span (X). Assim
MY projeta o vetor Y no subespaço ortogonal ao span(X). Assim, Y é decomposto em
duas partes:
Y = PY|{z}
Y^=X�^
+MY|{z}
u^
Gra…camente temos:
Figura
31
Assim, temos que ter:
u^?X�^ =)
D
u^;X�^
E
= 0
ou
u^0
�
X�^
�
= 0
ou�
X�^
�0
u^ = 0
�^
0
X 0u^ = �^
0
X 0
�
Y �X�^
�
�^
0 �
X 0Y �X 0X�^
�
= 0�
X 0Y �X 0X�^
�
= 0
X 0Y = X 0X�^
�^=
�
X 0X
��1
X 0Y
Exercício 22 Prove que as matrizes M e P são:
(i) simétricas (M 0 =M)
(ii) idempotentes (MM =M)
4.2 Coe…ciente de Determinação (R2): Regressão Múltipla
Da mesma forma que na regressão linear simples, temos que:
R2 =
SQE
SQT
= 1� SQR
SST
ou ainda,
R2 =
Pn
i=1 (y^i � �y)2Pn
i=1 (yi � �y)2
= 1�
Pn
i=1 u^
2
iPn
i=1 (yi � �y)2
onde y^i = �^0 + �^1x1i + :::+ �^kxki e u^i = yi � y^i.
que é o coe…ciente de correlação quadrático entre o valor real e ajustado de y.
Observação: O R2 nunca diminui quando adicionamos regressores.
Exercício 23 Prove que o R2 não diminui quando adicionamos regressores, ou seja, é
uma função não decrescente do número de variáveis explicativas. (Dica: use SQT =
SQE + SQR e veja o que acontece com o SQE e com o SQR quando adicionamos algum
regressor).
32
Observação 24 Não podemos comparar o R2 de modelos:
(i) com diferente número de variáveis explicativas;
(ii) com variáveis dependentes diferentes.
Se o R2 nunca diminui quando adicionamos regressores, necessitamos de um coe…ciente
que penalize em certo grau a inclusão de regressores. Tal coe…ciente é chamado R2 ajus-
tado:
�R2 = 1� [SQR= (n� k � 1)]
[SQT= (n� 1)]
= 1� �^2= [SQT= (n� 1)] (�^2 = SQRn�k�1)
O R2 ajustado também recebe o nome em inglês de R � bar squared ou ainda R2
corrigido.
A importância desta medida é que ela impõe uma penalidade por se adicionar regres-
sores ao modelo.
Assim, SQR= (n� k � 1) é um estimador não-viesado de �2, que é a variância pop-
ulacional do erro, e SQT= (n� 1) é um estimador não viesado de �2y, que é a variância
populacional do y.
Proposição 25 Se adicionamos um novo regressor à regressão, então:
�R2 aumenta () a estatística t deste novo regressor é maior que 1, em módulo.
Proposição 26 E se adicionarmos um grupo de variáveis à regressão, então:
�R2 aumenta () a estatística F deste novo grupo de regressores é maior que 1:
Uma fórmula alternativa para o �R2 é:
�R2 = 1� [SQR= (n� k � 1)]
[SQT= (n� 1)]
�R2 = 1�
�
1�R2� (n� 1)
(n� k � 1) (
SQR
SQT = 1�R2)
Além de se comparar modelos ao se incluir regressores, o �R2 serve também para escolher
entre modelos nonnested (não encaixantes). Por exemplo, um modelo 1 que tem x1; x2 e
x3 e um outro modelo 2 que tem x1; x2 e x4.
Mas ele não serve para escolher entre formas funcionais diferentes da variável depen-
dente. Mas tais testes serão mostrados em capítulo posterior.
33
4.3 Propriedades dos EMQ: Regressão Múltipla
Vamos provar, que o EMQ �^ é não viesado.
Teorema 27 Sob as hipóteses H.1 a H.4 temos que:
E
�
�^j
�
= �j ; j = 0:1; :::; k
ou seja, os estimadores MQO são não-viesados. Em termos matriciais:
E
h
�^
i
= �
em que, �^ =(X 0X)�1X 0Y .
Prova.
�^ =
�
X 0X
��1
X 0Y
�^ =
266666664
�^0
�^1
:
:
:
�^k
377777775
; �^ =
26666664
�0
�1
:
:
:
�k
37777775
Relembrando:
Y = X� + u (FRP)
Y = X�^ + u^ (FRA)
Assim:
�^ =
�
X 0X
��1
X 0Y
=
�
X 0X
��1
X 0 (X� + u)
=
�
X 0X
��1
X 0X�+
�
X 0X
��1
X 0u
�^ = �+
�
X 0X
��1
X 0u
1. X não estocástico:E
�
�^
�
= E
�
�+
�
X 0X
��1
X 0u
�
= �+
�
X 0X
��1
X 0E (u)| {z }
=0
(Usando H.3)
E
�
�^
�
= �
34
Assim, o vetor de estimadores �^ é não viesado.
2. X estocástico:
E
�
�^jX
�
= E
�
�+
�
X 0X
��1
X 0ujX
�
= �+
�
X 0X
��1
X 0E (ujX)| {z }
=0
(Usando H.3)
E
�
�^jX
�
= �
Utilizamos também H.4 para podermos inverter (X 0X) e obter o estimador.
Vimos que a variância de um vetor é dado por:
V ar
�
�^
�
= E
��
�^ �E
�
�^
���
�^ �E
�
�^
��0�
= E
��
�^ � �
��
�^ � �
�0�
é a matriz de variância-covariância que foi visto anteriormente. Calculando:
�^ =
�
X 0X
��1
X 0Y =
�
X 0X
��1
X 0 (X� + u)
= � +
�
X 0X
��1
X 0u
Substituindo na fórmula da variância:
V ar
�
�^
�
= E
���
X 0X
��1
X 0u
���
X 0X
��1
X 0u
�0�
= E
��
X 0X
��1
X 0uu0X
��
X 0X
��1�0�
= E
��
X 0X
��1
X 0uu0X
��
X 0X
�0��1�
= E
h�
X 0X
��1
X 0uu0X
�
X 0X
��1i (X n~ao estoc�astico)
V ar
�
�^
�
=
�
X 0X
��1
X 0E
�
uu0
�
X
�
X 0X
��1
Quem é E [uu0]?
V ar (u) = E
�
(u�E (u)) (u�E (u))0�
= E
�
uu0
�
= E
26666664
0BBBBBB@
u1
u2
:
:
:
un
1CCCCCCA
�
u1 u2 : : : un
�
37777775
35
= E
26666664
u21 u1u2 : : : u1un
u2u1 u
2
2 u2un
: : : :
: : : :
: : : :
unu1 unu2 : : : u
2
n
37777775
n�n
=
26666664
�2 0 : : : 0
0 �2 0
: : : :
: : : :
: : : :
0 0 : : : �2
37777775
n�n
V ar (u) = E
�
uu0
�
= �2In
Substituindo esta expressão em V ar
�
�^
�
, temos:
V ar
�
�^
�
=
�
X 0X
��1
X 0�2X
�
X 0X
��1
= �2
�
X 0X
��1
X 0X
�
X 0X
��1
V ar
�
�^MQO
�
= �2
�
X 0X
��1
Observação 28 As variâncias dos EMQ podem ser escritas na forma de somatório:
V ar
�b�j� = �2
SQTj
�
1�R2j
� ; j = 1; :::; k
em que, SQTj =
Pn
j=1 (xij � �xj)2 é a variação amostral em xj e R2j é o R2 da regressão
de xj em todos os outros regressores, incluindo o intercepto.
Pelas duas fórmulas podemos notar que quanto maior a variância do erro, �2, maior
a variância dos estimadores, e portanto, menos preciso sua magnitude. Uma forma de
reduzi-la é adicionar mais regressores à equação. Mas nem sempre é possível.
Isso ocorre, pois o termo R2j avalia a relação linear entre as variáveis independentes, ou
seja, a correlação entre os regressores.
Assim, quando R2j é proximo de um, a variância do estimador será muito grande.
Assim, correlação alta (mas não perfeita) entre 2 ou mais regressores é denominado
Multicolinearidade (que será visto em mais detalhes em capítulo posterior)
Mas note que este problema não con…gura uma violação da hipótese H4 (Multicolin-
earidade Perfeita).
36
Note que a correlação alta entre algumas variáveis terá impacto somente nas variâncias
de seus parâmetros estimados. Ou seja, correlação alta entre x2 e x3 implica em V ar
�
�^2
�
e V ar
�
�^3
�
mais alta, mas sem efeito na V ar
�
�^1
�
e na dos outros estimadores.
5 Inferência Estatística
Nesta seção veremos o problema de testar hipóteses sobre os parâmetros (coe…cientes)
populacionais, ou seja, sobre os coe…cientes da FRP. Para tal, precisaremos inicialmente
derivar as distribuições dos estimadores de MQO.
Teorema 29 Sob as hipóteses do MCRL, temos que:
�^j � Normal
�
�j ; V ar
�
�^j
��
; j = 1; :::; k
onde V ar
�
�^j
�
= �
2
SQTj(1�R2j)
. Logo:
�
�^j � �j
�
dp
�
�^j
� � Normal (0; 1)
Assim, a distribuição amostral (amostras …nitas) do estimador �^j é uma distribuição
Normal.
Prova. Retomando o EMQ em termos de somatório (equação (13) ):
�^j =
P
i r^jiyiP
i r^
2
ji
�^j =
P
i r^ji (�0 + �1x1i + �2x2i + :::+ �kxki + ui)P
i r^
2
ji
�^j =
�0
P
i r^ji + �1
P
i r^jix1i + �2
P
i r^jix2i + :::+ �k
P
i r^jixki +
P
i r^jiui;P
i r^
2
ji
Teremos
P
i r^ji = 0;
P
i xlir^ji = 0;8l 6= j
Estas expressões podem ser obtidas a partir das CPOs da regressão xj contra x�j , ou
seja, da regressão:
xji = 
0 + 
1x1i + :::+ 
j�1xj�1i + 
j+1xj+1i + :::+ 
kxki + r^ji
37
O problema de minimização será:
min
0;:::;
1
X
i
r^2ji ()
min
0;:::;
1
X
i
�
xji � 
^0 � 
^1x1i � :::� 
^j�1xj�1i � 
^j+1xj+1i � :::� 
^kxki
�2
CPOs:
^0 : 2
X
i
(xji � 
^0 � 
^1x1i � :::� 
^kxki) = 0| {z }P
i rji=0
^1 : 2
X
i
(xji � 
^0 � 
^1x1i � :::� 
^kxki)x1i = 0| {z }P
i rjix1i=0
E assim, sucessivamente até 
^k. Assim teremos as seguintes expressões:X
i
r^ji = 0X
i
r^jix1i = 0
:
:
:X
i
r^jixki = 0
Assim:
�^j =
�j
P
i r^jixji +
P
i r^jiuiP
i r^
2
ji
O primeiro termo do numerador pode ser visto derivado a partir da regressão auxiliar:
xji = 
0 + 
1x1i + :::+ 
j�1xj�1i + 
j+1xj+1i + :::+ 
kxki| {z }
x^ji
+ r^ji
xji = x^ji + r^ji
xjir^ji = x^jir^ji + r^
2
ji (� (r^ji))X
i
xjir^ji =
X
i
x^jir^ji +
X
i
r^2ji (Passando
P
i)
38
Vamos avaliar
P
i x^jir^ji. Retomando:X
i
r^ji = 0X
i
r^jix1i = 0
:
:
:X
i
r^jixki = 0
Multiplicando cada uma dessas CPOs por seus parâmetros estimados: 
^0; :::; 
^k, tere-
mos:
^0
X
i
r^ji = 0
^1
X
i
r^jix1i = 0
:
:
:
^k
X
i
r^jixki = 0
Somando estes somatórios teremos:X
i
^0r^ji +
X
i
^1r^jix1i + :::+
X
i
^kr^jixki = 0X
i
(
^0r^ji + 
^1r^jix1i + :::+ 
^kr^jixki) = 0X
i
r^ji(
^0 + 
^1x1i + :::+ 
^kxki)| {z }
x^ji
= 0
X
i
r^jix^ji = 0
Substituindo na expressão inicial:X
i
xjir^ji =
X
i
x^jir^ji +
X
i
r^2jiX
i
xjir^ji =
X
i
r^2ji
39
Substituindo de volta em:
�^j =
�j
P
i r^jixji +
P
i r^jiuiP
i r^
2
ji
�^j =
�j
P
i r^
2
ji +
P
i r^jiuiP
i r^
2
ji
�^j =
�j
P
i r^
2
jiP
i r^
2
ji
+
P
i r^jiuiP
i r^
2
ji
�^j = �j +
P
i r^jiuiP
i r^
2
ji
Assim, este etimador pode ser escrito como:
�^j = �j +
X
i
 
r^jiP
i r^
2
ji
ui
!
�^j = �j +
X
i
wjiui
onde, wji =
r^jiP
i r^
2
ji
=
r^ji
SQRj
. ou seja, da mesma forma que na RLS, o EMQ da RLM
pode ser escrito em função do parâmetro verdadeiro (�j) e uma combinação linear dos
erros. Sob a hipótese H.8 (Normalidade) do MCRL (+ H.3, H.5 e H.6, ou seja, média
condicional nula dos erros, homocedasticidade e autocorrelação nula) podemos dizer que
ui é i:i:d: segundo uma Normal
�
0; �2
�
(Podemos dizer que eles são independentes, pois a hipótese de não serem autocorrela-
cionados com a normalidade implica independência).
Então �^ é uma combinação linear de variáveis normais independentes o que resulta
também em uma variável normal independente. E como:
E
�
�^j
�
= �j + E
 X
i
wjiui
!
= �j +
X
i
E (wjiui)
= �j +
X
i
wjiE (ui)
= �j
Assim:
�^j � Normal
�
�j ; V ar
�
�^j
��
40
E podemos padronizá-la para uma normal padrão:�
�^j � �j
�
dp
�
�^j
� � Normal (0; 1)
Exercício 30 A partir das CPOs dadas no teorema acima, obtenha o estimador MQO em
termos de somatório exposto na Observação (21)
Note que, utilizamos dp
�
�^j
�
=
r
V ar
�
�^j
�
=
r
�2
SQTj(1�R2j)
, que é baseado na variân-
cia populacional do erro. Assim, precisamos substituir �2 por seu estimador �^2:
Teorema 31 Sob as hipóteses do MCRL:�
�^j � �j
�
ep
�
�^j
� � tn�k�1;
em que k é o número de regressores do modelo populacional y = �0+�1x1+:::+�kxk+u
e ep
�
�^j
�
=
r
�^2
SQTj(1�R2j)
é o erro padrão.
Prova. Note que: �
�^j � �j
�
r
�^2
SQTj(1�R2j)
p
�2p
�2
=
�
�^j � �j
�
r
�2
SQTj(1�R2j)
p
�2p
�^2
=
(�^j��j)s
�2
SQTj(1�R2j)q(n�k�1)�^2
�2
=
p
n� k � 1
Relembrando do curso de Estatística, a variância amostral do resíduo é:
�^2 =
Pn
i=1 u^
2
i
n� k � 1
(n� k � 1) �^2 =
nX
i=1
u^2i
(n� k � 1) �^
2
�2
=
nX
i=1
u^2i
�2
� �2n�k�1
41
Essa demonstração vem dos testes de variâncias que seguem uma qui-quadrada. Isso é
válido desde que �^2 tenha sido obtida de uma população normal, ou seja, de uma variável
cuja distribuição é normal, que é o caso pois u segue uma Normal.
E temos que (
�^j��j)s
�2
SQTj(1�R2j)
pelo teorema anterior segue uma distribuição normal padrão.
Logo:
(�^j��j)s
�2
SQTj(1�R2j)q
(n�k�1)�^2
�2
=
p
n� k � 1
� N (0; 1)q
�2n�k�1=n� k � 1
= tn�k�1
desde que o numerador e o denominador sejam independentes. Assim:�
�^j � �j
�
ep
�
�^j
� � tn�k�1
E assim, podemos utilizar esta distribuição para os testes.
Vale lembrar que a t-student aproxima-se da Normal quando aumentamos os graus de
liberdade. Mas, neste caso, os graus de liberdade dependem diretamente da amostra. E
assim, quando aumentamos a amostra, n, a t-student pode ser aproximada pela normal.
5.1 O Teste t
Assim, podemos testar a seguinte hipótese nula:
H0 : �j = 0
Assim podemos utilizar teste t de Student:
t�^j
=
�^j
ep
�
�^j
�
De forma mais geral podemos testar se o estimador é igual a um valor especí…co:
H0 : �j = �j0
t�^j
=
�^j � �j0
ep
�
�^j
�
42
Podemos também executar os testes de hipóteses sobre uma combinação linear dos
parâmetros, por exemplo:
H0 : �1 + �2 = 1
onde:
t =
�
�^1 + �^2
�
� (�1 + �2)
ep
�
�^1 + �^2
�
em que, ep
�
�^1 + �^2
�
=
r
V ar
�
�^1 + �^2
�
=
r
V ar�^1 + V ar�^2 + 2Cov
�
�^1; �^2
�
.
5.2 Testes de Restrições Lineares Múltiplas: O Teste F
Podemos estar interessados em testar se um conjunto de parâmetros populacionais é igual
a zero. Ou seja, considere o modelo:
y = �0 + �1x1 + �2x2 + :::+ �kxk + u (14)
E queremos testar se q parâmetros são conjuntamente iguais a zero, por exemplo, os q
últimos:
H0 :
266664
�k�q+1
:
:
:
�k
377775 = 0
Esta H0 é composta por q restrições de exclusão, sendo este um exemplo de conjunto
de restrições múltiplas. A alternativa a esta H0 é se pelo menos um dos coe…cientes é
diferente de zero.
O modelo (14) é denominado modelo irrestrito, pois inclui todos os parâmetros.
A idéia do teste é estimar o modelo retirando os parâmetros da H0, ou seja, estimar o
modelo restrito:
y = �0 + �1x1 + �2x2 + :::+ �k�qxk�q + u; (15)
e analisar o SQR dos dois modelos. Sabemos que o SQR sempre aumenta quando
retiramos regressores, mas a questão é saber se esse aumento do SQR modelo restrito é
grande o su…ciente em relação ao SQR do modelo irrestrito.
E SQR está relacionado à variância. Assim, a idéia do teste basicamente é comparar
variâncias. E o teste propício para isso é o teste F :Hipóteses sobre restrições lineares
múltiplas: Teste F
H0 : �k�q+1 = 0; :::; �k = 0
43
Esta hiótese nula constitui q restrições de exclusão. Um teste sobre tal hipótese é
chamado de teste de hipóteses múltiplas ou teste de hipóteses conjuntas.
Assim, temos o modelo irrestrito:
y = �0 + �1x1 + :::+ �kxk + u
E quando impomos as retrições de H0, temos o modelo restrito:
y = �0 + �1x1 + :::+ �kxk�q + u
Suporemos que em ambos os modelos contém os interceptos. A estatística F será:
F � (SQRr � SQRir) =q
SQRir= (n� k � 1) � Fq;n�k�1 (16)
onde SQRr é a soma dos quadrados dos resíduos do modelo restrito e SQRur do modelo
irrestrito.
Observação 32 SQRr � SQRir e SQT é o mesmo nos dois modelos pois y é o mesmo.
Observação 33 O denominador de F é apenas o estimador não viesado de �2 = V ar (u)
do modelo irrestrito.
Observação 34 Quando q = 1, estamos testando uma hipótese simples sobre um parâmetro.
E pode ser mostrado que: t2n�k�1 � F1;n�k�1, ou seja, a estatística t elevada ao
quadrado é igual a estatística F:E assim, as duas abordagens levam ao mesmo resultado,
dado que o teste é bilateral.
A estatística t é mais ‡exível pois pode ser utilizada para um teste unilateral.
Observação 35 É possível que uma regressor tenha uma estatística t signi…cante, mas um
grupo de variáveis (incluindo esta última) seja conjuntamente insigni…cante ao utilizar a
estatística F. Além disso, a estatística F para restrições conjuntas incluindo �1 = 0 terá
menos poder para detectar �1 6= 0 que a estatística t.
Outra forma de se medir a estatística F é a sua forma R2.
F =
(SQRr � SQRur) =q
SQRur= (n� k � 1)
Substituindo SQRr = SQT
�
1�R2r
�
e SQRir = SQT
�
1�R2ir
�
acima:
F =
�
SQT
�
1�R2r
�� SQT �1�R2ir�� =q
SQT
�
1�R2ir
�
= (n� k � 1)
F =
�
R2iur �R2r
�
=q�
1�R2ir
�
= (n� k � 1) (17)
44
Agora, podemos veri…car que o teste F de signi…cância global (ou seja, se todos os
coe…cientes são conjuntamente iguais a zero) é um caso especial do teste F de restrição de
co…cientes. A estatística F para signi…cância geral de uma regressão é baseada na hipótese:
H0 : �1 = ::: = �k = 0
Agora note que R2r = 0, pois y é rodado contra apenas a constante
1. Assim (sendo R2ir =
R2):
F =
R2=k
(1�R2) = (n� k � 1)
Este teste de signi…cância global (ou geral) da regressão ajuda a testar se o seu mod-
elo está bem especi…cado. Caso a hipótese nula não seja rejeitada, então nenhum dos
regressores ajudam a explicar y.
Hipóteses de Restrição Linear Geral
Um exemplo:
H0 : �1 = 1; �2 = 0; :::; �4 = 0
A estatística F pode ser computada normalmente, mas não o seu formato R2 (equação
17) logo acima, apenas o primeiro formato mostrado (equação 16), pois as variáveis depen-
dentes dos modelos restritos e irrestritos serão diferentes.
6 Teoria Assintótica do MQO
As propriedades vistas anteriormente se mantém para amostras …nitas.
Aqui apresentamos as propriedades assintóticas (de amostra grande ou in…nita) dos
estimadores e das estatísticas de teste. Assim, por exemplo, mesmo sem a hipótese H.8
(Normalidade), as estatísticas t e F tem aproximadamente distribuições t e F, con-
siderando amostras grandes.
1A rigor, estamos estimando o modelo restrito:
yi = �0 + ui
Logo:
SQE =
X
i
(y^i � �y)2
=
X
i
(�0 � �0)2
= 0
Logo, R2r = 0.
45
6.1 Consistência
A primeira propriedade assimptótica dos estimadores se refere à provável distância que o
estimador …ca do parâmetro que ele supostamente estará estimando conforme o tamanho
da amostra cresça inde…nidamente.
� De…nição 36 Um estimador b�n é dito consistente se:
lim
n!1P
����b�n � ���� < "� = 1
i:e:; p limb�n = �
i:e:; b�n p! �
ou seja, se b�n converge em probabilidade para a constante �, que é o seu valor ver-
dadeiro.
(Obs.: Para saber se um estimador é consistente, basta veri…car se a LGN se veri…ca
para ele)
Proposição 37 Um estimador b�n é dito consistente se:
lim
n!1E
�b�n� = �
lim
n!1V ar
�b�n� = 0
ou
limEQM
�b�n� = 0
onde EQM
�b�n� = V ar �b�n�+ vi�es2 �b�n�, EQM é o Erro Quadrático Médio.
Cuidado: Consistência do EQM implica consistência do b�n, mas o inverso não é
necessariamente válido.
Teorema 38 Sob as hipóteses H1 a H4, os estimadores MQO são consistentes
Prova. Vamos provar para o caso da RLS:
yi = �0 + �1x1i + ui
46
Retomando:
�^1 = �1 +
X
i
diui
= �1 +
P
i (x1i � �x)uiP
i (x1i � �x)2
�^1 = �1 +
(
P
i (x1i � �x)ui) =n�P
i (x1i � �x)2
�
=n
Calculando o limite da probabilidade (plim):
plim�^1 = plim�1 + plim
24(Pi (x1i � �x)ui) =n�P
i (x1i � �x)2
�
=n
35
plim�^1 = �1 +
plim [(
P
i (x1i � �x)ui) =n]
plim
h�P
i (x1i � �x)2
�
=n
i (plim�XnYn � = plimXnplimYn )
plim�^1 = �1 +
Cov (x1; u)
V ar (x1)
onde, na última igualdade, eu utilizei a Lei dos Grandes Números que implica que o
numerador e denominador convergem para suas expressõespopulacionais. E assim:
plim�^1 = �1
pois pela H.4 V ar (x1) 6= 0 e pela H.3 Cov (x1; u) = 0.
Outra forma de se provar é utilizar a proposição 37 e assim:
lim
n!1E
�
�^1
�
= lim
n!1�1 = �1
lim
n!1V ar
�
�^1
�
= lim
n!1
�2P
i (x1i � �x)2
= lim
n!1
�2
(n� 1)�2x1
= 0 (�2x =
P
i(xi��x)2
n�1 )
onde �2x1 6= 0 pela H.4 e E
�
�^1
�
= �1 pois vale H.3.
H.3’: (Média Zero e Correlação Zero): E (u) = 0 e Cov (xj ; u) = 0; para j = 1; :::; k.
Vimos que a hipótese H.3 implica na hipótese H.3’, mas não o inverso.
Sob a hipótese acima, é ainda válida a consistência, mas não vale mais a propriedade
"não-viesado"do estimador MQO.
47
Observação 39 Correlação de u com qualquer um dos regressores então os estimadores
MQO de todos os regressores são viesados e inconsistentes.
Observação 40 Mas, por exemplo, se tivermos um modelo com dois regressores x1 e x2,
e se x1 e x2 forem não correlacionados, então qualquer correlação entre x1 e u não resulta
em inconsistência de �^2, apenas no estimador �^1.
Observação 41 No caso de regressão linear simples, teríamos o viés assintótico (in-
consistência) como:
plim�^1 � �1 = Cov (x1; u) =V ar (x1)
6.2 Normalidade Assintótica e Inferência em Amostras Grandes
Teorema 42 (Normalidade Assintótica do MQO): Sob as hipóteses de H1 a H5,
(i)
p
n
�
�^j � �j
�
a� N
�
0; �2=a2j
�
, onde �2=a2j > 0 é a variância assintótica; a
2
j =
plim
�
n�1
Pn
i=1 r^
2
ij
�
, onde o r^ij são os resíduos de regredir xj em outras variáveis inde-
pendentes. Assim, �^j é assintoticamente normalmente distribuído.
(ii) �^2 é um estimador consistente de �2 = V ar (u)
(iii)Para cada j : �
�^j � �j
�
=ep
�
�^j
�
a� N (0; 1)
onde ep(:) é o erro padrão MQO (no qual está incluído a estimativa �^2)
Prova. Provando (i), para o caso de RLS:�
�^1 � �1
�
=
P
i (xi � �x)uiP
i (xi � �x)2
p
n
�
�^1 � �1
�
=
0@ 1P
i(xi��x)2
n
1APi (xi � �x)uip
n
p
n
�
�^1 � �1
�
=
�
1=s2x
� "
n�1=2
X
i
(xi � �x)ui
#
;
onde s2x =
P
i(xi��x)2
n é a variância amostral de xi.
Pela Lei dos Grandes Números(LGN): plim
�
s2x
�
= �2x = V ar (x), a variância polucional
de x. A hipótese H.4 exclui perfeita colinearidade, e então V ar (x) > 0.
48
Note que podemos escrever a expressão dos colchetes como:
n�1=2
X
i
(xi � �x)ui = n�1=2
X
i
(xi � �x+ �� �)ui
= n�1=2
X
i
((xi � �) + (�� �x))ui
= n�1=2
X
i
((xi � �)ui + (�� �x)ui)
= n�1=2
X
i
(xi � �)ui + n�1=2
X
i
(�� �x)ui
= n�1=2
X
i
(xi � �)ui + (�� �x)
"
n�1=2
X
i
ui
#
;
em que � = E (x) é a média populacional de x.
Agora fuigni=1 é uma seqüência de v.a.s i:i:d: com média zero e variância �2, e portanto,
pelo Teorema do Limite Central (TLC): n�1=2
P
i ui
d! N �0; �2�, quando n!1.
Pela LGN: p lim �x = � e logo: p lim (�x� �) = p lim (�x)� p lim (�) = �� � = 0.
Usando uma propriedade da teoria assintótica de que: se p limwn = 0 e zn tem dis-
tribuição normal assintótica.então p limwnzn = 0.
Isso implica que p lim
�
(�� �x) �n�1=2Pi ui�	 = 0.
Agora, note que f(xi � �)uigni=1 é uma seqüência de variáveis aleatórias i:i:d: com
média zero (pois a hipótese H.3 implica que u e x são não correlacionados) e variância
�2�2x, dada hipótese H.5 de homocedasticidade. Média zero pois:
E ((xi � �)ui) = E (xiui)| {z }
=0
� E (�ui)
E ((xi � �)ui) = �E (ui) = 0
E a variância pode ser obtida através de:
V ar ((xi � �)ui) = E [(xi � �)ui]2 �
8<:E [(xi � �)ui]| {z }
=0
9=;
2
= E
h
(xi � �)2 u2i
i
= E
h
(xi � �)2
i
E
�
u2i
�
= �2x�
2
onde na penúltima linha eu utilizei o fato de que x e u são independentes, logo x2 e u2
também são.
Logo, pelo TLC: n�1=2
P
i (xi � �)ui a� N
�
0; �2�2x
�
.
49
Retomando a expressão acima:
n�1=2
X
i
(xi � �x)ui = n�1=2
X
i
(xi � �)ui + (�� �x)
"
n�1=2
X
i
ui
#
;
n�1=2
X
i
(xi � �x)ui � n�1=2
X
i
(xi � �)ui = (�� �x)
"
n�1=2
X
i
ui
#
;
Como o p lim do lado direito é zero como vimos, então o p lim do lado esquerdo também
é zero.
Usando outro resultado da teoria assintótica: se zn tem distribuição normal e p lim (vn � zn) =
0, então vn tem a mesma distribuição normal assintótica que zn.
Aplicando isso à expressão acima temos que: zn =
P
i (xi � �)ui e vn =
P
i (xi � �x)ui,
logo esta tem também distribuição normal assintótica, N
�
0; �2�2x
�
. Assim:
p
n
�
�^1 � �1
�
=
�
1=�2x
� "
n�1=2
X
i
(xi � �x)ui
#
+
��
1=s2x
�� �1=�2x��
"
n�1=2
X
i
(xi � �x)ui
#
p
n
�
�^1 � �1
�
� �1=�2x�
"
n�1=2
X
i
(xi � �x)ui
#
=
��
1=s2x
�� �1=�2x��
"
n�1=2
X
i
(xi � �x)ui
#
Analisando o lado direito, note que p lim
�
1=s2x
�
=
�
1=�2x
�
.
E como
�
n�1=2
P
i (xi � �x)ui
�
tem distribuição assintótica, usamos a propriedade: se
p limwn = 0 e zn tem distribuição normal assintótica.então p limwnzn = 0.
Logo o lado direito tem p lim = 0.
Assim o p lim da diferença do lado esquerdo é zero.
Vimos que
�
n�1=2
P
i (xi � �x)ui
� a� N �0; �2�2x� e portanto:�
1=�2x
� �
n�1=2
P
i (xi � �x)ui
� a� N �0; �2�2x= ��2x�2� = N �0; �2=�2x�.
Usando a propriedade de que: se zn tem distribuição normal e p lim (vn � zn) = 0,
então vn tem a mesma distribuição normal assintótica que zn.
zn =
�
1=�2x
� �
n�1=2
P
i (xi � �x)ui
�
e vn =
p
n
�
�^1 � �1
�
. Logo:
p
n
�
�^1 � �1
�
a� N �0; �2=�2x�
que é o caso da RLS pois a21 = �
2
x, pois xi = 
 + r^i1:�x = 
. Assim: xi � �x = r^i1.
a2j = plim
�
n�1
Pn
i=1 r^
2
ij
�
= plim
�
n�1
Pn
i=1 (xi � �x)2
�
= plim
�
s2x
�
= �2x, onde o r^ij
50
(ii) Vem da LGN.
(iii) Vem de (i) e (ii).
Observação: A normalidade assintótica dos estimadores MQO também implica que a
estatistica F tem distribuição F aproximada em amostras grandes. Mas para isso devem
ser válidas as hipóteses do teorema acima.
6.3 Estatística do Multiplicador de Lagrange (LM)
É outra estatística para testar restrições de exclusão múltiplas. Recebe esse nome pois
provém de um problema de otimização com restrição.
Outro nome para a estatística LM é estatística de escore (score), o qual também é
proveniente da otimização utilizada em cálculo.
Devem ser válidas também as hipóteses de Gauss-Markov (H1 a H5) do teorema acima
para sua derivação. Seja a hipótese nula:
H0 : �k�q+1 = 0; :::; �k = 0
Esta hipótese nula constitui q restrições de exclusão.
A estatística LM requer apenas a estimação do modelo restrito, de…nido como:
y = ~�0 +
~�1x1 + :::+
~�k�qxk�q + ~u
A idéia do teste é rodar uma regressão dos resíduos desse modelo estimado, b~u, contra
todos os regressores, x1; :::; xk.
Este é um exemplo de uma regressão auxiliar, a qual é utilizada para obter a estatís-
tica do teste.
Assim, se a hipótese nula acima for verdadeira, então o R2~u desta regressão auxiliar
deve ser próximo de zero, porque ~u será aproximadamente não correlacionado com todas
as variáveis independentes. Sob H0; temos:
LM = nR2u � �2q
A estatística LM é também denominada como estatística n�R2.
Observação: Se rodássemos os resíduos restritos apenas contra o conjunto restrito de q
regressores (e não contra todos) obteríamos R2u = 0.
6.4 E…ciência Assintótica do MQO
Teorema 43 Sob as hipóteses de H1-H5, os estimadores MQO tem as menores variâncias
assintóticas dentro da classe de estimadores consistentes. Ou seja:
Avar
p
n
�
�^j � �j
�
� Avarpn
�
~�j � �j
�
51
em que, �^j são os estimadores MQO, e ~�j é outro estimador qualquer, consistente.
7 Formas Funcionais da Regressão
Nesta seção trataremos sobre diversas formas funcionais que surgem em trabalhos empíri-
cos.
7.1 FormasFuncionais Logarítmicas
Seja o seguinte modelo:
dlog y = �^0 + �^1 log x1 + �^2x2
Ele é log-log de y em relação a x1 e é log-linear em relação a x2.
�1 mede a elasticidade de y em relação a x1, …xado x2. Vejamos porque:
�^1 =
@dlog y
@ log x1
=
@y=y
@x1=x1
=
@y
@x1
x1
y
= "x1y
A interpretação do �^1 é que para um aumento de 1% em x1 temos um aumento de �1%
em y.
Em relação a x2, podemos escrever, mantendo x1 …xo:
�^2 =
@dlog y
@x2
Se x2 varia discretamente:
�dlog y = �^2�x2
Para termos a medida em termos da mudança percentual exata:
�dlog y = log y1 � log y0 = �^2�x2
log
y1
y0
= �^2�x2
e
log
y1
y0 = e�^2�x2
y1
y0
� 1 = e�^2�x2 � 1
y1 � y0
y0
= �y% = 100
h
e�^2�x2 � 1
i
52
onde a multiplicação por 100 transforma a mudança proporcional em mudança per-
centual.
Quando �x2 = 1 :
%�^y = 100
h
e�^2 � 1
i
Assim, �^2 pode ser interpretado como: um aumento de uma unidade em x2 dá um
aumento exato de 100
h
exp
�
�^2
�
� 1
i
% em y.
Uma medida aproximada, para uma mudança pequena em x2 seria 100�^2%. Este
coe…ciente é, às vezes, denominado como semi-elasticidade.
Observação:
h
exp
�
�^2
�
� 1
i
não é um estimador não-viesado devido à função não-linear
exp (:), pois o operador esperança não passa diretamente nesta função, mas é um estimador
consistente.
Outras vantagens de se usar o log tanto nas variáveis dependente e independentes:
1. Além da interpretação econômica, quando, y > 0, suas distribuições condicionais
geralmente são heterocedásticas ou assimétricas, tomando o log podemos reduzir ou elim-
inar estes problemas, ao suavizar tais séries.
2. Reduz o impacto de outliers (ou valores extremos), pois reduz o intervalo de domínio
das variáveis.
3. É o artifício mais comum em econometria para permitir relações não-lineares entre
a variável dependente e as independentes.
7.2 Formas Funcionais Quadráticas
As funções quadráticas são bastante usadas para capturar efeitos marginais crescentes ou
decrescentes de algum regressor sobre a variável dependente.
Assim, seja o seguinte modelo:
y^ = �^0 + �^1x+ �^2x
2
O efeito de x em y será:
@y^
@x
= �^1 + 2�^2
Para variações discretas em x, teremos a seguinte aproximação:
�^y �
�
�^1 + 2�^2x
�
�x
�^y=�x �
�
�^1 + 2�^2x
�
�^1 é interpretado como o impacto de x partir de 0 para 1:
53
Quando o coe…ciente de x é positivo e o coe…ciente de x2 é negativo, a função quadrática,de
y em relação a x, tem um formato côncavo.
7.3 Formas Funcionais com Termos de Interação
Muitas vezes o efeito parcial de um regressor sobre y pode depender do valor de outro
regressor:
y = �0 + �1x1 + �2x2 + �3x1x2 + u
Note que
@y
@x2
= �2 + �3x1
Assim, �2 é o efeito parcial de x2 quando x1 = 0. Mas, muitas vezes, queremos saber
o impacto para outros valores de x1.
Assim, podemos reparametrizar o modelo:
y = �0 + �1x1 + �2x2 + �3 (x1 � �1) (x2 � �2) + u
onde �1 e �2 são as médias populacionais de x1 e x2.
Podemos veri…car a relação entre os parâmetros deste modelo com o do modelo acima.
Rearrumando:
y = �0 + �1x1 + �2x2 + �3x1x2 � �3x1�2 � �3x2�1 + �3�1�2 + u
y = (�0 + �3�1�2)| {z }
=�0
+ (�1 � �3�2)| {z }
=�1
x1 + (�2 � �3�1)| {z }
=�2
x2 + �3x1x2 + u
Assim:
�0 = �0 � �3�1�2
�1 = �1 + �3�2
�2 = �1 + �3�1
Agora o coe…ciente �2 = �2 + �3�1, mede o efeito parcial de x2 sobre y no valor médio
de x1, i.e., quando x1 = �1.
Na prática, as médias populacionais podem ser substituídas pelas médias amostrais.
54
7.4 Adicionando Regressores para Reduzir a Variância do Erro
A adição à regressão de certos regressores pode aumentar o problema de multicolinearidade.
Mas é sempre bom adicionar variáveis que afetam y e que são não-correlacionadas
com todos os outros regressores, e assim, não induzindo multicolinearidade e reduzirá a
variância do erro. Em amostras grandes, os erros padrões de todos estimadores MQO
serão reduzidos.
Para notar isso, veja que:
V ar
�b�j� = �2
SQTj
�
1�R2j
�
Se adicionamos um regressor novo, teremos um componente a menos no erro, u, e
portanto, �2 se reduz. E se esse novo regressor for não correlacionado com os outros
regressores, então o R2j de algum regressor xj que já estava incluído na regressão antes,
não será afetado.
7.5 Variáveis Binárias (ou Dummy) como Variáveis Explicativas
Tais variáveis transforma informações qualitativas em informações quantitativas.
Mudança de Intercepto
yi = �0 + �1xi + ui
E (yijxi) = �0 + �1xi + E (uijxi)| {z }
=0
E (yijxi) = �0 + �1xi
Suponha que tenhamos a seguinte variável dummy:
Di =
�
1; se mulher
0; se homem
Incluindo essa variável no modelo acima de forma aditiva:
yi = �0 + �1xi + �2Di + ui
Tomando a esperança condicional:
E (yijxi; Di = 1) = �0 + �1xi + �2 = (�0 + �2) + �1xi
E (yijxi; Di = 0) = �0 + �1xi
55
Assim:
�2 = E (yijxi; Di = 1)� E (yijxi; Di = 0)
Gra…camente:
Gr�afico
Assim, ao incluirmos a dummy ao modelo de forma aditiva, ela atua como uma mudança
de intercepto.
Observação 44 A variável dummy é uma variável discreta. Logo, ela não é diferenciável
e não podemos calcular @y@D . Assim ela não pode ser interpretada como as demais variáveis.
Mudança de Inclinação
yi = �0 + �1xi + ui
Podemos incluir a dummy de forma multiplicativa, ou seja:
yi = �0 + �1xi + �3xiDi + ui
ou seja, a dummy entra como um termo de interação com a variável explicativa. Assim:
E (yijxi; Di = 1) = �0 + �1xi + �3xi = �0 + (�1 + �3)xi
E (yijxi; Di = 0) = �0 + �1xi
Gra…camente:
Gr�afico
Assim, ao incluirmos a dummy ao modelo de forma multiplicativa, ela atua como uma
mudança de inclinação.
Mudança de Intercepto e Inclinação A dummy pode entrar simultaneamente de
forma aditiva e multiplicativa:
yi = �0 + �1xi + �2Di + �3xiDi + ui
Assim:
E (yijxi; Di = 1) = (�0 + �2) + (�1 + �3)xi
E (yijxi; Di = 0) = �0 + �1xi
Gra…camente:
Gr�afico
56
Dummies Múltiplas Quando temos categorias variadas, entramos com N�1 categorias
no modelo.
Isso para que a categoria excluída seja a base de comparação, pois se colocar N cate-
gorias as colunas das dummies serão uma combinação linear com a coluna do intercepto, e
assim violaremos a hipótese H.4, pois como posto (X) = posto (X 0X) e a matriz X 0X não
será invertível.
Um bom exemplo deste caso é quando temos a variável categórica raça:
raça =
8>>>><>>>>:
1; branco
2; negro
3; pardo
4; amarelo
5; ind�{gena
Assim, podemos ter uma dummy para cada raça, ou seja:
D1i =
�
1; se branco
0; se c.c.
D2i =
�
1; se negro
0; se c.c.
D3i =
�
1; se pardo
0; se c.c.
D4i =
�
1; se amarelo
0; se c.c.
D5i =
�
1; se indígena
0; se c.c.
Assim, podemos ter o seguinte modelo:
yi = �0 + �1xi + �2D1i + �3D2i + �4D3i + �5D4i + (�6D5i) + ui
Devemos retirar uma das dummies. Se retirarmos D5i, teremos as interpretações em
termos do grupo base indígena.
Se por exemplo y é ln (sal�ario), então �2 mede o quanto que os brancos ganham, em
termos percentuais, a mais (ou a menos) que os indígenas.
Observação 45 Assim para evitar o problema de colinearidade perfeita (aqui denominado
como dummy trap na literatura) podemos:
i) Manter o intercepto e eliminar uma categoria;
ii) Manter todas as categorias e eliminar o intercepto. Neste caso, não teremos grupo
de comparação.
Para o exemplo acima, os coe…cientes vão indicar apenas o salário médio para cada
raça.
57
7.5.1 Testando para Diferenças em Funções de Regressões de Grupos difer-
entes (Teste de Quebra Estrutural ou Teste de Chow)
Podemos testar se dois grupos seguem a mesma função de regressão, contra a hipótese
alternativa de que pelo menos um coe…ciente de inclinação seja diferente entre os grupos.
No modelo geral com k variáveis explicativas e um intercepto, suponha que existam2
grupos, g = 1 (por exemplo, homens) e g = 2.(por exemplo, mulheres)
A hipótese nula seria se o intercepto e todas as inclinações são as mesmas entre os dois
grupos.
Seja o modelo:
y = �g;0 + �g;1x1 + :::+ �g;kxk + u
A hipótese nula envolve que cada beta da equação seja o mesmo entre os dois grupos e
assim, inclui k + 1 restrições.
O modelo irrestrito, tem além do intercepto e as variáveis explicativas, uma variável
dummy de grupo e k termos adicionais de interação entre esta dummy e as variáveis
explicativas.
Exemplo 46 Para se construir um teste F , deste tipo precisamos do SQRir, do modelo
irrestrito. Ele pode ser obtido de duas regressões separadas para cada grupo, que denotamos
por: SQR1 e SQR2, tal que: SQRir = SSR1 + SSR2. Para se obter o SQR do modelo
restrito, é obtido do SQR oriundo do empilhamento (pooling) dos grupos e estimação de
uma equação simples (como a equação acima); que será denominado SQRp = SQRr Assim,
a estatística F será:
FCHOW =
[SSRP � (SSR1 + SSR2)] =k + 1
(SSR1 + SSR2) = [n� 2 (k + 1)]
FCHOW =
[SSRP � SQRir] =k + 1
SQRir= [n� 2 (k + 1)]
Esta estatística F é denominada de estatística de Chow. Como é um teste F, será
válido apenas sob a hipótese de homocedasticidade.
Sob H0, as variâncias dos erros para os dois grupos devem ser iguais.
Exemplo 47 Vejamos um exemplo para …car mais claro. Sejam dois grupos: homens e
mulheres. O modelo para cada parte da amostra é:
lnwi = �h;0 + �h;1 exp+�h;2 exp
2+�h;3educ+ uh;i (18)
lnwi = �m;0 + �m;1 exp+�m;2 exp
2+�m;3educ+ um;i (19)
ou seja, temos o modelo para cada grupo (h = homens, m = mulheres)
Assim, a hipótese nula é:
H0 : �h;0 = �m;0; �h;1 = �m;1; �h;2 = �m;2; �h;3 = �m;3
58
Podemos obter o SQRir, estimando estes dois modelos e somando os SQRs, tal que:
SQRir = SQRh + SQRm. E obtemos o SQRr empilhando as duas amostras (homens e
mulheres) e estimando o modelo acima. E, portanto, obtendo:
FCHOW =
[SSRr � SQRir] =k + 1
SQRr= [n� 2 (k + 1)]
onde k+1 = 4 é o número de coe…cientes ou restrições na hipótese nula (ou k número
de regressores). O termo 2 (k + 1) = 8, é o número total de regressores do modelo (18)
mais o total do modelo (19).
Uma outra forma é estimar o modelo irrestrito do seguinte modo:
lnwi = �0 + �1 exp+�2 exp
2+�3educ (20)
+�4Di + �5Di exp+�6Di exp
2+�7Dieduc+ ui (21)
para toda a amostra, onde Di = 1 se mulher e 0, c.c.
E estimar o modelo restrito (também considerando toda a amostra):
lnwi = �0 + �1 exp+�2 exp
2+�3educ+ ui
Agora podemos computar a estatística F no formato R2:
FCHOW =
�
R2ir �R2r
�
=k + 1�
1�R2ir
�
= [n� 2 (k + 1)]
Assim, queremos testar se há alguma quebra no comportamento do salário (wi) com a
inclusão da variável dummy Di (gênero).
Ou seja, se há estabilidade do modelo entre as condições da variável dummy.
O teste é vantajoso pois roda-se somente duas regressões. E através da estatística t
(para o modelo (20)) podemos testar individualmente a signi…cância, para identi…car onde
pode ter ocorrido a origem da quebra.
Observação 48 Não existe o formato R2 do teste, como tem para o teste F padrão.
Observação 49 Um teste F padrão poderia ser aplicado diretamente no modelo irrestrito.
O teste de Chow é apenas um modo mais fácil de computar a estatística do teste.
Observação 50 Se fosse aplicado o teste F padrão, então poder-se-ia usar o formato R2
do teste visto anteriormente.
Observação 51 Como veremos em seção posterior, este teste é muito aplicado em séries
temporais. Por exemplo, será que houve uma queda abrupta no nível de emprego do país
na época da desvalorização cambial, em 1998?
59
7.6 Exemplos
Vamos apresentar um exemplo, no qual tentamos explicar a taxa de divórcio das regiões
brasileiras de 1992 até 2004, através do seguinte modelo:
TXDIV = �0 + �1UN_H + �2DUMFILHO_6 + �3EST_M
+�4METRO + �5RAZTO +
20P
i=1
�5+iDi
em que:
TXDIV =número de divórcios da região/ número de casais da região
UN_H =taxa de desemprego entre homens casados
DUMFILHO_6 =% de casais com …lhos menores ou iguais a 6 anos.
EST_M = média de anos de estudo das mulheres
METRO =% dos casais que residem em áreas metropolitanas
RAZTOT_ =média da renda total das mulheres casadas / renda total dos homens
casados
D1 = 1, se é da região 1, e assim sucessivamente. Desconsideramos a D21 que é Distrito
Federal.
Abaixo notamos algumas estatísticas para a taxa de divórcio.
0
4
8
12
16
20
24
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
Series: TXDIV
Sample 1 230
Observations 230
Mean 0.331642
Median 0.301763
Maximum 0.933564
Minimum 0.083382
Std. Dev. 0.164093
Skewness 1.312002
Kurtosis 5.077868
Jarque-Bera 107.3614
Probability 0.000000
60
E fomos estimando a regressão incluindo regressor por regressor:
Dependent Variable: TXDIV
Method: Least Squares
Date: 04/06/09 Time: 19:53
Sample: 1 230
Included observations: 230
Variable Coefficient Std. Error t-Statistic Prob.
C 0.147038 0.027725 5.303406 0.0000
UN_H 5.603627 0.787174 7.118666 0.0000
R-squared 0.181844 Mean dependent var 0.331642
Adjusted R-squared 0.178255 S.D. dependent var 0.164093
S.E. of regression 0.148750 Akaike info criterion -0.964436
Sum squared resid 5.044884 Schwarz criterion -0.934540
Log likelihood 112.9102 Hannan-Quinn criter. -0.952377
F-statistic 50.67540 Durbin-Watson stat 1.667461
Prob(F-statistic) 0.000000
Dependent Variable: TXDIV
Method: Least Squares
Date: 04/06/09 Time: 19:53
Sample: 1 230
Included observations: 230
Variable Coefficient Std. Error t-Statistic Prob.
C 0.350212 0.084823 4.128736 0.0001
UN_H 5.076550 0.805394 6.303187 0.0000
DUMFILHO6_ -0.469872 0.185649 -2.530976 0.0121
R-squared 0.204298 Mean dependent var 0.331642
Adjusted R-squared 0.197288 S.D. dependent var 0.164093
S.E. of regression 0.147018 Akaike info criterion -0.983569
Sum squared resid 4.906426 Schwarz criterion -0.938725
Log likelihood 116.1105 Hannan-Quinn criter. -0.965480
F-statistic 29.14137 Durbin-Watson stat 1.813635
Prob(F-statistic) 0.000000
61
Dependent Variable: TXDIV
Method: Least Squares
Date: 04/06/09 Time: 19:55
Sample: 1 230
Included observations: 230
Variable Coefficient Std. Error t-Statistic Prob.
C -0.901999 0.105343 -8.562474 0.0000
UN_H 2.550928 0.604712 4.218416 0.0000
DUMFILHO6_ 1.172725 0.174711 6.712368 0.0000
EST_M_ 0.126722 0.008690 14.58249 0.0000
R-squared 0.590040 Mean dependent var 0.331642
Adjusted R-squared 0.584598 S.D. dependent var 0.164093
S.E. of regression 0.105761 Akaike info criterion -1.638038
Sum squared resid 2.527881 Schwarz criterion -1.578245
Log likelihood 192.3744 Hannan-Quinn criter. -1.613919
F-statistic 108.4243 Durbin-Watson stat 2.492009
Prob(F-statistic) 0.000000
Dependent Variable: TXDIV
Method: Least Squares
Date: 04/06/09 Time: 19:57
Sample: 1 230
Included observations: 230
Variable Coefficient Std. Error t-Statistic Prob.
C -1.118014 0.112668 -9.923100 0.0000
UN_H 3.278350 0.604876 5.419870 0.0000
DUMFILHO6_ 1.400383 0.175894 7.961528 0.0000
EST_M_ 0.150600 0.009976 15.09674 0.0000
METRO_ -0.142995 0.032601 -4.386142 0.0000
R-squared 0.622332 Mean dependent var 0.331642
Adjusted R-squared 0.615618 S.D. dependent var 0.164093
S.E. of regression 0.101735 Akaike info criterion -1.711386
Sum squared resid 2.328764 Schwarz criterion -1.636645
Log likelihood 201.8094 Hannan-Quinn criter. -1.681237
F-statistic 92.69020 Durbin-Watson stat 2.354119
Prob(F-statistic) 0.000000
62
Dependent Variable: TXDIV
Method: Least Squares
Date: 04/06/09 Time: 19:59
Sample: 1 230
Included observations: 230
Variable Coefficient Std. Error t-Statistic Prob.
C -1.154873 0.125788 -9.181073 0.0000
UN_H 3.217708 0.612514 5.253284 0.0000
DUMFILHO6_ 1.438220 0.185147 7.767993 0.0000
EST_M_ 0.151157 0.010023 15.08031 0.0000
METRO_ -0.143395 0.032648 -4.392168 0.0000
RAZTOT_0.052612 0.079434 0.662333 0.5084
R-squared 0.623070 Mean dependent var 0.331642
Adjusted R-squared 0.614656 S.D. dependent var 0.164093
S.E. of regression 0.101862 Akaike info criterion -1.704647
Sum squared resid 2.324213 Schwarz criterion -1.614958
Log likelihood 202.0344 Hannan-Quinn criter. -1.668468
F-statistic 74.05490 Durbin-Watson stat 2.340015
Prob(F-statistic) 0.000000
63
Dependent Variable: TXDIV
Method: Least Squares
Date: 04/06/09 Time: 20:17
Sample: 1 230
Included observations: 230
Variable Coefficient Std. Error t-Statistic Prob.
C 0.128625 0.471075 0.273045 0.7851
UN_H 0.940022 0.401979 2.338487 0.0203
DUMFILHO6_ -0.132227 0.165796 -0.797529 0.4261
EST_M_ 0.032688 0.012852 2.543394 0.0117
METRO_ 0.390767 0.445220 0.877695 0.3811
RAZTOT_ 0.088758 0.062940 1.410185 0.1600
D_1 -0.025967 0.444509 -0.058417 0.9535
D_2 -0.141879 0.444742 -0.319014 0.7500
D_3 -0.105207 0.446325 -0.235719 0.8139
D_4 -0.249749 0.273507 -0.913135 0.3622
D_5 -0.074641 0.444545 -0.167905 0.8668
D_6 0.065732 0.445577 0.147521 0.8829
D_7 -0.158495 0.260514 -0.608395 0.5436
D_8 -0.046874 0.443483 -0.105694 0.9159
D_9 0.031859 0.443870 0.071776 0.9429
D_10 -0.193818 0.348288 -0.556487 0.5785
D_11 -0.068449 0.345544 -0.198091 0.8432
D_12 0.147216 0.445305 0.330596 0.7413
D_13 -0.392619 0.115302 -3.405147 0.0008
D_14 -0.093401 0.239292 -0.390323 0.6967
D_15 -0.139279 0.327205 -0.425664 0.6708
D_16 -0.002266 0.446014 -0.005081 0.9960
D_17 -0.231759 0.298843 -0.775521 0.4389
D_18 0.287360 0.444861 0.645955 0.5190
D_19 -0.015346 0.444908 -0.034492 0.9725
D_20 0.105232 0.445639 0.236137 0.8136
R-squared 0.930881 Mean dependent var 0.331642
Adjusted R-squared 0.922410 S.D. dependent var 0.164093
S.E. of regression 0.045708 Akaike info criterion -3.226962
Sum squared resid 0.426200 Schwarz criterion -2.838310
Log likelihood 397.1007 Hannan-Quinn criter. -3.070188
F-statistic 109.8970 Durbin-Watson stat 1.999210
Prob(F-statistic) 0.000000
64
8 Máxima Verossimilhança
A idéia desta estimação é que: se soubermos a distribuição da população, os valores
dos parâmetros a serem estimados serão aqueles que mais se adequam aos valores da
amostra. Ou de outra forma, são os valores dos parâmetros que maximizam a proba-
bilidade (verossimilhança) de que os valores da amostra sigam, de fato, a distribuição da
população a priori.
E para maximizar esta probabilidade, de…nimos a função de probabilidade, que será
a função de verossimilhança: L (�; yi) ; onde � = (�1; :::; �k). Ou seja, esta função de-
pende dos parâmetros �k que serão estimados, dada a nossa amostra que assume valores
fyi; i = 1; :::; ng.
Assim, seja a função densidade como f (yi; �). O termo � é escrito aqui para lembrar
que a f.d.p. depende do parâmetro �.
De…nição 52 (Função de verossimilhança) Seja y1; :::; yn uma amostra aleatória da v.a.
y e sejam y1; :::; yn os valores amostrais. A função de verossimilhança L é de…nida como
a seguinte função da amostra e de �:
L (�; y; :::; yn) = f (y1; y2; :::; yn; �)
= f (y1; �) f (y2; �) :::f (yn; �)
= �ni=1f (yi; �)
Como os valores amostrais de y são conhecidos, devemos inferir �. A partir da função de
verossimilhança, o método MV propõe responder a seguinte pergunta: Para qual valor de
� teremos a máxima probabilidade (verossimilhança) de que os valores da amostra sigam,
de fato, a distribuição da população a priori?
Segue a de…nição formal:
De…nição 53 (Estimativa de MV) A estimativa de MV de � (b�) é baseada em uma amostra
aleatória y1; :::; yn é aquele valor de � que torna máxima L (�;X1; :::; Xn), considerada como
uma função de � para uma dada amostra y1; :::; yn.
Exemplo 54 Seja y uma v.a. Se a distribuição da população é uma normal, e dada uma
amostra desta v.a. de tamanho n, obtemos os valores dos parâmetros da normal (� e �2)
que maximizam a função de verossimilhança. Ela é dada por:
L
�
�; �2;xi
�
= �ni=1
1
(2��2)
1
2
exp
�
� 1
2�2
(yi � �)2
�
=
1
(2��2)
n
2
exp
"
� 1
2�2
nX
i=1
(yi � �)2
#
65
Para simpli…car, façamos uma transformação monotônica crescente, que não altere o
máximo desta função:
max
�;�2
l
�
�; �2; yi
�
= max
�;�2
�n
2
ln
�
2��2
�� 1
2�2
nX
i=1
(yi � �)2
@l
@�
= 0! b� = �y
@l
@�2
= 0! b� = Pni=1 (yi � �y)2
n
=c�2
Assim, este último estimador da variância é viesado, enquanto o da média é não-
viesado.
Aplicando o método da MV para o contexto de regressão:
yi = �0 + �1xi + ui
Supondo que ui
i:i:d:� N �0; �2� Então, para x não-estocástico (…xo):
E (yi) = �0 + �1xi
V ar (yi) = �
2
Como yi é função linear do ui então: yi
i:i:d:� N ��0 + �1xi; �2�. Os parâmetros �0 e �1
de…nem a média.
Para obter os EMVs de �0 e �1, devemos montar a função de verossimilhança:
L
�
�0; �1; �
2;xi
�
= �ni=1
1
(2��2)
1
2
exp
�
� 1
2�2
(yi � �0 � �1xi)2
�
=
1
(2��2)
n
2
exp
"
� 1
2�2
nX
i=1
(yi � �0 � �1xi)2
#
Maximizando o log:
max
�0;�1;;�
2
l
�
�0; �1; �
2; yi
�
= max
�0;�1;;�
2
�n
2
ln
�
2��2
�� 1
2�2
nX
i=1
(yi � �0 � �1xi)2
As CPOS serão:
@l
@�
=
0B@
@l
@�0
@l
@�1
@l
@�2
1CA = 0
66
onde o vetor gradiente @l@� é chamado de vetor score, pois ele resume as primeiras
derivadas do log da densidade.
�0 :
1
�2
X
i
�
yi � �^0 � �^1xi
�
= 0
�^
MV
0 = �y � �^1�x
�1 :
1
�2
X
i
�
yi � �^0 � �^1xi
�
xi = 0
Substit indo �^0 acimaX
i
�
yi � �y + �^1�x� �^1xi
�
xi = 0X
i
(yi � �y)xi �
X
i
�^1 (xi � �x)xi = 0
�^
MV
1 =
X
i
(yi � �y)xiX
i
(xi � �x)xi
=
X
i
(yi � �y) (xi � �x)X
i
(xi � �x) (xi � �x)
�^
MV
1 =
X
i
(yi � �y) (xi � �x)X
i
(xi � �x)2
= �^
OLS
1 e
�^
MV
0 = �y � �^1�x = �^
OLS
0
�2 :
�n
2
1
2��^2
2�
+
1
2
1
�^4
X
i
�
yi � �^0 � �^1xi
�2
= 0
�n
2
1
�^2
+
1
2
1
�^4
X
i
u^2i = 0
�^2MV =
X
i
u^2i
n
Assim, o estimador da variäncia do erro da MV é viesado, mas é consistente.
Propriedades dos estimadores de MV
(i) são consistentes:
p lim �^ = �
67
onde, � = (�0; �1) e �^ =
�
�^0; �^1
�
(ii) têm distribuição assintótica normal:
�^
a� N ��; I�1 (�)�
onde I (�) é a matriz de informação de Fischer.
(iii) são assintoticamente e…cientes.
(iv) eles são invariantes, ou seja, suponha que b� seja um estimador de MV de �. Assim,
uma estimativa de MV de g (�), onde g é uma função contínua, é g
�b��.
De…nição 55 Matriz de Informação de Fischer é de…nida como:
I (�) = E
"�
@l
@�
�2#
= �E
��
@2l
@�2
��
onde l (�) é o log da função de verossimilhança. A terminologia matriz de informação
é utilizada pois I (�) é a variância de @l@� (que é o score cuja média é zero). Então valores
altos de l (�) signi…cam que mudanças pequenas em � conduzem a mudanças grandes no
log da verossimilhança e portanto contém informação considerável sobre �. Ou ainda, I (�)
nos fornece informação sobre a curvatura do log da verossimilhança. E portanto, fala da
concavidade da mesma. Quanto mais côncava a função, mais fácil de detectar o �^ máximo.
Se for pouco côncava, ou seja, mais plana, haverão �^’s muito próximos do �^ que gera o
máximo da função.
Logo, I (�) é também escrito como:
I (�) = V ar
��
@l
@�
��
Exemplo 56 O score do exemplo anterior será:
s (�) =
264
@l
@�0
@l
@�1
@l
@�2
375 =
2666664
1
�2
X
i
(yi � �0 � �1xi)
1
�2
X
i
(yi � �0 � �1xi)xi
�n
2
1
�2
+ 12
1
(�2)2
X
i
(yi � �0 � �1xi)2
3777775
No entanto, para …car mais fácil, podemos considerar a estimação da regressão em
termos de desvios da média, ou seja:
yi = �0 + �1xi + ui
�y = �0 + �1�x+ �u
yi � �y = �1 (xi � �x) + (ui � �u)
y�i = �1x
�
i + u�
i
68
onde o asterisco indica que a variável está formulada em termos de desvios da média.
Maximizando:
max
�1;;�
2
l
�
�0; �1; �
2; yi
�
= max
�1;;�
2
�n
2
ln
�
2��2
�� 1
2�2
nX
i=1
(y�i � �1x�i )2
Assim, o vetor score seria o mesmo de cima, mas sem o �0:
s (�) =
"
@l
@�1
@l
@�2
#
=
2664
1
�2
X
i
(yi � �1x�i )x�i
�n
2
1
�2
+ 12
1
(�2)2
X
i
(y�i � �1x�i )2
3775
A matriz de informação de Fisher para este caso, seria:
I (�) = �E
��
@2l
@�2
��
= �E
�
@2l=@�21 @
2l=@�1@�
2
@2l=@�2�1 @
2l=@
�
�2
�2 �
= �E
2664
� 1
�2
X
i
x�2i � 1(�2)2
X
i
(yi � �1x�i )x�i
� 1
(�2)2
X
i
(yi � �1x�i )x�i n2(�2)2 �
1
(�2)3
X
i
(yi � �1x�i )2
3775
= E
2664
1
�2
X
i
x�2i
1
(�2)2
X
i
(u�i )x
�
i
1
(�2)2
X
i
(u�i )x
�
i � n2(�2)2 +
1
(�2)3
X
i
(u�i )
2
3775
=
24 1�2
X
i
E
�
x�2i
�
1
(�2)2
Pn
i=1E [u
�
ix
�
i ]
1
(�2)2
Pn
i=1E [u
�
ix
�
i ] � n2(�2)2 +
1
(�2)3
Pn
i=1E
�
u�2i
�
35
=
24 1�2
X
i
x�2i
1
(�2)2
Pn
i=1 x
�
iE [u
�
i ]
1
(�2)2
Pn
i=1 x
�
iE [u
�
i ] � n2(�2)2 +
1
(�2)3
n�2
35
I (�) =
24 1�2 X
i
x�2i 0
0 n
2�4
35
Teorema 57 (Desigualdade de Cramér-Rao) Sejam y1; : : : ; yn iid com pdf f(yj�) e
seja ~�n um estimador não viesado de �, então:
V (~�) � I�1 (�)
Assim I�1 (�) (que é o inverso da Matriz de Informação de Fischer) é chamado limite
inferior de Cramer-Rao, ou seja, a menor variância possível que um estimador pode atingir.
69
Exemplo 58 No caso do Exemplo anterior, teríamos que o limite inferior de Cramer-Rao
seria:
I�1 (�) =
24 1�2 X
i
x�2i 0
0 n
2�4
35�1
=
264
�2X
i
(xi��x)2
0
0 2�
4
n
375
onde na diagonal principal temos as estimativas das variâncias mínimas dos estimadores
de �1 e �
2. A variäncia de �^1 é justamente a variäncia obtida quando estimamos por
MQO. Mas isso era esperado pois �^
MQO
1 = �^
MV
1 . Ou seja, o estimador de MV (e do
MQO) dos parâmetros das variáveis, atingem a menor variância possível.
(Obs.: A variância do estimador MV do �2 (variância do erro) não atinje 2�
4
n . Sua
variância é igual a V ar
�
�^2
�
= n�2
n2
2�4, a qual pode ser revista do curso de Probabilidade.
No entanto, veremos uma propriedade abaixo muito útil.).
A estimativa da variância mínima do intercepto poderia ser obtida através de:
�^0 = �y � �^1�x
V ar
�
�^0
�
= V ar (�y) + �x2V ar
�
�^1
�
� 2�xCov
�
�y; �^1
�
| {z }
=0
V ar
�
�^0
�
= V ar (�y) + �x2V ar
�
�^1
�
Mas a variância de y é:
yi = �0 + �1xi + ui
V ar (yi) = V ar (ui)
Assim:
V ar
�
�^0
�
= V ar (�u) + �x2V ar
�
�^1
�
=
�2
n
+ �x2
�2X
i
(xi � �x)2
= �2
2664 1n + �x2X
i
(xi � �x)2
3775
que é justamente a variância do �^
MQO
0 .
70
Teorema 59 (E…ciência assintótica do estimador de máxima-verossimilhança)
Se �^ é o EMV, então: p
n[�^ � �]! N [0; V ];
na qual V é a variância assintótica, ou seja, é a variância da distribuição limite (neste
caso, a normal).
Se �^ for um vetor de parämetros, então V é a matriz de variância-covariância, sendo
positiva de…nida.
Assim:
�^
a� N ��; I�1 (�)�
Ou seja, pela desigualdade de Cramer-Rao �^ é éassintoticamente e…ciente para �, ou
seja, nenhum outro estimador assintoticamente normal e consistente tem variância menor.
Exercício 60 Derive o EMV para o modelo de regressão múltipla. Ou seja, resolva o
seguinte problema de maximização:
max
�0;�1;�
2
lnL = max
�0;�1;�
2
�n
2
ln�2 � n
2
ln (2�)� 1
2�2
X
(yi � �0 � �1x1i � :::� �kxki)2
Ou se preferir, faça em termos matriciais.
8.1 Testes baseados na verossimilhança
Veremos os testes de Wald, LR (razão da verossimilhança) e LM (multiplicador de la-
grange).
Seja L (�) a função de verossimilhança. Desejamos testar a hipótese nula:
H0 : h (�) = 0
que pode ser uma restrição linear ou não-linear.
Um exemplo é: h (�) = �1�2 = 1.
� é o vetor de (alguns) parâmetros.
Seja o seguinte grá…co que ajudará na motivação e intuição dos testes:
Gr�afico
8.1.1 Teste LR
A motivação para o teste LR é que se H0 é verdadeira, o máximo função de verossimilhança
restrita e não-restrita deve ser o mesmo.
Então a idéia do teste é testar se a diferença entre os logartimos de L (�) são estatisti-
camente diferentes.
71
A estatística do teste LR é:
LR = �2
h
lnL
�
�^r
�
� lnL
�
�^ir
�i
a� �2 (q)
onde q é o número de restrições, �^ir é o EMV do modelo irrestrito e �^r é o EMV do
modelo restrito, ou seja, maximiza o lagrangeano lnL (�)� �0h (�).
8.1.2 Teste de Wald
A motivação do teste de Wald é que se H0 é verdadeira, o EMV �^ir = �^ deve satisfazer as
restrições de H0 e então h
�
�^ir
�
deve ser próximo de zero.
A estatística do teste de Wald é:
Wald = h
�
�^
�0 h
V ar
h
h
�
�^
�ii�1
h
�
�^
�
a� �2 (q)
8.1.3 Teste LM
A motivação para o teste LM é que o gradiente @ lnL=@�^ir = 0 no máximo da função de
verossimilhança. Se H0 é verdadeiro, então este máximo deve também ocorrer no EMV
restrito, i.e., @ lnL=@�^r � 0, porque impor a restrição de H0 terá pouco impacto sobre o
valor estimado de �. Usando esta motivação o teste LM é também chamado de teste de
score pois avalia se @ lnL=@�^ é igual a zero.
Uma motivação alternativa é medida a aproximidade em relação a zero dos multipli-
cadores de lagrange do problema de otimização restrito para o EMV restrito.
Maximizar lnL (�)� �0h (�) com relação a � implica que:
@ lnL
@�r
=
@h (�)
@�r
0
�^r
assim, testes baseados nos multiplicadores de Lagrange estimados, �^r, são equivalentes
a testes baseados no score @ lnL=@�^r.
A estatística do teste LM é:
LM =
�
@ lnL
@�r
�0
I�1 (�r)
�
@ lnL
@�r
�
a� �2 (q)
onde I�1 (�r) é a matriz de informação de Fischer para o EMV restrito que é, como
vimos, a variância do score.
Observação 61 Em particular para testes de restrições lineares no modelo de regressão
linear sob normalidade vale a seguinte desigualdade:
Wald � LR � LM
72
9 Multicolinearidade
O que é Multicolinearidade?
� Existência de algum nível de relação linear (correlação) entre as variáveis explicativas
do modelo.
� Multicolinearidade não é questão de existência, mas de grau. Ou seja, ela sempre
existe, mas nem sempre é um grande problema na inferência.
Conseqüências:
1. Multicolinearidade Severa:�
X 0X
��1
=
1
det (X 0X)
adj
�
X 0X
�
Com uma correlação alta entre as colunas de X, det (X 0X) se aproxima de zero. E
com isso (X 0X)�1 aumenta consideravelmente.
Logo:
V ar
�
�^
�
= �2
�
X 0X
��1
aumenta.
Assim, um aumento da variância estimada do estimador de � gera um intervalo de
con…ança muito grande.
2. Multicolinearidade Severa:
A estatística do teste t muito baixa, e um R2 alto.
Por exemplo: O teste t para �1 = 0, será t =
�^1
V ar(�^1)
será reduzido pois sua variância
aumentará.
Pode haver um con‡ito entre o teste de signi…cância individual (t) e o teste de sig-
ni…cância global (F ).
Um exemplo seria:
lnw = �0 + �1x+ �2x
2 + �3x
3 + u
O teste t seria aplicado para cada hipótese nula: H0 : �1 = 0;H0 : �2 = 0;H0 : �3 =
0. E com multicolinearidade severa, não-rejeita.
Mas ao aplicar um teste F :
24 �1�2
�3
35 = 0 rejeita. Ou seja, x pode ser um bom preditor
de lnw, o que gera um R2 alto.
73
Assim, isso é um indício de multicolinearidade: testes t baixos, não rejeitando H 00s
individuais, e teste F rejeitando H0 conjunta.
3. Multicolinearidade Perfeita: Existe relação linear perfeita entre as variáveis. Logo @
(X 0X)�1.
E portanto, �^ = (X 0X)�1X 0y nãopode ser obtido. Ou seja, não haverá os EMQ’s.
O exemplo do item 2 não seria um caso de multicolinearidade perfeita? Não, pois a
relação entre as variáveis explicativas não é linear (relembre: correlação é associação
linear entre as variáveis).
4. Ausência de Multicolinearidade: variáveis explicativas ortogonais.
Exercício 62 Mostre que no modelo:
yi = �0 + �1x1i + :::+ �kxki + ui
supondo ausência de multicolinearidade, poderíamos estimar regressões separadas de
y contra cada regressor, ou seja:
yi = �10 + �1x1i + e1i
:
:
:
yi = �k0 + �kxki + eki
e obteríamos da mesma forma os estimadores, ou seja, �^j = �^j ; j = 1; :::; k:
(Dica: use a de…nição do EMQ em termos de somatório ou compute (X 0X) na prova
com matriz).
Como detectar multicolinearidade?
1. Analisar a matriz de correlação das variáveis explicativas.
Problema: só capta relações entre pares de variáveis explicativas. Não reconheceria
uma relação linear de uma variável com duas ou mais variáveis.
2. Estimar regressões auxiliares:
x1i = 
0 + 
1x2i + :::+ 
k�1xki + vi
74
Se obtiver um ~R2 alto (alguns livros dizem > 0:8) é um indício de multicolinearidade.
Neste caso existe um indício forte de que x1i pode ser uma combinação linear dos
outros regressores (ou de alguns).
Problema: Se existir muitos regressores, deve ser estimada uma regressão auxiliar
para cada regressor como variável dependente.
3. Alguns livros consideram o fator in‡ação da variância:
FIV
�
�^1
�
=
1
1� ~R2
Alguns livros dizem FIV > 5 é um indício de multicolinearidade.
4. Número de condição
Xkxk tem k autovalores (�1; :::; �k)
det (X) = �ki=1�i
Logo, X singular se peloe menos um dos �0s igual a zero.
X é aproximadamente singular se existe um �i ' 0.
Assim, computa-se o número de condição:
NC =
r
�max
�min
se NC < 10 :Multicolinearidade suave
se NC 2 [10; 30] : Multicolinearidade moderada
se NC > 30 :Multicolinearidade severa.
Exemplo 63 Seja o modelo de regressão:
yi = �0 + �1x1i + �2x2i + �3x3i + ui
V ar
�
�^2
�
=
�2�
1� r212
�P
(x2i � �x2)2
onde �^2 =
P
u^2i
n�k�1 . Então:
V ar
�
�^2
�
=
P
u^2i
(n� 3) �1� r212�P (x2i � �x2)2
75
onde r212 é o R
2 da regressão (auxiliar) de x1 contra x2; x3.
Assim, a V ar
�
�^2
�
pode ser in‡ada por 3 razões:
1. Micronumerosidade: n "baixo"ou n ' k+1, ou seja, amostra pequena em compara-
ção ao número de graus de liberdade.
2. Multicolinearidade alta: r212 próxima de 1.
3. Baixa variabilidade das variáveis explicativas:
Pn
i=1 (xki � �xk)2 ! 0.
Mas note que a correlação alta entre algumas variáveis terá impacto somente nas var-
iâncias de seus parâmetros estimados. Ou seja, correlação alta entre x2 e x3 implica em
V ar
�
�^2
�
e V ar
�
�^3
�
mais alta, mas sem efeito na V ar
�
�^1
�
.
Como corrigir Multicolinearidade?
1. Aumentar a amostra: talvez o pesquisador esteja com um problema decorrente da
amostra.
Exemplo: lnw = �0 + �1x+ �2 (tempo no emprego atual) + "i
Se sua amostra for composta apenas por pessoas no 1o emprego, você terá multicol-
inearidade perfeita.
2. Exclusão de variáveis explicativas. Às vezes não é uma boa solução.
Mas, se em sua regressão você controla não apenas para x, mas para x2; x3; x4; :::,
talvez seja bom não incluir tantos termos polinomiais.
Geralmente até o termo cúbico é o su…ciente.
3. Regressão de Ridge:
�^R =
�
X 0X + kI
��1
X 0Y; k � 0
�^R é viesado: não vale mais o Teorema de Gauss Markov.
Mas este estimador diminui o problema de condicionamento (quando o acréscimo de
1 observação gera grande mudança dos estimadores).
E 9 k tal que V ar
�
�^R
�
< V ar
�
�^MQO
�
, ou seja, eu sempre obtenho um k que reduz a
variância do estimador e consequentemente, reduz o problema de multicolinearidade.
(Note que MQO é um caso particular desta regressão, pois MQO ! k = 0).
Quanto maior o k, maior o viés e menor a variância: ou seja, aumenta a in‡uên-
cia do k no viés e V ar
�
�^R
�
é proporcional a (X 0X + kI)�1, pois V ar
�
�^R
�
=
�2 (X 0X + kI)�1.
76
Note que:
�^R =
�
X 0X + kI
��1
X 0 (X� + u) =
�
X 0X + kI
��1
X 0X� +
�
X 0X + kI
��1
X 0u
E
�
�^R
�
=
�
X 0X + kI
��1
X 0X� 6= �.
E 9 k tal que:
EQM
�
�^R
�
=
h
vi�es
�
�^R
�i2
+ V ar
�
�^R
�
< V ar
�
�^MQO
�
= EQM
�
�^MQO
�
4. Uso de Informação A priori: utiliza parâmetros estimados em outro estudo mais
re…nado que o seu.
Exemplo:
yi = �0 + �1x1i + �2x2i + ui
Obtemos de outro trabalho que: �2 = 0:85
Se Corr (x2; x1) = 1, então substituímos este parâmetro na regressão:
yi = �0 + �1x1i + 0:85x2i + ui
yi � 0:85x2i = �0 + �1x1i + ui
y�i = �0 + �1x1i + ui
e estimamos a regressão acima.
5. Componentes Principais: cria novas variáveis explicativas que são combinações lin-
eares dos demais estimadores.
Exemplo:
yi = �0 + �1x1i + :::+ �kxki + ui
Se existe problema de multicolinearidade entre os regressores, podemos escrever novos
regressores como combinação linear de todos:
x�1i = 
10 + 
11x1i + :::+ 
1kxki
:
:
:
x�ki = 
k0 + 
k1x1i + :::+ 
kkxki
Existem 
0s tal que os regressores serão ortogonais entre si, dois a dois. Assim,
podemos estimar:
yi = �0 + �1x
�
1i + :::+ �kx
�
ki + u
�
i
77
10 Heterocedasticidade
De…nição 64 É a violação da hipótese de homocedasticidade do erro, ou seja, que a var-
iância do erro seja constante. Assim, sob heterocedasticidade temos que:
V ar (ui) = �
2
i
ou seja, a variância do erro depende de cada i, ou seja, ela pode variar ao longo das
observações.
Algumas possíveis origens ou razões da heterocedasticidade são:
1. Aprendizado - erro: Variância dos erros diminui com o aumento do tempo de apren-
dizado.
2. Poupança - renda: Variância dos erros aumento com o aumento da renda –> ricos
tem consumo variado de mês para mês
3. Presença de outliers (obervações extremas)
4. É um fenômeno mais comum em cross-section.
Conseqüências:
1. Heterocedasticidade não afeta a propriedade de não-viés e consistência do EMQ.
2. A interpretação do R2 e �R2 não é afetada pela presença de heterocedasticidade.
Isso porque as medidas �2u e �
2
y a serem estimadas (e que constam na fórmulas dos
coe…cientes de determinação) são variâncias incondicionais, não dependendo do valor
que os regressores assumem.
3. Os testes t e F usuais não serão válidos, pois baseiam-se na variância do estimador
cuja variância do erro era constante.
Retome que para o caso de RLS:
V ar
�
�^1
�
=
V ar (ui)Pn
i=1 (xi � �x)
V ar
�
�^1
�
=
�2iPn
i=1 (xi � �x)
A variância do estimador não será constante também e dependerá da amostra. Logo,
a variância é viesada e o teste t e F também serão, o que os tornam inválidos.
As estatísticas t do MQO usuais não seguirão mais uma distribuição t e o problema
não é solucionado quando eleva-se o tamanho amostral. Da mesma forma, a estatís-
tica F não segue mais uma distribuição F, e a estatística LM não segue mais uma
distribuição �2 assintótica.
78
Vejamos o caso geral, de RLM. Seja a FRP e FRA:
y = X� + u ([FRP ])
y = X�^ + u^ ([FRA])
Se a hipótese de homocedasticidade for violada:
1. Os EMQ continuam não viesados e consistentes (as hipóteses necessárias para provar
estas propriedades não inclui homocedasticidade). Retome que:
�^ =
�
X 0X
��1
X 0y =
�
X 0X
��1
X 0 (X� + u)
= � +
�
X 0X
��1
X 0u
�^ � � = �X 0X��1X 0u
Calculando a variância:
V ar
�
�^
�
= E
��
�^ � �
��
�^ � �
�0�
= E
��
X 0X
��1
X 0u
��
X 0X
��1
X 0u
�0�
= E
h�
X 0X
��1
X 0uu0X
�
X 0X
��1i
onde na última linha eu utilizei o fato de que
h
(X 0X)�1
i0
=
�
(X 0X)0
��1
= (X 0X)�1.
Continuando,assumindo X não estocástico:
V ar
�
�^
�
=
�
X 0X
��1
X 0E
�
uu0
�
X
�
X 0X
��1
Relembre que E (uu0) = V ar (u), ou seja, é a matriz de variância e covariância de u.
Sob homocedasticidade seria:
V ar (u) = �2I
logo:
V ar
�
�^
�
=
�
X 0X
��1
X 0�2IX
�
X 0X
��1
= �2
�
X 0X
��1
X 0X
�
X 0X
��1
= �2
�
X 0X
��1
79
Sob heterocedasticidade será:
V ar (u) =
26666664
�21 0 : : : 0
0 �22 0
: : : :
: : : :
: : : :
0 0 : : : �2n
37777775
n�n
= 
nxn
logo:
V ar
�
�^
�
=
�
X 0X
��1
X 0
X
�
X 0X
��1
Se houver heterocedasticidade, a variância �2 (X 0X)�1 não está mais garantindo
e…ciência do estimador de mínimos quadrados. Logo, não vale mais o Teorema de
Gauss Markov e o EMQ não é mais BLUE.
2. E como vimos acima, os testes t , F e LM não são mais con…áveis.
Como corrigir heterocedasticidade?
1. Estimação de MQ ponderados
Se soubermos a forma especí…ca da heterocedasticidade, então pode-se construir um
estimador mais e…ciente que o do MQO e que produz estatísticas t e F que tenham
distribuições t e F .
A Heterocedasticidade é conhecida como um termo multiplicativo
Assuma que:
V ar (ujx1; :::; xk) = �2h (x1; :::; xk) = �2hi
Seja a equação original a ser estimada:
yi = �0 + �1xi1 + :::+ �kxik + ui
Note que:
E
��
ui=
p
hi
�2�
= E
�
u2i
�
=hi =
�
�2hi
�
=hi = �
2
Assim, podemos dividir a equação de regressão acima por
p
hi para obter erros ho-
mocedásticos:
yi=
p
hi = �0=
p
hi + �1xi1=
p
hi + :::+ �kxik=
p
hi + ui=
p
hi
y�i = �0x
�
i0 + �1x
�
i1 + :::+ �kx
�
ik + u
�
i
80
Assim, se a equação original acima satisfaz H1-H4, então esta última equação trans-
formada satisfaz H1-H5.
E se ui tem distribuição Normal, então u�i também tem. Então a última equação
satisfaz as hipóteses do Modelo Linear Clássico.
Os estimadores de MQO da última equação são exemplos dos estimadores de MQ
generalizados (MQG). E eles então são BLUE, quando a hipótese de homocedas-
ticidade é violada. Os estimadores MQG para correção de heterocedasticidade são
chamados de estimadores MQ ponderados (MQP).
O problema deste método é que não recuperamos os parâmetros do modelo inicial,
ou seja, o impacto de x1i sobre yi.
Para isso, precisamos inferir o formato da heterocedasticidade. Ou seja, precisamos
inferir V ar (uijx) = �2i , que a priori é desconhecida
A Função de Heterocedasticidade deve ser estimada: MQG factível
Se não temos idéia da função h (xi), podemos modelá-la e estimá-la. E assim resulta
em uma estimativa h^i, e utilizando este estimador para transformar a equação original
rsultará no estimador denominado estimador de MQG factível (MQGF) ou MQG
estimado (MQGE).
Existem várias formas de modelar heterocedasticidade, mas assumimos uma forma
aqui:
V ar (ujx) = �2 exp (�0 + �1x1 + :::+ �kxk)
Transformamos esta equação no formato linear, a …m de aplicarmos MQO. Sob a
hipótese acima, podemos escrever:
u2 = �2 exp (�0 + �1x1 + :::+ �kxk) v
onde v tem média igual a 1, condicionado em x1; :::; xk. Se assumirmos que v é
independente dos regressores, então:
log u2 = �0 + �1x1 + :::+ �kxk + e
onde e tem média zero e é independente dos regressores. Esta equação satisfaz as
hipóteses de Gauss-Markov e obtemos estimadores não-viesados de �j por MQO.
Então regredimos o log do resíduo MQO log u^2 contra os regressores (x1; :::; xk) e
obtemos os valores ajustados dessa regressão, denominados g^i. Então:
h^i = exp (g^i)
E agora estimamos o modelo original por MQP com pesos 1=h^i.
81
Observação: O estimador MQGF pode ser viesado, mas é consistente e assintotica-
mente mais e…ciente que o MQO. E tem estatísticas t e F com distribuições t e F,
em amostras grandes.
Uma alternativa para estimar hi é rodar a regressão log u^2 contra y^; y^2 (estes da
regressão original por MQO) e não contra os regressores. E assim, obter os valores
previstos g^i e obter h^i = exp (g^i), como especi…cado acima.
2. Matriz de Variância-Covariância de White (ou Correção de White ou Matriz de
Variância-Covariância robusta a heterocedasticidade)
Esta solução corrige a variância dos estimadores sem alterar o modelo.
É possível ajustar os erros padrões e as estísticas t, F e LM tal que sejam válidos
na presença de heterocedasticidade que tenha forma desconhecida. Este método
é denominado como procedimentos robustos a heterocedasticidade porque eles são
válidos, pelo menos em amostras grandes.
1o Considere um modelo de RLS (Reg. Lin. Simples):
yi = �0 + �1xi + ui
As hipóteses H1-H4, se mantém, mas os erros contém heterocedasticidade, tal que:
V ar (uijxi) = �2i
ou seja, a variância depende do valor de xi. O estimador MQO pode ser escrito como:
�^1 = �1 +
Pn
i=1 (xi � �x)uiPn
i=1 (xi � �x)2
Sob as hipóteses H1-H4, a variância do estimador, condicionada nos valores xi da
amostra é:
V ar
�
�^1
�
=
Pn
i=1 (xi � �x)2 �2i
SST 2x
em que, SSTx =
Pn
i=1 (xi � �x)2. Quando �2i = �2, esta fórmula se reduz a fórmula
padrão �2=SSTx.
Mas agora, precisamos estimar a equação acima, a qual contém heterocedasticidade.
White formulou uma correção. Seja u^i os resíduos de MQO da regressão acima.
Então um estimador válido para V ar
�
�^1
�
, para qualquer formato de heterocedas-
ticiade (incluindo até homocedasticidade) é:Pn
i=1 (xi � �x)2 u^2i
SST 2x
82
É possível demonstar que:
n
 Pn
i=1 (xi � �x)2 u^2i
SST 2x
!
p! n
E
h
(xi � �x)2 u2i
i
(�2x)
2
n
Pn
i=1 (xi � �x)2 �2i
SST 2x
p! n
E
h
(xi � �x)2 u2i
i
(�2x)
2
ou seja, n vezes o estimador de White converge em probabilidade para a mesma
expressão que o estimador da variância anterior. E assim, é possível construir ICs e
estatísticas t.
Mas note que, como é uma convergência, para essa aproximação ser razoável é
necessário ter um tamanho amostral razoávelmente grande.
Uma fórmula similar para a RLM é:
V ar
�
�^j
�
=
Pn
i=1 r^
2
ij u^
2
i
SSR2j
(22)
onde r^ij denota o i��esimo resíduo da regressão de xj em todos os outros regressores;
e SSRj é a soma dos quadrados dos resíduos desta regressão. A raiz quadrada desta
medida é chamada de erro padrão robusto (a heterocedasticidade) para �^j , ou ainda
como erros padrões de White, ou de Huber ou de Eicker.
Às vezes, o estimador (22), é mutiplicado por uma correção dos graus de liberdade,
n= (n� k � 1). Isso porque se os resíduos de MQO quadráticos, u^2i , fossem os mes-
mos para todas observações i (a forma mais forte possível de homocedasticidade da
amostra), então tirando a raiz quadrada da expressão …nal ajustada obteríamos os
erros padrões de MQO.
De posse destas estimativas robustas do erro padrão podemos construir estatísticas
t robustas também.
Mas reforçando, vale notar que estas medidas se justi…cam apenas quando a amostra
é grande. Com amostras pequenas, as estatísticas t podem seguir distribuições não
muito próximas da distribuição t, invalidando nossa inferência.
Assim, se é válida a hipótese de homocedasticidade e a amostra é pequena, é preferível
utilizar os erros padrões e estatísticas t usuais, sem correção de heterocedasticidade.
É possível também obter estatísticas F e LM que são robustas a heterocedasticidade.
A estatística F robusta a heterocedasticidade é também chamada de estatística de
Wald robusta a heterocedasticidade.
83
3. Em termos matriciais, estimamos o modelo diretamente por MQO e computamos sua
variância, sob heterocedasticidade :
V ar
�
�^MQO
�
=
�
X 0X
��1
X 0
X
�
X 0X
��1
A correção de White será:
V ar
�
�^MQO
�
White
=
n
n� k � 1
�
X 0X
��1
X 0
^X
�
X 0X
��1
^ =
26666664
u21 0 : : : 0
0 u22 0
: : : :
: : : :
: : : :
0 0 : : : u2n
37777775
Como detectar heterocedasticidade?Existem dois testes clássicos:
1. Teste Breusch-Pagan (BP)
Seja o modelo de RLM, valendo as hipóteses H1-H4 e assumimos também que E (ujx1; :::; xk) =
0, tal que MQO é não-viesado e consistente. A hipótese nula assume que H5 é válida,
ou seja:
H0 : V ar (ujx1; :::; xk) = �2
onde u, é o erro da equação da RLM. Esta hipótese é equivalente a:
H0 : E
�
u2jx1; :::; xk
�
= E
�
u2
�
= �2
A idéia é veri…car se u2 (seu valor esperado) é relacionado a algum regressor. Uma
abordagem simples é assumir:
u2 = �0 + �1x1 + :::+ �kxk + v
tal que, E (vjxj) = 0
Então, a hipótese nula de homocedasticidade será:
H0 : �1 = ::: = �k = 0.
Obtendo estimativas de u, pelos resíduos de MQO, u^i, a partir do modelo original de
RLM, podemos estimar:
u^2 = �0 + �1x1 + :::+ �kxk + erro (23)
84
e assim, computar as estatísticas F e LM para testar a hipótese nula acima. Ass-
intoticamente, estas estatísticas seguem uma distribuição F .e �2. Denote o R2 da
regressão acima, como R2u^2 . Então a estatística F será:
F =
R2u^2=k�
1�R2
u^2
�
= (n� k � 1)
onde k é o número de regressores da regressão (23) . Esta estatística tem distribuição
aproximada Fk;n�k�1, sob H0.
A estatística LM será:
LM = nR2u^2
a qual assintoticamente segue �2k. Este teste LM é também chamado de teste
Breusch-Pagan (BP).
Observação:
1. Se a suspeita da heterocedasticidade é relacionada a apenas alguns regressoreso,
o teste BP pode ser feito simplesmente regredindo ~u2 contra apenas estes regres-
sores suspeitos e computar as estatísticas F e LM padrões, e os graus de liberdade
dependem do número de regressores da regressão (23) e não da regressão original.
2. Se a suspeita é em relação a apenas um regressor, então o teste de heterocedasti-
cidade é feito utilizando a estatística t.
2. Teste de White para Heterocedasticidade
A hipótese de homocedasticidade, V ar (ujx1; :::; xk) = �2, pode ser substituída por
uma hipótese mais fraca que seria o erro quadrático, u2, ser não correlacionado com
todos regressores, xj , os seus quadrados, x2j , e todos os produtos cruzados, xjxh
(j 6= h). Assim, White propôs um teste que incluía todos estes termos na regressão
(23). Assim, o teste de White é baseado na estimação de:
u^2 = �0 + �1x1 + :::+ �kxk +
X
m=1
X
l=1
�lk+mxlxm + erro
O teste de White para heterocedasticidade é a estatística LM que testa se
todos os �j (com exceção do intercepto) na equação acima são iguais a zero. Pode-se
utilizar também o teste F , e ambos os testes têm as mesmas distribuições assintóticas
dadas anteriomente.
Um problema deste teste é que, como visto na equação acima, mesmo para poucos
regressores incluídos no modelo original, o teste será feito para diversos regressores e
assim um valor elevado de graus de liberdade deverá ser utilizado no teste.
Uma alternativa é utilizar os valores ajustados do MQO em um teste para hetero-
cedasticidade. Elevando ao quadrado os valores ajustados de y^i teremos uma função
85
particular dos quadrados e produtos cruzados dos regressores. Assim, pode-se estimar
a equação:
u^2 = �0 + �1y^ + �2y^
2 + erro
Pode-se utilizar um teste F e LM para testar a signi…cância conjunta de �1 e �2.
Este é um caso especial do teste de White. Este teste segue assintoticamente
uma distribuição F2;n�3 e �22, respectivamente.
Observação: Se H.3 (E (ujx1; :::; xk) = 0) é violada, se a forma funcional de E (yjx) é
má especi…cada, então um teste de heterocedasticidade pode rejeitar H0, mesmo se
V ar (yjx) é constante. Isto conduz alguns economistas a verem os testes de hetero-
cedasticidade como testes para má especi…cação das formas funcionais da equação.
Mas testes deste tipo serão especi…cados mais adiantes e são mais apropriados.
11 Mais sobre Problemas nos Dados e na Especi…cação
11.1 Má especi…cação da Forma Funcional
Teste RESET como um Teste Geral para Má Especi…cação da Forma Funcional
RESET (Teste do erro de especi…cação da regressão), devido a Ramsey, tem uma idéia
simples. Seja o modelo:
y = �0 + �1x1 + :::+ �kxk + u
Se valer a hipótese H.3 então, adicionar funções não lineares dos regressores (tipo: x21)
não devem ser signi…cantes. Se for, deve haver problemas de forma funcional. O teste
RESET inclui funções dos valores ajustados, como por exemplo, seja o modelo expandido:
y = �0 + �1x1 + :::+ �kxk + �1y^
2 + �2y^
3 + erro
a…m de captar não-linearidades dos regressores. A hipótese nula do teste é que �1 =
�2 = 0. A estatística do teste RESET é a de um teste F padrão sobre esta H0. A
distribuição assintótica é F2;n�k�3, sob H0 e as hipóteses de Gauss-Markov. Uma
versão LM do teste também pode ser aplicada, com distribuição �22.
Observações:
1. Não existe uma quantidade certa de y^ a serem incluídos no teste RESET.
2. RESET é visto como um teste muito geral para má especi…cação, pois inclui variáveis
omitidas não observadas e heterocedasticidade. Mas RESET não tem poder para detectar
variáveis omitidas, se estas forem lineares. E se a forma funcional é bem especi…cada,
RESET não tem poder para detectar heterocedasticidade. En…m, RESET é um teste
apenas para forma funcional.
Testes contra Alternativas Non-nested
86
Supondo o modelo:
y = �0 + �1x1 ++�2x2 + u (24)
E o modelo expandido a ser testado (nonnested):
y = �0 + �1 log (x1) + +�2 log (x2) + u (25)
Não se pode usar o teste F, então constroi-se o seguinte modelo:
y = 
0 + 
1x1 + 
2x2 + 
3 log (x1) + 
4 log (x2) + u
Agora, podemos testar H0 : 
3 = 
4 = 0, como um teste para (24) e um teste H0 :
1 = 
2 = 0, como um teste para (25). Esta abordagem foi sugerida por Mizon e Richard.
Outra abordagem é a seguinte: estimo (25) por MQO e obtenho os valores ajustados,
denominados b^y. E depois estimo a equação:
y = �0 + �1x1 + �2x2 + �1
b^y + erro
um teste t sobre �1 serve para testar a hipótese nula que o modelo (24) é válido. Este
teste é chamado de teste de Davidson-MacKinnon. De forma análoga podemos testar
a hipótese nula que o modelo (25) é válido, ao obter os resíduos de (24).
Observações:
1. Esta abordagem que vimos é um exemplo especí…co, mas pode ser utilizada para
testar quaisquer dois modelos non-nested.
2. Se nenhum dos modelos é rejeitado, pode-se utilizar o �R2 para escolher entre ambos.
3. Outro problema é que rejeitar o modelo (24), utilizando o teste Davidson_MacKinnon
não signi…ca que o modelo (25) é correto.O modelo (24) pode ser rejeitado por vários outros
modelos.
11.2 Usando Variáveis Proxy para Variáveis Explicativas Não-Observadas
Às vezes, alguma variável é omitida devido a sua indisponibilidade, como por exemplo
habilidade dos indivíduos.
Uma solução é utilizar uma variável proxy para a variável omitida. Assim, por ex-
emplo, para habilidade poderíamos utilizar como proxy a variável QI. QI tem que ser
correlacionada com habilidade.
Assim, seja o modelo:
y = �0 + �1x1 + �2x2 + �3x
�
3 + u
em que, x�3 não é observado. Mas seja uma variável proxy para ela denotada como: x3,
que tenha alguma relação com x�3, capturada pela regressão:
x�3 = �0 + �3x3 + v3
87
Para obtermos estimadores consistentes de �1 e �2, ao se utilizar x3 na regressão,
devemos assumir algumas hipóteses:
Hipótese 1: u seja não correlacionado com x1; x2 e x�3. E além disso, u seja não cor-
relacionado com x3. (outra forma de assumir isso seria que E (ujx1; x2; x�3; x3) = 0
Hipótese 2: v3 seja não correlacionado com x1; x2; x3. Essa hipótese requer que x3 seja
uma boa variável proxy. Isto pode ser visto como o análogo desta hipótese:
E (x�3jx1; x2; x3) = E (x�3jx3) = �0 + �3x3
que diz que uma vez que controlamos para x3, x�3 não tem correlação com x1 e x2.
Substituindo as equações acima teremos:
y = �0 + �3�0| {z }
�0
+ �1x1 + �2x2 + �3�3|{z}
�3
x3 + u+ �3v| {z }
e
Rodando y contra x1; x2 e x3 não teremos estimadores não-viesados de �0 e �3, mas
teremos estimadoresnão-viesados (ou pelo menos consistentes) de �0; �1 e �2 e �3.
11.3 Propriedades de MQO sob Erro de Medida
Erro de medida ocorre quando utilizamos uma medida imprecisa de alguma variável econômica
no modelo de regressão.
Erro de Medida na Variável Dependente
Seja y�, a variável correta do modelo, mas suponha que tenhamos apenas uma medida
imperfeita dela, denotada como y. O erro de medida seria:
e0 = y � y�
O modelo verdadeiro seria:
y� = �0 + �1x1 + :::+ �kxk + u
que satisfaz as hipóteses de Gauss-Markov.
Mas o modelo que é passível de estimação será:
y = �0 + �1x1 + :::+ �kxk + u+ e0
Os estimadores MQO são consistentes?
Como o modelo verdadeiro satisfaz as hipóteses de Gauss-Markov, então u é não cor-
relacionado com os regressores.
Geralmente assume-se que o erro de medida tem média zero. Caso contrário, o esti-
mador MQO do intercepto, �0, é viesado.
88
Outra hipótese é que o erro de medida é independente dos regressores, e assim, os
estimadores MQO são não viesados e consistentes.
Se e0 e u são não correlacionados, então V ar (u+ e0) = �2u + �
2
e0 > �
2
u, o que implica
em variância dos estimadores maior.
Mas, se e0 é correlacionado com pelo menos um regressor, então os estimadores MQO
podem …car viesados.
Se a variável dependente for na forma de log, então:
log y = log y� + e0
e teremos um erro de medida multplicativo, pois a expressão acima pode ser escrita
como: y = y� exp (e0).
Erro de Medida em uma Variável Explicativa
Seja o modelo de RLS:
y = �0 + �1x
�
1 + u
que satisfaz H1-H4. Mas temos apenas uma medida imperfeita do regressor, que seria:
x1. E assim, o erro de medida seria:
e1 = x1 � x�1
Assume-se que:
Hipótese 1: E (e1) = 0.
Hipótese 2: u é não correlacionado com x�1 e x1, que pode ser escrita como:
E (yjx�1; x1) = E (yjx�1)
que diz que x1 não afeta y, depois que controlamos para x�1.
O que acontece se utilizarmos x1 no lugar de x�1 na regressão acima?
Sejam as hipóteses em relação ao erro de medida:
Hipotese 3: Cov (x1; e1) = 0
E assim, e1 também não é correlacionado com x1.
Substituindo a fórmula do erro no modelo verdadeiro teremos:
y = �0 + �1x1 + (u� �1e1)
Dada as hipóteses acima, podemos dizer que (u� �1e1) tem média zero e é não cor-
relacionado com x1.
Assim, os estimadores MQO do intercepto e da inclinação são consistentes.
Desde que u é não correlacionado com e1, temos que V ar (u� �1e1) = �2u+�21�2e1 > �2u.
Assim, a não ser que �1 = 0, o erro de medida aumenta a variância dos estimadores, mas
sem afetar as propriedades do MQO.
89
Mas geralmente, a hipótese assumida, no lugar da hipótese 3 é:
Hipótese 3’Cov (x�1; e1) = 0, denominada Hipótese Clássica de Erros nas Var-
iáveis (CEV)
Se valer esta hipótese, então x1 e e1 devem ser correlacionadas:
Cov (x1; e1) = E (x1e1) = E (x
�
1e1) + E
�
e21
�
= 0 + �2e1
que é a variância do erro de medida. Assim, dado o erro (u� �1e1) do modelo estimado
acima:
Cov (x1; (u� �1e1)) = ��1Cov (x1; e1) = ��1�2e1
Assim, teremos um problema de endogeneidade, e o estimador MQO será viesado e
inconsistente. O viés assintótico pode ser escrito como:
p lim �^1 = �1 +
Cov (x1; u� �1e1)
V ar (x1)
= �1 �
�1�
2
e1
�2x�1
+ �2e1
= �1
 
1� �
2
e1
�2x�1
+ �2e1
!
= �1
 
�2x�1
�2x�1
+ �2e1
!
= �1
�
V ar (x�1)
V ar (x1)
�
e pela expressão acima, p lim �^1 é sempre menor que �1, em termos absolutos. Este é o
chamado viés de atenuação em MQO. Assim, se �1 > 0, então �^1 tenderá a subestimar
�1.
Para o caso de regressão linear múltipla, no qual temos uma variável com erro de medida
e mais regressores na equação, todas as conclusões vistas são as mesmas. Sob a hipótese
de CEV acima, todos os estimadores MQO serão viesados. O viés de ateuuação neste caso
será:
p lim �^1 = �1
 
�2r�1
�2r�1
+ �2e1
!
onde r�1 é o erro da regressão x�1 = �0 + �1x2 + :::�k�1xk. Assim, �^1 é inconsistente
(em relação aos outros estimadores não podemos a…rmar isso).
Por …m, se o erro de medida, e1, for correlacionado com x�1 e x1, então o estimador
MQO é inconsistente.
Uma forma de corrigir problemas de erro de medida é através de variáveis instrumentais.
12 Endogeneidade
Seja o modelo de RLS:
y = �0 + �1x+ u (26)
90
tal que:
Cov (x; u) 6= 0;
acarretando em um problema de endogeneidade (falha da H.3), visto que Cov (x; u) 6=
0 =) E (ujx) 6= 0. Estimadores de MQO serão viesados e inconsistentes.
O que pode ocasionar endogeneidade?
1. Erro de Medida como foi visto na seção anterior.
2. Variável Omitida: omitir uma variável relevante, pode acarretar em falha da hipótese
H.3 e viesar o estimador. Vejamos este caso.
O modelo verdadeiro é:
y = �0 + �1x1 + �2x2 + u
que satisfaz as hipóteses H.1 a H.4. Suponha que o analista omita x2 e estime:
y = ~�0 +
~�1x1 + v
onde v = �2x2 + u. O estimador MQO de ~�1 será:
b~�1 = Pni=1 (x1i � �x1) yiPn
i=1 (x1i � �x1)2
substituindo o modelo verdadeiro:
b~�1 = Pni=1 (x1i � �x1) (�0 + �1x1i + �2x2i + ui)Pn
i=1 (x1i � �x1)2
=
�0
Pn
i=1 (x1i � �x1) + �1
Pn
i=1 (x1i � �x1)x1i + �2
Pn
i=1 (x1i � �x1)x2i +
Pn
i=1 (x1i � �x1)uiPn
i=1 (x1i � �x1)2
=
�1
Pn
i=1 (x1i � �x1) (x1i � �x1) + �2
Pn
i=1 (x1i � �x1)x2iPn
i=1 (x1i � �x1)2
onde utilizamos:
Pn
i=1 (x1i � �x1) = 0;
Pn
i=1 (x1i � �x1)x1i =
Pn
i=1 (x1i � �x1) (x1i � �x1) ;Pn
i=1 (x1i � �x1)ui = 0 (pois para o modelo verdadeiro x1 é não correlacionado com
ui).
Assim: b~�1 = �1 + �2Pni=1 (x1i � �x1)x2iPn
i=1 (x1i � �x1)2
Note que o segundo termo é simplesmente o coe…ciente de inclinação da regressão de
x2i contra x1i:
x2 = �0 + �1x1 + "
91
onde, supomos que as hipóteses H.1 a H.4 são satisfeitas.
E assim: b~�1 = �1 + �2�^1
onde
�^1 =
Pn
i=1 (x1i � �x1)x2iPn
i=1 (x1i � �x1)2
=
Cov (x1; x2)
V ar (x1)
Logo:
E
�b~�1� = �1 + �2�1
Assim, o estimador MQO, b~�1, será viesado. E o termo �2�1 é geralmente chamado
viés de variável omitida.
Há dois casos em que b~�1 é não viesado: (i) se �2 = 0, ou seja, se x2 não aparece
no modelo verdadeiro; (ii) se a variável omitida (x2) não for correlacionada com
x1, ou seja, �1 = 0. Como �^1 =
Cov(x1;x2)
V ar(x1)
, então �^1 = 0 é a mesma coisa que
Cov (x1; x2) = 0, ou seja, x1 e x2 não correlacionados.
Se tivermos um modelo de RLM, como por exemplo:
y = �0 + �1x1 + �2x2 + �3x3 + u
Suponha que omitimos x3. As mesmas conclusões derivam se x1 e x2 forem correla-
cionados com x3.
Mas suponha que x1 é correlacionado com x3, mas x2 não é. O estimador de x2 tam-
bém será viesado se ele for correlacionado com x1. Ou seja, o viés de endogeneidade
contamina também x2, através de x1.
Assim, se a variável omitida for correlacionada com pelo menos um regressor, então
todos os estimadores serão viesados e inconsistentes, via correlação pelo regressor
endógeno.
Seja o EMQ de x2, quando omitimos x3:
b~�2 = �2 + Pi r^2iviP
i r^
2
2i
onde r^2i é o resíduo da regressão de x2 contra x1 e vi = �3x3 + u. Assim:
�^2 = �2 +
P
i r^2i (�3x3i + ui)P
i r^
2
2i
E
�
�^2
�
= �2 +
�3
P
i r^2ix3iP
i r^
2
2i
92
assim, a não ser que: (i) �3 = 0, ou (ii) Cov (r^2i; x3i) = 0 (que ocorre quando
na regressão x2i = �^2 + �^3x1i + r^2i, temos que �^3 = 0, logo r^2i = x2i � �^2, ou
seja, o resíduo é simplesmente o regressor x2 deslocado de sua média e portanto:
Cov (r^2i; x3i) = Cov (x2i; x3i) que é zero ao supormos que x2 é não correlacionado
com a variável omitida, x3.
A inconsistência pode ser mostrada facilmente. No caso de regressão linear simples,
teríamos o viés assintótico (inconsistência) como:
b~�1 = �1 + �2Pni=1 (x1i � �x1)x2iPn
i=1 (x1i � �x1)2b~�1 = �1 + �2Pni=1 (x1i � �x1)x2i=nPn
i=1 (x1i � �x1)2 =n
plim�^1 � �1 = Cov (x1; u) =V ar (x1) = �2�1
onde �1 =
Cov(x1;x2)
V ar(x1)
, que é expressa em termosda covariância e variância popula-
cional.
Observação: Incluir variáveis irrelevantes no modelo não afeta esta propriedade dos
estimadores MQO. Mas pode ter efeitos adversos na variância dos mesmos se houver
multicolinearidade, como vimos anteriormente.
3. Variável (omitida) não observável: quando temos no erro alguma variável não ob-
servável e que é correlacionada com algum dos regressores, este será endógeno. Um
exemplo clássico é na regressão:
lnw = �0 + �1educ+ (hab+ u)
onde, w é salário, educ é educação e hab é a habilidade inata do indivíduo. Aqui não
temos nenhuma medida da variável e assim, não incluímos na regressão (não deixa
de ser um caso de variável omitida). Geralmente habilidade é correlacionada com
educação, ou seja, é provável que indivíduos com maior nível de habilidade acumulem
mais anos de estudo e conseqüentemente obtenham um maior nível salarial. Assim,
�1 não mede apenas o impacto de um maior nível educacional sobre o salário, mas
provavelmente está contaminado (viesado) pelo efeito da habilidade do indivíduo.
12.1 Estimação por Variáveis Instrumentais (VI ou IV) em RLS
Para resolver este problema necessitamos de informação adicional.
Seja uma variável observável z que satisfaça duas hipóteses:
Cov (z; u) = 0 ou z é exógeno (27)
e
Cov (z; x) 6= 0 (28)
93
Assim, z é chamado de uma variável instrumental para x.
Alguns exemplos de instrumento para o exemplo clássico de habilidade é: distância da
residência do aluno até a escola e trimestre de nascimento.
A primeira hipótese é vista também, no contexto de variável omitida, como: z não deve
ter efeito parcial em y (uma vez que x e a variável omitida em u são controladas) e z não
deve ser correlacionada com fatores não observáveis que afetem y.
Enquanto a primeira hipótese não é passível de teste (vale a argumentação do analista),
a segunda é, e pode ser feita através da regressão:
x = �0 + �1z + v
visto que �1 =
Cov(z;x)
V ar(z) . Bastando então testar a hipótese nula �1 = 0.
Usando a equação (26), ou seja, y = �0 + �1x+ u, podemos escrever:
Cov (z; y) = Cov (z; �0 + �1x+ u)
Cov (z; y) = �1Cov (z; x) + Cov (z; u)
que sob as hipóteses acima, implica em:
Cov (z; y) = �1Cov (z; x)
�1 =
Cov (z; y)
Cov (z; x)
que está em termos da Cov populacional. Para obter o estimador, utilizamos a contra-
parte amostral que será:
�^
V I
1 =
Pn
i=1 (zi � �z) (yi � �y)Pn
i=1 (zi � �z) (xi � �x)
= �^
V I
1 =
Pn
i=1 (zi � �z) yiPn
i=1 (zi � �z) (xi � �x)
que é o estimador de VI. E o estimador de �0 é: �^0 = �y � �^1�x.
Quando x é exógeno, então z = x, ou seja o próprio x pode ser usado como seu próprio
instrumento e então estimador MQO é igual ao estimador IV (�^
V I
1 = �^
MQO
1 ).
Quando Cov (x; u) = 0, o estimador IV é viesado, mas será consistente.
Propriedades de VI com uma Variável Instrumental Pobre (Fraca) (ou In-
strumentos Fracos)
O estimador VI pode ter viés assintótico grande mesmo se z e u são pouco correlaciona-
dos, como pode ser visto abaixo:
�^
V I
1 =
Pn
i=1 (zi � �z) yiPn
i=1 (zi � �z) (xi � �x)
=
Pn
i=1 (zi � �z) (�0 + �1x1i + ui)Pn
i=1 (zi � �z) (xi � �x)
�^
V I
1 =
�0
Pn
i=1 (zi � �z) + �1
Pn
i=1 (zi � �z)x1i +
Pn
i=1 (zi � �z)uiPn
i=1 (zi � �z) (xi � �x)
�^
V I
1 =
�1
Pn
i=1 (zi � �z)x1iPn
i=1 (zi � �z) (xi � �x)
+
Pn
i=1 (zi � �z)uiPn
i=1 (zi � �z) (xi � �x)
94
Note que:
nX
i=1
(zi � �z) (xi � �x) =
nX
i=1
(zi � �z)xi � �x
nX
i=1
(zi � �z)
=
nX
i=1
(zi � �z)xi
Substituindo de volta:
�^
V I
1 =
�1
Pn
i=1 (zi � �z)x1iPn
i=1 (zi � �z)xi
+
Pn
i=1 (zi � �z)uiPn
i=1 (zi � �z) (xi � �x)
�^
V I
1 = �1 +
Pn
i=1 (zi � �z)uiPn
i=1 (zi � �z) (xi � �x)
Tomando o p lim :
p lim �^
V I
1 = �1 +
Cov (z; u)
Cov (z; x)
p lim �^
V I
1 = �1 +
Corr (z; u)
Corr (z; x)
�u�z
�x�z
p lim �^
V I
1 = �1 +
Corr (z; u)
Corr (z; x)
�u
�x
Assim, se Corr (z; u) = 0 e Corr (z; x) 6= 0, segundo as hipóteses anteriores, então o
estimador VI será consistente.
No entanto, na prática, mesmo se Corr (z; u) for pequena, a inconsistência do estimador
V I pode ser muito grande se Corr (z; x) também for pequena. Ou seja, denominamos de
instrumento fraco, quando Corr (z; x) é pequena aliado a Corr (z; u) não nula (mesmo que
pequena). Assim, o viés assintótico será grande.
Portanto, não será óbvio que o V I será melhor que o MQO.
O estimador do MQO pode ser escrito como:
p lim �^
MQO
1 = �1 +
Cov (x1; u)
V ar (x1)
p lim �^
MQO
1 = �1 + Corr (x; u)
�u
�x
Assim, o VI é preferível ao MQO, em termos de viés assintótico, quando Corr(z;u)Corr(z;x) <
Corr (x; u).
95
12.2 Estimação de VI em RLM
Seja o modelo RLM (equação estrutural):
y1 = �0 + �1y2 + �2z1 + :::+ �kzk�1 + u1 (29)
onde zj ; j = 1; :::; k � 1, são exógenos e y2 é endógena. Todos estimadores MQO serão
viesados e inconsistentes neste caso.
Seja zk um instrumento para y2. Assim, assumimos que:
1. u1 tem média zero, E (u1) = 0
2. zj ; j = 1; ::::; k; são não correlacionados com u1, ou seja, Cov (zj ; u1) = 0, j = 1; :::; k,
ou seja, todos os regressores, com excessão de y2, e o instrumento são exógenos.
Através destas hipóteses, via métodos dos momentos, podemos inferir os parâmetros
(basta expressar em termos amostrais estas hipóteses, que seriam o "análogo"das CPOs do
problema de MQO), ou seja:
nX
i=1
�
y1i � �^0 � �^1y2i � �^2z1i � :::� �^kzk�1
�
= 0
nX
i=1
�
y1i � �^0 � �^1y2i � �^2z1i � :::� �^kzk�1
�
z1i = 0
:
:
:
nX
i=1
�
y1i � �^0 � �^1y2i � �^2z1i � :::� �^kzk�1
�
zk�1i = 0
nX
i=1
�
y1i � �^0 � �^1y2i � �^2z1i � :::� �^kzk�1
�
zki = 0
Mas ainda precisamos que zk (instrumento) seja correlacionado com y2, mas o sen-
tido como essas duas variáveis devem ser correlacionadas é complicado pela presença dos
regressores exógenos no modelo.
Então precisamos a…rmar esta hipótese em termos de correlação parcial:
y2 = �0 + �1z1 + :::+ �kzk + v2
onde a variável endógena é escrita em função das exógenas, e valem as hipóteses:
E (v2) = 0; Cov (zj ; v2) = 0; j = 1; :::; k
E deve valer �k 6= 0. Em outras palavras, após considerar os efeitos parciais (z1; :::; zk�1)
(ou seja, uma vez que controlamos para estes regressores), y2 e zk ainda são correlacionados
(ou seja, ainda tem efeito parcial de zk em y2).
96
Podemos testar �k 6= 0, simplesmente estimando a regressão acima por MQO e efet-
uando um teste t.
Observação: Podemos pensar as outras variáveis zj ; j = 1; ::::; k�1; como seus próprios
instrumentos. Assim, a lista de variáveis exógenas é também chamada de lista de variáveis
instrumentais.
12.3 Mínimos Quadrados de 2 Estágios (2SLS ou MQ2E)
Aqui discutimos o caso de se utilizar instrumentos múltiplos para uma variável endógena.
Uma única Variável Explicativa Endógena
Suponha do modelo (29) que nós tenhamos não apenas uma, mas duas variáveis exóge-
nas excluídas: zk e zk+1, que servirão de instrumentos. A hipótese que estas duas variáveis
são exógenas, i.e, não correlacionadas com u, é denominada como restrições de exclusão.
Poderíamos utilizar zk e zk+1 como instrumentos separadamente para y2, provendo 2
estimadores VI, mas nenhum, provavelmente, seria e…ciente.
Como cada zj ; j = 1; :::; k+1; é não correlacionado com u1, então qualquer combinação
linear destes será também não correlacionado com u1, e portanto será uma VI válida.
Para obter o melhor VI, escolhemos a combinação linear das variáveis exógenas que é
mais correlacionada com y2.
Então, seja o modelo original:
y1 = �0 + �1y2 + �2z1 + :::+ �kzk�1 + u1
E seja:
y2 = �0 + �1z1 + :::+ �kzk + �k+1zk+1 + v2
tal que:
E (v2) = 0; Cov (zj ; v2) = 0; j = 1; :::; k + 1.
Sejam as seguintes hipóteses:
Hipóteses 2SLS.1 Linearidade nos Parâmetros
Hipóteses2SLS.2 Amostragem Aleatória
Hipóteses 2SLS.3 VIs Exógenas: u1 com média zero e cada VI não correlacionada com
u1
Hipóteses 2SLS.4 Condição de ordem e de rank:
Condição de rank: (i) não existe relação de linearidade perfeita entre as VIs; (ii) a
condição de rank (classi…cação) para identi…cação é válida, ou seja, da equação:
y2 = �0 + �1z1 + :::+ �kzk + �k+1zk+1 + v2 (30)
97
é necessário que pelo menos um dos parâmetros das VIs (�k ou �k+1) seja diferente
de zero. Isso é importante para que a combinação linear (y�2 = �0 + �1z1 + :::+ �k+1zk+1)
não seja perfeitamente correlacionada com as exógenas, z1; :::; zk�1.
Caso contrário (ou seja, �k = �k+1 = 0), y�2 = �0 + �1z1 + :::+ �k�1zk�1. No segundo
estágio, que veremos abaixo, substituímos y�2 por y2 na estimação do modelo original, aí
…cará mais claro a função desta hipótese.
A condição de ordem é que tenhamos pelo menos um instrumento para a variável
endógena. (No caso de termos l variáveis endógenas, então necessitaríamos de pelo menos
l variáveis exógenas excluídas da equação estrutural, ou seja, l instrumentos). Esta é um
condição apenas necessária. Uma condição su…ciente é a condição de rank acima.
1o Estágio: Então, sob 2SLS1-2SLS4, a melhor VI para y2 é a combinação linear:
y�2 = �0 + �1z1 + :::+ �k+1zk+1
Assim, para esta VI não ser perfeitamente correlacionada com z1; :::; zk�1, um dos outros
parâmetros (�k; �k+1) deve ser não nulo. Para veri…car isso, podemos efetuar um teste F
sobre estes parâmetros.
Uma forma útil de pensar a regressão (30) acima é que ela quebra y2 em dois termos:
y�2 que é a parte de y2 não correlacionada com o erro, u1; e outra parte que é v2, que é
correlacionada com u1 (dado que y2 é endógeno).
Podemos obter y�2 estimando (30) por MQO e obtendo os valores ajustados (preditos),
y^2, ou seja, estimamos por MQO:
y2 = �^0 + �^1z1 + :::+ �^k+1zk+1| {z }
y^2
+ v^2
Este valor ajustado é não correlacionado com o erro (u1) do modelo original.
2o estágio: Utilizando y^2, como instrumento, obtemos o chamado estimador 2SLS
(ou MQ2E). Dado o primeiro estágio de estimação, podemos computar este estimador
através de um segundo estágio, rodando a regressão de y1 contra y^2 e z1; :::; zk�1, via MQO,
ou seja:
y1 = �^0 + �^1y^2 + �^2z1 + :::+ �^kzk�1
Aqui …ca claro a importância da hipótese de identi…cação. Se tivéssemos, �k = �k+1 =
0, então y^2 = �^0 + �^1z1 + :::+ �^k�1zk�1. e substituindo acima:
y1 = �^0 + �^1 (�^0 + �^1z1 + :::+ �^k�1zk�1) + �^2z1 + :::+ �^kzk�1
y1 =
�
�^0 + �^1�^0
�
+
�
�^1�^1 + �^2
�
z1 + :::+
�
�^1�^k�1 + �^k
�
zk�1
Assim, o estimador de z1 seria
�
�^1�^1 + �^2
�
e não poderíamos identi…car o estimador
�^2. Por isso se chama condição de rank para identi…cação.
98
Outro ponto que …ca claro agora é que substituindo y2 = y^2 + v2 na equação original
temos:
y1 = �0 + �1y2 + �2z1 + :::+ �kzk�1 + u1
y1 = �0 + �1y^2 + �2z1 + :::+ �kzk�1 + u1 + �1v2
agora, o erro (u1 + �1v2) tem média zero (pelas hipóteses anteriores) e é não correla-
cionado com y^2 (pois o mesmo é uma função apenas de variáveis exógenas).
Teorema 65 Sob as hipóteses 2SLS1-SLS4, o estimador 2SLS é consistente.
Exercício 66 Mostre que se tivermos apenas 1 instrumento, então o estimador VI é igual
ao de MQ2E (2SLS).
12.4 Testes para Endogeneidade e Restrições de Sobreidenti…cação
Testes para Endogeneidade
Suponha o modelo:
y1 = �0 + �1y2 + �2z1 + �3z2 + u1
onde z1 e z2 são exógenos e y2 é uma variável endógena suspeita. Temos duas variáveis
exógenas z3 e z4 excluídas do modelo estrutural acima.
A idéia do teste é simples: comparar as estimativas MQO e 2SLS e veri…car se elas são
estatisticamente diferentes.
Passos do teste:
1. Estime a forma reduzida de y2, regredindo-a cotnra todas as variáveis exógenas (do
modelo estrutural e os excluídos), ou seja, estime:
y2 = �0 + �1z1 + �2z2 + �3z3 + �4z4 + v2
Obtenha os resíduos v^2, por MQO.
Como cada zj é não correlacionado com u1, y2 é não correlacionado com u1 se, e somente
se, v2 é não correlacionado com u1.
2. Adicione este resíduos, v^2, ao modelo estrutural incial e estime por MQO:
y1 = �0 + �1y2 + �2z1 + �3z2 + �1v^2 + u1
e um teste t sobre �1 é um teste para endogeneidade. Se �1 6= 0, então y2 é endógena.
Este teste é denominado como teste de Hausman para endogeneidade.
Observação:
99
Testes podem ser feitos para variáveis endógenas múltiplas. Para cada variável suspeita,
obtém-se os resíduos da forma reduzida (regredir cada variável endógena suspeita contra
todas variáveis exógenas), e testamos para signi…cância conjunta destes resíduos na equação
estrutural, usando teste F .
Testes de Restrições de Sobreidenti…cação
Se tivermos utilizando mais de um instrumento, podemos testar se alguns deles são não
correlacionados com o erro. Seja o modelo acima novamente:
y1 = �0 + �1y2 + �2z1 + �3z2 + u1
com z3 e z4 dois VIs adicionais.
Poderíamos utilizar z3 apenas como instrumento para y2 e testar se z4 e u^i (resíduos
das estimativas de VI) são correlacionados. Se forem, então z4 não é uma VI válida para
y2.
Observações:
1. Neste teste assumimos que z3 é válido, ou seja, que z3 e u1 são não correlacionados.
2. Da mesma forma podemos testar se z3 é uma VI válida, dada a hipótese que z4 é
uma VI válida.
Então qual teste devemos utilizar?
Assim utilizamos o chamado teste das restrições de sobreidenti…cação que são
usadas no 2SLS, que é o número de instrumentos extras.
A idéia do teste é: exogeneidade dos instrumentos signi…ca que eles são não correla-
cionados com ui e portanto, aproximadamente não correlacionado com o resíduo, u^i (aprox-
imadamente pois usamos o resíduo que é a contraparte amostral do erro, ui).
Passos:
1. Estime o modelo estrutural (original) acima por 2SLS utilizando todos os instru-
mentos z3; z4 e obtenha u^i, ou seja: u^i = y1� �^2SLS0 � �^
2SLS
1 y2� �^
2SLS
2 z1� �^
2SLS
3 z2 (Note
que estimamos os betas por 2SLS, mas os resíduos são computados pelo modelo estrutural
sem substituir y2 pelo seu valor predito (ajustado) do primeiro estágio.
2. Regrida u^i contra todas as variáveis exógenas (além de z1; z2 também z3; z4).
Obtenha o seu R21. Ou seja, regrida:
u^i = �0 + �1z1 + �2z2 + �3z3 + �4z4 + "
3. Sob a H0 que todas as VIs são não correlacionadas com u1, ou seja, �2 = �3 = 0 e
valendo homocedasticidade, nR21
a� �2q , onde q é o no de instrumentos (variáveis exógenas
excluídas do modelo estrutural) menos o número de endógenas, ou seja, q é o número de
restrições de sobreidenti…cação, neste caso q = 1.
Além deste teste, podemos computar a estatística F para esta H0. A estatística através
da F é denominada estatística J , e é computada como J = mF a� �2q , onde m é o número
de instrumentos, neste caso, m = 2.
100
Observações:
1. Se rejeitarmos H0, concluímos que pelo menos uma das VIs não são exógenas. Então
devemos mudar o grupo de instrumentos utilizados.
2. Assim, adicionar muitos instrumentos, pode acarretar que alguns não sejam exógenos,
ocasionando vieses crescentes em seus estimadores, além de serem inconsistentes.
3. Se tivermos o no de instrumentos igual ao no de endógenas, então o modelo é
dito exatamente identi…cado e o R21, obtido no passo 2 acima é exatamente igual a zero.
Logicamente, não existe nada para ser testado.
13 Equações Simultâneas
Seja o seguinte modelo, especi…cado em um sistema de equações:�
y1i = �0 + �1x1i + �2y2i + u1i
y2i = �0 + �1x2i + �2y1i + u2i
Note que u1i da 1a. equação, gera um impacto em y1i que também está na 2a. equação,
que por sua vez gera um impacto em y2i que está na 1a. equação. Assim, u1i gera um
impacto em y2i. Assim, temos um processo circular, pois Cov (y2i; u1i) 6= 0 e, portanto,
temos um problema de endogeneidade.
Analogamente o raciocínio é válido para Cov (y1i; u2i) 6= 0. (Abaixo veremos o cálculo
dessas covariâncias).Na literatura esse problema de endogeneidade em ambas as equações é denominado
viés de simultaneidade. Porque y1i determina y2i e vice-versa. Por isso, o modelo acima se
chama (sistema de) equações simultâneas.
Logo, y1i e y2i são variáveis endógenas e x1i e x2i são variáveis exógenas.
O modelo acima da forma como está especi…cado é denominado forma estrutural.
Exemplo 67 (Modelo Oferta e Demanda) Forma estrutural do modelo de oferta e de-
manda: 8<:
Qst = �0 + �1Pt + u1t
Qdt = �0 + �1Pt + u2t
Qd = Qs (clearing market)
Vamos resolver o sistema. Em equilíbrio, temos:
Qd = Qs
�0 + �1Pt + u1t = 0 + �1Pt + u2t
Pt =
�0 � �0
�1 � �1
+
u2t � u1t
�1 � �1
Essa é a chamada forma reduzida, pois escrevemos as variáveis endógenas em função
das exógenas (neste modelo não temos exógenas, apenas a constante).
101
Assim, note que Pt é função dos erros e, portanto, está correlacionado com os erros:
Cov (Pt; u2t) = Cov
�
�0 � �0
�1 � �1
+
u2t � u1t
�1 � �1
; u2t
�
= Cov
�
u2t � u1t
�1 � �1
; u2t
�
=
1
�1 � �1
Cov (u2t; u2t)� 1
�1 � �1
Cov (u1t; u2t)
=
�2u2t � Cov (u1t; u2t)
�1 � �1
6= 0
Da mesma forma, Cov (Pt; u1t) 6= 0. Logo, existe problema de endogeneidade.
Logo, se estimarmos as equações da forma estrutural de forma separada obteremos
estimativas viesadas e inconsistentes.
Aqui surge o problema de identi…cação dos parâmetros, ou seja, a partir dos parâmet-
ros da forma reduzida não conseguimos recuperar os parâmetros da forma estrutural. Ou
seja, se estimarmos
Pt =
�0 � �0
�1 � �1| {z }
�0
+
u2t � u1t
�1 � �1| {z }
vt
ou seja, estaremos estimando �0 e não saberemos identi…car (ou recuperar) os esti-
madores �0; �0; �1 e �1 do modelo estrutural.
Note também que, se multiplicarmos a equação da demanda e da oferta por � e (1� �),
respectivamente, teremos:
� (Qt) = � (�0 + �1Pt + u1t)
(1� �) (Qt) = (1� �) (�0 + �1Pt + u2t)
Somando:
Q = ��0 + (1� �)�0| {z }
�0
+ [��1 + (1� �)�1]| {z }
�1
P + �u1t + (1� �)u2t| {z }
�2=v
Logo, estaremos estimando
Q = �0 + �1P + v
ou seja, se regredimos a quantidade do produto contra o preço, em equilíbrio, não saber-
emos se estamos estimando a oferta, a demanda ou uma combinação das duas. Gra…ca-
mente:
Gr�afico oferta x demanda
Para podermos estimar a oferta, por exemplo, teremos que variar a demanda de forma
exógena, ou seja:
Gr�afico oferta x demanda variando paralelamente
102
Ou seja, precisamos de uma variável exógena na equação da demanda, que não esteja
na equação da oferta.
E de forma análoga vale para estimar a demanda. Ou seja, temos que ter uma outra
exógena na oferta que não esteja na demanda. (Veremos mais adiante como isso funciona).
Exemplo 68 (Função de Consumo Keynesiana)�
Ct = �0 + �1Yt + "t
Yt = Ct + It(= St)
Note que temos também aqui um processo circular: "t afeta Ct que afeta Yt que afeta
Ct e assim, sucessivamente.
Neste modelo, as variáveis endógenas são Ct e Yt e a variável exógena é It.
Resolvendo o modelo, substituindo a 1a. equação na 2a. equação:
Yt = �0 + �1Yt + "t + It
Yt =
�0
1� �1
+
1
1� �1
It +
"t
1� �1
Yt = �0 + �1It + u1t
Substituindo agora, a 2a. na 1a. equação:
Ct = �0 + �1Ct + �1It + "t
Ct =
�0
1� �1
+
�1
1� �1
It +
"t
1� �1
Ct = �2 + �3It + u2t
Assim, temos:
Yt = �0 + �1It + u1t
Ct = �2 + �3It + u2t
Estas equações são formas reduzidas, ou seja, as variáveis endógenas escritas em função
das variáveis exógenas.
O que queremos é recuperar os parâmetros da forma estrutural a partir da estimação
destes parâmetros da forma reduzida.
Note que:
�0 = �2 =
�0
1� �1
�1 =
1
1� �1
�3 =
�1
1� �1
103
ou ainda:
�0 = �0�1
�3 = �1�1
Logo:
�0 =
�0
�1
ou �0 =
�2
�1
�1 =
�3
�1
Ou seja, a partir da estimação dos �0s conseguimos recuperar os betas.
Note que vimos nos exemplos anteriores 2 casos, o primeiro de um sistema que não
pudemos identi…car os parâmetros da forma estrutural e o segundo no qual pudemos iden-
ti…car.
Assim, existem 3 casos que iremos analisar:
1. Equação exatamente identi…cada: podemos recuperar os parâmetros da equação na
forma estrutural a partir da forma reduzida de uma única maneira.
2. Equação sub-identi…cada ou não-identi…cada: não podemos recuperar os parâmetros
da forma estrutural a partir da reduzida.
3. Equação sobre-identi…cada: podemos recuperar de diversas maneiras.
Equações Sub-Identi…cadas
Vejamos o caso de sistemas sub-identi…cados.
Exemplo 69 Retome o exemplo do modelo de oferta e demanda:8<:
Qst = �0 + �1Pt + u1t
Qdt = �0 + �1Pt + u2t
Qd = Qs (clearing market)
Obtivemos:
Pt =
�0 � �0
�1 � �1
+
u2t � u1t
�1 � �1
Pt = �0 + v1
104
Substituindo Pt da forma reduzida na forma estrutural (pode ser a oferta ou demanda):
Q = �0 + �1
�
�0 � �0
�1 � �1
�
+ �1
�
u2t � u1t
�1 � �1
�
+ u1
Q =
�0�1 � �0�1 + �1�0 � �0�1
�1 � �1
+
�1u2 � �1u1 + �1u1 � �1u1
�1 � �1
Q =
�1�0 � �0�1
�1 � �1
+
�1u2 � �1u1
�1 � �1
Q = �1 + v2
Assim, temos dois parâmetros para a forma reduzida (�1; �0) e quatro parâmetros para
a forma estrutural (�0; �1; �0; �1):
�0 =
�0 � �0
�1 � �1
�1 =
�1�0 � �0�1
�1 � �1
Ou seja, não podemos recuperar os parâmetros da forma estrutural a partir da forma
reduzida. Logo as equações da oferta e demanda é não identi…cado ou sub-identi…cado.
Equações Exatamente Identi…cadas
Exemplo 70 Seja o mesmo modelo de oferta e demanda, mas com uma modi…cação:8<:
Qst = �0 + �1Pt + u1t
Qdt = �0 + �1Pt + �2Xt + u2t
Qd = Qs (clearing market)
onde Xt é renda. Pode ser tratada como uma variável exógena (ou pré-determinada).
Exemplo 71 Resolvendo o sistema:
�0 + �1Pt + u1t = �0 + �1Pt + �2Xt + u2t
Pt =
�0 � �0
�1 � �1
+
�2
�1 � �1
Xt +
u2t � u1t
�1 � �1
Pt = �0 + �1Xt + v1
E substituindo Pt de volta, na oferta, temos:
Qt = �0 + �1
�
�0 � �0
�1 � �1
+
�2
�1 � �1
Xt +
u2t � u1t
�1 � �1
�
+ u1t
Q =
�0�1 � �0�1 + �1�0 � �0�1
�1 � �1
+
�1�2
�1 � �1
Xt +
�1u2 � �1u1 + �1u1 � �1u1
�1 � �1
Qt =
�1�0 � �0�1
�1 � �1
+
�1�2
�1 � �1
Xt +
�1u2 � �1u1
�1 � �1
Qt = �2 + �3Xt + v2
105
Logo:
�0 =
�0 � �0
�1 � �1
�1 =
�2
�1 � �1
�2 =
�1�0 � �0�1
�1 � �1
�3 =
�1�2
�1 � �1
Podemos escrever:
�0 = �2 � �1�0
�1 =
�3
�1
Assim, a equação da oferta é identi…cada.
Podemos estimar, os parâmetros da forma reduzida e depois obter os da forma es-
trutural. Tal método de inferência é denominado de Mínimos Quadrados Indiretos
(MQI). Ou seja:
�^MQI1 =
�^3
�^1
�^MQI0 = �^2 � �^MQI1 �^0 = �^2 �
�^3
�^1
�^0
Obs: Podemos utilizar MQI somente quando as equações são exatamente identi…cadas.
Exercício 72 Mostre no exemplo acima que a equação da demanda é sub-identi…cada.
Porque isso ocorre?
Exercício 73 Seja o seguinte modelo de oferta e demanda:8<:
Qst = �0 + �1Pt + �2Pt�1 + u1t
Qdt = �0 + �1Pt + �2Xt + u2t
Qd = Qs (clearing market)
onde Xt e Pt�1 são variáveis exógenas para a demanda e oferta, respectivamente.
Mostre que as duas equações são exatamente identi…cadas (ou seja, mostre a relação
dos coe…cientes da forma estrutural em função dos coe…cientes da forma reduzida para as
duas equações). Porque isso ocorre?
Equações Sobre-Identi…cadas
106
Exemplo 74 Seja o mesmo modelo de oferta e demanda, mas com algumas modi…cações:8<:
Qst = �0 + �1Pt + �2Pt�1 + u1t
Qdt = �0 + �1Pt + �2Xt + �3Rt + u2t
Qd = Qs (clearing market)
onde Xt é renda, Rt é a riqueza e Pt�1 é o preço defasado em um período. Podem ser
tratadas como variáveis exógenas (ou pré-determinadas).
Resolvendo o sistema, chegamos na forma reduzida das duas endógenas:
Pt = �0 + �1Xt + �2Rt + �3Pt�1 + v1
Qt = �4 + �5Xt + �6Rt + �7Pt�1 + v2
E encontraremos que:
�^1 =
�^6
�^2
e �^1=
�^5
�^1
ou seja, obtivemos duas maneiras de recuperar �^1. Logo a equação da oferta é sobre-
identi…cada.
Neste caso não utilizaremos MQI e sim 2SLS.
As variáveis instrumentais para a equação da oferta são Xt e Rt, ou seja, as restrições
de exclusão desta equação.
Obs.: Mas lembre-se que a lista de instrumentos geralmente é considerada na literatura
como a lista de todas exógenas incluídas na equação (Pt�1) mais as exógenas excluídas do
modelo (Xt e Rt).
Assim o 1o estágio é computado regredindo Pt contra todas as exógenas do modelo
todo, ou seja:
Pt = �0 + �1Xt + �2Rt + �3Pt�1 + v1
e assim obtemos P^t, os valores ajustados da regressão. E o 2o estágio é a regressão de Qt
contra P^t e Pt�1.
Obs.: Caso a equação seja exatamente identi…cada, o estimador 2SLS é igual ao es-
timador VI (quando existe apenas um instrumento para cada endógena) que é igual ao
estimador de MQI. Logo, neste caso os estimadores 2SLS e MQI são iguais.
Assim, para o caso da equação de demanda que é exatamente identi…cada, o estimador
2SLS = VI = MQI.
A mesma igualdade vale para o exemplo anterior.
Assim, notem que o fato de excluirmos variáveis exógenas da equação que estamos
interessados em estimar nos ajuda a identi…car os seus parâmetros (na forma estrutural).
Este fato pode ser enunciado da seguinte forma:
107
Condição 75 (Condição de Ordem para Identi…cação) Seja:
M : endógenas incluídas no sistema
m : endógenas incluídas na equação
K : exógenas incluídas no sistema
k : exógenas incluídas na equação
Assim uma condição necessária para identi…cação (ou seja, para que a equação seja
exatamente ou sobre-identi…cada) é que:
K � k � m� 1
ou seja, o número de variáveis exógenas (pré-determinadas) excluídas da
equação devem ser pelo menos tão grande quanto o número de variáveis endó-
genas incluídas menos um:
Se valer com igualdade, a equação é exatamente identi…cada. Se valer com desigualdade
estrita então é sobre-identi…cada.
Vale ressaltar que esta é uma condição necessária mas não su…ciente.
Vejamos a condição su…ciente:
Condição 76 (Condição de Posto) Uma forma simples de enunciá-la é, com base no
exemplo da equação exatamente identi…cada (penúltimo exemplo): a equação da oferta é
identi…cada se, e somente se, a equação da demanda contém pelo menos 1 variável exógena
(no exemplo seria Xt), com coe…ciente diferente de zero, que é excluída da equação da
oferta. Esta é uma condição necessária e su…ciente. Assim, podemos utilizar esta
variável como instrumento para a endógena (Pt).
Uma forma mais geral que podemos enunciá-la é:
Em um sistema de equações com M endógenas, uma equação é identi…cada se o posto
da submatriz de coe…cientes construída a partir dos coe…cientes (das variáveis endógenas
e exógenas) excluídos da equação analisada e incluídos em alguma das demais equações do
modelo for igual a (M � 1)
Assim, é importante ressaltar que o problema da identi…cação precede o da estimação.
Ou seja, necessitamos saber primeiramente se a equação é exatamente, sobre ou sub-
identi…cada para saber qual método devemos aplicar (nos dois primeiros casos).
Vejamos primeiramente um exemplo bem geral:8>><>>:
y1 � �10 � �12y2 � �13y3 � 
11x1 = u1
y2 � �20 � �23y3 � 
21x1 � 
22x2 = u2
y3 � �30 � �31y1 � 
31x1 � 
32x2 = u3
y4 � �40 � �41y1 � �42y2 � 
43x3 = u4
108
Vamos monstar a matriz de coe…cientes do sistema:
y1 y2 y3 y4 x0 x1 x2 x3 K � k T m� 12664
1 ��12 ��13 0 ��10 �
11 0 0
0 1 ��23 0 ��20 �
21 �
22 0
��31 0 1 0 ��30 �
31 �
32 0
��41 ��42 0 1 ��40 0 0 �
43
3775
m = 3; k = 2 : 4� 2 = 2� 1
m = 2; k = 3 : 4� 3 = 2� 1
m = 2; k = 3 : 4� 3 = 2� 1
m = 3; k = 2 : 4� 2 = 2� 1
endógenas (M = 4) exógenas (K = 4)
ou seja, os y0s são endógenas e os x0s são exógenas. Assim, pela condição de ordem,
todas seriam identi…cadas.
Montando a submatriz construída a partir dos coe…cientes (das variáveis endógenas e
exógenas) excluídos da 1a. equação, mas incluído em alguma das demais equações.
Primeiramente, tais coe…cientes são das variáveis: y4; x2 e x3 que não aparecem na 1a.
equação, mas aparecem em alguma das demais equações. Vamos montar a submatriz com
os valores destes coe…cientes nas demais equações, sem ser a 1a equação:
A1 =
24 0 �
22 00 �
32 0
1 0 �
43
35
Agora devemos calcular o posto desta matriz e veri…car se posto (A1) = (M � 1). Assim:
posto (A1) = 2 < 3 =M � 1
Assim, pela condição de posto a 1a. equação não é identi…cável (sub-identi…cada).
A condição de posto para a 2a. equação será:
A2 =
24 1 0 0��31 0 0
��41 1 �
43
35
posto (A2) = 2 < 3 =M � 1
Assim, pela condição de posto a 2a. equação não é identi…cável (sub-identi…cada).
A condição de posto para a 3a. equação será:
A3 =
24 ��12 0 01 0 0
��42 1 �
43
35
posto (A3) = 2 < 3 =M � 1
Assim, pela condição de posto a 3a. equação não é identi…cável (sub-identi…cada).
109
A condição de posto para a 4a. equação será:
A4 =
24 ��13 �
11 0��23 �
21 �
22
1 �
31 �
32
35
posto (A4) = 3 =M � 1 se, e somente se,
det (A4) = ��13
21
32 + 
11
22 + 
11�32
32 + �13
22
31 6= 0
Assim, pela condição de posto a 4a. equação é exatamente identi…cável. Assim, ela
pode ser estimada por MQI (ou VI ou 2SLS que geram o mesmo estimador).
Exemplo 77 Analisemos o modelo de oferta e demanda:8<:
Qst = �0 + �1Pt + u1t
Qdt = �0 + �1Pt + �2X1t + u2t
Qd = Qs (clearing market)�
Qt � �0 � �1Pt = u1t
Qt � �0 � �1Pt � �2X1t = u2t
Montando a matriz de coe…cientes:
Qt Pt X0t X1t K � k T m� 1�
1 ��1 ��0 0
1 ��1 ��0 ��2
�
m = 2; k = 1! 2� 1 = 2� 1
m = 2; k = 2! 2� 2 < 2� 1
endógenas (M = 2) exógenas (K = 2)
Assim pela condição de ordem a 1a. equação (oferta) é exatamente identi…cada e a 2a.
equação (demanda) é sub-identi…cada.
Vejamos a condição de posto para a 1a. equação:
A1 = [��2]
posto (A1) = 1 = 2� 1 =M � 1
Logo, pela condição de posto con…rmamos que a equação de oferta é exatamente iden-
ti…cada.
A condição de posto para a 2a. equação:
A2 = sem eliminação
ou seja, não existe submatriz construída a partir dos coe…cientes (das variáveis endóge-
nas e exógenas) excluídos da equação da demanda e incluídos na equação da oferta, porque
não foi eliminado (excluído) nenhum coe…ciente na demanda. Logo:
posto (A2) = 0 < 2� 1 =M � 1
110
Logo, a equação da demanda é sub-identi…cada. Isso já era esperado pois tal equação
não havia atendido nem mesmo a condição de ordem. Ou seja, se a equação não atender
a condição de ordem então ela não atenderá a condição de posto.
14 Análise de Regressão com Dados de Séries Temporais
O uso de séries temporais em Econometria está geralmente relacionado à análise de compo-
nentes macroeconômicos, como por exemplo: PIB, in‡ação, taxa de desemprego, consumo
e poupança agregados etc.
Analisaremos o que é necessário para termos uma regressão adequada em séries tem-
porais. Diversos aspectos divervegem em relação aos dados em cross-section.
14.1 Propriedades Amostrais Finitas do OLS sob Hipóteses Clássicas
Hipótese TS.1 Linearidade nos Parâmetros, ou seja, o modelo de séries temporais é
representado como:
yt = �0 + �1xt1 + :::+ �kxtk + ut
Seja X a matriz n x k, de todas as variáveis independentes para todos períodos de
tempo.
Hipótese TS.2:
E (utjX) = 0; t = 1; 2; :::; n
ou seja, que os regressores são estritamente exógenos.
Esta hipótese é mais forte que a hipótese para cross section (E(utjxt1; :::; xtk) = 0), que
implica que os regressores são apenas contemporâneamente exógeno. Na hipótese TS.2
exige-se que ut seja não correlacionado com xsj ;8s.
Hipótese TS.3: Não existe colienaridade perfeita entre os regressores.
Teorema 78 Sob as hipóteses TS.1-TS.3, os estimadores OLS são não viesados.
Hipótese TS.4 (Homocedasticidade):
V ar (utjX) = V ar (ut) = �2;8t
Hipótese TS.5 (Não existe correlação serial):
Corr (ut; usjX) = 0;8t 6= s
QuandoXé não-aleatório (não-estocástico), esta hipótese é a…rmada sem a parte condi-
cional, ou seja: Corr (ut; us) = 0;8t 6= s.
111
De…nição 79 Além disso, quando vale hipóteses TS.2, TS.4, TS.5 dizemos que o erro ut
é um ruído branco, que é o erro dos modelos em séries temporais.
Gra…camente ele pode ser representado como:
As hipóteses TS.1-TS.5 são as hipóteses de Gauss-Markov para séries de tempo.
Teorema 80 Sob as hipóteses TS.1-TS.5 temos que:
V ar
�
�^j jX
�
=
�2
SSTj
�
1�R2j
� ; j = 1; :::; k
onde SSTj é a soma dos quadrados totais de xij e R2j é o R
2 da regressão de xj contra
os outros regressores.
Teorema 81 Sob as hipóteses TS.1-TS.5, o estimador �^2 = SSR= (n� k � 1) é um esti-
mador não-viesado de �2.
Teorema 82 (Teorema de Gauss-Markov). Sob as hipóteses TS.1-TS.5, os estimadores
OLS são BLUE condicional em X.
Para usarmos os erros padrões OLS, estatísticas t e F, devemos adicionar uma hipótese
…nal de normalidade:
Hipótese TS.6: Os erros ut são independentes de X e são independentemente e
identicamente distribuídos segundo uma normal N
�
0; �2
�
.
Teorema 83 Sob as hipóteses TS.1-TS.6, as hipóteses do modelo linear clássico para séries
de tempo, os estimadores OLS são normalmente distribuídos, condicional em X. Além
disso, a estatística t tem uma distribuição t, e cada estatística F tem uma distribuição F .
112
14.2 Tendências e Sazonalidade
Um modelo que captura tendências temporais é:
yt = �0 + �1t+ et; t = 1; 2; :::
et
i:i:d:� �0; �2e�
onde �1 é uma tendência de tempo linear. E assim: V ar (yt) = V ar (et) = �2e.
Regressão Espúria Se omitimos uma fatores de tendência e obtemos uma relação de
duas ou mais variáveis de tendência simplesmente porque crescem ao longo do tempo.
Adicionando uma tendência temporal elimina este problema, ou seja:
yt = �0 + �1xt1 + �2xt2 + �3t+ ut (31)
Permitindo uma tendência temporal no modelo, reconhece que yt pode estar crescendo
ou decrescendo ao longo do tempo por razões essencialmente não relacionadas a xt1 e xt2.
Procedimento de remoção de tendência das séries originais Os estimadores �^1
e �^2 do modelo acima podem ser obtidos através de um procedimento de "remoção da
tendência temporal"das séries originais:
(i) Regrida a variável dependente e cada um dos regressores separadamente contra
uma constante e uma tendência temporal, t, e obtenha os resíduos de cada regressão:
yt;
��
xt1;
��
xt2; t = 1; :::; n:
(ii) Rode a regressão de yt contra
��
xt1;
��
xt2:(O intercepto não é necessário, mas a sua
inclusão não afeta nada). Os estimadores dos regressores são os mesmos do modelo acima.
Sazonalidade Ocorre quando uma série exibe comportamentos semelhantes em deter-
minados períodos.
Um exemplo é o salário mínimo real, que é reajustado em um mês do ano para os anos
113
mais recentes, ou em diversos meses para anos pré Plano Real. Gra…camente seria:
Uma série sazonalmente ajustada é a série que teve os fatores sazonais removidos.
Existem vários métodos para isso.
Um dos métodos mais simples é incluir um conjunto de variáveis dummies sazonais.
Seja o seguinte modelo para dados mensais:
yt = �0 + �1febt + �2mart + �3aprt + :::+ �11dect + �1xt1 + :::+ �kxtk + ut (32)
114
Se não existir sazonalidade em yt, dado que controlamos para os regressores xjt, então
os coe…cientes �1; :::; �11 devem ser todos iguais a zero, o que pode ser testado através de
um teste F . Estas dummies podem ser interpretadas como dessazonalizando os dados.
Considere o modelo (32) acima, para k = 2, ou seja 2 regressores. Obtemos obter seus
estimadores através do seguinte procedimento:
(i) Regrida a variável dependente, e cada um dos regressores, separadamente, contra
uma constante e as dummies mensais e guarde os resíduos: yt;
��
xt1;
��
xt2.
(ii) Roda a regressão de yt contra
��
xt1;
��
xt2; sem as dummies mensais.
15 Aspectos Adicionais no uso do OLS com Dados de Séries
Temporais
15.1 Séries de Tempo Fracamente Dependentes e Estacionárias
Séries de Tempo Estacionárias e Não-Estacionárias
De…nição 84 (Processo Estocástico Estacionário ou Estacionário Estrito ou Estacionário
Forte): Um processo estocástico fxt : t = 1; 2; :::g é dito estacionário se para toda coleção
de índices de tempo 1 � t1 < t2 < ::: < tm, a distribuição conjunta de (xt1 ; xt2 ; :::; xtm) é a
mesma que a distribuição conjunta de (xt1+h; xt2+h; ::; xtm+h) para todos os inteiros h � 1.
(Observação: Esta de…nição implica que fxt : t = 1; 2; :::g seja identicamente distribuída.
Por exemplo: xt; t = 2; :::; tem a mesma distribuição que x1.)
Exemplo: Os processos vistos na seção anterior, com tendência temporal são não-
estacionários, pois no mínimo, sua média muda ao longo do tempo.
De…nição 85 (Processo Covariância-Estacionário ou Estacionário Fraco ou Estacionário
de 2a. ordem): Um processo estocástico fxt : t = 1; 2; :::g com segundo momento …nito é
dito covariância-estacionário se (i) E (xt) é constante; (ii) V ar (xt) é constante, e (iii)
para qualquer t, h � 1, Cov (xt; xt+h) depende somente de h e não de t.
Exemplo 86 Um exemplo bem claro de um processo estacionário é o ruído branco, pois:
E (ut) = 0
V ar (ut) = �
2
Cov (ut; ut�j) = 0, para qualquer j.
que atende as condições acima de ser um processo estacionário na covariância.
Séries de Tempo Fracamente Dependentes Um processo estacionário fxt : t = 1; 2; :::g
é dito fracamente dependente se xt e xt+h são "quase independentes"quando h aumenta
sem limite.
115
Um processo covariância-estacionário é fracamente dependente se a correlação entre xt e
xt+h vai para zero "su…cientemente rápido"quando h!1. Estes processos são chamados
também de assintóticamente não correlacionados.
Exemplos:
1. MA(1):
xt = et + �tet�1; t = 1; 2; :::
fet : t = 0; 1; :::g é uma seqüência i:i:d: com média zero e variância �2e. MA(1) é
fracamente dependente pois:
xt+1 = et+1 + �tet
Cov (xt; xt+1) = �1V ar (et) = �1�
2
e
V ar (xt) =
�
1 + �21
�
�2e
Corr (xt; xt+1) = �t=
�
1 + �21
�
Mas note que xt+2 é independente de xt, e assim a correlação entre estas variáveis
é nula. E assim, quando a distância entre os processos é maior que um período, a
correlação é nula.
E note que, como os erros são identicamente distribuídos, então fxtg é estacionário.
Logo, este processo estacionário é fracamente dependente.
E assim, a LGN e o TLC podem ser aplicados a este processo.
2. AR(1):
yt = �1yt�1 + et; t = 1; 2; :::
onde os erros são i:i:d: com média zero e variância �2e, e y0 = 0, sendo y0 independente
de et e E (y0) = 0. A hipótese crucial para dependência frca de um AR(1) é a condição
de estabilidade, j�1j < 1. Assim, temos um AR(1) estável.
Para provar a dependência fraca, assuma (por simplicidade) que o processo acima é
covariância-estacionário. Assim: E (yt) = E (yt�1), e do modelo acima, teremos que
isso será verdade, quando:
E (yt) = �1E (yt)
E (yt) = 0 , se �1 6= 0.
Tomando a variância do AR(1) teremos (dado que yt�1 e et são não correlacionados):
V ar (yt) = �
2
1V ar (yt�1) + V ar (et)
�2y = �
2
1�
2
y + �
2
e
�2y = �
2
e=
�
1� �21
�
, visto que �21 < 1.
116
Obtendo a Cov entre yt e yt+h:
yt+h = �1yt+h�1 + et+h = �1 (�1yt+h�2 + et+h�1) + et+h
= �21yt+h�2 + �1et+h�1 + et+h = :::
= �h1yt + �
h�1
1 et+1 + :::+ �1et+h�1 + et+h
Multiplicando por yt e tomando a esperança, teremos:
Cov (yt; yt+h)
E(yt)=0
= E (yt+hyt) = �
h
1�
2
y
Logo, a correlação será:
Corr (yt; yt+h) =
Cov (yt; yt+h)
�y�y
=
�h1�
2
y
�2y
= �h1
Note que, �h1 ! 0, quando h!1. Assim, o AR(1) estável é fracamente dependente.
3. Processo de tendência estacionária:
yt = �0 + �1t+ et; t = 1; 2; :::
onde fetg é i:i:d: com E (et) = 0; V ar (et) = �2e. Temos que: V ar (yt) = V ar (et) =
�2e. Assim, como os erros são i:i:d:,então a série é estacionária sobre sua tendência
temporal, e é fracamente dependente, pois a correlação é nula sempre. Este é um
exemplo de que uma série não estacionária pode ser fracamente dependente.
15.2 Propriedades Assintóticas do OLS
Hipótese TS.1’(Linearidade e Dependência Fraca): O modelo é exatamente como o da
hipótese TS.1:
yt = �0 + �1xt1 + :::+ �kxtk + ut
mas adicionamos que o f(xt; yt) : t = 1; 2; :::g é estacionário e fracamente dependente,
onde xt é o vetor de regressores. Em particular, a LGN e o TLC podem ser aplicados para
médias amostrais.
Aqui, é permitido que os regressores sejam defasados ou sejam defasagens da variável
dependente.
Hipótese TS.2’:
E (utjxt) = 0
ou seja, os regressores são contemporaneamente exógenos.
Hipótese TS.3’ (Não existe colinearidade perfeita entre os regressores): A mesma
hipótese de TS.3.
117
Teorema 87 Sob TS.1’-TS.3’, os estimadores OLS são consistentes.
Hipótese TS.4’: Os erros são contemporaneamente homocedásticos, ou seja, V ar (utjxt) =
�2.
Hipótese TS.5’: Não existe correlação serial, ou seja, E (utusjxt;xs) = 0;8t 6= s.
Teorema 88 Sob TS.1’-TS.5’, os estimadores OLS são assintoticamente normalmente
distribuídos. E portanto, os erros padrões OLS, estatísticas t, F e LM são assintóticamente
válidos.
Exemplo 89 Considere o modelo AR(1):
yt = �0 + �1yt�1 + ut
E (utjyt�1; yt�2; :::) = 0
Combinando as 2 equações:
E (ytjyt�1; yt�2; :::) = E (ytjyt�1) = �0 + �1yt�1
Como xt contém apenas yt�1, as duas equações acima implicam que a hipótese TS.2’
mantém-se. Mas a hipótese TS.2 de exogeneidade estrita não é válida, pois Cov (yt; ut) =
V ar (ut) > 0. E assim, o estimador �^1 é viesado.
Para valer a condição de dependência fraca, devemos assumir que j�1j < 1. Então os
estimadores são consistentes.
Além disso, é válida a hipótese TS.5’de não correlação serial. Note que, para s < t:
us = ys � �0 � �1ys�1
ou seja, us é uma função de y, datada antes de t. Assim:
E (utjus; yt�1; ys�1) = 0.
E então:
E (utusjus; yt�1; ys�1) = usE (utjus; yt�1; ys�1) = 0.
Pela Lei das Expectativas Iteradas:
E [E (utusjus; yt�1; ys�1)] = E (utusjyt�1; ys�1) = 0.
Teorema 90 Sob as hipóteses TS.1’-TS.5’, os estimadores OLS são assintoticamente e…-
cientes na classe de estimadores consistentes.
118
15.3 Usando Séries Temporais Altamente Persistentes (ou Fortemente
Dependentes) em Análise de Regressão
Séries de Tempo Altamente Persistentes Seja um caso particular do modelo AR(1)
denominado como randow walk (passeio aleatório):
yt = yt�1 + et; t = 1; 2; :::;
com os erros sendo i:i:d: com média zero e variância �2e. E y0 é independente de et.
Note que:
yt = et + et�1 + :::+ e1 + y0
E (yt) = E (y0) ;8t � 1.
Assim, o valor esperado de yt não depende de t.
V ar (yt) = V ar (et) + :::+ V ar (e1) = t�
2
e
onde assumimos que V ar (y0) = 0.
Além disso, notamos que o valor de y hoje é signi…cante para determinar o valor de y
em um futuro muito distante:
yt+h = et+h + :::+ et+1 + yt
E (yt+hjyt) = yt;8h � 1
dado que E (et+j jyt) = 0, para todos j � 1.
Para o AR(1) estável, teríamos:
E (yt+hjyt) = �h1yt;8h � 1:
e o valor tende para zero quando h tende para in…nito.
Voltando ao randow walk, se V ar (y0) = 0, então:
Corr (yt; yt+h) = Cov (yt; yt+h) =
p
V ar (yt)V ar (yt+h)
= [Cov (et + et�1 + :::+ e1 + y0; et+h + :::+ et+1 + yt)] =
p
V ar (yt)V ar (yt+h)
= [Cov (et + et�1 + :::+ e1 + y0; et+h + :::+ et+1 + et + et�1 + :::+ e1 + y0)]
=
p
V ar (yt)V ar (yt+h)
=
h
t�2e=
p
t�2e (t+ h)�
2
e
i
=
p
t= (t+ h)
Assim, o randow walk não satisfaz o requisito da sequência ser assintoticamente não
correlacionada, pois consigo sempre um t grande, tal que mesmo para um h grande, a
correlação é alta.
119
Uma série apesar de não apresentar uma tendência temporal, pode ser altamente persis-
tente e conter alguma tendência, como por exemplo o randow walk com drift (intercepto):
yt = �0 + yt�1 + et; t = 1; 2; :::
com os erros sendo i:i:d: com média zero e variância �2e. E y0 é independente de et.
Note que:
yt = �0 + yt�1 + et = �0 + �0 + yt�2 + et = :::
= t�0 + et + :::+ e1 + y0
ou seja, um modelo de tendência linear. Pode-se mostrar que:
E (yt+hjyt) = �0h+ yt
E:
V ar (yt) = t�
2
e
que é igual ao RW puro.
O RW com drift é um outro exemplo de um processo de raiz unitária, pois �1 = 1 em
um AR(1) com um intercepto:
yt = �0 + �1yt�1 + et
Quando �1 = 1 e et é fracamente dependente, obtemos uma classe mais ampla de
processos de séries temporais altamente persistentes cujas médias são tendências lineares.
Transformações em Séries de Tempo Altamente Persistentes (ou Fortemente
Dependentes) Processos fracamente dependentes são ditos integrados de ordem zero,
ou I(0).
Processos de raiz unitária, como o RW (com ou sem drift) são ditos serem integrados de
ordem 1, I(1). Isto signi…ca que a primeira diferença do processo é fracamente dependente
(e geralmente estacionário).
Seja:
yt = yt�1 + et; t = 1; 2; :::;
�yt = yt � yt�1 = et; t = 2; 3; :::;
e portanto, �yt é uma seqüência i:i:d:. Se et é qualquer processo fracamente dependente
(ruído branco, por exemplo), então �yt também é fracamente dependente.
120
Diferenciar séries temporais antes de usá-las na análise de regressão tem outro benefício:
ela remove qualquer tendência temporal. Para ver isso, note que:
yt = 
0 + 
1t+ vt
E (vt) = 0
�yt = 
1 +�vt
E (�yt) = 
1 + E (�vt) = 
1
ou seja, a esperança da diferença é constante.
Decidindo se uma série temporal é I(1) Do modelo AR(1) vimos que:
Corr (yt; yt�1) = �1
Este coe…ciente de correlação amostral é chamado autocorrelação de primeira ordem
de fytg, denotado por �^1. Aplicando LGN, pode ser mostrado que �^1 é consistente, dado
que j�1j < 1. Mas não é um estimador não-viesado.
Em seções mais adiantes, veremos como testar se �1 = 1.
15.4 Correlação Serial e Heterocedasticidade nas Regressões de Séries
Temporais
15.4.1 Propriedades do OLS com Erros correlacionados serialmente
Não Viés e Consistência Não importa se os erros são correlacionados e/ou hetero-
cedásticos, os estimadores OLS em séries temporais serão não viesados, dada as hipóteses
TS.1-TS.3.
Da mesma forma, se os dados são fracamente dependentes, os estimadores OLS serão
consistentes.
E…ciência e Inferência Sob correlação serial e heterocedasticidade, OLS não é mais
BLUE. Os erros padrões OLS e estatísticas de teste não são mais válidas, mesmo assintot-
icamente. Veja o exemplo, a seguir.
Exemplo 91 Seja o seguinte modelo de regressão simples:
yt = �0 + �1xt + ut
ut = �ut�1 + et; t = 1; 2; :::; n
j�j < 1.
121
sendo que são válidas as primeiras 4 hipóteses de Gauss-Markov, e et tem média zero
e variância �2e e são não correlacionados. Ou seja, os erros ut seguem um processo AR(1)
estável.
Assuma por simpli…cação que, �x = 0. Podemos escrever o estimador OLS como:
�^1 = �1 + SST
�1
x
nX
t=1
xtut
onde SSTx =
P
t x
2
t . Computando a variância:
V ar
�
�^1
�
= SST�2x V ar
 
nX
t=1
xtut
!
= SST�2x V ar
0@ nX
t=1
x2tV ar (ut) + 2
n�1X
t=1
n�tX
j=1
xtxt+jE (utut+j)
1A
= �2=SSTx + 2
�
�2=SST 2x
� n�1X
t=1
n�tX
j=1
�jxtxt+j
onde �2 = V ar (ut) e usamos que E (utut+j) = Cov (ut; ut+j) = �j�2.
O primeiro termo é a variância do estimador OLS quando � = 0. Assim, o estimador
da variância será viesado se � 6= 0.
Obs.: Se o xt for considerado estocástico, então a variância tomada é condicional em
x.
Correlação Serial na Presença de Variáveis Dependentes Defasadas Aqui vamos
discutir a frase de livros-texto que a…rmam: “OLS é inconsistente na presença de variáveis
dependente defasadas e erros serialmente correlacionados”. Seja o seguinte modelo:
yt = �0 + �1yt�1 + ut
E (utjyt�1) = 0
onde assumimos estabilidade, j�1j < 1. Por construção, estemodelo satisfaz a hipótese
TS.3’para consistência do OLS. Assim, sem hipóteses adicionais, os erros ut podem ser
serialmente correlacionados. Note que:
ut�1 = yt�1 � �0 � �1yt�2
Assim:
Cov(ut; ut�1) = ��1cov(ut; yt�2)
o qual é necessariamente igual a zero.
Assim, os erros são serialmente correlacionados e o modelo contém variável dependente
defasada, mas os estimadores OLS são consistentes. Mas quando os estimadores OLS serão
122
inconsistentes nesta situação? Quando assumimos que o erro ut segue um processo AR(1)
estável como o modelo do exemplo anterior, ou seja:
yt = �0 + �1yt�1 + ut
ut = �ut�1 + et; t = 1; 2; :::; n
j�j < 1.
onde,
E (etjut�1; ut�2; :::) = E (etjyt�1; yt�2; :::) = 0
ou seja, et não é correlacionado com yt�1, e assim, da equação de ut temos que:
Cov (yt�1; ut) = �Cov (yt�1; ut�1) + Cov (et; yt�1)| {z }
=0
Se � 6= 0, isto causa os estimadores OLS serem inconsistentes. Para veri…car isso, note
que, como feito no exemplo anterior, podemos escrever: �^1 = �1+SST
�1
x
Pn
t=1 xtut, onde
xt agora é yt�1 (novamente supondo por simplicidade que �y = 0) Logo:
p lim �^1 = �1 + p lim
 
SST�1x
nX
t=1
yt�1ut
!
= �1 + p lim
�
SST�1x =n
�
p lim
 
nX
t=1
yt�1ut=n
!
= �1 +
�
�2x
��1
Cov (yt�1; ut) = �1 +
�
�2x
��1
��yt�1�u 6= �1; se � 6= 0.
Mas note que, podemos reformular o modelo acima como um AR(2):
yt = �0 + �1yt�1 + �2yt�2 + et
Sob as condições de estabilidade, estimadores OLS são consistentes e assintoticamente
normais.
Assim, depende de qual modelo você vai estimar. Se o original, ou seja, um AR(1) com
o erro seguindo um AR(1), ou se pode-se estimar um AR(2).
15.5 Testando para Correlação Serial
Considere a seguinte RLM:
yt = �0 + �1xt1 + :::+ �kxtk + ut
Primeiramente, suponha que os regressores sejam estritamente exógenos, e assim exclui
por exemplo, modelos com variável dependente defasada.
123
Um teste t para Correlação Serial do AR(1) com Regressores Estritamente
Exógenos. Seja novametnte o modelo do exemplo anterior:
yt = �0 + �1xt1 + :::+ �kxtk + ut
ut = �ut�1 + et; t = 1; 2; :::; n
j�j < 1.
Além disso, assumimos que:
E (etjut�1; ut�2; :::) = 0
V ar (etjut�1) = V ar (et) = �2e
Hipóteses padrões de um AR(1), no qual et é i:i:d:
A hipótese nula é que não existe correlação serial entre os erros, ou seja, para um AR(1):
H0 : � = 0
Se ut fosse observado, poderíamos simplemsente estimar o modelo:
ut = �ut�1 + et; t = 1; 2; :::; n
e utilizar a estatística t sobre �^, visto que, sob H0, ut é fracamente dependente.
Mas como ut não é observado, devemos utilizar os resíduos OLS, u^t, os quais, por causa
da hipótese de exogeneidade estrita, não afeta a distribuição assintótica da estatística t.
Procedimento do Teste para correlação serial AR(1) com regressores estri-
tamente exógenos:
(i) Rode a regressão OLS:
yt = �0 + �1xt1 + :::+ �kxtk + ut
e obtenha os resíduos OLS, u^t, 8t.
(ii) Rode a regressão de u^t, contra u^t�1,8t, e obtenha o coe…ciente �^ de u^t�1 e sua
estatística t; t�^. (Esta regressão pode ou não conter o intercepto).
(iii) Use t�^ para testar H0 : � = 0.
Mas, logicamente, este teste não detecta correlação entre erros espaçados em mais de
1 período, como por exemplo, entre ut e ut�2.
O teste de Durbin-Watson (DW) sob Hipóteses Clássicas A estatística de DW
será baseada também nos resíduos OLS:
DW =
Pn
t=2 (u^t � u^t�1)2Pn
t=1 u^
2
t
124
Que pode ser aproximado por:
DW ' 2 (1� �^)
A diferença é que �^ (coe…ciente de u^t�1 obtido pela regressão descrita em (ii) acima)
tem em seu denominador
Pn
t=2 u^
2
t�1. Durbin e Watson derivaram a distribuição de DW
(condicional em X), a qual requer todas as hipóteses do modelo linear clássico, incluindo
normalidade dos erros. Esta distribuição depende dos valores das variáveis independentes,
do tamanho amostral, do número de regressores e se a regresssão contém um intercepto.
Alguns livros-textos reportam limites inferiores e superiores para os valores críticos que
dependem do nível de signi…cância desejado, a hipótese alternativa, o número de obser-
vações, e o número de regressores. Os limites funcionam assim:
DW < dL =) rejeita� se H0
DW > dU =) n~ao rejeita� se H0
dL � DW � dU =) inconclusivo
A vantagem do DW sobre a estatística t é que sua distribuição amostral pode ser
tabulada.
Mas o DW pode levar a uma região inconclusiva ampla (3o caso acima). Além disso, a
estatística t é simples de computar e assintoticamente válida sem a hipótese de normalidade
dos erros. Além disso, sob a presença de heterocedasticidade, podemos obter a versão
robusta à qualquer forma de heterocedasticidade, como vimos para o caso de cross-section.
Além disso, o teste não é válido se a regressão não incluir o intercepto e incluir como
regressores defasagens da variável dependente. Caso seja efetuado na presença destes re-
gressores, o teste será viesado na direção de obter nenhuma correlação serial.
Teste para Correlação Serial AR(1) sem Regressores Estritamente Exógenos
Quando as variáveis explicativas não são estritamente exógenas, nem a estatística t anterior
nem o DW são válidos, mesmo assintóticamente.
Uma alternativa é para o caso no qual o modelo contém uma variável dependente
defasada e os outros regreessores são estritamente exógenos. Esta estatística é chamada h
de Durbin (não é abordada pelo Wooldridge).
Teste h de Durbin sem Regressores Estritamente Exógenos (Extraído do
Johnston&DiNardo) O teste de DW, como já a…rmado, só pode ser aplicado na pre-
sença de regressores estritamente exógenos (ou não estocástico). Este teste serve para
autocorrelação de 1a ordem. Considere o modelo:
yt = �1yt�1 + :::+ �pyt�p + �p+1xt1 + :::+ �p+kxtk + ut
ut = �ut�1 + et
j�j < 1; et � N
�
0; �2e
�
125
Sob H0 : � = 0, o teste h de Durbin será:
h = �
vuut T
1� TdV ar ��^1� a� N (0; 1)
onde T é o tamanho amostral. E a estimativa de � é obtida da regressão de u^t contra
u^t�1, como o passo (ii) anterior (mas sem os regressores).
O problema é se o denominador for nulo ou negativo, ou seja, se TdV ar ��^1� � 1.
Uma estatística alternativa serve também para qualquer número de regressores não
estritamente exógenos (e também os estritamente exógenos). O procedimento é o seguinte
(assumindo que V ar (utjxt; ut�1) = �2).
Procedimento do Teste para Correlação Serial com Qualquer Tipo de Re-
gressores:
(i) Rode a regressão OLS de yt contra xt1; :::; xtk e obtenha os resíduos OLS, u^t, para
todo t = 1; :::; n.
(ii) Rode a regressão de u^t contra xt1; :::; xtk; u^t�1 (incluindo intercepto); para todo
t = 2; :::; n, para obter o coe…ciente �^ de u^t�1 e sua estatística t; t�^.
(iii) Use t�^ para testar H0 : � = 0.
Esta estaística tem aproximadamente uma distribuição t para amostras grandes.
Como u^t = yt� �^0� �^1xt1� :::� �^kxtk, no passo (ii) podemos utilizar yt como variável
independente no lugar de u^t que obteremos a mesma estatística t.
Além disso, Durbin mostra também que podemos utilizar este último teste utilizando
uma pertubação AR(q) e não apenas um AR(1), como descrevemos a seguir.
Teste para Correlação Serial de Ordem Maior O teste logo acima pode ser
extendido para o caso de ordens de correlação serial maiores. Seja o modelo AR(q) para
os erros:
ut = �1ut�1 + :::+ �qut�q + et
A hipótese nula é:
H0 : �1 = ::: = �q = 0
Procedimento do Teste para Correlação Serial AR(q):
(i) Rode a regressão OLS de yt contra xt1; :::; xtk e obtenha os resíduos OLS, u^t, para
todo t = 1; 2; :::; n:
(ii) Rode a regressão de u^t contra xt1; :::; xtk; u^t�1; :::; u^t�q, para todo t = (q + 1) ; :::; n.
(ou utilize yt como variável dependente).
(iii) Compute o teste F para signi…cância conjunta de u^t�1; :::; u^t�q.
Observação: Se xjt for assumido ser estritamente exógeno, então os regressores podem
ser omtidos do passo (ii). Masse eles forem incluídos, o teste é válido com ou sem hipótese
de exogeneidade estrita. Este teste F é chamado simplesmente como teste de Durbin.
126
Como antes, o teste requer a hipótese de homocedasticidade:
V ar (utjxt; ut�1; :::; ut�q) = �2
Uma alternativa ao teste F é o teste LM :
LM = (n� q)R2u^
onde R2u^ é o R
2 da regressão do passo (ii). Sob H0, LM
a� �2q . Este é geralmente
denominado teste Breusch-Godfrey para correlação serial AR(q).
Observação: Todos os testes para correlação serial, vistos até agora, podem ser aplicados
se os dados não foram sazonalmente ajustados e se desejamos testar para formas sazonais
de correlação serial, como por exemplo: ut = �4ut�4 + et. Basta substituir ut�4 por ut�1,
nos procedimentos descritos anteriomente.
16 Tópicos Avançados em Séries Temporais
16.1 Testes para Raiz Unitária
A abordagem mais simples é testar uma raiz unitária para um AR(1):
yt = �+ �yt�1 + et; t = 1; 2; :::
E (etjyt�1; yt�2; :::; y0) = 0
ou seja, et é dito ser uma seqüência de diferenças de martingale com relação a fyt�1; yt�2; :::g.
Se et é i:i:d: com média zero e é independente de y0, então ele também satisfaz a equação
acima.
H0 : � = 1
E geralmente a alternativa é:
H1 : � < 1
(Em economia, geralmente a hipótese de � > 1 não é geralmente considerada pois
implica que yt é uma série explosiva, geralmente difícil de se obter.
Quando j�j < 1, yt é um AR(1) estável, o qual é fracamente dependente ou assintóti-
camente não correlacionado, ou seja, Corr (yt; yt+h) = �h ! 0, quando j�j < 1.
Uma forma de se testar é subtrair yt�1 de ambos os lados do modelo original:
�yt = �+ �yt�1 + et
onde � = � � 1. E basta fazer um teste t sobre �, para H0 : � = 0. O problema é que
sob H0, yt�1 é I (1) e então o TLC não pode ser aplicado, para que a estatística t tivesse
uma distribuição normal assintótica. A distribuição assintótica da estatística t sob H0 é
127
obtida como distribuição de Dickey-Fuller. E assim, este teste é conhecido como teste
de Dickey-Fuller (DF).
Podemos realizar o teste de raiz unitária para dinâmicas mais complicadas:
�yt = �+ �yt�1 + 
1�yt�1 + :::+ 
p�yt�p + et
e realizamos o teste t sobre �.Esta versão expandida é chamada teste Dickey-Fullher
Aumentado (ADF). A inclusão de lags considera correlação serial. Quanto mais lags
incluímos, mais observações iniciais perde-se, e a poder amostral do teste se reduz.
Para séries com tendências temporais, o teste deve ser modi…cado. Se executamos o
teste DF ou DF aumentado em uma série com tendência mas I(0) (sem incluir a tendência),
nós provavelmente teremos baixo poder para rejeitar a raiz unitária. Assim, a equação do
teste será:
�yt = �+ �t+ �yt�1 + et
onde H0 : � = 0, e H1 : � < 0. Sob H1, yt é um processo de tendência estacionária.
Se yt tem uma raiz unitária, então �yt = �+ �t+ et, e a mudança em yt tem uma média
linear em t a menos que � = 0.
Geralmente séries econômicos em 1a diferença não tem uma tendência linear. Então,
a hipótese nula pode ser modi…cada para: H0 : � = 0; � = 0 e usar um teste F , com os
valores críticos também modi…cados.
Este teste também pode ser expandido, incluindo mais lags da variável dependente
dentre os regressores.
16.2 Regressão Espúria
Foi visto como proceder com séries que tenham tendências temporais e são fracamente
dependentes em torno de suas tendências. [Basta incluir uma tendência temporal].
Quando conduzimos com processos I(1) o procedimento é mais complicado. Mesmo se
2 séries tem médias que não sigam uma tendência temporal, uma regressão simples envol-
vendo 2 séries I(1) independentes geralmente resultará em uma estatística t signi…cante.
Seja xt e yt duas séries RW sem drift, com erros i:i:d:, média zero e variâncias constantes.
E assuma que os erros sejam independentes entre si, e portanto as séries também são. Se
estimarmos:
y^t = �^0 + �^1xt
esperamos que p lim �^1 = 0, pois as séries são independentes. Mas, pode ocorrer que a
estatística t seja signi…cante. Granger e Newbold chamaram isso de regressão espúria: não
faz sentido y e x serem relacionadas, mas um estimador OLS usando estatísticas t usuais
geralmente indicaram alguma relação.
128
Teste de Chow para Quebra Estrutural A idéia do teste de Chow é ajustar a equação
separadamente para cada subamostra e ver se existem diferenças signi…cativas nas equações
estimadas.
Para executar o teste, particione os dados em 2 ou mais subamostras. O teste de Chow
compara o SSR ajustando toda a amostra com o SSR das subamostras separadas.
Existem duas estatísticas de teste para o teste de Chow.
1.
F =
(SSRur � (SSR1 + SSR2)) =k
(SSR1 + SSR2) = (T � 2k)
onde SSRur é o SSR da equação utilizando a amostra toda, SSRi é o SSR da
equação estimada utilizando a subamostra i, T é o tamanho amostral e k o número
de regressores (com o intercepto). Esta estatística F tem distribuição F , se os erros
são i:i:d: segundo uma normal. Os resíduos podem ser obtidos por OLS ou 2SLS.
2. A outra estatística é a estatística LR. tem uma distribuição �2(m�1)k, onde m é o
número de subamostras.
17 Variável dependente binária
Na maioria das vezes, a variável dependente é uma variável quantitativa. Mas e se ocorrer
da mesma ser qualitativa, temos que utilizar outros métodos para a estimação. A seguir,
veremos dois tipos de modelos de resposta binária: de probabilidade linear e não-linear.
17.1 Modelo de Probabilidade Linear (MPL)
Na maioria das vezes, a variável dependente é uma variável quantitativa. Mas e se ocorrer
da mesma ser qualitativa, temos que utilizar outros métodos para a estimação. Geralmente
o evento que queremos explicar é um resultado binário. Neste caso a variável dependente
toma apenas dois valores 0 ou 1. Escrevemos um modelo de regressão múltipla:
y = �0 + �1x1 + :::+ �kxk + u
Se tivermos a hipótese de média condicional zero do erro, então:
E[yjx] = �0 + �1x1 + :::+ �kxk
Mas tem-se que:
P (y = 1jx) = E[yjx] = �0 + �1x1 + :::+ �kxk
129
onde, P (y = 1jx) (= p(x)) é a probabilidade de resposta que é uma função linear de
xj . Ou seja, dado que y é uma variável binária, temos que P (y = 1jx) = E[yjx], ou
seja, a probabilidade de que y = 1, e a mesma do valor esperado de y. Este modelo
chama-se modelo de probabilidade linear (MPL).Neste modelo �j mede a mudança
na probabilidade de sucesso quando xj muda, ceteris paribus. Ou seja:
�P (y = 1jx) = �j�xj
Assim, nota-se duas desvantagens: (i) as probabilidades ajustadas podem ser menores
que zero ou maiores que um e (ii) o efeito parcial de qualquer variável explicativa (apare-
cendo na forma de nível) é constante.
Além disso, o parâmetro estimado
^
�1 mede a mudança prevista na probabilidade de
sucesso quando x1 aumenta por uma unidade. Observe que neste caso deste modelo, temos:
V ar(yjx) = p(x) [1� p (x)]
onde; p(x) = �0 + �1x1 + :::+ �kxk
então, viola-se a hipótese de homocedasticidade. Apesar de não causar viés na estimação
dos parâmetros, isso invalida as estatísticas F e t padrão. Assim, deve-se corrigir os erros
padrões com a presença de heterocedasticidade (via correção de White).
Mas, mesmo a despeito de tais problemas, é ainda aceitável em trabalhos empíricos
apresentar uma análise MQO padrão de um modelo de probabilidade linear.
Este modelo pode ser útil também na avaliação de programas e aspectos sociais. A
variável dependente poderia ser uma dummy se o indivíduo está abaixo da linha de pobreza
ou não. E dentre as variáveis explicativas poder-se-ia ter se um indivíduo participa ou não
de um determinado programa social.
Aqui pode surgir um problema que geralmente surge nesta avaliação. É se a decisão do
indivíduo de participar ou não do programa depende de outros fatores (que estariam no
termo errático) e que explicam também a variável dependente. Este problema é chamado
de auto-seleção (self-selection).
Assim, participação nãoé aleatoriamente determinada. Logo, o indicador binário de
participação está correlacionado a fatores não observados. Isto torna o estimador viesado.
Este é um meio da variável explicativa ser endógena. Mas o problema pode ser também em
relação a outras variáveis explicativas, o que geraria um problema de multicolinearidade.
Assim, devemos ter cuidado ao incluir mais variáveis explicativas. Além disso podemos
encontrar efeitos espúrios dos programas nas variáveis de interesse devido ao problema de
self-selection.
Quando este problema causa a análise da regressão múltipla padrão ser viesada devido
a uma falta de variáveis de controle su…ciente, utiliza-se métodos mais avançados como
os de di¤-in-di¤ e de 1a diferença, modelos de painel (efeito …xo e aletório) e de variáveis
instrumentais, com exceção do último não sendo estudados aqui.
130
17.1.1 Modelos de Probabilidade Não-Linear: Probit e Logit
Agora veremos modelos de probabilidade não-linear. O interesse está novamente na prob-
abilidade de resposta:
P (y = 1jx) = P (y = 1jx1; x2; :::; xk)
onde, y pode ser, por exemplo, um indicador de emprego, enquanto os x0is podem ser várias
características individuais. NoMPL considerava-se a probabilidade uma função linear das
variáveis. Agora considera-se uma classe de modelos de resposta binária mais amplo:
P (y = 1jx) = G(�0 + �1x1 + :::+ �kxk) = G(�0 + x�);
onde, 0 < G(z) < 1, para 8z 2 R; é uma função distribuição (ou seja, uma função densidade
acumulada). Isso assegura a probabilidade entre zero e um. Aqui abordaremos dois tipos
de funções para assegurar isso. Primeiramente a função logística:
G(z) =
ez
1� ez = �(z);2 (0; 1);8z 2 R:
Esta é a f.d.a para um v.a. logística padrão. Por isso, esse modelo é denominado logit.
Outra função seria a f.d.a. normal, que é:
G(z) = �(z) �
zZ
�1
�(v)dv
onde a �(z) é a densidade normal padrão. �(z) = (2�)�1=2e�
z2
2 . Esse modelo é denominado
probit.
Modelos probit e logit podem ser derivados de um modelo de variável latente. Seja y�
uma variável não observada, ou latente determinada por:
y� = �0 + x� + e;
onde; y = 1[y�>0]
em que 1[:] é uma função indicadora, valendo um se a condição entre colchetes for satisfeita
e 0 caso contrário.
Um exemplo de variável latente é quando y� é o valor de um benefício da Seguridade
Social, como previdência ou pensão. Muitas vezes não observamos y� em uma base de
dados, mas apenas se o indivíduo é bene…ciário (que implica que y� > 0 e, portanto y = 1)
ou não (quando y� = 0 e, portanto, y = 0).
Assumimos que e é independente de x e que e tem a distribuição logística ou normal
padrão. Quando assumimos uma distribuição para e, tal distribuição será a mesma de y,
pois como y = �0 + x� + e, então a distribuição de yjx será a mesma de ejx.
131
A partir da simetria das distribuições logísticas e normal (ou seja, 1 � G(�z) =
G(z);8z 2 R), da equação acima e das hipóteses dadas, o modelo será:
P (y = 1jx) = P (y� > 0jx) = P [e > �(�0 + x�)jx]
= 1�G[�(�0 + x�)] = G(�0 + x�) (33)
que é a mesma que obtida acima.
Para o logit e probit, a direção do efeito de xj em E(y�jx) = �0 + x� e em E(yjx) =
P (y = 1jx) = G(�0 + x�) é sempre o mesmo. Ou seja, Sabendo o sinal de �j é su…ciente
para determinar se o programa teve um efeito positivo ou negativo. Mas para obter a
magnitude do efeito marginal temos que estimar tal efeito sobre a probabilidade de resposta
que será:
@p(x)
@xj
= g(�0 + x�)�j ;
onde; g(z) =
dG
dz
(z) é f:d:p:
logo, g(:) é uma f.d.p. Como no caso do logit e probit G(:) é estritamente crescente, então
g(:) > 0. Assim, o sinal depende de �j .
No caso do probit, tal efeito, avaliado na média, seria:
@p(x)
@xj
= �(
^
�0 + �x
^
�)�^j
onde � (:) é a fdp da Normal padrão.
E no caso do logit, precisamos primeiramente obter a f.d.p. da logística:
g (z) = G0 (z) =
d
h
ez
1�ez
i
dz
=
g (z) =
ez (1� ez) + ezez
(1� ez)2
g (z) =
ez
(1� ez)2 :
Substituindo na fórmula acima do efeito marginal:
@p(x)
@xj
=
e
^
�0+x
^
��
1� e
^
�0+x
^
�
�2 :�^j
Se x1 é uma variável explicativa binária, então o efeito parcial de mudar x1 de zero
para um, ceteris paribus, é:
132
G(�0 + �1 + �2x2 + :::+ �kxk)�G(�0 + �2x2 + :::+ �kxk)
Se y é dummy de emprego, e xj é dummy de participação de um programa de treina-
mento, então a equação acima é a mudança na probabilidade de emprego devido ao pro-
grama de treinamento, que vai depender de outras variáveis explicativas, como educação,
experiência etc.
Sabendo o sinal de �1é su…ciente para determinar se o programa teve um efeito positivo
ou negativo. Mas para obter a magnitude do efeito temos que estimar a equação acima.
17.2 Estimação por Máxima Verossimilhança
Devido à natureza não-linear de E (yjx), o MQO não é aplicável. Uma alternativa seria
Mínimos Quadrados Não-Linear (MQNL). Mas tal técnica é bem complicada para um curso
de graduação. Por isso, utilizaremos a técnica de MV.
Suponha uma amostra aleatória de yi; xi; i = 1; :::; n: Devemos montar a função de
verossimilhança. Para isso, é necessário saber a densidade de yijxi. A sua f.d.p. será:
f (yijxi;�) = [G (xi�)]yi [1�G (xi�)]1�yi
onde; y = 0; 1:
Note que quando y = 1, obtemos justamente a equação (33). E no caso de y = 0, seria
a probabilidade complementar.
Assim, a função de verossimilhança será o produtório das densidades marginais:
L (�;x) = �ni=1f (yijxi;�) = �ni=1 [G (xi�)]yi [1�G (xi�)]1�yi
E o log de tal função (que é mais fácil de maximizar na maioria dos casos) será:
l (�;x) =
X
i
ln
n
[G (xi�)]
yi [1�G (xi�)]1�yi
o
l (�;x) =
X
i
yi ln [G (xi�)] +
X
i
(1� yi) [1�G (xi�)]
Assim, para obter os estimadores MV dos parâmetros � que de…nem a f.d.a. G (:)
devemos maximizar tal função.
Se G (:) for a normal padrão, então �^MV será o estimador probit.
Se G (:) for a logística, então �^MV será o estimador logit.
O R2 usual não pode ser computado, pois estamos estimando por MV e o modelo não
é linear. Assim, um indicador alternativo é o pseudo � R2, sendo uma de suas versões
de…nidas como:
1� lir=l0
133
onde lir é a função de log-verossimilhança do modelo estimado (irrestrito) e l0 é a função log-
verossimilhança do modelo estimado apenas com intercepto (ou seja, um modelo restrito,
que impomos que todos os parâmetros � = 0).
No caso de y binário, o l é negativo. Para ver isso, note da equação l (�;x) que o termo
dentro do ln é a f.d.a. que está entre 0 e 1 e, portanto, o valor do ln será negativo. Assim,
temos:
jlirj � jl0j
Logo:
pseudo�R2 2 [0; 1]
Como g (0) � 0:4 no caso do probit e g (0) � 0:25 no caso do logit, para tornarmos
comparáveis as estimativas do �j de cada um, devemos multiplicar as estimativas do probit
por 0:4=0:25 = 1:6, ou multiplicar as estimativas do logit por 0:25=0:4 = 0:625.
Como g (0) = 1 no MPL, para compararmos suas estimativas com as do logit, devemos
dividir as últimas por 4 e para comparar com o probit devemos dividir estas por 2:5 (na
comparação com o MPL).
134

Mais conteúdos dessa disciplina