Anotações de Econometria - EPGE

Econometria

•
FGV-SP

Thales Carmo
20/03/2016
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 134 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 134 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 134 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Econometria

6.231 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
Lecture Notes - Econometria
Prof. Rodrigo Moura
rodrigoleandro@gmail:com
EPGE/FGV
Primeira Versão: 19/06/2009
Versão Atual: 15/06/2010
Sumário
1 Introdução 4
1.1 Tipos de Dados: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Casualidade 6= Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Dados Experimentais x Dados Não-Experimentais . . . . . . . . . . . . . . 5
2 Regressão Linear Simples (RLS) 6
2.1 Método de Mínimos Quadrados (MQO ou Ordinary Least Squares - OLS) . 7
2.2 O Coeciente de Determinação: RLS . . . . . . . . . . . . . . . . . . . . . . 11
3 Hipóteses do Modelo Clássico de Regressão Linear (MCRL) 13
4 Regressão Linear Múltipla (RLM) 28
4.1 Geometria do MQO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.2 Coeciente de Determinação (R2): Regressão Múltipla . . . . . . . . . . . . 32
4.3 Propriedades dos EMQ: Regressão Múltipla . . . . . . . . . . . . . . . . . . 34
5 Inferência Estatística 37
5.1 O Teste t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.2 Testes de Restrições Lineares Múltiplas: O Teste F . . . . . . . . . . . . . . 43
6 Teoria Assintótica do MQO 45
6.1 Consistência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
6.2 Normalidade Assintótica e Inferência em Amostras Grandes . . . . . . . . . 48
6.3 Estatística do Multiplicador de Lagrange (LM) . . . . . . . . . . . . . . . . 51
6.4 Eciência Assintótica do MQO . . . . . . . . . . . . . . . . . . . . . . . . . 51
1
7 Formas Funcionais da Regressão 52
7.1 Formas Funcionais Logarítmicas . . . . . . . . . . . . . . . . . . . . . . . . 52
7.2 Formas Funcionais Quadráticas . . . . . . . . . . . . . . . . . . . . . . . . . 53
7.3 Formas Funcionais com Termos de Interação . . . . . . . . . . . . . . . . . . 54
7.4 Adicionando Regressores para Reduzir a Variância do Erro . . . . . . . . . 55
7.5 Variáveis Binárias (ou Dummy) como Variáveis Explicativas . . . . . . . . . 55
7.5.1 Testando para Diferenças em Funções de Regressões de Gru-
pos diferentes (Teste de Quebra Estrutural ou Teste de Chow) 58
7.6 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
8 Máxima Verossimilhança 65
8.1 Testes baseados na verossimilhança . . . . . . . . . . . . . . . . . . . . . . . 71
8.1.1 Teste LR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
8.1.2 Teste de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
8.1.3 Teste LM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
9 Multicolinearidade 73
10 Heterocedasticidade 78
11 Mais sobre Problemas nos Dados e na Especicação 86
11.1 Má especicação da Forma Funcional . . . . . . . . . . . . . . . . . . . . . . 86
11.2 Usando Variáveis Proxy para Variáveis Explicativas Não-Observadas . . . . 87
11.3 Propriedades de MQO sob Erro de Medida . . . . . . . . . . . . . . . 88
12 Endogeneidade 90
12.1 Estimação por Variáveis Instrumentais (VI ou IV) em RLS . . . . . . . . . 93
12.2 Estimação de VI em RLM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
12.3 Mínimos Quadrados de 2 Estágios (2SLS ou MQ2E) . . . . . . . . . . . . . 97
12.4 Testes para Endogeneidade e Restrições de Sobreidenticação . . . . . . . . 99
13 Equações Simultâneas 101
14 Análise de Regressão com Dados de Séries Temporais 111
14.1 Propriedades Amostrais Finitas do OLS sob Hipóteses Clássicas . . . . . . . 111
14.2 Tendências e Sazonalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
15 Aspectos Adicionais no uso do OLS com Dados de Séries Temporais 115
15.1 Séries de Tempo Fracamente Dependentes e Estacionárias . . . . . . . . . . 115
15.2 Propriedades Assintóticas do OLS . . . . . . . . . . . . . . . . . . . . . . . 117
15.3 Usando Séries Temporais Altamente Persistentes (ou Fortemente Depen-
dentes) em Análise de Regressão . . . . . . . . . . . . . . . . . . . . . . . . 119
2
15.4 Correlação Serial e Heterocedasticidade nas Regressões de Séries Temporais 121
15.4.1 Propriedades do OLS com Erros correlacionados serialmente . . . . . 121
15.5 Testando para Correlação Serial . . . . . . . . . . . . . . . . . . . . . . . . . 123
16 Tópicos Avançados em Séries Temporais 127
16.1 Testes para Raiz Unitária . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
16.2 Regressão Espúria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
17 Variável dependente binária 129
17.1 Modelo de Probabilidade Linear (MPL) . . . . . . . . . . . . . . . . . . . . 129
17.1.1 Modelos de Probabilidade Não-Linear: Probit e Logit . . . . . . . . 131
17.2 Estimação por Máxima Verossimilhança . . . . . . . . . . . . . . . . . . . . 133
3
1 Introdução
A Econometria tem a nalidade de responder questôes econômicas. Nosso interesse pode
estar em identicar e mensurar uma relação de causalidade entre duas variáveis. Como
exemplos, podemos citar:
1. Testes de validação de teorias econômicas
2. Avaliação de Políticas Públicas
3. Previsão (PIB, inação, retorno de ativos nanceiros etc)
4. Construção e interpretação de modelos estruturais
1.1 Tipos de Dados:
Cross-Section (Corte Transversal) - Microeconometria
Fixo uma unidade temporal e vari os dados no espaço
Por exemplo, a PNAD (Pesquisa Nacional por Amostra
e Domicílios) é uma base com dados em cross-section
pois aplica um questionário para uma amostra de
pessoas em um dado ano.
Séries Temporais - Macroeconometria
Fixo um espaço e vario os dados ao longo do tempo
Por exemplo, o IPEAData é uma base que coleta o
PIB a cada ano (ou trimestralmente).
Painel = Cross-Section + Séries Temporais
Os dados variam no espaço e ao longo do tempo.
Por exemplo, a PME (Pesquisa Mensal do Emprego) é uma base a qual segue
o mesmo domícilio por alguns meses coletando informações sobre mercado de trabalho.
1.2 Casualidade 6= Correlação
Gr�afico
PIB = f (temperatura m�edia do asfalto das rodovias)
Podemos encontrar alguma correlação, mas é completamente desprovida de alguma
casualidade.
4
Buscaremos modelar o comportamento médio. Então devemos tomar cuidado com as
observações com valores muito altos ou muito baixos (denominadas outliers). Por exemplo,
na PNAD existe a variável renda com valor 999.999.999 que se refere a valor ignorado e,
portanto, deve ter seu valor alterado para missing. Ou ainda, indivíduos com renda muito
alta (R$1.000.000) ou muito baixa (R$10) podem ser retirados da amostra pois podem
viesar o resultado. Podemos restringir a amostra para, por exemplo, indivíduos que ganham
entre 0.5*Salários Mínimos e 100*Salários Mínimos.
Mas nem sempre os métodos econométricos geram estimativas providas de causalidade.
Na seção seguinte veremos uma breve discussão sobre este ponto.
1.3 Dados Experimentais x Dados Não-Experimentais
Suponha que desejamos inferir uma relação causal entre educação e salários:
w = f(educ)
Espera-se que um maior nível educacional gere um maior nível salarial. Assim, neces-
sitamos coletar dados para inferir que educ causa w.
Podemos ter dois tipos de dados:
1. Dados Experimentais: geralmente coletados em ambientes de laboratório nas ciências
naturais. Nas ciências sociais (como por exemplo, na Economia) tal coleta é muito
difícil.
No exemplo acima, é como se aleatoriamente atribuíssemos um nível educacional para
cada pessoa independemente de outras características da mesma.
2. Dados Não-Experimentais: geralmente coletados através de questionários aplicados
aos agentes (indivíduos, rmas etc). Aqui, é importante isolar o efeito de educ de
outros potenciais fatores que afetam salário.
Por exemplo, pessoas podem ganhar um nível salarial maior pois têm uma maior
idade (ou experiência) ou por serem do sexo masculino.
Logo, a idéia é incluir fatores que afetam também o salário e assim medirisoladamente
(ceteris paribus) o impacto de educ em w.
No entanto, existem fatores não-observáveis que podem gerar dúvida se estamos
realmente medindo um efeito causal de educ sobre w. Por exemplo, habilidade do
indivíduo é um fator que varia com educ. Ou seja, indivíduos com maior nível de
habilidade tendem a ter um maior nível educacional e consequentemente um maior
w. Logo não seria (totalmente) educ que gera um maior w e sim (parcialmente) as
habilidades intrínsecas do indivíduo.
5
2 Regressão Linear Simples (RLS)
Seja o seguinte modelo:
yi = �+ �xi + ui
onde yi é salário, xi é educação. Este é um modelo de regressão linear simples.
Mas podemos ter outra variáveis que afetam yi? Então vamos adicionar mais variáveis
ao modelo:
yi = �+ �1x1i + �2x2i + �3x3i + ui
onde, x1i é educação, x2i é genêro e x3i é idade do indivíduo.
Nesta seção trataremos do primeiro modelo e na seção seguinte do segundo.
Então:
yi = �+ �xi + ui
onde,
� = intercepto;
� =coeciente angular;
y =variável dependente (ou explicada, regredida, de resposta, controlada)
x =variável independente (ou explicativa, regressor, de controle)
u =erro, medida da ignorância
Suponha o seguinte modelo:
y = �+ �x+ u
onde � e � são os parâmetros (coecientes) verdadeiros:
Função de regressão Populacional (FRP): yi = �+ �xi + ui
�; � são desconhecidos, mas supomos que existem. Assim a FRP é algo xo, mas
desconhecido, na população de interesse.
A partir de dados de uma amostra estimaremos � e �, sendo �^ é um estimador de � e
�^ é um estimador de �.
São estimadores não-viesados: E (�^) = �, E
�
�^
�
= �.
Entre os estimadores não-viesados, sobressaem-se os estimadores com menor variância.
Gr�afico
Função de Regressão Amostral (FRA): yi = �^+ �^xi + u^i
Necessitamos de uma amostra da população para estimar � e �.
Então �^ e �^ são os parâmetros estimados a partir de uma amostra.
E u^i é o resíduo.
Assim FRA é a versão estimada da FRP.
Veremos o método mais tradicional para estimar tais parâmetros na subseção seguinte.
6
2.1 Método de Mínimos Quadrados (MQO ou Ordinary Least Squares -
OLS)
Seja o modelo:
yi = �^+ �^xi| {z }
y^i
+ u^i
onde y^i é o yi predito, previsto ou porção explicada e u^i é o resíduo.
Gr�afico
Qual critério devo utilizar para obter os estimadores?
Podemos minimizar:
1. Soma dos Erros: Não é um bom critério pois pode anular positivos e negativos.
2. Soma Absoluta dos Resíduos: Gera um estimador pouco utilizado denominado LAD
(Least Absolute Deviations)
3. Soma do Quadrado dos Erros: Tem propriedades estatísticas (que veremos adiante)
que o tornam bastante atrativo.
Então, devemos resolver o seguinte problema de minimização:
min
f�;�g
nX
i=1
u2i = minf�^;�^g
nX
i=1
(yi � �� �xi)2
As CPOs serão:
�^ : �2
X
i
�
yi � �^� �^xi
�
= 0 =)
X
i
u^i = 0
Esta CPO nos mostra que a escolha do intercepto ótimo implica que a soma dos resíduos
será zero.
Continuando com esta CPO: X
i
�
yi � �^� �^xi
�
= 0X
i
yi �
X
i
�^�
X
i
�^xi = 0
n�y � n�^� �^n�x = 0
�^MQO = �y � �^�x (1)
Este é o estimador de Mínimos Quadrados Ordinários do intercepto (�).
7
Exercício 1 Prove que, em um modelo com intercepto, a reta da regressão (y^) sempre
passa pelo ponto médio (�x; �y).
Obtendo a CPO para �^:
�^ : �2
X
i
�
yi � �^� �^xi
�
xi = 0 =)
X
i
u^ixi = 0 (2)
Esta CPO nos mostra que a correlação entre o resíduo u^i e xi é nula.
Observação 2 Podemos notar isso mais claramente se minimizarmos o modelo em termos
de desvios da média, ou seja:
yi = �+ �xi + ui
Tomando a média, teremos:
�y = �+ ��x
(A média dos erros é zero: é uma das hipóteses que veremos na próxima seção).
Tomando a diferença entre as duas equações acima:
yi � �y = � (xi � �x) + ui
y�i = �x
�
i + ui
onde, o sobrescrito * indica que a variável está especicada em termos de desvios da
média. Assim: minimizando:
min
�
nX
i=1
u2i = min
�
nX
i=1
(y�i � �x�i )2
obtemos na derivação do � :
�2
X
i
�
y�i � �^x�i
�
x�i = 0 =)
X
i
u^ix
�
i = 0
Dividindo a última expressão por n� 1 (considerando n > 1), teremos:P
i u^i (xi � �x)
n� 1 = Cov (u^i; xi) = 0
Ou de forma mais simples ainda, retome a CPO da equação (2) e note que:X
i
u^ixi = 0X
i
u^ixi �
X
i
u^i = 0
8
que não altera em nada a expressão, pois como vimos
P
i u^i = 0. Multiplicando pela
constante �x: X
i
u^ixi � �x
X
i
u^i = 0X
i
u^i (xi � �x) = 0
Dividindo por n� 1: P
i u^i (xi � �x)
n� 1 = Cov (u^i; xi) = 0
Retomando a CPO (2) do �^, temos que:X
i
�
yi � �^� �^xi
�
xi = 0X
i
yixi �
X
i
�^xi �
X
i
�^x2i = 0X
i
yixi = �^
X
i
xi + �^
X
i
x2iX
i
yixi =
�
�y � �^�x
�X
i
xi + �^
X
i
x2i (
h
�^ = �y � �^�x
i
)
X
i
yixi = �y
X
i
xi + �^
 X
i
x2i � �x
X
i
xi
!
�^MQO =
P
i yixi � �y
P
i xi�P
i x
2
i � �x
P
i xi
�
Podemos escrever este estimador também de uma forma diferente. O denominador
9
pode ser escrito como:X
i
(xi � �x)2 =
X
i
�
x2i � 2xi�x+ �x2
�
=
X
i
x2i �
X
i
2xi�x+
X
i
�x2
=
X
i
x2i � 2�x
X
i
xi + n�x
2
=
X
i
x2i � 2�xn�x+ n�x2
=
X
i
x2i � n�x2
=
X
i
x2i � �xn�x
=
X
i
x2i � �x
X
i
xi
E o numerador pode ser escrito como:X
i
(xi � �x) (yi � �y) =
X
i
(xi � �x) yi �
X
i
(xi � �x) �y
=
X
i
(xi � �x) yi � �y
X
i
(xi � �x)| {z }
=
P
i xi �
P
i �x
= n�x� n�x = 0
=
X
i
xiyi �
X
i
�xyi =
X
i
yixi � �x
X
i
yi
=
X
i
yixi �
P
i xi
n
P
i yi
=
X
i
yixi �
X
i
xi�y =
X
i
yixi � �y
X
i
xi
Assim, o estimador MQO do � pode ser escrito como:
�^MQO =
P
i (xi � �x) (yi � �y)P
i (xi � �x)2
Exercício 3 Obtenha o estimador MQO do � a partir do modelo exposto na 2, ou seja,
continue a partir da CPO do problema já derivada.
10
O estimador MQO acima pode ser escrito também de outra forma usual; basta dividir
o numerador e denominador por n� 1 e assim:
�^MQO =
P
i (xi � �x) (yi � �y) =n� 1P
i (xi � �x)2 =n� 1
=
Cov (x; y)
V ar (x)
Exercício 4 Faça a Condição de Segunda Ordem (CSO) e mostre que o problema de
minimização da soma do quadrado dos resíduos resulta realmente em um mínimo. Dica=
monte a matriz hessiana e mostre que o determinante é positivo).
2.2 O Coeciente de Determinação: RLS
Existe alguma medida que me mostre se o meu modelo tem um bom poder preditivo?
Ou seja, se o regressor(es) (x) que eu inclui no meu modelo explica(m) bem a variável
dependente (y).
Seja a FRA:
yi = �^+ �^xi| {z }
y^i
+ u^i
Tomando a média:
�y = y^i
Assim, ambas as médias são iguais. Subtraindo �y dos dois lados da FRA:
(yi � �y) = (y^i � �y) + u^i
y�i = y^
�
i + u^i
onde o sobrescrito * indica que a variável está especicada em termos de desvios em
relação à média. Assim temos:
y�i = y^
�
i + u^i
Elevando ao quadrado:
(y�i )
2 = (y^�i )
2 + 2y^�i u^i + u^
2
i
Somando a expressão para todas as observações da amostra:X
i
(y�i )
2 =
X
i
(y^�i )
2 + 2
X
i
y^�i u^i +
X
i
u^2i
Note que:
P
i y^
�
i u^i =
P
i
�
�^+ �^x�i
�
u^i = �^
P
i u^i + �^
P
i x
�
i u^i = 0. Os dois termos são
iguais a zero e vem das CPOs do � e do � (2). Assim:X
i
(y�i )
2 =
X
i
(y^�i )
2 +
X
i
u^2i
11
onde: X
i
(y�i )
2 = Soma dos Quadrados Totais (SQT)X
i
(y^�i )
2 = Soma dos Quadrados Explicados (SQE)X
i
u^2i = Soma dos Quadrados dos Resíduos (SQR)
Assim:
SQT = SQE + SQR
Dividindo a expressão por SQT , teremos:
1 =
SQE
SQT| {z }
R2
+
SQR
SQT
OR2 mede o quanto da variação da variável dependente pode ser explicado pelavariação
do regressor. Assim:
R2 =
SQE
SQT
= 1� SQR
SQT
R2 =
P
i (y^
�
i )
2P
i (y
�
i )
2 =
Pn
i=1 (byi � �y)2Pn
i=1 (yi � �y)2
= 1�
P
i u^
2
iPn
i=1 (yi � �y)2
onde R2 2 [0; 1].
Observação 5 Esta expressão é válida apenas se o intercepto é íncluído no modelo. Caso
contrário, o R2 não pode ser mais utilizado pois não necessariamente ele estará no intervalo
[0; 1], podendo inclusive ser negativo. Sem intercepto, estamos forçando o modelo partir
da origem. Se o valor verdadeiro do intercepto, �, for diferente de zero, então ~� será um
estimador viesado de �.
Exercício 6 Prove que no modelo sem intercepto o R2 não estará necessariamente no
intervalo [0; 1].
Exercício 7 Mostre que no modelo com intercepto: yi = �^+�^xi+u^i, o R2 = [corr (x; y)]
2.
12
3 Hipóteses doModelo Clássico de Regressão Linear (MCRL)
Hipótese 1 (Linearidade dos Parâmetros) A relação entre a variável dependente y e
as explicativas x1; ::::; xk é linear:
y1 = �0 + �1x1i + :::+ �kxki + ui
Denição 8 Um modelo de regressão é linear nos parâmetros se as CPOs associadas ao
problema de obtenção dos EMQ (Estimadores de MQO) gerarem um sistema linear nos
parâmetros.
Exemplo 9 Seja o seguinte modelo:
yi = �+ �xi + ui
Assim, o problema de minimização será:
min
�;�
X
i
(yi � �� �xi)2
As CPOs serão:
�^ : �2
X
i
�
yi � �^� �^xi
�
= 0 =)
X
i
yi = n�^+ �^
X
i
xi
�^ : �2
X
i
�
yi � �^� �^xi
�
xi = 0 =)
X
i
yixi = �^
X
i
xi + �^
X
i
x2i
�
n
P
i xiP
i xi
P
i x
2
i
� � b�b�
�
=
� P
i yiP
i yixi
�
Logo é um sistema linear e o modelo é linear nos parâmetros.
Exemplo 10 Seja o seguinte modelo:
yi = �+ �x
i + ui
O problema de minimização é:
min
f�;�;
g
X
i
(yi � �� �x
i )2
A CPO:
� : �2
X
i
(yi � �� �x
i ) = 0
Logo não é linear por causa do 
.
13
Exemplo 11 Seja o seguinte modelo:
yi = �x
�1
1i x
�2
2i e
ui
Tomando o ln, teremos:
ln yi = ln�+ �1 lnx1i + �2 lnx2i + ui
Portanto, o modelo é linear.
Hipótese 2 (Amostragem Aleatória) : Podemos extrair uma amostra aleatória:
f(x1i; :::; xki; yi) ; i = 1; ::::; ng
da população.
Observação 12 Nos livros-texto esta hipótese é geralmente substituída por uma hipótese
de que X é não-estocástico (aleatório).
Hipótese 3 (Média Condicional Zero) : E (ujx) = 0
Exercício 13 Mostre que:
(i) E (ujx) = 0 =) E (u) = 0
(ii) E (ujx) = 0 =) Cov (u; x) = 0.
Dicas: Usem a Lei das Expectativas Iteradas (L.E.I): EX (EY (Y jX)) = E (Y ) e a
seguinte propriedade: E (Y XjX) = XE (Y jX).
Se Cov (u; x) = 0, dizemos que os regressores são exógenos e, assim, podemos seaparar
y em parte explicada e erro sem haver relação entre elas.
Se Cov (u; x) 6= 0, dizemos que os regressores são endógenos e teremos um problema
de endogeneidade no modelo que viesa os estimadores MQO (isto será visto em seção
posterior).
Exemplo 14
lnw = �+ �educ+ u
onde w = sal�ario e educ = anos de estudo. Em u podemos ter diversas variáveis não
observáveis, como por exemplo: habilidades (cognitivas/não-cognitivas) de um indivíduo.
A habilidade de um indivíduo pode estar correlacionada com educação. Assim, o efeito de
um maior nível educacional no salário pode estar viesado pois indivíduos com maior nível
de habilidade é de se esperar que avancem mais nos ciclos escolares e, conseqüentemente,
obtenham um maior nível salarial.
14
Hipótese 4 (Não há Multicolinearidade Perfeita) : As variáveis explicativas 1; x1; :::; xk
são linearmente independentes. Logo, xj ; j = 1; :::; k; não podem ser constante.
X =
26666664
1 x11 x21 : : : xk1
1 x12 x22 : : : xk2
: : : : :
: : : : :
: : : : :
1 x1n x2n xkn
37777775
n�(k+1)
Esta hipótese implica que posto (X) = k + 1, pois n � k + 1.
Relembre das propriedades de algebra matricial que:
posto (X) = posto
�
X 0X
�
= k + 1
Assim, (X 0X) é uma matriz invertível pois possui posto pleno (ou posto cheio ou
máximo). Assim, 9 (X 0X)�1 e portanto, podemos obter os parâmetros estimados:�
X 0X
�
�^ = X 0Y�
X 0X
��1 �
X 0X
�
�^ =
�
X 0X
��1
X 0Y
�^ =
�
X 0X
��1
X 0Y
Hipótese 5 (Homocedasticidade) : V ar (uijx) = �2;8i, ou seja, a variância do erro é
constante.
Hipótese 6 (Ausência de (Auto)Correlação (Serial)) : Cov (ui; uj jx) = 0;8i; j; i 6=
j.
Hipótese 7 (n > k) : Número de observações maior do que o número de regressores.
Essa hipótese é importante para obtermos os EMQ.
Hipótese 8 (Normalidade) : ui � N
�
0; �2
�
para todo i. Tal hipótese será necessária
para inferência.
15
Hipótese 9 (O modelo está corretamente especicado) : Não podemos incluir no
erro variáveis que estejam correlacionadas com as demais variáveis explicativas, pois assim
violaríamos a H.3.
Assim, dadas estas hipóteses, podemos enunciar um teorema (que será mais adiante
provado), que mostra a importância do EMQ.
Teorema 15 (de Gauss-Markov) : Dentro da classe dos estimadores lineares e não-
viesados, e dadas as hipóteses do MCRL, os EMQ são os estimadores que possuem a
menor variância (BLUE - Best Linear Unbiased Estimator)
Figura
Agora, veremos, no caso da RLS, que:
(i) EMQ são lineares
(ii) EMQ são não viesados
(iii) Qual a variância dos EMQ?
(iv) Qual a Cov
�
�^; �^
�
?
(v) Quem é o "EMQ"de �2?
Proposição 16 (i) Os estimadores MQO �^ e �^ são estimadores lineares se puderem ser
escritos como uma combinação linear de y.
Prova. O estimador �^ é escrito como:
�^ = �y � �^�x
Assim, sua linearidade depende de �^.
�^ =
P
i (xi � �x) (yi � �y)P
i (xi � �x)2
=
P
i (xi � �x) yi �
P
i (xi � �x) �yP
i (xi � �x)2
�^ =
P
i (xi � �x) yi � �y
P
i (xi � �x)P
i (xi � �x)2
P
i(xi��x)=0=
P
i (xi � �x) yiP
i (xi � �x)2
�^ =
X
i
"
(xi � �x)P
i (xi � �x)2
yi
#
=
�^ =
X
i
diyi
onde, di =
(xi��x)P
i(xi��x)2
. Logo, �^ é um estimador linear.
16
Em relação ao intercepto:
�^ = �y � �^�x =
P
i yi
n
� �x
P
i (xi � �x) yiP
i (xi � �x)2
=
X
i
"
1
n
� �x
P
i (xi � �x)P
i (xi � �x)2
#
yi
=
X
i
ciyi
onde, ci =
h
1
n �
�x
P
i(xi��x)P
i(xi��x)2
i
= 1n � �xdi. Logo �^ é um estimador linear.
Proposição 17 (ii) EMQ são não-viesados.
Prova.
�^ =
X
i
diyi =
X
i
di (�+ �xi + ui)
=
X
i
di�+
X
i
di�xi +
X
i
diui
= �
X
i
di + �
X
i
dixi +
X
i
diui
Analisando o segundo e terceiro termo do lado direito da expressão:X
i
di =
X
i
(xi � �x)P
i (xi � �x)2
=
1P
i (xi � �x)2
X
i
(xi � �x)| {z }
=0
= 0
X
i
dixi =
X
i
(xi � �x)xiP
i (xi � �x)2
=
Note que
P
i (xi � �x) (xi � �x) =
P
i (xi � �x) (xi � �x) =
P
i (xi � �x)xi�
P
i (xi � �x) �x =P
i (xi � �x)xi � �x
P
i (xi � �x) =
P
i (xi � �x)xi:
Assim, substituindo
P
i (xi � �x) (xi � �x) =
P
i (xi � �x)xi, acima:X
i
dixi =
X
i
(xi � �x) (xi � �x)P
i (xi � �x)2
=
P
i (xi � �x)2P
i (xi � �x)2
= 1
Substituindo
P
i di = 0 e
P
i dixi = 1, de volta na expressão de �^ :
�^ = � +
X
i
diui
17
Analisamos 2 casos aqui:
(1) X não-estocástico (não-aleatório ou xo).
E
�
�^
�
= E
 
� +
X
i
diui
!
= � + E
 X
i
diui
!
= � +
X
i
E (diui)
Como X é não-estocástico e di depende apenas dos regressores logo di é xo também.
Logo:
E
�
�^
�
= � +
X
i
diE (ui)| {z }
=0
E
�
�^
�
= �
(2) X estocástico (aleatório). Neste caso devemos tomar a esperança condicional:
E
�
�^jx
�
= � + E
 X
i
diuijx
!
= � +
X
i
E (diuijx)
= � +
X
i
diE (uijx)| {z }
=0
E
�
�^jx
�
= �
Exercício 18 Prove que �^ é não-viesado. Dica: mostre primeiramente que �^ pode ser
escrito como: �^ = �+
P
i ciui.
Apartir de (i) e (ii) note a partir do seguinte modelo (FRA):
y = �^+ �^x+ u
Tomando a esperança condicional:
E (yjx) = �+ �x
Ou seja, o que estamos tentando modelar é o comportamento médio dos agentes (indi-
víduos, rmas, governo, países etc).
(iii) Qual a variância dos EMQ?
18
�^0 = �0 +
X
i
ciui
�^1 = �1 +
X
i
diui
Assim:
V ar
�
�^1
�
= E
��
�^1 � E
�
�^1
��2�
= E
��
�^1 � �1
�2�
= E
��X
diui
�2�
= E
�
d21u
2
1 + d
2
2u
2
2 + :::+ d
2
nu
2
n + 2d1d2u1u2 + :::+ 2dn�1dnun�1un
�
= d21E
�
u21
�| {z }
�2
+ d22E
�
u22
�| {z }
�2
+ :::+ d2nE
�
u2n
�| {z }
�2
+
+2d1d2E (u1u2)| {z }
0
+ :::+ 2dn�1dnE (un�1un)| {z }
0
V ar
�
�^1
�
= �2
X
i
d2i
Mas:
X
i
d2i =
X
i
 
xi � �xP
i (xi � �x)2
!2
=
1hP
i (xi � �x)2
i2 X
i
(xi � �x)2 = 1P
i (xi � �x)2
Substituindo na expressão acima, teremos:
V ar
�
�^1
�
=
�2P
i (xi � �x)2
19
V ar
�
�^0
�
= E
��
�^0 � �0
�2�
= E
24 �0 +X
i
ciui � �0
!235
= E
�
c21u
2
1 + :::+ c
2
nu
2
n + 2c1c2u1u2 + :::+ 2cncn�1unun�1
�
= E
�
c21u
2
1
�
+ :::+ E
�
c2nu
2
n
�
+ 2c1c2E (u1u2) + :::+ 2cncn�1E (unun�1)
= �2
X
i
c2i = �
2
X
i
 
1
n
� �x (xi � �x)P
i (xi � �x)2
!2
= �2
X0B@ 1
n2
� 2�x (xi � �x)
n
P
(xi � �x)2
+
�x2 (xi � �x)2�P
(xi � �x)2
�2
1CA
= �2
264X
i
1
n2
�
X
i
2�x (xi � �x)
n
P
(xi � �x)2
+
X
i
�x2 (xi � �x)2�P
(xi � �x)2
�2
375
= �2
264 1
n
� 2�x
n
X� (xi � �x)P
(xi � �x)2
�
+ �x2
X0B@ (xi � �x)2�P
(xi � �x)2
�2
1CA
375
= �2
264 1
n
� 2�x
n
P
(xi � �x)P
(xi � �x)2
+ �x2
P
(xi � �x)2�P
(xi � �x)2
�2
375
= �2
�
1
n
+ �x2
1P
(xi � �x)2
�
= �2
"P
(xi � �x)2 + n�x2
n
P
(xi � �x)2
#
= �2
�P
x2i � 2�x
P
xi +
P
�x2 + n�x2
n
P
(xi � �x)2
�
= �2
�P
x2i � 2�xn�x+ n�x2 + n�x2
n
P
(xi � �x)2
�
V ar
�
�^0
�
=
�2
P
x2i
n
P
(xi � �x)2
:
(iv) Quem é Cov
�
�^0; �^1
�
?
20
Cov
�
�^0; �^1
�
= Cov
�
�y � �^1�x; �^1
�
= Cov
�
�y; �^1
�
| {z }
0
+ Cov
�
��^1�x; �^1
�
= ��xCov
�
�^1; �^1
�
= ��xV ar
�
�^1
�
Cov
�
�^0; �^1
�
=
��x�2P
(xi � �x)2
Observação 19 A variância para um vetor de variáveis é calculado como:
V ar (x) = E
�
(x�E (x)) (x�E (x))0�
onde x é um vetor coluna de tamanho n. Esta expressão é chamada também de matriz
de variância-covariância.
Assim, seja �^ =
�
�^0
�^1
�
o vetor de parâmetros. Então, no nosso caso teríamos:
V ar
�
�^
�
= E
��
�^ �E
�
�^
���
�^ �E
�
�^
��0�
= E
240@� �^0
�^1
�
�
0@ E ��^0�
E
�
�^1
� 1A1A�� �^0 �^1 ��� E ��^0� E ��^1� ��
35
= E
240@ �^0 � E ��^0�
�^1 � E
�
�^1
� 1A� �^0 � E ��^0� �^1 � E ��^1� �
35
=
2664 E
��
�^0 � E
�
�^0
��2�
E
h�
�^0 � E
�
�^0
���
�^1 � E
�
�^1
��i
E
h�
�^0 � E
�
�^0
���
�^1 � E
�
�^1
��i
E
�
�^1 � E
�
�^1
�2�
3775
=
24 V ar ��^0� Cov ��^0; �^1�
Cov
�
�^0; �^1
�
V ar
�
�^1
� 35
=
24 �2Px2inP(xi��x)2 ��x�2P(xi��x)2��x�2P
(xi��x)2
�2P
i(xi��x)2
35
21
(v) Estimador "MQO"de �2 (variância do erro):
yi = y^i + u^i
yi � �y = y^i � �y + u^i
Retomando a FRP (Função de Regressão Populacional) temos:
yi = �+ �xi + ui
�y = �+ ��x+ �u
�
yi � �y = � (xi � �x) + ui � �u
Retomando a FRA (Função de Regressão Amostral) temos:
y^i = �^+ �^xi
�y = �^+ �^�x
�
y^i � �y = �^ (xi � �x)
Logo:
u^i = (yi � �y)� (y^i � �y)
u^i = � (xi � �x) + ui � �u� �^ (xi � �x)
u^i = �
�
�^ � �
�
(xi � �x) + ui � �uX
u^2i =
�
�^ � �
�2X
(xi � �x)2| {z }
A
+
X
(ui � �u)2| {z }
B
� 2
�
�^ � �
�X
(xi � �x) (ui � �u)| {z }
C
Tomando a esperança, para obtermos E
�P
u^2i
�
.
22
Assim, analisando termo a termo:
E (A) = E
24 Pi (xi � �x)uiP
i (xi � �x)2
!2 P
(xi � �x)2
35 (�^ � � =Pi diui)
= E
264(Pi (xi � �x)ui)2�P
i (xi � �x)2
�2 P (xi � �x)2
375
=
1P
i (xi � �x)2
E
h
(
P
i (xi � �x)ui)2
i
=
1P
i (xi � �x)2
E
h
((x1 � �x)u1 + :::+ (xn � �x)un)2
i
=
1P
i (xi � �x)2
E
24 (x1 � �x)2 u21 + :::+ (xn � �x)2 u2n+2 (x1 � �x)u1 (x2 � �x)u2 + :::
+2 (xn�1 � �x)un�1 (xn � �x)un
35
=
1P
i (xi � �x)2
h
(x1 � �x)2 �2 + :::+ (xn � �x)2 �2
i
=
1P
i (xi � �x)2
"X
i
(xi � �x)2 �2
#
=) E (A) = �2
23
Em relação a B:
E (B) = E
�X
(ui � �u)2
�
= E
�X�
u2i + �u
2 � 2ui�u
��
= E
�X
u2i +
X
�u2 � 2�u
X
ui
�
= E
�X
u2i + n�u
2 � 2�un�u
�
= E
�X
u2i � n�u2
�
= E
�X
u2i
�
� E
 
n
�P
ui
n
�2!
=
X
E
�
u2i
�� E � 1
n
�X
ui
�2�
= n�2 � 1
n
E
h
(u1 + :::+ un)
2
i
= n�2 � 1
n
�
E
�
u21
�
+ :::+ E
�
u2n
��
= n�2 � �2
E (B) = (n� 1)�2
Em relação a C:
E (C) = E
h�
�^ � �
�X
(xi � �x) (ui � �u)
i
= E
" P
i (xi � �x)uiP
i (xi � �x)2
!X
(xi � �x) (ui � �u)
#
= E
26664
�
(x1 � �x)2 u21 + :::+ (xn � �x)2 u2n + 2 (x1 � �x) (x2 � �x)u1u2 + :::
+2 (xn�1 � �x) (xn � �x)un�1un
�
P
i (xi � �x)2
37775
=
1P
i (xi � �x)2
�
(x1 � �x)2 �2 + :::+ (xn � �x)2 �2
�
=
1P
i (xi � �x)2
 
�2
X
i
(xi � �x)2
!
E (C) = �2
24
Substituindo as expressões em E
�P
u^2i
�
, teremos:
E
�X
u^2i
�
= E (A) + E (B)� 2E (C)
= �2 + (n� 1)�2 � 2�2
E
�X
u^2i
�
= (n� 2)�2
Então um estimador não viesado para a variância do erro (�2) será:
�^2 =
P
u^2i
n� 2 =
SQR
n� 2
pois vimos que:
E
�
�^2
�
= E
�P
u^2i
n� 2
�
=
1
n� 2E
�X
u^2i
�
=
1
n� 2 (n� 2)�
2 = �2
Veremos em regressão múltipla que, de forma geral:
�^2 =
P
u^2i
n� k � 1 =
SQR
n� k � 1
onde k é o número de regressores. Como estamos tratando de regressão linear simples,
então k = 1.
Teorema 20 (Gauss-Markov) Dadas as hipóteses do MCRL, dentro da classe dos esti-
madores lineares e não-viesados, os EMQ são os que apresentam a menor variância.
Prova. Seja �^1 =
P
i diyi. Tomemos um outro estimador ~�1 =
P
iwiyi, o qual é linear e
não viesado. Para este ser não viesado, devemos observar que:
~�1 =
X
i
wiyi
=
X
i
wi (�0 + �1xi + ui)
= �0
X
i
wi + �1
X
i
wixi +
X
i
wiui
Para que este outro estimador seja não viesado devemos ter que:
E
�
~�1
�
= �1
25
E para ocorrer isso, devem valer as seguintes condições:X
i
wi = 0X
i
wixi = 1
Para que o estimador possa ser escrito como:
~�1 = �1 +
X
i
wiui
Como estamos supondo que X é não-estocástico, então:
E
 X
i
wiui
!
=
X
i
E (wiui) =
X
i
wiE (ui) = 0
visto que wi é função de xi, o qual é não-estocástico.
Analisando a variância de ~�1:
V ar
�
~�1
�
= E
��
~�1 � E
�
~�1
��2�
= E
��
~�1 � �1
�2�
= E
��X
wiui
�2�
= E
h
(w1u1 + :::+ wnun)
2
i
= E
�
w21u
2
1
�
+ :::+ E
�
w2nu
2
n
�
V ar
�
~�1
�
= �2
X
w2i
Agora, vejamos qual o wi que gera a menor variância. Para isso:
min
wi
X
i
w2i
s:t:X
i
wi = 0 ([�1])X
i
wixi = 1 ([�2])
L =
X
i
w2i � �1
X
i
wi � �2
 X
i
wixi � 1
!
26
As CPOs serão:
@L
@wi
= 2wi � �1 � �2xi = 0 =) 2wi = �1 + �2xi (3)X
i
wi = 0 (4)X
i
wixi = 1 (5)
Passando o somatório na equação (3), temos:
2
X
i
wi =
X
i
�1 + �2
X
i
xiX
i
wi = n�1 + �2
X
i
xi
Substituindo (4) acima, teremos:
0 = n�1 + �2
X
i
xi
�1 = ��2
P
i xi
n
= ��2�x (6)
Substituindo wi de (3) em (5), teremos:Xi
wixi| {z }
1
=
X
i
(�1 + �2xi)
2| {z }
wi
xi
1 =
1
2
 
�1
X
i
xi + �2
X
x2i
!
(7)
2 =
 
�1
X
i
xi + �2
X
x2i
!
(8)
Substituindo (6) em (7), teremos:
��2�x
X
i
xi + �2
X
x2i = 2
�2
 
��x
X
i
xi +
X
x2i
!
= 2
�2
�
��xn�x+
X
x2i
�
= 2
�2
�X
x2i � n�x2
�
= 2 (9)
27
Agora, relembre que:X
i
(xi � �x)2 =
X
i
�
x2i � 2xi�x+ �x2
�
=
X
i
x2i � 2�x
X
i
xi +
X
i
�x2
=
X
i
x2i � 2�xn�x+ n�x2X
i
(xi � �x)2 =
X
i
x2i � n�x2
Então podemos substituir esta expressão em (9):
�2
X
i
(xi � �x)2 = 2
�2 =
2P
i (xi � �x)2
(10)
Substituindo (10) em (6), temos:
�1 =
�2�xP
i (xi � �x)2
(11)
Substituindo (10) e (11) em (3), temos:
wi =
1
2
(�1 + �2xi)
wi =
1
2
 
�2�xP
i (xi � �x)2
+
2xiP
i (xi � �x)2
!
wi =
 
��xP
i (xi � �x)2
+
xiP
i (xi � �x)2
!
wi =
x� �xP
i (xi � �x)2
= di
Então, o próprio di gera a menor variância. Logo, �^1 =
P
i diyi (EMQ) é o estimador
que possui menor variância, dentro da classe de estimadores lineares não-vieados.
4 Regressão Linear Múltipla (RLM)
Seja o seguinte modelo de regressão múltipla:
yi = �0 + �1x1i + �2x2i + :::+ �kxki + ui;
28
onde agora, temos k variáveis explicativas.
Os estimadores MQO são obtidos através do seguinte problema de minimização:
min
f�^0;�^1;:::;�^kg
X
i
u^2i = minf�^0;�^1;:::;�^kg
X
i
(yi � �0 � �1x1i � �2x2i � :::� �kxki)2
As CPOs serão:
�^0 : �2
X
i
(yi � �0 � �1x1i � �2x2i � :::� �kxki) = 0
�^1 : �2
X
i
(yi � �0 � �1x1i � �2x2i � :::� �kxki)x1i = 0
:
:
:
�^k : �2
X
i
(yi � �0 � �1x1i � �2x2i � :::� �kxki)xki = 0
Resolvendo o sistema:
n�^0 + �^1
X
i
x1i + :::+ �^k
X
i
xki =
X
i
yi
�^0
X
i
x1i + �^1
X
i
x21i + :::+ �^k
X
i
x1ixki =
X
i
yix1i
:
:
:
�^0
X
i
xki + �^1
X
i
x1ixki + :::+ �^k
X
i
x2ki =
X
i
yixki
Matricialmente o sistema ca: �
X 0X
�
�^ =X 0Y
29
onde:
X =
26666664
1 x11 x21 : : : xk1
1 x12 x22 : : : xk2
: : : : :
: : : : :
: :: : : :
1 x1n x2n : : : xkn
37777775
n�(k+1)
; �^ =
266666664
�^0
�^1
:
:
:
�^k
377777775
(k+1)�1
; Y=
26666664
y1
y2
:
:
:
yn
37777775
n�1
;
u^ =
26666664
u^1
u^2
:
:
:
u^n
37777775
n�1
Assim, podemos escrever a FRP e FRA em termos matriciais:
Y = X� + u (FRP)
Y = X�^ + u^ (FRA)
Uma das hipóteses do MCRL que vimos em termos matriciais foi:
posto (X) = k + 1 = posto pleno
Sendo:
Xn�(k+1) ! X 0(k+1)�nXn�(k+1) =
�
X 0X
�
(k+1)�(k+1)
! posto (X) = posto �X 0X�
Retomando: �
X 0X
�
�^ =X 0Y
Logo, se posto (X 0X) = k + 1 =posto pleno então 9 (X 0X)�1 e portanto:�
X 0X
�
�^ = X 0Y�
X 0X
��1 �
X 0X
�
�^ =
�
X 0X
��1
X 0Y
�^MQO =
�
X 0X
��1
X 0Y (12)
Observação 21 Uma forma de se escrever os estimadores de MQO, em termos de so-
matório, é:
�^j =
P
i r^jiyiP
i r^
2
ji
; j = 1; :::; k (13)
30
onde r^ji é o resíduo MQO de uma regressão de xj contra x�j, ou seja, contra todos os
outros regressores exceto o próprio xj. Esta fórmula dá uma outra interpretação do efeito
parcial de xj sobre y (que é medido pelo �^j, que é nada mais que uma derivada parcial de
y em relação xj). Os resíduos r^ji representam a parte de xj que não está correlacionada
com os outros regressores (x�j) (Ou seja, ao rodarmos uma regressão: xji = 
0 + 
1x1i +
::: + 
j�1xj�1i + 
j+1xj+1i + ::: + 
kxki + r^ji, este resíduo pode ser interpretado como a
parte de xj após excluir (ou deduzir ou isolar) o efeito dos outros regressores). Assim �^j
mede o efeito de xj sobre y, isolando o efeito de x�j.
4.1 Geometria do MQO
Consideremos o modelo com duas variáveis explicativas:
yi = �0 + �1x1i + �2x2i + ui:
Em termos matriciais:
Y = X�^ + u^
= X
�
X 0X
��1
X 0| {z }
Px
Y + u^
= PY + u^
onde P é a matriz de projeção no span(X). Span(X) é o subespaço gerado pelas colunas
de X. Assim, PY projeta o vetor Y no span(X).
Além disso, note que:
u^ = Y � PY = [I � P ]| {z }
M
Y
u^ = MY
onde M = I � X (X 0X)�1X 0 é a matriz de projeção ortogonal ao span (X). Assim
MY projeta o vetor Y no subespaço ortogonal ao span(X). Assim, Y é decomposto em
duas partes:
Y = PY|{z}
Y^=X�^
+MY|{z}
u^
Gracamente temos:
Figura
31
Assim, temos que ter:
u^?X�^ =)
D
u^;X�^
E
= 0
ou
u^0
�
X�^
�
= 0
ou�
X�^
�0
u^ = 0
�^
0
X 0u^ = �^
0
X 0
�
Y �X�^
�
�^
0 �
X 0Y �X 0X�^
�
= 0�
X 0Y �X 0X�^
�
= 0
X 0Y = X 0X�^
�^=
�
X 0X
��1
X 0Y
Exercício 22 Prove que as matrizes M e P são:
(i) simétricas (M 0 =M)
(ii) idempotentes (MM =M)
4.2 Coeciente de Determinação (R2): Regressão Múltipla
Da mesma forma que na regressão linear simples, temos que:
R2 =
SQE
SQT
= 1� SQR
SST
ou ainda,
R2 =
Pn
i=1 (y^i � �y)2Pn
i=1 (yi � �y)2
= 1�
Pn
i=1 u^
2
iPn
i=1 (yi � �y)2
onde y^i = �^0 + �^1x1i + :::+ �^kxki e u^i = yi � y^i.
que é o coeciente de correlação quadrático entre o valor real e ajustado de y.
Observação: O R2 nunca diminui quando adicionamos regressores.
Exercício 23 Prove que o R2 não diminui quando adicionamos regressores, ou seja, é
uma função não decrescente do número de variáveis explicativas. (Dica: use SQT =
SQE + SQR e veja o que acontece com o SQE e com o SQR quando adicionamos algum
regressor).
32
Observação 24 Não podemos comparar o R2 de modelos:
(i) com diferente número de variáveis explicativas;
(ii) com variáveis dependentes diferentes.
Se o R2 nunca diminui quando adicionamos regressores, necessitamos de um coeciente
que penalize em certo grau a inclusão de regressores. Tal coeciente é chamado R2 ajus-
tado:
�R2 = 1� [SQR= (n� k � 1)]
[SQT= (n� 1)]
= 1� �^2= [SQT= (n� 1)] (�^2 = SQRn�k�1)
O R2 ajustado também recebe o nome em inglês de R � bar squared ou ainda R2
corrigido.
A importância desta medida é que ela impõe uma penalidade por se adicionar regres-
sores ao modelo.
Assim, SQR= (n� k � 1) é um estimador não-viesado de �2, que é a variância pop-
ulacional do erro, e SQT= (n� 1) é um estimador não viesado de �2y, que é a variância
populacional do y.
Proposição 25 Se adicionamos um novo regressor à regressão, então:
�R2 aumenta () a estatística t deste novo regressor é maior que 1, em módulo.
Proposição 26 E se adicionarmos um grupo de variáveis à regressão, então:
�R2 aumenta () a estatística F deste novo grupo de regressores é maior que 1:
Uma fórmula alternativa para o �R2 é:
�R2 = 1� [SQR= (n� k � 1)]
[SQT= (n� 1)]
�R2 = 1�
�
1�R2� (n� 1)
(n� k � 1) (
SQR
SQT = 1�R2)
Além de se comparar modelos ao se incluir regressores, o �R2 serve também para escolher
entre modelos nonnested (não encaixantes). Por exemplo, um modelo 1 que tem x1; x2 e
x3 e um outro modelo 2 que tem x1; x2 e x4.
Mas ele não serve para escolher entre formas funcionais diferentes da variável depen-
dente. Mas tais testes serão mostrados em capítulo posterior.
33
4.3 Propriedades dos EMQ: Regressão Múltipla
Vamos provar, que o EMQ �^ é não viesado.
Teorema 27 Sob as hipóteses H.1 a H.4 temos que:
E
�
�^j
�
= �j ; j = 0:1; :::; k
ou seja, os estimadores MQO são não-viesados. Em termos matriciais:
E
h
�^
i
= �
em que, �^ =(X 0X)�1X 0Y .
Prova.
�^ =
�
X 0X
��1
X 0Y
�^ =
266666664
�^0
�^1
:
:
:
�^k
377777775
; �^ =
26666664
�0
�1
:
:
:
�k
37777775
Relembrando:
Y = X� + u (FRP)
Y = X�^ + u^ (FRA)
Assim:
�^ =
�
X 0X
��1
X 0Y
=
�
X 0X
��1
X 0 (X� + u)
=
�
X 0X
��1
X 0X�+
�
X 0X
��1
X 0u
�^ = �+
�
X 0X
��1
X 0u
1. X não estocástico:E
�
�^
�
= E
�
�+
�
X 0X
��1
X 0u
�
= �+
�
X 0X
��1
X 0E (u)| {z }
=0
(Usando H.3)
E
�
�^
�
= �
34
Assim, o vetor de estimadores �^ é não viesado.
2. X estocástico:
E
�
�^jX
�
= E
�
�+
�
X 0X
��1
X 0ujX
�
= �+
�
X 0X
��1
X 0E (ujX)| {z }
=0
(Usando H.3)
E
�
�^jX
�
= �
Utilizamos também H.4 para podermos inverter (X 0X) e obter o estimador.
Vimos que a variância de um vetor é dado por:
V ar
�
�^
�
= E
��
�^ �E
�
�^
���
�^ �E
�
�^
��0�
= E
��
�^ � �
��
�^ � �
�0�
é a matriz de variância-covariância que foi visto anteriormente. Calculando:
�^ =
�
X 0X
��1
X 0Y =
�
X 0X
��1
X 0 (X� + u)
= � +
�
X 0X
��1
X 0u
Substituindo na fórmula da variância:
V ar
�
�^
�
= E
���
X 0X
��1
X 0u
���
X 0X
��1
X 0u
�0�
= E
��
X 0X
��1
X 0uu0X
��
X 0X
��1�0�
= E
��
X 0X
��1
X 0uu0X
��
X 0X
�0��1�
= E
h�
X 0X
��1
X 0uu0X
�
X 0X
��1i (X n~ao estoc�astico)
V ar
�
�^
�
=
�
X 0X
��1
X 0E
�
uu0
�
X
�
X 0X
��1
Quem é E [uu0]?
V ar (u) = E
�
(u�E (u)) (u�E (u))0�
= E
�
uu0
�
= E
26666664
0BBBBBB@
u1
u2
:
:
:
un
1CCCCCCA
�
u1 u2 : : : un
�
37777775
35
= E
26666664
u21 u1u2 : : : u1un
u2u1 u
2
2 u2un
: : : :
: : : :
: : : :
unu1 unu2 : : : u
2
n
37777775
n�n
=
26666664
�2 0 : : : 0
0 �2 0
: : : :
: : : :
: : : :
0 0 : : : �2
37777775
n�n
V ar (u) = E
�
uu0
�
= �2In
Substituindo esta expressão em V ar
�
�^
�
, temos:
V ar
�
�^
�
=
�
X 0X
��1
X 0�2X
�
X 0X
��1
= �2
�
X 0X
��1
X 0X
�
X 0X
��1
V ar
�
�^MQO
�
= �2
�
X 0X
��1
Observação 28 As variâncias dos EMQ podem ser escritas na forma de somatório:
V ar
�b�j� = �2
SQTj
�
1�R2j
� ; j = 1; :::; k
em que, SQTj =
Pn
j=1 (xij � �xj)2 é a variação amostral em xj e R2j é o R2 da regressão
de xj em todos os outros regressores, incluindo o intercepto.
Pelas duas fórmulas podemos notar que quanto maior a variância do erro, �2, maior
a variância dos estimadores, e portanto, menos preciso sua magnitude. Uma forma de
reduzi-la é adicionar mais regressores à equação. Mas nem sempre é possível.
Isso ocorre, pois o termo R2j avalia a relação linear entre as variáveis independentes, ou
seja, a correlação entre os regressores.
Assim, quando R2j é proximo de um, a variância do estimador será muito grande.
Assim, correlação alta (mas não perfeita) entre 2 ou mais regressores é denominado
Multicolinearidade (que será visto em mais detalhes em capítulo posterior)
Mas note que este problema não congura uma violação da hipótese H4 (Multicolin-
earidade Perfeita).
36
Note que a correlação alta entre algumas variáveis terá impacto somente nas variâncias
de seus parâmetros estimados. Ou seja, correlação alta entre x2 e x3 implica em V ar
�
�^2
�
e V ar
�
�^3
�
mais alta, mas sem efeito na V ar
�
�^1
�
e na dos outros estimadores.
5 Inferência Estatística
Nesta seção veremos o problema de testar hipóteses sobre os parâmetros (coecientes)
populacionais, ou seja, sobre os coecientes da FRP. Para tal, precisaremos inicialmente
derivar as distribuições dos estimadores de MQO.
Teorema 29 Sob as hipóteses do MCRL, temos que:
�^j � Normal
�
�j ; V ar
�
�^j
��
; j = 1; :::; k
onde V ar
�
�^j
�
= �
2
SQTj(1�R2j)
. Logo:
�
�^j � �j
�
dp
�
�^j
� � Normal (0; 1)
Assim, a distribuição amostral (amostras nitas) do estimador �^j é uma distribuição
Normal.
Prova. Retomando o EMQ em termos de somatório (equação (13) ):
�^j =
P
i r^jiyiP
i r^
2
ji
�^j =
P
i r^ji (�0 + �1x1i + �2x2i + :::+ �kxki + ui)P
i r^
2
ji
�^j =
�0
P
i r^ji + �1
P
i r^jix1i + �2
P
i r^jix2i + :::+ �k
P
i r^jixki +
P
i r^jiui;P
i r^
2
ji
Teremos
P
i r^ji = 0;
P
i xlir^ji = 0;8l 6= j
Estas expressões podem ser obtidas a partir das CPOs da regressão xj contra x�j , ou
seja, da regressão:
xji = 
0 + 
1x1i + :::+ 
j�1xj�1i + 
j+1xj+1i + :::+ 
kxki + r^ji
37
O problema de minimização será:
min
0;:::;
1
X
i
r^2ji ()
min
0;:::;
1
X
i
�
xji � 
^0 � 
^1x1i � :::� 
^j�1xj�1i � 
^j+1xj+1i � :::� 
^kxki
�2
CPOs:
^0 : 2
X
i
(xji � 
^0 � 
^1x1i � :::� 
^kxki) = 0| {z }P
i rji=0
^1 : 2
X
i
(xji � 
^0 � 
^1x1i � :::� 
^kxki)x1i = 0| {z }P
i rjix1i=0
E assim, sucessivamente até 
^k. Assim teremos as seguintes expressões:X
i
r^ji = 0X
i
r^jix1i = 0
:
:
:X
i
r^jixki = 0
Assim:
�^j =
�j
P
i r^jixji +
P
i r^jiuiP
i r^
2
ji
O primeiro termo do numerador pode ser visto derivado a partir da regressão auxiliar:
xji = 
0 + 
1x1i + :::+ 
j�1xj�1i + 
j+1xj+1i + :::+ 
kxki| {z }
x^ji
+ r^ji
xji = x^ji + r^ji
xjir^ji = x^jir^ji + r^
2
ji (� (r^ji))X
i
xjir^ji =
X
i
x^jir^ji +
X
i
r^2ji (Passando
P
i)
38
Vamos avaliar
P
i x^jir^ji. Retomando:X
i
r^ji = 0X
i
r^jix1i = 0
:
:
:X
i
r^jixki = 0
Multiplicando cada uma dessas CPOs por seus parâmetros estimados: 
^0; :::; 
^k, tere-
mos:
^0
X
i
r^ji = 0
^1
X
i
r^jix1i = 0
:
:
:
^k
X
i
r^jixki = 0
Somando estes somatórios teremos:X
i
^0r^ji +
X
i
^1r^jix1i + :::+
X
i
^kr^jixki = 0X
i
(
^0r^ji + 
^1r^jix1i + :::+ 
^kr^jixki) = 0X
i
r^ji(
^0 + 
^1x1i + :::+ 
^kxki)| {z }
x^ji
= 0
X
i
r^jix^ji = 0
Substituindo na expressão inicial:X
i
xjir^ji =
X
i
x^jir^ji +
X
i
r^2jiX
i
xjir^ji =
X
i
r^2ji
39
Substituindo de volta em:
�^j =
�j
P
i r^jixji +
P
i r^jiuiP
i r^
2
ji
�^j =
�j
P
i r^
2
ji +
P
i r^jiuiP
i r^
2
ji
�^j =
�j
P
i r^
2
jiP
i r^
2
ji
+
P
i r^jiuiP
i r^
2
ji
�^j = �j +
P
i r^jiuiP
i r^
2
ji
Assim, este etimador pode ser escrito como:
�^j = �j +
X
i
 
r^jiP
i r^
2
ji
ui
!
�^j = �j +
X
i
wjiui
onde, wji =
r^jiP
i r^
2
ji
=
r^ji
SQRj
. ou seja, da mesma forma que na RLS, o EMQ da RLM
pode ser escrito em função do parâmetro verdadeiro (�j) e uma combinação linear dos
erros. Sob a hipótese H.8 (Normalidade) do MCRL (+ H.3, H.5 e H.6, ou seja, média
condicional nula dos erros, homocedasticidade e autocorrelação nula) podemos dizer que
ui é i:i:d: segundo uma Normal
�
0; �2
�
(Podemos dizer que eles são independentes, pois a hipótese de não serem autocorrela-
cionados com a normalidade implica independência).
Então �^ é uma combinação linear de variáveis normais independentes o que resulta
também em uma variável normal independente. E como:
E
�
�^j
�
= �j + E
 X
i
wjiui
!
= �j +
X
i
E (wjiui)
= �j +
X
i
wjiE (ui)
= �j
Assim:
�^j � Normal
�
�j ; V ar
�
�^j
��
40
E podemos padronizá-la para uma normal padrão:�
�^j � �j
�
dp
�
�^j
� � Normal (0; 1)
Exercício 30 A partir das CPOs dadas no teorema acima, obtenha o estimador MQO em
termos de somatório exposto na Observação (21)
Note que, utilizamos dp
�
�^j
�
=
r
V ar
�
�^j
�
=
r
�2
SQTj(1�R2j)
, que é baseado na variân-
cia populacional do erro. Assim, precisamos substituir �2 por seu estimador �^2:
Teorema 31 Sob as hipóteses do MCRL:�
�^j � �j
�
ep
�
�^j
� � tn�k�1;
em que k é o número de regressores do modelo populacional y = �0+�1x1+:::+�kxk+u
e ep
�
�^j
�
=
r
�^2
SQTj(1�R2j)
é o erro padrão.
Prova. Note que: �
�^j � �j
�
r
�^2
SQTj(1�R2j)
p
�2p
�2
=
�
�^j � �j
�
r
�2
SQTj(1�R2j)
p
�2p
�^2
=
(�^j��j)s
�2
SQTj(1�R2j)q(n�k�1)�^2
�2
=
p
n� k � 1
Relembrando do curso de Estatística, a variância amostral do resíduo é:
�^2 =
Pn
i=1 u^
2
i
n� k � 1
(n� k � 1) �^2 =
nX
i=1
u^2i
(n� k � 1) �^
2
�2
=
nX
i=1
u^2i
�2
� �2n�k�1
41
Essa demonstração vem dos testes de variâncias que seguem uma qui-quadrada. Isso é
válido desde que �^2 tenha sido obtida de uma população normal, ou seja, de uma variável
cuja distribuição é normal, que é o caso pois u segue uma Normal.
E temos que (
�^j��j)s
�2
SQTj(1�R2j)
pelo teorema anterior segue uma distribuição normal padrão.
Logo:
(�^j��j)s
�2
SQTj(1�R2j)q
(n�k�1)�^2
�2
=
p
n� k � 1
� N (0; 1)q
�2n�k�1=n� k � 1
= tn�k�1
desde que o numerador e o denominador sejam independentes. Assim:�
�^j � �j
�
ep
�
�^j
� � tn�k�1
E assim, podemos utilizar esta distribuição para os testes.
Vale lembrar que a t-student aproxima-se da Normal quando aumentamos os graus de
liberdade. Mas, neste caso, os graus de liberdade dependem diretamente da amostra. E
assim, quando aumentamos a amostra, n, a t-student pode ser aproximada pela normal.
5.1 O Teste t
Assim, podemos testar a seguinte hipótese nula:
H0 : �j = 0
Assim podemos utilizar teste t de Student:
t�^j
=
�^j
ep
�
�^j
�
De forma mais geral podemos testar se o estimador é igual a um valor especíco:
H0 : �j = �j0
t�^j
=
�^j � �j0
ep
�
�^j
�
42
Podemos também executar os testes de hipóteses sobre uma combinação linear dos
parâmetros, por exemplo:
H0 : �1 + �2 = 1
onde:
t =
�
�^1 + �^2
�
� (�1 + �2)
ep
�
�^1 + �^2
�
em que, ep
�
�^1 + �^2
�
=
r
V ar
�
�^1 + �^2
�
=
r
V ar�^1 + V ar�^2 + 2Cov
�
�^1; �^2
�
.
5.2 Testes de Restrições Lineares Múltiplas: O Teste F
Podemos estar interessados em testar se um conjunto de parâmetros populacionais é igual
a zero. Ou seja, considere o modelo:
y = �0 + �1x1 + �2x2 + :::+ �kxk + u (14)
E queremos testar se q parâmetros são conjuntamente iguais a zero, por exemplo, os q
últimos:
H0 :
266664
�k�q+1
:
:
:
�k
377775 = 0
Esta H0 é composta por q restrições de exclusão, sendo este um exemplo de conjunto
de restrições múltiplas. A alternativa a esta H0 é se pelo menos um dos coecientes é
diferente de zero.
O modelo (14) é denominado modelo irrestrito, pois inclui todos os parâmetros.
A idéia do teste é estimar o modelo retirando os parâmetros da H0, ou seja, estimar o
modelo restrito:
y = �0 + �1x1 + �2x2 + :::+ �k�qxk�q + u; (15)
e analisar o SQR dos dois modelos. Sabemos que o SQR sempre aumenta quando
retiramos regressores, mas a questão é saber se esse aumento do SQR modelo restrito é
grande o suciente em relação ao SQR do modelo irrestrito.
E SQR está relacionado à variância. Assim, a idéia do teste basicamente é comparar
variâncias. E o teste propício para isso é o teste F :Hipóteses sobre restrições lineares
múltiplas: Teste F
H0 : �k�q+1 = 0; :::; �k = 0
43
Esta hiótese nula constitui q restrições de exclusão. Um teste sobre tal hipótese é
chamado de teste de hipóteses múltiplas ou teste de hipóteses conjuntas.
Assim, temos o modelo irrestrito:
y = �0 + �1x1 + :::+ �kxk + u
E quando impomos as retrições de H0, temos o modelo restrito:
y = �0 + �1x1 + :::+ �kxk�q + u
Suporemos que em ambos os modelos contém os interceptos. A estatística F será:
F � (SQRr � SQRir) =q
SQRir= (n� k � 1) � Fq;n�k�1 (16)
onde SQRr é a soma dos quadrados dos resíduos do modelo restrito e SQRur do modelo
irrestrito.
Observação 32 SQRr � SQRir e SQT é o mesmo nos dois modelos pois y é o mesmo.
Observação 33 O denominador de F é apenas o estimador não viesado de �2 = V ar (u)
do modelo irrestrito.
Observação 34 Quando q = 1, estamos testando uma hipótese simples sobre um parâmetro.
E pode ser mostrado que: t2n�k�1 � F1;n�k�1, ou seja, a estatística t elevada ao
quadrado é igual a estatística F:E assim, as duas abordagens levam ao mesmo resultado,
dado que o teste é bilateral.
A estatística t é mais exível pois pode ser utilizada para um teste unilateral.
Observação 35 É possível que uma regressor tenha uma estatística t signicante, mas um
grupo de variáveis (incluindo esta última) seja conjuntamente insignicante ao utilizar a
estatística F. Além disso, a estatística F para restrições conjuntas incluindo �1 = 0 terá
menos poder para detectar �1 6= 0 que a estatística t.
Outra forma de se medir a estatística F é a sua forma R2.
F =
(SQRr � SQRur) =q
SQRur= (n� k � 1)
Substituindo SQRr = SQT
�
1�R2r
�
e SQRir = SQT
�
1�R2ir
�
acima:
F =
�
SQT
�
1�R2r
�� SQT �1�R2ir�� =q
SQT
�
1�R2ir
�
= (n� k � 1)
F =
�
R2iur �R2r
�
=q�
1�R2ir
�
= (n� k � 1) (17)
44
Agora, podemos vericar que o teste F de signicância global (ou seja, se todos os
coecientes são conjuntamente iguais a zero) é um caso especial do teste F de restrição de
cocientes. A estatística F para signicância geral de uma regressão é baseada na hipótese:
H0 : �1 = ::: = �k = 0
Agora note que R2r = 0, pois y é rodado contra apenas a constante
1. Assim (sendo R2ir =
R2):
F =
R2=k
(1�R2) = (n� k � 1)
Este teste de signicância global (ou geral) da regressão ajuda a testar se o seu mod-
elo está bem especicado. Caso a hipótese nula não seja rejeitada, então nenhum dos
regressores ajudam a explicar y.
Hipóteses de Restrição Linear Geral
Um exemplo:
H0 : �1 = 1; �2 = 0; :::; �4 = 0
A estatística F pode ser computada normalmente, mas não o seu formato R2 (equação
17) logo acima, apenas o primeiro formato mostrado (equação 16), pois as variáveis depen-
dentes dos modelos restritos e irrestritos serão diferentes.
6 Teoria Assintótica do MQO
As propriedades vistas anteriormente se mantém para amostras nitas.
Aqui apresentamos as propriedades assintóticas (de amostra grande ou innita) dos
estimadores e das estatísticas de teste. Assim, por exemplo, mesmo sem a hipótese H.8
(Normalidade), as estatísticas t e F tem aproximadamente distribuições t e F, con-
siderando amostras grandes.
1A rigor, estamos estimando o modelo restrito:
yi = �0 + ui
Logo:
SQE =
X
i
(y^i � �y)2
=
X
i
(�0 � �0)2
= 0
Logo, R2r = 0.
45
6.1 Consistência
A primeira propriedade assimptótica dos estimadores se refere à provável distância que o
estimador ca do parâmetro que ele supostamente estará estimando conforme o tamanho
da amostra cresça indenidamente.
� Denição 36 Um estimador b�n é dito consistente se:
lim
n!1P
����b�n � ���� < "� = 1
i:e:; p limb�n = �
i:e:; b�n p! �
ou seja, se b�n converge em probabilidade para a constante �, que é o seu valor ver-
dadeiro.
(Obs.: Para saber se um estimador é consistente, basta vericar se a LGN se verica
para ele)
Proposição 37 Um estimador b�n é dito consistente se:
lim
n!1E
�b�n� = �
lim
n!1V ar
�b�n� = 0
ou
limEQM
�b�n� = 0
onde EQM
�b�n� = V ar �b�n�+ vi�es2 �b�n�, EQM é o Erro Quadrático Médio.
Cuidado: Consistência do EQM implica consistência do b�n, mas o inverso não é
necessariamente válido.
Teorema 38 Sob as hipóteses H1 a H4, os estimadores MQO são consistentes
Prova. Vamos provar para o caso da RLS:
yi = �0 + �1x1i + ui
46
Retomando:
�^1 = �1 +
X
i
diui
= �1 +
P
i (x1i � �x)uiP
i (x1i � �x)2
�^1 = �1 +
(
P
i (x1i � �x)ui) =n�P
i (x1i � �x)2
�
=n
Calculando o limite da probabilidade (plim):
plim�^1 = plim�1 + plim
24(Pi (x1i � �x)ui) =n�P
i (x1i � �x)2
�
=n
35
plim�^1 = �1 +
plim [(
P
i (x1i � �x)ui) =n]
plim
h�P
i (x1i � �x)2
�
=n
i (plim�XnYn � = plimXnplimYn )
plim�^1 = �1 +
Cov (x1; u)
V ar (x1)
onde, na última igualdade, eu utilizei a Lei dos Grandes Números que implica que o
numerador e denominador convergem para suas expressõespopulacionais. E assim:
plim�^1 = �1
pois pela H.4 V ar (x1) 6= 0 e pela H.3 Cov (x1; u) = 0.
Outra forma de se provar é utilizar a proposição 37 e assim:
lim
n!1E
�
�^1
�
= lim
n!1�1 = �1
lim
n!1V ar
�
�^1
�
= lim
n!1
�2P
i (x1i � �x)2
= lim
n!1
�2
(n� 1)�2x1
= 0 (�2x =
P
i(xi��x)2
n�1 )
onde �2x1 6= 0 pela H.4 e E
�
�^1
�
= �1 pois vale H.3.
H.3: (Média Zero e Correlação Zero): E (u) = 0 e Cov (xj ; u) = 0; para j = 1; :::; k.
Vimos que a hipótese H.3 implica na hipótese H.3, mas não o inverso.
Sob a hipótese acima, é ainda válida a consistência, mas não vale mais a propriedade
"não-viesado"do estimador MQO.
47
Observação 39 Correlação de u com qualquer um dos regressores então os estimadores
MQO de todos os regressores são viesados e inconsistentes.
Observação 40 Mas, por exemplo, se tivermos um modelo com dois regressores x1 e x2,
e se x1 e x2 forem não correlacionados, então qualquer correlação entre x1 e u não resulta
em inconsistência de �^2, apenas no estimador �^1.
Observação 41 No caso de regressão linear simples, teríamos o viés assintótico (in-
consistência) como:
plim�^1 � �1 = Cov (x1; u) =V ar (x1)
6.2 Normalidade Assintótica e Inferência em Amostras Grandes
Teorema 42 (Normalidade Assintótica do MQO): Sob as hipóteses de H1 a H5,
(i)
p
n
�
�^j � �j
�
a� N
�
0; �2=a2j
�
, onde �2=a2j > 0 é a variância assintótica; a
2
j =
plim
�
n�1
Pn
i=1 r^
2
ij
�
, onde o r^ij são os resíduos de regredir xj em outras variáveis inde-
pendentes. Assim, �^j é assintoticamente normalmente distribuído.
(ii) �^2 é um estimador consistente de �2 = V ar (u)
(iii)Para cada j : �
�^j � �j
�
=ep
�
�^j
�
a� N (0; 1)
onde ep(:) é o erro padrão MQO (no qual está incluído a estimativa �^2)
Prova. Provando (i), para o caso de RLS:�
�^1 � �1
�
=
P
i (xi � �x)uiP
i (xi � �x)2
p
n
�
�^1 � �1
�
=
0@ 1P
i(xi��x)2
n
1APi (xi � �x)uip
n
p
n
�
�^1 � �1
�
=
�
1=s2x
� "
n�1=2
X
i
(xi � �x)ui
#
;
onde s2x =
P
i(xi��x)2
n é a variância amostral de xi.
Pela Lei dos Grandes Números(LGN): plim
�
s2x
�
= �2x = V ar (x), a variância polucional
de x. A hipótese H.4 exclui perfeita colinearidade, e então V ar (x) > 0.
48
Note que podemos escrever a expressão dos colchetes como:
n�1=2
X
i
(xi � �x)ui = n�1=2
X
i
(xi � �x+ �� �)ui
= n�1=2
X
i
((xi � �) + (�� �x))ui
= n�1=2
X
i
((xi � �)ui + (�� �x)ui)
= n�1=2
X
i
(xi � �)ui + n�1=2
X
i
(�� �x)ui
= n�1=2
X
i
(xi � �)ui + (�� �x)
"
n�1=2
X
i
ui
#
;
em que � = E (x) é a média populacional de x.
Agora fuigni=1 é uma seqüência de v.a.s i:i:d: com média zero e variância �2, e portanto,
pelo Teorema do Limite Central (TLC): n�1=2
P
i ui
d! N �0; �2�, quando n!1.
Pela LGN: p lim �x = � e logo: p lim (�x� �) = p lim (�x)� p lim (�) = �� � = 0.
Usando uma propriedade da teoria assintótica de que: se p limwn = 0 e zn tem dis-
tribuição normal assintótica.então p limwnzn = 0.
Isso implica que p lim
�
(�� �x) �n�1=2Pi ui�	 = 0.
Agora, note que f(xi � �)uigni=1 é uma seqüência de variáveis aleatórias i:i:d: com
média zero (pois a hipótese H.3 implica que u e x são não correlacionados) e variância
�2�2x, dada hipótese H.5 de homocedasticidade. Média zero pois:
E ((xi � �)ui) = E (xiui)| {z }
=0
� E (�ui)
E ((xi � �)ui) = �E (ui) = 0
E a variância pode ser obtida através de:
V ar ((xi � �)ui) = E [(xi � �)ui]2 �
8<:E [(xi � �)ui]| {z }
=0
9=;
2
= E
h
(xi � �)2 u2i
i
= E
h
(xi � �)2
i
E
�
u2i
�
= �2x�
2
onde na penúltima linha eu utilizei o fato de que x e u são independentes, logo x2 e u2
também são.
Logo, pelo TLC: n�1=2
P
i (xi � �)ui a� N
�
0; �2�2x
�
.
49
Retomando a expressão acima:
n�1=2
X
i
(xi � �x)ui = n�1=2
X
i
(xi � �)ui + (�� �x)
"
n�1=2
X
i
ui
#
;
n�1=2
X
i
(xi � �x)ui � n�1=2
X
i
(xi � �)ui = (�� �x)
"
n�1=2
X
i
ui
#
;
Como o p lim do lado direito é zero como vimos, então o p lim do lado esquerdo também
é zero.
Usando outro resultado da teoria assintótica: se zn tem distribuição normal e p lim (vn � zn) =
0, então vn tem a mesma distribuição normal assintótica que zn.
Aplicando isso à expressão acima temos que: zn =
P
i (xi � �)ui e vn =
P
i (xi � �x)ui,
logo esta tem também distribuição normal assintótica, N
�
0; �2�2x
�
. Assim:
p
n
�
�^1 � �1
�
=
�
1=�2x
� "
n�1=2
X
i
(xi � �x)ui
#
+
��
1=s2x
�� �1=�2x��
"
n�1=2
X
i
(xi � �x)ui
#
p
n
�
�^1 � �1
�
� �1=�2x�
"
n�1=2
X
i
(xi � �x)ui
#
=
��
1=s2x
�� �1=�2x��
"
n�1=2
X
i
(xi � �x)ui
#
Analisando o lado direito, note que p lim
�
1=s2x
�
=
�
1=�2x
�
.
E como
�
n�1=2
P
i (xi � �x)ui
�
tem distribuição assintótica, usamos a propriedade: se
p limwn = 0 e zn tem distribuição normal assintótica.então p limwnzn = 0.
Logo o lado direito tem p lim = 0.
Assim o p lim da diferença do lado esquerdo é zero.
Vimos que
�
n�1=2
P
i (xi � �x)ui
� a� N �0; �2�2x� e portanto:�
1=�2x
� �
n�1=2
P
i (xi � �x)ui
� a� N �0; �2�2x= ��2x�2� = N �0; �2=�2x�.
Usando a propriedade de que: se zn tem distribuição normal e p lim (vn � zn) = 0,
então vn tem a mesma distribuição normal assintótica que zn.
zn =
�
1=�2x
� �
n�1=2
P
i (xi � �x)ui
�
e vn =
p
n
�
�^1 � �1
�
. Logo:
p
n
�
�^1 � �1
�
a� N �0; �2=�2x�
que é o caso da RLS pois a21 = �
2
x, pois xi = 
 + r^i1:�x = 
. Assim: xi � �x = r^i1.
a2j = plim
�
n�1
Pn
i=1 r^
2
ij
�
= plim
�
n�1
Pn
i=1 (xi � �x)2
�
= plim
�
s2x
�
= �2x, onde o r^ij
50
(ii) Vem da LGN.
(iii) Vem de (i) e (ii).
Observação: A normalidade assintótica dos estimadores MQO também implica que a
estatistica F tem distribuição F aproximada em amostras grandes. Mas para isso devem
ser válidas as hipóteses do teorema acima.
6.3 Estatística do Multiplicador de Lagrange (LM)
É outra estatística para testar restrições de exclusão múltiplas. Recebe esse nome pois
provém de um problema de otimização com restrição.
Outro nome para a estatística LM é estatística de escore (score), o qual também é
proveniente da otimização utilizada em cálculo.
Devem ser válidas também as hipóteses de Gauss-Markov (H1 a H5) do teorema acima
para sua derivação. Seja a hipótese nula:
H0 : �k�q+1 = 0; :::; �k = 0
Esta hipótese nula constitui q restrições de exclusão.
A estatística LM requer apenas a estimação do modelo restrito, denido como:
y = ~�0 +
~�1x1 + :::+
~�k�qxk�q + ~u
A idéia do teste é rodar uma regressão dos resíduos desse modelo estimado, b~u, contra
todos os regressores, x1; :::; xk.
Este é um exemplo de uma regressão auxiliar, a qual é utilizada para obter a estatís-
tica do teste.
Assim, se a hipótese nula acima for verdadeira, então o R2~u desta regressão auxiliar
deve ser próximo de zero, porque ~u será aproximadamente não correlacionado com todas
as variáveis independentes. Sob H0; temos:
LM = nR2u � �2q
A estatística LM é também denominada como estatística n�R2.
Observação: Se rodássemos os resíduos restritos apenas contra o conjunto restrito de q
regressores (e não contra todos) obteríamos R2u = 0.
6.4 Eciência Assintótica do MQO
Teorema 43 Sob as hipóteses de H1-H5, os estimadores MQO tem as menores variâncias
assintóticas dentro da classe de estimadores consistentes. Ou seja:
Avar
p
n
�
�^j � �j
�
� Avarpn
�
~�j � �j
�
51
em que, �^j são os estimadores MQO, e ~�j é outro estimador qualquer, consistente.
7 Formas Funcionais da Regressão
Nesta seção trataremos sobre diversas formas funcionais que surgem em trabalhos empíri-
cos.
7.1 FormasFuncionais Logarítmicas
Seja o seguinte modelo:
dlog y = �^0 + �^1 log x1 + �^2x2
Ele é log-log de y em relação a x1 e é log-linear em relação a x2.
�1 mede a elasticidade de y em relação a x1, xado x2. Vejamos porque:
�^1 =
@dlog y
@ log x1
=
@y=y
@x1=x1
=
@y
@x1
x1
y
= "x1y
A interpretação do �^1 é que para um aumento de 1% em x1 temos um aumento de �1%
em y.
Em relação a x2, podemos escrever, mantendo x1 xo:
�^2 =
@dlog y
@x2
Se x2 varia discretamente:
�dlog y = �^2�x2
Para termos a medida em termos da mudança percentual exata:
�dlog y = log y1 � log y0 = �^2�x2
log
y1
y0
= �^2�x2
e
log
y1
y0 = e�^2�x2
y1
y0
� 1 = e�^2�x2 � 1
y1 � y0
y0
= �y% = 100
h
e�^2�x2 � 1
i
52
onde a multiplicação por 100 transforma a mudança proporcional em mudança per-
centual.
Quando �x2 = 1 :
%�^y = 100
h
e�^2 � 1
i
Assim, �^2 pode ser interpretado como: um aumento de uma unidade em x2 dá um
aumento exato de 100
h
exp
�
�^2
�
� 1
i
% em y.
Uma medida aproximada, para uma mudança pequena em x2 seria 100�^2%. Este
coeciente é, às vezes, denominado como semi-elasticidade.
Observação:
h
exp
�
�^2
�
� 1
i
não é um estimador não-viesado devido à função não-linear
exp (:), pois o operador esperança não passa diretamente nesta função, mas é um estimador
consistente.
Outras vantagens de se usar o log tanto nas variáveis dependente e independentes:
1. Além da interpretação econômica, quando, y > 0, suas distribuições condicionais
geralmente são heterocedásticas ou assimétricas, tomando o log podemos reduzir ou elim-
inar estes problemas, ao suavizar tais séries.
2. Reduz o impacto de outliers (ou valores extremos), pois reduz o intervalo de domínio
das variáveis.
3. É o artifício mais comum em econometria para permitir relações não-lineares entre
a variável dependente e as independentes.
7.2 Formas Funcionais Quadráticas
As funções quadráticas são bastante usadas para capturar efeitos marginais crescentes ou
decrescentes de algum regressor sobre a variável dependente.
Assim, seja o seguinte modelo:
y^ = �^0 + �^1x+ �^2x
2
O efeito de x em y será:
@y^
@x
= �^1 + 2�^2
Para variações discretas em x, teremos a seguinte aproximação:
�^y �
�
�^1 + 2�^2x
�
�x
�^y=�x �
�
�^1 + 2�^2x
�
�^1 é interpretado como o impacto de x partir de 0 para 1:
53
Quando o coeciente de x é positivo e o coeciente de x2 é negativo, a função quadrática,de
y em relação a x, tem um formato côncavo.
7.3 Formas Funcionais com Termos de Interação
Muitas vezes o efeito parcial de um regressor sobre y pode depender do valor de outro
regressor:
y = �0 + �1x1 + �2x2 + �3x1x2 + u
Note que
@y
@x2
= �2 + �3x1
Assim, �2 é o efeito parcial de x2 quando x1 = 0. Mas, muitas vezes, queremos saber
o impacto para outros valores de x1.
Assim, podemos reparametrizar o modelo:
y = �0 + �1x1 + �2x2 + �3 (x1 � �1) (x2 � �2) + u
onde �1 e �2 são as médias populacionais de x1 e x2.
Podemos vericar a relação entre os parâmetros deste modelo com o do modelo acima.
Rearrumando:
y = �0 + �1x1 + �2x2 + �3x1x2 � �3x1�2 � �3x2�1 + �3�1�2 + u
y = (�0 + �3�1�2)| {z }
=�0
+ (�1 � �3�2)| {z }
=�1
x1 + (�2 � �3�1)| {z }
=�2
x2 + �3x1x2 + u
Assim:
�0 = �0 � �3�1�2
�1 = �1 + �3�2
�2 = �1 + �3�1
Agora o coeciente �2 = �2 + �3�1, mede o efeito parcial de x2 sobre y no valor médio
de x1, i.e., quando x1 = �1.
Na prática, as médias populacionais podem ser substituídas pelas médias amostrais.
54
7.4 Adicionando Regressores para Reduzir a Variância do Erro
A adição à regressão de certos regressores pode aumentar o problema de multicolinearidade.
Mas é sempre bom adicionar variáveis que afetam y e que são não-correlacionadas
com todos os outros regressores, e assim, não induzindo multicolinearidade e reduzirá a
variância do erro. Em amostras grandes, os erros padrões de todos estimadores MQO
serão reduzidos.
Para notar isso, veja que:
V ar
�b�j� = �2
SQTj
�
1�R2j
�
Se adicionamos um regressor novo, teremos um componente a menos no erro, u, e
portanto, �2 se reduz. E se esse novo regressor for não correlacionado com os outros
regressores, então o R2j de algum regressor xj que já estava incluído na regressão antes,
não será afetado.
7.5 Variáveis Binárias (ou Dummy) como Variáveis Explicativas
Tais variáveis transforma informações qualitativas em informações quantitativas.
Mudança de Intercepto
yi = �0 + �1xi + ui
E (yijxi) = �0 + �1xi + E (uijxi)| {z }
=0
E (yijxi) = �0 + �1xi
Suponha que tenhamos a seguinte variável dummy:
Di =
�
1; se mulher
0; se homem
Incluindo essa variável no modelo acima de forma aditiva:
yi = �0 + �1xi + �2Di + ui
Tomando a esperança condicional:
E (yijxi; Di = 1) = �0 + �1xi + �2 = (�0 + �2) + �1xi
E (yijxi; Di = 0) = �0 + �1xi
55
Assim:
�2 = E (yijxi; Di = 1)� E (yijxi; Di = 0)
Gracamente:
Gr�afico
Assim, ao incluirmos a dummy ao modelo de forma aditiva, ela atua como uma mudança
de intercepto.
Observação 44 A variável dummy é uma variável discreta. Logo, ela não é diferenciável
e não podemos calcular @y@D . Assim ela não pode ser interpretada como as demais variáveis.
Mudança de Inclinação
yi = �0 + �1xi + ui
Podemos incluir a dummy de forma multiplicativa, ou seja:
yi = �0 + �1xi + �3xiDi + ui
ou seja, a dummy entra como um termo de interação com a variável explicativa. Assim:
E (yijxi; Di = 1) = �0 + �1xi + �3xi = �0 + (�1 + �3)xi
E (yijxi; Di = 0) = �0 + �1xi
Gracamente:
Gr�afico
Assim, ao incluirmos a dummy ao modelo de forma multiplicativa, ela atua como uma
mudança de inclinação.
Mudança de Intercepto e Inclinação A dummy pode entrar simultaneamente de
forma aditiva e multiplicativa:
yi = �0 + �1xi + �2Di + �3xiDi + ui
Assim:
E (yijxi; Di = 1) = (�0 + �2) + (�1 + �3)xi
E (yijxi; Di = 0) = �0 + �1xi
Gracamente:
Gr�afico
56
Dummies Múltiplas Quando temos categorias variadas, entramos com N�1 categorias
no modelo.
Isso para que a categoria excluída seja a base de comparação, pois se colocar N cate-
gorias as colunas das dummies serão uma combinação linear com a coluna do intercepto, e
assim violaremos a hipótese H.4, pois como posto (X) = posto (X 0X) e a matriz X 0X não
será invertível.
Um bom exemplo deste caso é quando temos a variável categórica raça:
raça =
8>>>><>>>>:
1; branco
2; negro
3; pardo
4; amarelo
5; ind�{gena
Assim, podemos ter uma dummy para cada raça, ou seja:
D1i =
�
1; se branco
0; se c.c.
D2i =
�
1; se negro
0; se c.c.
D3i =
�
1; se pardo
0; se c.c.
D4i =
�
1; se amarelo
0; se c.c.
D5i =
�
1; se indígena
0; se c.c.
Assim, podemos ter o seguinte modelo:
yi = �0 + �1xi + �2D1i + �3D2i + �4D3i + �5D4i + (�6D5i) + ui
Devemos retirar uma das dummies. Se retirarmos D5i, teremos as interpretações em
termos do grupo base indígena.
Se por exemplo y é ln (sal�ario), então �2 mede o quanto que os brancos ganham, em
termos percentuais, a mais (ou a menos) que os indígenas.
Observação 45 Assim para evitar o problema de colinearidade perfeita (aqui denominado
como dummy trap na literatura) podemos:
i) Manter o intercepto e eliminar uma categoria;
ii) Manter todas as categorias e eliminar o intercepto. Neste caso, não teremos grupo
de comparação.
Para o exemplo acima, os coecientes vão indicar apenas o salário médio para cada
raça.
57
7.5.1 Testando para Diferenças em Funções de Regressões de Grupos difer-
entes (Teste de Quebra Estrutural ou Teste de Chow)
Podemos testar se dois grupos seguem a mesma função de regressão, contra a hipótese
alternativa de que pelo menos um coeciente de inclinação seja diferente entre os grupos.
No modelo geral com k variáveis explicativas e um intercepto, suponha que existam2
grupos, g = 1 (por exemplo, homens) e g = 2.(por exemplo, mulheres)
A hipótese nula seria se o intercepto e todas as inclinações são as mesmas entre os dois
grupos.
Seja o modelo:
y = �g;0 + �g;1x1 + :::+ �g;kxk + u
A hipótese nula envolve que cada beta da equação seja o mesmo entre os dois grupos e
assim, inclui k + 1 restrições.
O modelo irrestrito, tem além do intercepto e as variáveis explicativas, uma variável
dummy de grupo e k termos adicionais de interação entre esta dummy e as variáveis
explicativas.
Exemplo 46 Para se construir um teste F , deste tipo precisamos do SQRir, do modelo
irrestrito. Ele pode ser obtido de duas regressões separadas para cada grupo, que denotamos
por: SQR1 e SQR2, tal que: SQRir = SSR1 + SSR2. Para se obter o SQR do modelo
restrito, é obtido do SQR oriundo do empilhamento (pooling) dos grupos e estimação de
uma equação simples (como a equação acima); que será denominado SQRp = SQRr Assim,
a estatística F será:
FCHOW =
[SSRP � (SSR1 + SSR2)] =k + 1
(SSR1 + SSR2) = [n� 2 (k + 1)]
FCHOW =
[SSRP � SQRir] =k + 1
SQRir= [n� 2 (k + 1)]
Esta estatística F é denominada de estatística de Chow. Como é um teste F, será
válido apenas sob a hipótese de homocedasticidade.
Sob H0, as variâncias dos erros para os dois grupos devem ser iguais.
Exemplo 47 Vejamos um exemplo para car mais claro. Sejam dois grupos: homens e
mulheres. O modelo para cada parte da amostra é:
lnwi = �h;0 + �h;1 exp+�h;2 exp
2+�h;3educ+ uh;i (18)
lnwi = �m;0 + �m;1 exp+�m;2 exp
2+�m;3educ+ um;i (19)
ou seja, temos o modelo para cada grupo (h = homens, m = mulheres)
Assim, a hipótese nula é:
H0 : �h;0 = �m;0; �h;1 = �m;1; �h;2 = �m;2; �h;3 = �m;3
58
Podemos obter o SQRir, estimando estes dois modelos e somando os SQRs, tal que:
SQRir = SQRh + SQRm. E obtemos o SQRr empilhando as duas amostras (homens e
mulheres) e estimando o modelo acima. E, portanto, obtendo:
FCHOW =
[SSRr � SQRir] =k + 1
SQRr= [n� 2 (k + 1)]
onde k+1 = 4 é o número de coecientes ou restrições na hipótese nula (ou k número
de regressores). O termo 2 (k + 1) = 8, é o número total de regressores do modelo (18)
mais o total do modelo (19).
Uma outra forma é estimar o modelo irrestrito do seguinte modo:
lnwi = �0 + �1 exp+�2 exp
2+�3educ (20)
+�4Di + �5Di exp+�6Di exp
2+�7Dieduc+ ui (21)
para toda a amostra, onde Di = 1 se mulher e 0, c.c.
E estimar o modelo restrito (também considerando toda a amostra):
lnwi = �0 + �1 exp+�2 exp
2+�3educ+ ui
Agora podemos computar a estatística F no formato R2:
FCHOW =
�
R2ir �R2r
�
=k + 1�
1�R2ir
�
= [n� 2 (k + 1)]
Assim, queremos testar se há alguma quebra no comportamento do salário (wi) com a
inclusão da variável dummy Di (gênero).
Ou seja, se há estabilidade do modelo entre as condições da variável dummy.
O teste é vantajoso pois roda-se somente duas regressões. E através da estatística t
(para o modelo (20)) podemos testar individualmente a signicância, para identicar onde
pode ter ocorrido a origem da quebra.
Observação 48 Não existe o formato R2 do teste, como tem para o teste F padrão.
Observação 49 Um teste F padrão poderia ser aplicado diretamente no modelo irrestrito.
O teste de Chow é apenas um modo mais fácil de computar a estatística do teste.
Observação 50 Se fosse aplicado o teste F padrão, então poder-se-ia usar o formato R2
do teste visto anteriormente.
Observação 51 Como veremos em seção posterior, este teste é muito aplicado em séries
temporais. Por exemplo, será que houve uma queda abrupta no nível de emprego do país
na época da desvalorização cambial, em 1998?
59
7.6 Exemplos
Vamos apresentar um exemplo, no qual tentamos explicar a taxa de divórcio das regiões
brasileiras de 1992 até 2004, através do seguinte modelo:
TXDIV = �0 + �1UN_H + �2DUMFILHO_6 + �3EST_M
+�4METRO + �5RAZTO +
20P
i=1
�5+iDi
em que:
TXDIV =número de divórcios da região/ número de casais da região
UN_H =taxa de desemprego entre homens casados
DUMFILHO_6 =% de casais com lhos menores ou iguais a 6 anos.
EST_M = média de anos de estudo das mulheres
METRO =% dos casais que residem em áreas metropolitanas
RAZTOT_ =média da renda total das mulheres casadas / renda total dos homens
casados
D1 = 1, se é da região 1, e assim sucessivamente. Desconsideramos a D21 que é Distrito
Federal.
Abaixo notamos algumas estatísticas para a taxa de divórcio.
0
4
8
12
16
20
24
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
Series: TXDIV
Sample 1 230
Observations 230
Mean 0.331642
Median 0.301763
Maximum 0.933564
Minimum 0.083382
Std. Dev. 0.164093
Skewness 1.312002
Kurtosis 5.077868
Jarque-Bera 107.3614
Probability 0.000000
60
E fomos estimando a regressão incluindo regressor por regressor:
Dependent Variable: TXDIV
Method: Least Squares
Date: 04/06/09 Time: 19:53
Sample: 1 230
Included observations: 230
Variable Coefficient Std. Error t-Statistic Prob.
C 0.147038 0.027725 5.303406 0.0000
UN_H 5.603627 0.787174 7.118666 0.0000
R-squared 0.181844 Mean dependent var 0.331642
Adjusted R-squared 0.178255 S.D. dependent var 0.164093
S.E. of regression 0.148750 Akaike info criterion -0.964436
Sum squared resid 5.044884 Schwarz criterion -0.934540
Log likelihood 112.9102 Hannan-Quinn criter. -0.952377
F-statistic 50.67540 Durbin-Watson stat 1.667461
Prob(F-statistic) 0.000000
Dependent Variable: TXDIV
Method: Least Squares
Date: 04/06/09 Time: 19:53
Sample: 1 230
Included observations: 230
Variable Coefficient Std. Error t-Statistic Prob.
C 0.350212 0.084823 4.128736 0.0001
UN_H 5.076550 0.805394 6.303187 0.0000
DUMFILHO6_ -0.469872 0.185649 -2.530976 0.0121
R-squared 0.204298 Mean dependent var 0.331642
Adjusted R-squared 0.197288 S.D. dependent var 0.164093
S.E. of regression 0.147018 Akaike info criterion -0.983569
Sum squared resid 4.906426 Schwarz criterion -0.938725
Log likelihood 116.1105 Hannan-Quinn criter. -0.965480
F-statistic 29.14137 Durbin-Watson stat 1.813635
Prob(F-statistic) 0.000000
61
Dependent Variable: TXDIV
Method: Least Squares
Date: 04/06/09 Time: 19:55
Sample: 1 230
Included observations: 230
Variable Coefficient Std. Error t-Statistic Prob.
C -0.901999 0.105343 -8.562474 0.0000
UN_H 2.550928 0.604712 4.218416 0.0000
DUMFILHO6_ 1.172725 0.174711 6.712368 0.0000
EST_M_ 0.126722 0.008690 14.58249 0.0000
R-squared 0.590040 Mean dependent var 0.331642
Adjusted R-squared 0.584598 S.D. dependent var 0.164093
S.E. of regression 0.105761 Akaike info criterion -1.638038
Sum squared resid 2.527881 Schwarz criterion -1.578245
Log likelihood 192.3744 Hannan-Quinn criter. -1.613919
F-statistic 108.4243 Durbin-Watson stat 2.492009
Prob(F-statistic) 0.000000
Dependent Variable: TXDIV
Method: Least Squares
Date: 04/06/09 Time: 19:57
Sample: 1 230
Included observations: 230
Variable Coefficient Std. Error t-Statistic Prob.
C -1.118014 0.112668 -9.923100 0.0000
UN_H 3.278350 0.604876 5.419870 0.0000
DUMFILHO6_ 1.400383 0.175894 7.961528 0.0000
EST_M_ 0.150600 0.009976 15.09674 0.0000
METRO_ -0.142995 0.032601 -4.386142 0.0000
R-squared 0.622332 Mean dependent var 0.331642
Adjusted R-squared 0.615618 S.D. dependent var 0.164093
S.E. of regression 0.101735 Akaike info criterion -1.711386
Sum squared resid 2.328764 Schwarz criterion -1.636645
Log likelihood 201.8094 Hannan-Quinn criter. -1.681237
F-statistic 92.69020 Durbin-Watson stat 2.354119
Prob(F-statistic) 0.000000
62
Dependent Variable: TXDIV
Method: Least Squares
Date: 04/06/09 Time: 19:59
Sample: 1 230
Included observations: 230
Variable Coefficient Std. Error t-Statistic Prob.
C -1.154873 0.125788 -9.181073 0.0000
UN_H 3.217708 0.612514 5.253284 0.0000
DUMFILHO6_ 1.438220 0.185147 7.767993 0.0000
EST_M_ 0.151157 0.010023 15.08031 0.0000
METRO_ -0.143395 0.032648 -4.392168 0.0000
RAZTOT_