Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

Lecture Notes - Econometria
Prof. Rodrigo Moura
rodrigoleandro@gmail.com
IBRE/FGV
Primeira Versão: 19/06/2009
Versão Atual: 20/03/2012
Sumário
1 Introdução 3
1.1 Tipos de Dados: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Casualidade 6= Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Dados Experimentais x Dados Não-Experimentais . . . . . . . . . . . . . . 4
2 Regressão Linear Simples (RLS) 5
2.1 Método de Mínimos Quadrados (MQO ou Ordinary Least Squares - OLS) . 6
2.2 O Coeficiente de Determinação: RLS . . . . . . . . . . . . . . . . . . . . . . 10
3 Hipóteses do Modelo Clássico de Regressão Linear (MCRL) 12
4 Regressão Linear Múltipla (RLM) 27
4.1 Geometria do MQO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.2 Coeficiente de Determinação (R2): Regressão Múltipla . . . . . . . . . . . . 31
4.3 Propriedades dos EMQ: Regressão Múltipla . . . . . . . . . . . . . . . . . . 33
5 Inferência Estatística 37
5.1 O Teste t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.2 Testes de Restrições Lineares Múltiplas: O Teste F . . . . . . . . . . . . . . 46
6 Teoria Assintótica do MQO 51
6.1 Consistência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
6.2 Normalidade Assintótica e Inferência em Amostras Grandes . . . . . . . . . 53
6.3 Estatística do Multiplicador de Lagrange (LM) . . . . . . . . . . . . . . . . 54
1
7 Formas Funcionais da Regressão 55
7.1 Formas Funcionais Logarítmicas . . . . . . . . . . . . . . . . . . . . . . . . 55
7.2 Formas Funcionais Quadráticas . . . . . . . . . . . . . . . . . . . . . . . . . 57
7.3 Formas Funcionais com Termos de Interação . . . . . . . . . . . . . . . . . . 59
7.4 Adicionando Regressores para Reduzir a Variância do Erro . . . . . . . . . 60
7.5 Variáveis Binárias (ou Dummy) como Variáveis Explicativas . . . . . . . . . 61
7.5.1 Testando para Diferenças em Funções de Regressões de Gru-
pos diferentes (Teste de Quebra Estrutural ou Teste de Chow) 65
8 Multicolinearidade 68
8.1 O que é Multicolinearidade? . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
8.2 Como detectar multicolinearidade? . . . . . . . . . . . . . . . . . . . . . . . 70
8.3 Como corrigir Multicolinearidade? . . . . . . . . . . . . . . . . . . . . . . . 72
9 Heterocedasticidade 74
10 Mais sobre Problemas nos Dados e na Especificação 82
10.1 Má especificação da Forma Funcional . . . . . . . . . . . . . . . . . . . . . . 82
10.2 Usando Variáveis Proxy para Variáveis Explicativas Não-Observadas . . . . 84
10.3 Propriedades de MQO sob Erro de Medida . . . . . . . . . . . . . . . 84
11 Endogeneidade 88
11.1 Estimação por Variáveis Instrumentais (VI ou IV) em RLS . . . . . . . . . 91
11.2 Estimação de VI em RLM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
11.3 Mínimos Quadrados de 2 Estágios (2SLS ou MQ2E) . . . . . . . . . . . . . 94
11.4 Testes para Endogeneidade e Restrições de Sobreidentificação . . . . . . . . 96
12 Equações Simultâneas 98
13 Máxima Verossimilhança 108
13.1 Testes baseados na verossimilhança . . . . . . . . . . . . . . . . . . . . . . . 115
13.1.1 Teste LR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
13.1.2 Teste de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
13.1.3 Teste LM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
14 Variável dependente binária 116
14.1 Modelo de Probabilidade Linear (MPL) . . . . . . . . . . . . . . . . . . . . 116
14.1.1 Modelos de Probabilidade Não-Linear: Probit e Logit . . . . . . . . 118
14.2 Estimação por Máxima Verossimilhança . . . . . . . . . . . . . . . . . . . . 120
2
1 Introdução
A Econometria tem a finalidade de responder questôes econômicas. Nosso interesse pode
estar em identificar e mensurar uma relação de causalidade entre duas variáveis. Como
exemplos, podemos citar:
1. Testes de validação de teorias econômicas
2. Avaliação de Políticas Públicas
3. Previsão (PIB, inflação, retorno de ativos financeiros etc)
4. Construção e interpretação de modelos estruturais
1.1 Tipos de Dados:
Cross-Section (Corte Transversal) - Microeconometria
Fixo uma unidade temporal e vari os dados no espaço
Por exemplo, a PNAD (Pesquisa Nacional por Amostra
e Domicílios) é uma base com dados em cross-section
pois aplica um questionário para uma amostra de
pessoas em um dado ano.
Séries Temporais - Macroeconometria
Fixo um espaço e vario os dados ao longo do tempo
Por exemplo, o IPEAData é uma base que coleta o
PIB a cada ano (ou trimestralmente).
Painel = Cross-Section + Séries Temporais
Os dados variam no espaço e ao longo do tempo.
Por exemplo, a PME (Pesquisa Mensal do Emprego) é uma base a qual segue
o mesmo domícilio por alguns meses coletando informações sobre mercado de trabalho.
1.2 Casualidade 6= Correlação
Gráfico
PIB = f (temperatura média do asfalto das rodovias)
Podemos encontrar alguma correlação, mas é completamente desprovida de alguma
casualidade.
3
Buscaremos modelar o comportamento médio. Então devemos tomar cuidado com as
observações com valores muito altos ou muito baixos (denominadas outliers). Por exemplo,
na PNAD existe a variável renda com valor 999.999.999 que se refere a valor ignorado e,
portanto, deve ter seu valor alterado para missing. Ou ainda, indivíduos com renda muito
alta (R$1.000.000) ou muito baixa (R$10) podem ser retirados da amostra pois podem
viesar o resultado. Podemos restringir a amostra para, por exemplo, indivíduos que ganham
entre 0.5*Salários Mínimos e 100*Salários Mínimos.
Mas nem sempre os métodos econométricos geram estimativas providas de causalidade.
Na seção seguinte veremos uma breve discussão sobre este ponto.
1.3 Dados Experimentais x Dados Não-Experimentais
Suponha que desejamos inferir uma relação causal entre educação e salários:
w = f(educ)
Espera-se que um maior nível educacional gere um maior nível salarial. Assim, neces-
sitamos coletar dados para inferir que educ causa w.
Podemos ter dois tipos de dados:
1. Dados Experimentais: geralmente coletados em ambientes de laboratório nas ciências
naturais. Nas ciências sociais (como por exemplo, na Economia) tal coleta é muito
difícil.
No exemplo acima, é como se aleatoriamente atribuíssemos um nível educacional para
cada pessoa independemente de outras características da mesma.
2. Dados Não-Experimentais: geralmente coletados através de questionários aplicados
aos agentes (indivíduos, firmas etc). Aqui, é importante isolar o efeito de educ de
outros potenciais fatores que afetam salário.
Por exemplo, pessoas podem ganhar um nível salarial maior pois têm uma maior
idade (ou experiência) ou por serem do sexo masculino.
Logo, a idéia é incluir fatores que afetam também o salário e assim medir isoladamente
(ceteris paribus) o impacto de educ em w.
No entanto, existem fatores não-observáveis que podem gerar dúvida se estamos
realmente medindo um efeito causal de educ sobre w. Por exemplo, habilidade do
indivíduo é um fator que varia com educ. Ou seja, indivíduos com maior nível de
habilidade tendem a ter um maior nível educacional e consequentemente um maior
w. Logo não seria (totalmente) educ que gera um maior w e sim (parcialmente) as
habilidades intrínsecas do indivíduo.
4
2 Regressão Linear Simples (RLS)
Seja o seguinte modelo:
yi = α+ βxi + ui
onde yi é salário, xi é educação. Este é um modelo de regressão linear simples.
Mas podemos ter outra variáveis que afetam yi? Então vamos adicionar mais variáveis
ao modelo:
yi = α+ β1x1i + β2x2i + β3x3i + ui
onde, x1i é educação, x2i é genêro e x3i é idade do indivíduo.
Nesta seção trataremos do primeiro modelo e na seção seguinte do segundo.
Então:
yi = α+ βxi + ui
onde,
α = intercepto;
β =coeficiente angular;
y =variável dependente (ou explicada, regredida, de resposta, controlada)
x =variável independente (ou explicativa, regressor, de controle)
u =erro, medida da ignorância
Suponha o seguinte modelo:
y = α+ βx+ u
onde α e βsão os parâmetros (coeficientes) verdadeiros.
Função de regressão Populacional (FRP): yi = α+ βxi + ui
α, β são desconhecidos, mas supomos que existem. Assim a FRP é algo fixo, mas
desconhecido, na população de interesse.
A partir de dados de uma amostra estimaremos α e β, sendo α̂ é um estimador de α e
β̂ é um estimador de β.
São estimadores não-viesados: E (α̂) = α, E
(
β̂
)
= β.
Entre os estimadores não-viesados, sobressaem-se os estimadores com menor variância.
Gráfico
Função de Regressão Amostral (FRA): yi = α̂+ β̂xi + ûi
Necessitamos de uma amostra da população para estimar α e β.
Então α̂ e β̂ são os parâmetros estimados a partir de uma amostra.
E ûi é o resíduo.
Assim FRA é a versão estimada da FRP.
Veremos o método mais tradicional para estimar tais parâmetros na subseção seguinte.
5
2.1 Método de Mínimos Quadrados (MQO ou Ordinary Least Squares -
OLS)
Seja o modelo:
yi = α̂+ β̂xi︸ ︷︷ ︸
ŷi
+ ûi
onde ŷi é o yi predito, previsto ou porção explicada e ûi é o resíduo.
Gráfico
Qual critério devo utilizar para obter os estimadores?
Podemos minimizar:
1. Soma dos Erros: Não é um bom critério pois pode anular positivos e negativos.
2. Soma Absoluta dos Resíduos: Gera um estimador pouco utilizado denominado LAD
(Least Absolute Deviations)
3. Soma do Quadrado dos Erros: Tem propriedades estatísticas (que veremos adiante)
que o tornam bastante atrativo.
Então, devemos resolver o seguinte problema de minimização:
min
{α̂,β̂}
n∑
i=1
û2
i = min
{α̂,β̂}
n∑
i=1
(
yi − α̂− β̂xi
)2
As CPOs serão:
α̂ : −2
∑
i
(
yi − α̂− β̂xi
)
= 0 =⇒
∑
i
ûi = 0
Esta CPO nos mostra que a escolha do intercepto ótimo implica que a soma dos resíduos
será zero.
Continuando com esta CPO: ∑
i
(
yi − α̂− β̂xi
)
= 0∑
i
yi −
∑
i
α̂−
∑
i
β̂xi = 0
nȳ − nα̂− β̂nx̄ = 0
α̂MQO = ȳ − β̂x̄ (1)
Este é o estimador de Mínimos Quadrados Ordinários do intercepto (α).
6
Exercício 1 Prove que, em um modelo com intercepto, a reta da regressão (ŷ) sempre
passa pelo ponto médio (x̄, ȳ).
Obtendo a CPO para β̂:
β̂ : −2
∑
i
(
yi − α̂− β̂xi
)
xi = 0 =⇒
∑
i
ûixi = 0 (2)
Esta CPO nos mostra que a correlação entre o resíduo ûi e xi é nula.
Observação 2 Podemos notar isso mais claramente se minimizarmos o modelo em termos
de desvios da média, ou seja:
yi = α+ βxi + ui
Tomando a média, teremos:
ȳ = α+ βx̄+ ū
Tomando a diferença entre as duas equações acima:
yi − ȳ = β (xi − x̄) + (ui − ū)
y∗i = βx∗i + u∗i
onde, o sobrescrito * indica que a variável está especificada em termos de desvios da
média. Assim: minimizando:
min
β̂
n∑
i=1
û∗2i = min
β̂
n∑
i=1
(y∗i − βx∗i )
2
obtemos na derivação do β̂ :
−2
∑
i
(
y∗i − β̂x∗i
)
x∗i = 0 =⇒
∑
i
ûix
∗
i = 0
Dividindo a última expressão por n− 1 (considerando n > 1), teremos:∑
i ûi (xi − x̄)
n− 1
= Cov (ûi, xi) = 0
Ou de forma mais simples ainda, retome a CPO da equação (2) e note que:∑
i
ûixi = 0∑
i
ûixi −
∑
i
ûi = 0
7
que não altera em nada a expressão, pois como vimos
∑
i ûi = 0. Multiplicando pela
constante x̄: ∑
i
ûixi − x̄
∑
i
ûi = 0∑
i
ûi (xi − x̄) = 0
Dividindo por n− 1: ∑
i ûi (xi − x̄)
n− 1
= Cov (ûi, xi) = 0
Retomando a CPO (2) do β̂, temos que:∑
i
(
yi − α̂− β̂xi
)
xi = 0∑
i
yixi −
∑
i
α̂xi −
∑
i
β̂x2
i = 0∑
i
yixi = α̂
∑
i
xi + β̂
∑
i
x2
i∑
i
yixi =
(
ȳ − β̂x̄
)∑
i
xi + β̂
∑
i
x2
i (
[
α̂ = ȳ − β̂x̄
]
)
∑
i
yixi = ȳ
∑
i
xi + β̂
(∑
i
x2
i − x̄
∑
i
xi
)
β̂MQO =
∑
i yixi − ȳ
∑
i xi(∑
i x
2
i − x̄
∑
i xi
)
Podemos escrever este estimador também de uma forma diferente. O denominador
8
pode ser escrito como:∑
i
(xi − x̄)2 =
∑
i
(
x2
i − 2xix̄+ x̄2
)
=
∑
i
x2
i −
∑
i
2xix̄+
∑
i
x̄2
=
∑
i
x2
i − 2x̄
∑
i
xi + nx̄2
=
∑
i
x2
i − 2x̄nx̄+ nx̄2
=
∑
i
x2
i − nx̄2
=
∑
i
x2
i − x̄nx̄
=
∑
i
x2
i − x̄
∑
i
xi
E o numerador pode ser escrito como:∑
i
(xi − x̄) (yi − ȳ) =
∑
i
(xi − x̄) yi −
∑
i
(xi − x̄) ȳ
=
∑
i
(xi − x̄) yi − ȳ
∑
i
(xi − x̄)︸ ︷︷ ︸
=
∑
i xi −
∑
i x̄
= nx̄− nx̄ = 0
=
∑
i
xiyi −
∑
i
x̄yi =
∑
i
yixi − x̄
∑
i
yi
=
∑
i
yixi −
∑
i xi
n
∑
i yi
=
∑
i
yixi −
∑
i
xiȳ =
∑
i
yixi − ȳ
∑
i
xi
Assim, o estimador MQO do β pode ser escrito como:
β̂MQO =
∑
i (xi − x̄) (yi − ȳ)∑
i (xi − x̄)2
Exercício 3 Obtenha o estimador MQO do β a partir do modelo exposto na 2, ou seja,
continue a partir da CPO do problema já derivada.
9
O estimador MQO acima pode ser escrito também de outra forma usual; basta dividir
o numerador e denominador por n− 1 e assim:
β̂MQO =
∑
i (xi − x̄) (yi − ȳ) /n− 1∑
i (xi − x̄)2 /n− 1
=
Cov (x, y)
V ar (x)
Exercício 4 Faça a Condição de Segunda Ordem (CSO) e mostre que o problema de
minimização da soma do quadrado dos resíduos resulta realmente em um mínimo. Dica=
monte a matriz hessiana e mostre que o determinante é positivo).
2.2 O Coeficiente de Determinação: RLS
Existe alguma medida que me mostre se o meu modelo tem um bom poder preditivo?
Ou seja, se o regressor(es) (x) que eu inclui no meu modelo explica(m) bem a variável
dependente (y).
Seja a FRA:
yi = α̂+ β̂xi︸ ︷︷ ︸
ŷi
+ ûi
Tomando a média:
ȳ = ŷi
Assim, ambas as médias são iguais. Subtraindo ȳ dos dois lados da FRA:
(yi − ȳ) = (ŷi − ȳ) + ûi
y∗i = ŷ∗i + ûi
onde o sobrescrito * indica que a variável está especificada em termos de desvios em
relação à média. Assim temos:
y∗i = ŷ∗i + ûi
Elevando ao quadrado:
(y∗i )
2 = (ŷ∗i )
2 + 2ŷ∗i ûi + û2
i
Somando a expressão para todas as observações da amostra:∑
i
(y∗i )
2 =
∑
i
(ŷ∗i )
2 + 2
∑
i
ŷ∗i ûi +
∑
i
û2
i
Note que:
∑
i ŷ
∗
i ûi =
∑
i
(
α̂+ β̂x∗i
)
ûi = α̂
∑
i ûi + β̂
∑
i x
∗
i ûi = 0. Os dois termos são
iguais a zero e vem das CPOs do α e do β (2). Assim:∑
i
(y∗i )
2 =
∑
i
(ŷ∗i )
2 +
∑
i
û2
i
10
onde: ∑
i
(y∗i )
2 = Soma dos Quadrados Totais (SQT)∑
i
(ŷ∗i )
2 = Soma dos Quadrados Explicados (SQE)∑
i
û2
i = Soma dos Quadrados dos Resíduos (SQR)
Assim:
SQT = SQE + SQR
Dividindo a expressão por SQT , teremos:
1 =
SQE
SQT︸ ︷︷ ︸
R2
+
SQR
SQT
OR2 mede o quanto da variação da variável dependente pode ser explicado pela variação
do regressor. Assim:
R2 =
SQE
SQT
= 1− SQR
SQT
R2 =
∑
i (ŷ∗i )
2∑
i (y∗i )
2 =
∑n
i=1 (ŷi − ȳ)2∑n
i=1 (yi − ȳ)2 = 1−
∑
i û
2
i∑n
i=1 (yi − ȳ)2
onde R2 ∈ [0, 1].
Observação 5 Esta expressão é válida apenas se o intercepto é íncluído no modelo. Caso
contrário, o R2 não pode ser mais utilizado pois não necessariamente ele estará no intervalo
[0, 1], podendo inclusive ser negativo. Sem intercepto, estamos forçando o modelo partir
da origem. Se o valor verdadeiro do intercepto, α, for diferente de zero, então β̃ será um
estimador viesado de β.
Exercício 6 Prove que no modelo sem intercepto o R2 não estará necessariamente no
intervalo [0, 1].
Exercício 7 Mostre que no modelo com intercepto: yi = α̂+β̂xi+ûi, o R2 = [corr (x, y)]2.
11
3 Hipóteses doModelo Clássico de Regressão Linear (MCRL)
Hipótese 1 (Linearidade dos Parâmetros) A relação entre a variável dependente y e
as explicativas x1, ...., xk é linear:
y1 = β0 + β1x1i + ...+ βkxki + ui
Definição 8 Um modelo de regressão é linear nos parâmetros se as CPOs associadas ao
problema de obtenção dos EMQ (Estimadores de MQO) gerarem um sistema linear nos
parâmetros.
Exemplo 9 Seja o seguinte modelo:
yi = α+ βxi + ui
Assim, o problema de minimização será:
min
α̂,β̂
∑
i
(
yi − α̂− β̂xi
)2
As CPOs serão:
α̂ : −2
∑
i
(
yi − α̂− β̂xi
)
= 0 =⇒
∑
i
yi = nα̂+ β̂
∑
i
xi
β̂ : −2
∑
i
(
yi − α̂− β̂xi
)
xi = 0 =⇒
∑
i
yixi = α̂
∑
i
xi + β̂
∑
i
x2
i
[
n
∑
i xi∑
i xi
∑
i x
2
i
] [
α̂
β̂
]
=
[ ∑
i yi∑
i yixi
]
Logo é um sistema linear e o modelo é linear nos parâmetros.
Exemplo 10 Seja o seguinte modelo:
yi = α+ βxγi + ui
O problema de minimização é:
min
{α̂,β̂,γ̂}
∑
i
(
yi − α̂− β̂xγ̂i
)2
A CPO:
α̂ : −2
∑
i
(
yi − α̂− β̂xγ̂i
)
= 0
Logo não é linear por causa do γ.
12
Exemplo 11 Seja o seguinte modelo:
yi = αx
β1
1i x
β2
2i e
ui
Tomando o ln, teremos:
ln yi = lnα+ β1 lnx1i + β2 lnx2i + uiPortanto, o modelo é linear.
Hipótese 2 (Amostragem Aleatória) : Podemos extrair uma amostra aleatória:
{(x1i, ..., xki, yi) , i = 1, ...., n}
da população.
Observação 12 Nos livros-texto esta hipótese é geralmente substituída por uma hipótese
de que X é não-estocástico (aleatório).
Hipótese 3 (Média Condicional Zero) : E (u|x) = 0
Exercício 13 Mostre que:
(i) E (u|x) = 0 =⇒ E (u) = 0
(ii) E (u|x) = 0 =⇒ Cov (u, x) = 0.
Dicas: Usem a Lei das Expectativas Iteradas (L.E.I): EX (EY (Y |X)) = E (Y ) e a
seguinte propriedade: E (Y X|X) = XE (Y |X).
Se Cov (u, x) = 0, dizemos que os regressores são exógenos e, assim, podemos seaparar
y em parte explicada e erro sem haver relação entre elas.
Se Cov (u, x) 6= 0, dizemos que os regressores são endógenos e teremos um problema
de endogeneidade no modelo que viesa os estimadores MQO (isto será visto em seção
posterior).
Exemplo 14
lnw = α+ βeduc+ u
onde w = salário e educ = anos de estudo. Em u podemos ter diversas variáveis não
observáveis, como por exemplo: habilidades (cognitivas/não-cognitivas) de um indivíduo.
A habilidade de um indivíduo pode estar correlacionada com educação. Assim, o efeito de
um maior nível educacional no salário pode estar viesado pois indivíduos com maior nível
de habilidade é de se esperar que avancem mais nos ciclos escolares e, conseqüentemente,
obtenham um maior nível salarial.
13
Hipótese 4 (Não há Multicolinearidade Perfeita) : As variáveis explicativas 1, x1, ..., xk
são linearmente independentes. Logo, xj , j = 1, ..., k, não podem ser constante.
X =

1 x11 x21 . . . xk1
1 x12 x22 . . . xk2
. . . . .
. . . . .
. . . . .
1 x1n x2n xkn

n×(k+1)
Esta hipótese implica que posto (X) = k + 1, pois n ≥ k + 1.
Relembre das propriedades de algebra matricial que:
posto (X) = posto
(
X ′X
)
= k + 1
Assim, (X ′X) é uma matriz invertível pois possui posto pleno (ou posto cheio ou
máximo). Assim, ∃ (X ′X)−1 e portanto, podemos obter os parâmetros estimados:(
X ′X
)
β̂ = X ′Y(
X ′X
)−1 (
X ′X
)
β̂ =
(
X ′X
)−1
X ′Y
β̂ =
(
X ′X
)−1
X ′Y
Hipótese 5 (Homocedasticidade) : V ar (ui|x) = σ2,∀i, ou seja, a variância do erro é
constante.
Hipótese 6 (Ausência de (Auto)Correlação (Serial)) : Cov (ui, uj |x) = 0,∀i, j, i 6=
j.
Hipótese 7 (n > k) : Número de observações maior do que o número de regressores.
Essa hipótese é importante para obtermos os EMQ.
Hipótese 8 (Normalidade) : ui ∼ N
(
0, σ2
)
para todo i. Tal hipótese será necessária
para inferência.
14
Hipótese 9 (O modelo está corretamente especificado) : Não podemos incluir no
erro variáveis que estejam correlacionadas com as demais variáveis explicativas, pois assim
violaríamos a H.3.
Assim, dadas estas hipóteses, podemos enunciar um teorema (que será mais adiante
provado), que mostra a importância do EMQ.
Teorema 15 (de Gauss-Markov) : Dentro da classe dos estimadores lineares e não-
viesados, e dadas as hipóteses do MCRL, os EMQ são os estimadores que possuem a
menor variância (BLUE - Best Linear Unbiased Estimator)
Figura
Agora, veremos, no caso da RLS, que:
(i) EMQ são lineares
(ii) EMQ são não viesados
(iii) Qual a variância dos EMQ?
(iv) Qual a Cov
(
α̂, β̂
)
?
(v) Quem é o "EMQ"de σ2?
Proposição 16 (i) Os estimadores MQO α̂ e β̂ são estimadores lineares se puderem ser
escritos como uma combinação linear de y.
Prova. O estimador α̂ é escrito como:
α̂ = ȳ − β̂x̄
Assim, sua linearidade depende de β̂.
β̂ =
∑
i (xi − x̄) (yi − ȳ)∑
i (xi − x̄)2 =
∑
i (xi − x̄) yi −
∑
i (xi − x̄) ȳ∑
i (xi − x̄)2
β̂ =
∑
i (xi − x̄) yi − ȳ
∑
i (xi − x̄)∑
i (xi − x̄)2
∑
i(xi−x̄)=0
=
∑
i (xi − x̄) yi∑
i (xi − x̄)2
β̂ =
∑
i
[
(xi − x̄)∑
i (xi − x̄)2 yi
]
=
β̂ =
∑
i
diyi
onde, di = (xi−x̄)∑
i(xi−x̄)2
. Logo, β̂ é um estimador linear.
15
Em relação ao intercepto:
α̂ = ȳ − β̂x̄ =
∑
i yi
n
− x̄
∑
i (xi − x̄) yi∑
i (xi − x̄)2
=
∑
i
[
1
n
− x̄
∑
i (xi − x̄)∑
i (xi − x̄)2
]
yi
=
∑
i
ciyi
onde, ci =
[
1
n −
x̄
∑
i(xi−x̄)∑
i(xi−x̄)2
]
= 1
n − x̄di. Logo α̂ é um estimador linear.
Proposição 17 (ii) EMQ são não-viesados.
Prova.
β̂ =
∑
i
diyi =
∑
i
di (α+ βxi + ui)
=
∑
i
diα+
∑
i
diβxi +
∑
i
diui
= α
∑
i
di + β
∑
i
dixi +
∑
i
diui
Analisando o segundo e terceiro termo do lado direito da expressão:∑
i
di =
∑
i
(xi − x̄)∑
i (xi − x̄)2 =
1∑
i (xi − x̄)2
∑
i
(xi − x̄)︸ ︷︷ ︸
=0
= 0
∑
i
dixi =
∑
i
(xi − x̄)xi∑
i (xi − x̄)2 =
Note que
∑
i (xi − x̄) (xi − x̄) =
∑
i (xi − x̄) (xi − x̄) =
∑
i (xi − x̄)xi−
∑
i (xi − x̄) x̄ =∑
i (xi − x̄)xi − x̄
∑
i (xi − x̄) =
∑
i (xi − x̄)xi.
Assim, substituindo
∑
i (xi − x̄) (xi − x̄) =
∑
i (xi − x̄)xi, acima:∑
i
dixi =
∑
i
(xi − x̄) (xi − x̄)∑
i (xi − x̄)2 =
∑
i (xi − x̄)2∑
i (xi − x̄)2 = 1
Substituindo
∑
i di = 0 e
∑
i dixi = 1, de volta na expressão de β̂ :
β̂ = β +
∑
i
diui
16
Analisamos 2 casos aqui:
(1) X não-estocástico (não-aleatório ou fixo).
E
(
β̂
)
= E
(
β +
∑
i
diui
)
= β + E
(∑
i
diui
)
= β +
∑
i
E (diui)
Como X é não-estocástico e di depende apenas dos regressores logo di é fixo também.
Logo:
E
(
β̂
)
= β +
∑
i
diE (ui)︸ ︷︷ ︸
=0
E
(
β̂
)
= β
(2) X estocástico (aleatório). Neste caso devemos tomar a esperança condicional:
E
(
β̂|x
)
= β + E
(∑
i
diui|x
)
= β +
∑
i
E (diui|x)
= β +
∑
i
diE (ui|x)︸ ︷︷ ︸
=0
E
(
β̂|x
)
= β
Exercício 18 Prove que α̂ é não-viesado. Dica: mostre primeiramente que α̂ pode ser
escrito como: α̂ = α+
∑
i ciui.
A partir de (i) e (ii) note a partir do seguinte modelo (FRA):
y = α̂+ β̂x+ û
Tomando a esperança condicional:
E (y|x) = α+ βx
Ou seja, o que estamos tentando modelar é o comportamento médio dos agentes (indi-
víduos, firmas, governo, países etc).
(iii) Qual a variância dos EMQ?
17
β̂0 = β0 +
∑
i
ciui
β̂1 = β1 +
∑
i
diui
Assim:
V ar
(
β̂1
)
= E
[(
β̂1 − E
(
β̂1
))2
]
= E
[(
β̂1 − β1
)2
]
= E
[(∑
diui
)2
]
= E
[
d2
1u
2
1 + d2
2u
2
2 + ...+ d2
nu
2
n + 2d1d2u1u2 + ...+ 2dn−1dnun−1un
]
= d2
1E
(
u2
1
)︸ ︷︷ ︸
σ2
+ d2
2E
(
u2
2
)︸ ︷︷ ︸
σ2
+ ...+ d2
nE
(
u2
n
)︸ ︷︷ ︸
σ2
+
+2d1d2E (u1u2)︸ ︷︷ ︸
0
+ ...+ 2dn−1dnE (un−1un)︸ ︷︷ ︸
0
V ar
(
β̂1
)
= σ2
∑
i
d2
i
Mas:
∑
i
d2
i =
∑
i
(
xi − x̄∑
i (xi − x̄)2
)2
=
1[∑
i (xi − x̄)2
]2
∑
i
(xi − x̄)2 =
1∑
i (xi − x̄)2
Substituindo na expressão acima, teremos:
V ar
(
β̂1
)
=
σ2∑
i (xi − x̄)2
18
V ar
(
β̂0
)
= E
[(
β̂0 − β0
)2
]
= E
(β0 +
∑
i
ciui − β0
)2

= E
[
c2
1u
2
1 + ...+ c2
nu
2
n + 2c1c2u1u2 + ...+ 2cncn−1unun−1
]
= E
(
c2
1u
2
1
)
+ ...+ E
(
c2
nu
2
n
)
+ 2c1c2E (u1u2) + ...+ 2cncn−1E (unun−1)
= σ2
∑
i
c2
i = σ2
∑
i
(
1
n
− x̄ (xi − x̄)∑
i (xi − x̄)2
)2
= σ2
∑ 1
n2
− 2x̄ (xi − x̄)
n
∑
(xi − x̄)2 +
x̄2 (xi − x̄)2(∑
(xi − x̄)2
)2

= σ2
∑
i
1
n2
−
∑
i
2x̄ (xi − x̄)
n
∑
(xi − x̄)2 +
∑
i
x̄2 (xi − x̄)2(∑
(xi − x̄)2
)2

= σ2
 1
n
− 2x̄
n
∑(
(xi − x̄)∑
(xi − x̄)2
)
+ x̄2
∑ (xi − x̄)2(∑
(xi − x̄)2
)2


= σ2
 1
n
− 2x̄
n
∑
(xi − x̄)∑
(xi − x̄)2 + x̄2
∑
(xi − x̄)2(∑
(xi − x̄)2
)2

= σ2
[
1
n
+ x̄2 1∑
(xi − x̄)2
]
= σ2
[∑
(xi − x̄)2 + nx̄2
n
∑
(xi − x̄)2
]
= σ2
[∑
x2
i − 2x̄
∑
xi +
∑
x̄2 + nx̄2
n
∑
(xi − x̄)2
]
= σ2
[∑
x2
i − 2x̄nx̄+ nx̄2 + nx̄2
n
∑
(xi − x̄)2
]
V ar
(
β̂0
)
=
σ2
∑
x2
i
n
∑
(xi − x̄)2 .
(iv) Quem é Cov
(
β̂0, β̂1
)
?
19
Cov
(
β̂0, β̂1
)
= Cov
(
ȳ − β̂1x̄, β̂1
)
= Cov
(
ȳ, β̂1
)
︸ ︷︷ ︸
0
+ Cov
(
−β̂1x̄, β̂1
)
= −x̄Cov
(
β̂1, β̂1
)
= −x̄V ar
(
β̂1
)
Cov
(
β̂0, β̂1
)
=
−x̄σ2∑
(xi − x̄)2
Observação 19 A variância para um vetor de variáveis é calculado como:
V ar (x) = E
[
(x−E (x)) (x−E (x))′
]
onde x é um vetor coluna de tamanho n. Esta expressão é chamada também de matriz
de variância-covariância.
Assim, seja β̂ =
(
β̂0
β̂1
)
o vetor de parâmetros. Então, no nosso caso teríamos:
V ar
(
β̂
)
= E
[(
β̂ −E
(
β̂
))(
β̂ −E
(
β̂
))′]
= E
( β̂0
β̂1
)
−
 E
(
β̂0
)
E
(
β̂1
) (( β̂0 β̂1
)
−
(
E
(
β̂0
)
E
(
β̂1
) ))
= E
 β̂0 − E
(
β̂0
)
β̂1 − E
(
β̂1
) ( β̂0 − E
(
β̂0
)
β̂1 − E
(
β̂1
) )=
 E
[(
β̂0 − E
(
β̂0
))2
]
E
[(
β̂0 − E
(
β̂0
))(
β̂1 − E
(
β̂1
))]
E
[(
β̂0 − E
(
β̂0
))(
β̂1 − E
(
β̂1
))]
E
(
β̂1 − E
(
β̂1
)2
)

=
 V ar
(
β̂0
)
Cov
(
β̂0, β̂1
)
Cov
(
β̂0, β̂1
)
V ar
(
β̂1
) 
=
 σ2
∑
x2i
n
∑
(xi−x̄)2
−x̄σ2∑
(xi−x̄)2
−x̄σ2∑
(xi−x̄)2
σ2∑
i(xi−x̄)2

20
(v) Estimador "MQO"de σ2 (variância do erro):
yi = ŷi + ûi
yi − ȳ = ŷi − ȳ + ûi
Retomando a FRP (Função de Regressão Populacional) temos:
yi = α+ βxi + ui
ȳ = α+ βx̄+ ū
}
yi − ȳ = β (xi − x̄) + ui − ū
Retomando a FRA (Função de Regressão Amostral) temos:
ŷi = α̂+ β̂xi
ȳ = α̂+ β̂x̄
}
ŷi − ȳ = β̂ (xi − x̄)
Logo:
ûi = (yi − ȳ)− (ŷi − ȳ)
ûi = β (xi − x̄) + ui − ū− β̂ (xi − x̄)
ûi = −
(
β̂ − β
)
(xi − x̄) + ui − ū∑
û2
i =
(
β̂ − β
)2∑
(xi − x̄)2︸ ︷︷ ︸
A
+
∑
(ui − ū)2︸ ︷︷ ︸
B
− 2
(
β̂ − β
)∑
(xi − x̄) (ui − ū)︸ ︷︷ ︸
C
Tomando a esperança, para obtermos E
(∑
û2
i
)
.
21
Assim, analisando termo a termo:
E (A) = E
(∑i (xi − x̄)ui∑
i (xi − x̄)2
)2 ∑
(xi − x̄)2
 (β̂ − β =
∑
i diui)
= E
(
∑
i (xi − x̄)ui)
2(∑
i (xi − x̄)2
)2
∑
(xi − x̄)2

=
1∑
i (xi − x̄)2
E
[
(
∑
i (xi − x̄)ui)
2
]
=
1∑
i (xi − x̄)2
E
[
((x1 − x̄)u1 + ...+ (xn − x̄)un)2
]
=
1∑
i (xi − x̄)2E
 (x1 − x̄)2 u2
1 + ...+ (xn − x̄)2 u2
n+
2 (x1 − x̄)u1 (x2 − x̄)u2 + ...
+2 (xn−1 − x̄)un−1 (xn − x̄)un

=
1∑
i (xi − x̄)2
[
(x1 − x̄)2 σ2 + ...+ (xn − x̄)2 σ2
]
=
1∑
i (xi − x̄)2
[∑
i
(xi − x̄)2 σ2
]
=⇒ E (A) = σ2
22
Em relação a B:
E (B) = E
(∑
(ui − ū)2
)
= E
(∑(
u2
i + ū2 − 2uiū
))
= E
(∑
u2
i +
∑
ū2 − 2ū
∑
ui
)
= E
(∑
u2
i + nū2 − 2ūnū
)
= E
(∑
u2
i − nū2
)
= E
(∑
u2
i
)
− E
(
n
(∑
ui
n
)2
)
=
∑
E
(
u2
i
)
− E
(
1
n
(∑
ui
)2
)
= nσ2 − 1
n
E
[
(u1 + ...+ un)2
]
= nσ2 − 1
n
(
E
(
u2
1
)
+ ...+ E
(
u2
n
))
= nσ2 − σ2
E (B) = (n− 1)σ2
Em relação a C:
E (C) = E
[(
β̂ − β
)∑
(xi − x̄) (ui − ū)
]
= E
[(∑
i (xi − x̄)ui∑
i (xi − x̄)2
)∑
(xi − x̄) (ui − ū)
]
= E

(
(x1 − x̄)2 u2
1 + ...+ (xn − x̄)2 u2
n + 2 (x1 − x̄) (x2 − x̄)u1u2 + ...
+2 (xn−1 − x̄) (xn − x̄)un−1un
)
∑
i (xi − x̄)2

=
1∑
i (xi − x̄)2
(
(x1 − x̄)2 σ2 + ...+ (xn − x̄)2 σ2
)
=
1∑
i (xi − x̄)2
(
σ2
∑
i
(xi − x̄)2
)
E (C) = σ2
23
Substituindo as expressões em E
(∑
û2
i
)
, teremos:
E
(∑
û2
i
)
= E (A) + E (B)− 2E (C)
= σ2 + (n− 1)σ2 − 2σ2
E
(∑
û2
i
)
= (n− 2)σ2
Então um estimador não viesado para a variância do erro (σ2) será:
σ̂2 =
∑
û2
i
n− 2
=
SQR
n− 2
pois vimos que:
E
(
σ̂2
)
= E
(∑
û2
i
n− 2
)
=
1
n− 2
E
(∑
û2
i
)
=
1
n− 2
(n− 2)σ2 = σ2
Veremos em regressão múltipla que, de forma geral:
σ̂2 =
∑
û2
i
n− k − 1
=
SQR
n− k − 1
onde k é o número de regressores. Como estamos tratando de regressão linear simples,
então k = 1.
Teorema 20 (Gauss-Markov) Dadas as hipóteses do MCRL, dentro da classe dos esti-
madores lineares e não-viesados, os EMQ são os que apresentam a menor variância.
Prova. Seja β̂1 =
∑
i diyi. Tomemos um outro estimador β̃1 =
∑
iwiyi, o qual é linear e
não viesado. Para este ser não viesado, devemos observar que:
β̃1 =
∑
i
wiyi
=
∑
i
wi (β0 + β1xi + ui)
= β0
∑
i
wi + β1
∑
i
wixi +
∑
i
wiui
Para que este outro estimador seja não viesado devemos ter que:
E
(
β̃1
)
= β1
24
E para ocorrer isso, devem valer as seguintes condições:∑
i
wi = 0∑
i
wixi = 1
Para que o estimador possa ser escrito como:
β̃1 = β1 +
∑
i
wiui
Como estamos supondo que X é não-estocástico, então:
E
(∑
i
wiui
)
=
∑
i
E (wiui) =
∑
i
wiE (ui) = 0
visto que wi é função de xi, o qual é não-estocástico.
Analisando a variância de β̃1:
V ar
(
β̃1
)
= E
[(
β̃1 − E
(
β̃1
))2
]
= E
[(
β̃1 − β1
)2
]
= E
[(∑
wiui
)2
]
= E
[
(w1u1 + ...+ wnun)2
]
= E
(
w2
1u
2
1
)
+ ...+ E
(
w2
nu
2
n
)
V ar
(
β̃1
)
= σ2
∑
w2
i
Agora, vejamos qual o wi que gera a menor variância. Para isso:
min
wi
∑
i
w2
i
s.t.∑
i
wi = 0 ([λ1])∑
i
wixi = 1 ([λ2])
L =
∑
i
w2
i − λ1
∑
i
wi − λ2
(∑
i
wixi − 1
)
25
As CPOs serão:
∂L
∂wi
= 2wi − λ1 − λ2xi = 0 =⇒ 2wi = λ1 + λ2xi (3)∑
i
wi = 0 (4)∑
i
wixi = 1 (5)
Passando o somatório na equação (3), temos:
2
∑
i
wi =
∑
i
λ1 + λ2
∑
i
xi∑
i
wi = nλ1 + λ2
∑
i
xi
Substituindo (4) acima, teremos:
0 = nλ1 + λ2
∑
i
xi
λ1 = −λ2
∑
i xi
n
= −λ2x̄ (6)
Substituindo wi de (3) em (5), teremos:∑
i
wixi︸ ︷︷ ︸
1
=
∑
i
(λ1 + λ2xi)
2︸ ︷︷ ︸
wi
xi
1 =
1
2
(
λ1
∑
i
xi + λ2
∑
x2
i
)
(7)
2 =
(
λ1
∑
i
xi + λ2
∑
x2
i
)
(8)
Substituindo (6) em (7), teremos:
−λ2x̄
∑
i
xi + λ2
∑
x2
i = 2
λ2
(
−x̄
∑
i
xi +
∑
x2
i
)
= 2
λ2
(
−x̄nx̄+
∑
x2
i
)
= 2
λ2
(∑
x2
i − nx̄2
)
= 2 (9)
26
Agora, relembre que:∑
i
(xi − x̄)2 =
∑
i
(
x2
i − 2xix̄+ x̄2
)
=
∑
i
x2
i − 2x̄
∑
i
xi +
∑
i
x̄2
=
∑
i
x2
i − 2x̄nx̄+ nx̄2
∑
i
(xi − x̄)2 =
∑
i
x2
i − nx̄2
Então podemos substituir esta expressão em (9):
λ2
∑
i
(xi − x̄)2 = 2
λ2 =
2∑
i (xi − x̄)2 (10)
Substituindo (10) em (6), temos:
λ1 =
−2x̄∑
i (xi − x̄)2 (11)
Substituindo (10) e (11) em (3), temos:
wi =
1
2
(λ1 + λ2xi)
wi =
1
2
(
−2x̄∑
i (xi − x̄)2 +
2xi∑
i (xi − x̄)2
)
wi =
(
−x̄∑
i (xi − x̄)2 +
xi∑
i (xi − x̄)2
)
wi =
x− x̄∑
i (xi − x̄)2 = di
Então, o próprio di gera a menor variância. Logo, β̂1 =
∑
i diyi (EMQ) é o estimador
que possui menor variância, dentro da classe de estimadores lineares não-vieados.
4 Regressão Linear Múltipla (RLM)
Seja o seguinte modelo de regressão múltipla:
yi = β0 + β1x1i + β2x2i + ...+ βkxki + ui,
27
onde agora, temos k variáveis explicativas.
Os estimadores MQO são obtidos através do seguinte problema de minimização:
min
{β̂0,β̂1,...,β̂k}
∑
i
û2
i = min
{β̂0,β̂1,...,β̂k}
∑
i
(
yi − β̂0 − β̂1x1i − β̂2x2i − ...− β̂kxki
)2
As CPOs serão:
β̂0 : −2
∑
i
(
yi − β̂0 − β̂1x1i − β̂2x2i − ...− β̂kxki
)
= 0
β̂1 : −2
∑
i
(
yi − β̂0 − β̂1x1i − β̂2x2i − ...− β̂kxki
)
x1i = 0
.
.
.
β̂k : −2
∑
i
(
yi − β̂0 − β̂1x1i − β̂2x2i − ...− β̂kxki
)
xki = 0
Resolvendo o sistema:
nβ̂0 + β̂1
∑
i
x1i + ...+ β̂k
∑
i
xki =
∑
i
yi
β̂0
∑
i
x1i + β̂1
∑
i
x2
1i + ...+ β̂k
∑
i
x1ixki =
∑
i
yix1i
.
.
.
β̂0
∑
i
xki + β̂1
∑
i
x1ixki + ...+ β̂k
∑
i
x2
ki =
∑
i
yixki
Matricialmente o sistema fica: (
X ′X
)
β̂ =X ′Y
28
onde:
X =

1 x11 x21 . . . xk1
1 x12 x22 . . . xk2
. . . . .
. . . . .
. .. . . .
1 x1n x2n . . . xkn

n×(k+1)
, β̂ =

β̂0
β̂1
.
.
.
β̂k

(k+1)×1
, Y=

y1
y2
.
.
.
yn

n×1
,
û =

û1
û2
.
.
.
ûn

n×1
Assim, podemos escrever a FRP e FRA em termos matriciais:
Y = Xβ + u (FRP)
Y = Xβ̂ + û (FRA)
Uma das hipóteses do MCRL que vimos em termos matriciais foi:
posto (X) = k + 1 = posto pleno
Sendo:
Xn×(k+1) → X ′(k+1)×nXn×(k+1) =
(
X ′X
)
(k+1)×(k+1)
→ posto (X) = posto
(
X ′X
)
Retomando: (
X ′X
)
β̂ =X ′Y
Logo, se posto (X ′X) = k + 1 =posto pleno então ∃ (X ′X)−1 e portanto:(
X ′X
)
β̂ = X ′Y(
X ′X
)−1 (
X ′X
)
β̂ =
(
X ′X
)−1
X ′Y
β̂MQO =
(
X ′X
)−1
X ′Y (12)
Observação 21 Uma forma de se escrever os estimadores de MQO, em termos de so-
matório, é:
β̂j =
∑
i r̂jiyi∑
i r̂
2
ji
, j = 1, ..., k (13)
29
onde r̂ji é o resíduo MQO de uma regressão de xj contra x−j, ou seja, contra todos os
outros regressores exceto o próprio xj. Esta fórmula dá uma outra interpretação do efeito
parcial de xj sobre y (que é medido pelo β̂j, que é nada mais que uma derivada parcial de
y em relação xj). Os resíduos r̂ji representam a parte de xj que não está correlacionada
com os outros regressores (x−j) (Ou seja, ao rodarmos uma regressão: xji = γ0 + γ1x1i +
... + γj−1xj−1i + γj+1xj+1i + ... + γkxki + r̂ji, este resíduo pode ser interpretado como a
parte de xj após excluir (ou deduzir ou isolar) o efeito dos outros regressores). Assim β̂j
mede o efeito de xj sobre y, isolando o efeito de x−j.
4.1 Geometria do MQO
Consideremos o modelo com duas variáveis explicativas:
yi = β0 + β1x1i + β2x2i + ui.
Em termos matriciais:
Y = Xβ̂ + û
= X
(
X ′X
)−1X ′︸ ︷︷ ︸
Px
Y + û
= PY + û
onde P é a matriz de projeção no span(X). Span(X) é o subespaço gerado pelas colunas
de X. Assim, PY projeta o vetor Y no span(X).
Além disso, note que:
û = Y − PY = [I − P ]︸ ︷︷ ︸
M
Y
û = MY
onde M = I − X (X ′X)−1X ′ é a matriz de projeção ortogonal ao span (X). Assim
MY projeta o vetor Y no subespaço ortogonal ao span(X). Assim, Y é decomposto em
duas partes:
Y = PY︸︷︷︸
Ŷ=Xβ̂
+MY︸︷︷︸
û
Graficamente temos:
Figura
30
Assim, temos que ter:
û⊥Xβ̂ =⇒
〈
û,Xβ̂
〉
= 0
ou
û′
(
Xβ̂
)
= 0
ou(
Xβ̂
)′
û = 0
β̂
′
X ′û = β̂
′
X ′
(
Y −Xβ̂
)
β̂
′ (
X ′Y −X ′Xβ̂
)
= 0(
X ′Y −X ′Xβ̂
)
= 0
X ′Y = X ′Xβ̂
β̂=
(
X ′X
)−1
X ′Y
Exercício 22 Prove que as matrizes M e P são:
(i) simétricas (M ′ = M)
(ii) idempotentes (MM = M)
4.2 Coeficiente de Determinação (R2): Regressão Múltipla
Da mesma forma que na regressão linear simples, temos que:
R2 =
SQE
SQT
= 1− SQR
SST
ou ainda,
R2 =
∑n
i=1 (ŷi − ȳ)2∑n
i=1 (yi − ȳ)2 = 1−
∑n
i=1 û
2
i∑n
i=1 (yi − ȳ)2
onde ŷi = β̂0 + β̂1x1i + ...+ β̂kxki e ûi = yi − ŷi.
que é o coeficiente de correlação quadrático entre o valor real e ajustado de y.
Observação: O R2 nunca diminui quando adicionamos regressores.
Exercício 23 Prove que o R2 não diminui quando adicionamos regressores, ou seja, é
uma função não decrescente do número de variáveis explicativas. (Dica: use SQT =
SQE + SQR e veja o que acontece com o SQE e com o SQR quando adicionamos algum
regressor).
31
Observação 24 Não podemos comparar o R2 de modelos:
(i) com diferente número de variáveis explicativas;
(ii) com variáveis dependentes diferentes.
Se o R2 nunca diminui quando adicionamos regressores, necessitamos de um coeficiente
que penalize em certo grau a inclusão de regressores. Tal coeficiente é chamado R2 ajus-
tado:
R̄2 = 1− [SQR/ (n− k − 1)]
[SQT/ (n− 1)]
= 1− σ̂2/ [SQT/ (n− 1)] (σ̂2 = SQR
n−k−1)
O R2 ajustado também recebe o nome em inglês de R − bar squared ou ainda R2
corrigido.
A importância desta medida é que ela impõe uma penalidade por se adicionar regres-
sores ao modelo.
Assim, SQR/ (n− k − 1) é um estimador não-viesado de σ2, que é a variância pop-
ulacional do erro, e SQT/ (n− 1) é um estimador não viesado de σ2
y, que é a variância
populacional do y.
Proposição 25 Se adicionamos um novo regressor à regressão, então:
R̄2 aumenta ⇐⇒ a estatística t deste novo regressor é maior que 1, em módulo.
Proposição 26 E se adicionarmos um grupo de variáveis à regressão, então:
R̄2 aumenta ⇐⇒ a estatística F deste novo grupo de regressores é maior que 1.
Uma fórmula alternativa para o R̄2 é:
R̄2 = 1− [SQR/ (n− k − 1)]
[SQT/ (n− 1)]
R̄2 = 1−
(
1−R2
)
(n− 1)
(n− k − 1)
(SQRSQT = 1−R2)
Além de se comparar modelos ao se incluir regressores, o R̄2 serve também para escolher
entre modelos nonnested (não encaixantes). Por exemplo, um modelo 1 que tem x1, x2 e
x3 e um outro modelo 2 que tem x1, x2 e x4.
Mas ele não serve para escolher entre formas funcionais diferentes da variável depen-
dente. Mas tais testes serão mostrados em capítulo posterior.
32
4.3 Propriedades dos EMQ: Regressão Múltipla
Vamos provar, que o EMQ β̂ é não viesado.
Teorema 27 Sob as hipóteses H.1 a H.4 temos que:
E
(
β̂j
)
= βj , j = 0.1, ..., k
ou seja, os estimadores MQO são não-viesados. Em termos matriciais:
E
[
β̂
]
= β
em que, β̂ = (X ′X)−1X ′Y .
Prova.
β̂ =
(
X ′X
)−1
X ′Y
β̂ =

β̂0
β̂1
.
.
.
β̂k

, β̂ =

β0
β1
.
.
.
βk

Relembrando:
Y = Xβ + u (FRP)
Y = Xβ̂ + û (FRA)
Assim:
β̂ =
(
X ′X
)−1
X ′Y
=
(
X ′X
)−1
X ′ (Xβ + u)
=
(
X ′X
)−1
X ′Xβ+
(
X ′X
)−1
X ′u
β̂ = β+
(
X ′X
)−1
X ′u
1. X não estocástico:
E
(
β̂
)
= E
(
β+
(
X ′X
)−1
X ′u
)
= β+
(
X ′X
)−1
X ′E (u)︸ ︷︷ ︸
=0
(Usando H.3)
E
(
β̂
)
= β
33
Assim, o vetor de estimadores β̂ é não viesado.
2. X estocástico:
E
(
β̂|X
)
= E
(
β+
(
X ′X
)−1
X ′u|X
)
= β+
(
X ′X
)−1
X ′E (u|X)︸ ︷︷ ︸
=0
(Usando H.3)
E
(
β̂|X
)
= β
Utilizamos também H.4 para podermos inverter (X ′X) e obter o estimador.
Vimos que a variância de um vetor é dado por:
V ar
(
β̂
)
= E
[(
β̂ −E
(
β̂
))(
β̂ −E
(
β̂
))′]
= E
[(
β̂ − β
)(
β̂ − β
)′]
é a matriz de variância-covariância que foi visto anteriormente. Calculando:
β̂ =
(
X ′X
)−1
X ′Y =
(
X ′X
)−1
X ′ (Xβ + u)
= β +
(
X ′X
)−1
X ′u
Substituindo na fórmula da variância:
V ar
(
β̂
)
= E
[((
X ′X
)−1
X ′u
)((
X ′X
)−1
X ′u
)′]
= E
[(
X ′X
)−1
X ′uu′X
((
X ′X
)−1
)′]
= E
[(
X ′X
)−1
X ′uu′X
((
X ′X
)′)−1
]
= E
[(
X ′X
)−1
X ′uu′X
(
X ′X
)−1
]
(X não estocástico)
V ar
(
β̂
)
=
(
X ′X
)−1
X ′E
[
uu′
]
X
(
X ′X
)−1
Quem é E [uu′]?
V ar (u) = E
[
(u−E (u)) (u−E (u))′
]
= E
[
uu′
]
= E


u1
u2
.
.
.
un

(
u1 u2 . . . un
)

34
= E

u2
1 u1u2 . . . u1un
u2u1 u2
2 u2un
. . . .
. . . .
. . . .
unu1 unu2 . . . u2
n

n×n
=

σ2 0 . . . 0
0 σ2 0
. . . .
. . . .
. . . .
0 0 . . . σ2

n×n
V ar (u) = E
[
uu′
]
= σ2In
Substituindo esta expressão em V ar
(
β̂
)
, temos:
V ar
(
β̂
)
=
(
X ′X
)−1
X ′σ2X
(
X ′X
)−1
= σ2
(
X ′X
)−1
X ′X
(
X ′X
)−1
V ar
(
β̂MQO
)
= σ2
(
X ′X
)−1
Observação 28 As variâncias dos EMQ podem ser escritas na forma de somatório:
V ar
(
β̂j
)
=
σ2
SQTj
(
1−R2
j
) , j = 1, ..., k
em que, SQTj =
∑n
j=1 (xij − x̄j)2 é a variação amostral em xj e R2
j é o R
2 da regressão
de xj em todos os outros regressores, incluindo o intercepto.
Pelas duas fórmulas podemos notar que quanto maior a variância do erro, σ2, maior
a variância dos estimadores, e portanto, menos preciso sua magnitude. Uma forma de
reduzi-la é adicionar mais regressores à equação. Mas nem sempre é possível.
Isso ocorre, pois o termo R2
j avalia a relação linear entre as variáveis independentes, ou
seja, a correlação entre os regressores.
Assim, quando R2
j é proximo de um, a variância do estimador será muito grande.
Assim, correlação alta (mas não perfeita) entre 2 ou mais regressores é denominado
Multicolinearidade (que será visto em mais detalhes em capítulo posterior)
Mas note que este problema não configura uma violação da hipótese H4 (Multicolin-
earidade Perfeita).
35
Note que a correlação alta entre algumas variáveis terá impacto somente nas variâncias
de seus parâmetros estimados. Ou seja, correlação alta entre x2 e x3 implica em V ar
(
β̂2
)
e V ar
(
β̂3
)
mais alta, mas sem efeito na V ar
(
β̂1
)
e na dos outros estimadores.
36
5 Inferência Estatística
Nesta seção veremos o problema de testar hipóteses sobre os parâmetros (coeficientes)
populacionais, ou seja, sobre os coeficientes da FRP. Para tal, precisaremos inicialmente
derivar as distribuições dos estimadores de MQO.
Teorema 29 Sob as hipóteses do MCRL, temos que:
β̂j ∼ Normal
(
βj , V ar
(
β̂j
))
, j = 1, ..., k
onde V ar
(
β̂j
)
= σ2
SQTj(1−R2j)
. Logo:
(
β̂j − βj
)
dp
(
β̂j
) ∼ Normal (0, 1)
Assim, a distribuição amostral (amostras finitas) do estimador β̂j é uma distribuição
Normal.
Prova. Retomando o EMQ em termos de somatório (equação (13) ):
β̂j =
∑
i r̂jiyi∑
i r̂
2
ji
β̂j =
∑
i r̂ji (β0 + β1x1i + β2x2i + ...+ βkxki + ui)∑
i r̂
2
ji
β̂j =
β0
∑
i r̂ji + β1
∑
i r̂jix1i + β2
∑
i r̂jix2i + ...+ βk
∑
i r̂jixki +
∑
i r̂jiui,∑
i r̂
2
ji
Teremos
∑
i r̂ji = 0,
∑
i xlir̂ji = 0,∀l 6= j
Estas expressões podem ser obtidas a partir das CPOs da regressão xj contra x−j , ou
seja, da regressão:
xji = γ0 + γ1x1i + ...+ γj−1xj−1i + γj+1xj+1i + ...+ γkxki + r̂ji
O problema de minimização será:
min
γ0,...,γ1
∑
i
r̂2
ji ⇐⇒
min
γ0,...,γ1
∑
i
(
xji − γ̂0 − γ̂1x1i − ...− γ̂j−1xj−1i − γ̂j+1xj+1i − ...− γ̂kxki
)2
37
CPOs:
γ̂0 : 2
∑
i
(xji − γ̂0 − γ̂1x1i − ...− γ̂kxki) = 0︸ ︷︷ ︸∑
i rji=0
γ̂1 : 2
∑
i
(xji − γ̂0 − γ̂1x1i − ...− γ̂kxki)x1i = 0︸ ︷︷ ︸∑
i rjix1i=0
E assim, sucessivamente até γ̂k. Assim teremos as seguintes expressões:∑
i
r̂ji = 0∑
i
r̂jix1i = 0
.
.
.∑
i
r̂jixki = 0
Assim:
β̂j =
βj
∑
i r̂jixji +
∑
i r̂jiui∑i r̂
2
ji
O primeiro termo do numerador pode ser visto derivado a partir da regressão auxiliar:
xji = γ0 + γ1x1i + ...+ γj−1xj−1i + γj+1xj+1i + ...+ γkxki︸ ︷︷ ︸
x̂ji
+ r̂ji
xji = x̂ji + r̂ji
xjir̂ji = x̂jir̂ji + r̂2
ji (× (r̂ji))∑
i
xjir̂ji =
∑
i
x̂jir̂ji +
∑
i
r̂2
ji (Passando
∑
i)
38
Vamos avaliar
∑
i x̂jir̂ji. Retomando:∑
i
r̂ji = 0∑
i
r̂jix1i = 0
.
.
.∑
i
r̂jixki = 0
Multiplicando cada uma dessas CPOs por seus parâmetros estimados: γ̂0, ..., γ̂k, tere-
mos:
γ̂0
∑
i
r̂ji = 0
γ̂1
∑
i
r̂jix1i = 0
.
.
.
γ̂k
∑
i
r̂jixki = 0
Somando estes somatórios teremos:∑
i
γ̂0r̂ji +
∑
i
γ̂1r̂jix1i + ...+
∑
i
γ̂kr̂jixki = 0∑
i
(γ̂0r̂ji + γ̂1r̂jix1i + ...+ γ̂kr̂jixki) = 0∑
i
r̂ji(γ̂0 + γ̂1x1i + ...+ γ̂kxki)︸ ︷︷ ︸
x̂ji
= 0
∑
i
r̂jix̂ji = 0
Substituindo na expressão inicial:∑
i
xjir̂ji =
∑
i
x̂jir̂ji +
∑
i
r̂2
ji∑
i
xjir̂ji =
∑
i
r̂2
ji
39
Substituindo de volta em:
β̂j =
βj
∑
i r̂jixji +
∑
i r̂jiui∑
i r̂
2
ji
β̂j =
βj
∑
i r̂
2
ji +
∑
i r̂jiui∑
i r̂
2
ji
β̂j =
βj
∑
i r̂
2
ji∑
i r̂
2
ji
+
∑
i r̂jiui∑
i r̂
2
ji
β̂j = βj +
∑
i r̂jiui∑
i r̂
2
ji
Assim, este etimador pode ser escrito como:
β̂j = βj +
∑
i
(
r̂ji∑
i r̂
2
ji
ui
)
β̂j = βj +
∑
i
wjiui
onde, wji =
r̂ji∑
i r̂
2
ji
=
r̂ji
SQRj
. ou seja, da mesma forma que na RLS, o EMQ da RLM
pode ser escrito em função do parâmetro verdadeiro (βj) e uma combinação linear dos
erros. Sob a hipótese H.8 (Normalidade) do MCRL (+ H.3, H.5 e H.6, ou seja, média
condicional nula dos erros, homocedasticidade e autocorrelação nula) podemos dizer que
ui é i.i.d. segundo uma Normal
(
0, σ2
)
(Podemos dizer que eles são independentes, pois a hipótese de não serem autocorrela-
cionados com a normalidade implica independência).
Então β̂ é uma combinação linear de variáveis normais independentes o que resulta
também em uma variável normal independente. E como:
E
(
β̂j
)
= βj + E
(∑
i
wjiui
)
= βj +
∑
i
E (wjiui)
= βj +
∑
i
wjiE (ui)
= βj
Assim:
β̂j ∼ Normal
(
βj , V ar
(
β̂j
))
40
E podemos padronizá-la para uma normal padrão:(
β̂j − βj
)
dp
(
β̂j
) ∼ Normal (0, 1)
Exercício 30 A partir das CPOs dadas no teorema acima, obtenha o estimador MQO em
termos de somatório exposto na Observação (21)
Note que, utilizamos dp
(
β̂j
)
=
√
V ar
(
β̂j
)
=
√
σ2
SQTj(1−R2j)
, que é baseado na variân-
cia populacional do erro. Assim, precisamos substituir σ2 por seu estimador σ̂2:
Teorema 31 Sob as hipóteses do MCRL:(
β̂j − βj
)
ep
(
β̂j
) ∼ tn−k−1,
em que k é o número de regressores do modelo populacional y = β0+β1x1+...+βkxk+u
e ep
(
β̂j
)
=
√
σ̂2
SQTj(1−R2j)
é o erro padrão.
Prova. Note que: (
β̂j − βj
)
√
σ̂2
SQTj(1−R2j)
√
σ2
√
σ2
=
(
β̂j − βj
)
√
σ2
SQTj(1−R2j)
√
σ2
√
σ̂2
=
(β̂j−βj)√
σ2
SQTj(1−R2j)√
(n−k−1)σ̂2
σ2
/
√
n− k − 1
Relembrando do curso de Estatística, a variância amostral do resíduo é:
σ̂2 =
∑n
i=1 û
2
i
n− k − 1
(n− k − 1) σ̂2 =
n∑
i=1
û2
i
(n− k − 1)
σ̂2
σ2
=
n∑
i=1
û2
i
σ2
∼ χ2
n−k−1
41
Essa demonstração vem dos testes de variâncias que seguem uma qui-quadrada. Isso é
válido desde que σ̂2 tenha sido obtida de uma população normal, ou seja, de uma variável
cuja distribuição é normal, que é o caso pois u segue uma Normal.
E temos que (β̂j−βj)√
σ2
SQTj(1−R2j)
pelo teorema anterior segue uma distribuição normal padrão.
Logo:
(β̂j−βj)√
σ2
SQTj(1−R2j)√
(n−k−1)σ̂2
σ2
/
√
n− k − 1
∼ N (0, 1)√
χ2
n−k−1/n− k − 1
= tn−k−1
desde que o numerador e o denominador sejam independentes. Assim:(
β̂j − βj
)
ep
(
β̂j
) ∼ tn−k−1
E assim, podemos utilizar esta distribuição para os testes.
Vale lembrar que a t-student aproxima-se da Normal quando aumentamos os graus de
liberdade. Mas, neste caso, os graus de liberdade dependem diretamente da amostra. E
assim, quando aumentamos a amostra, n, a t-student pode ser aproximada pela normal.
5.1 O Teste t
Assim, podemos testar a seguinte hipótese nula:
H0 : βj = 0
Assim podemos utilizar teste t de Student:
tβ̂j
=
β̂j
ep
(
β̂j
)
De forma mais geral podemos testar se o estimador é igual a um valor específico:
H0 : βj = βj0
tβ̂j
=
β̂j − βj0
ep
(
β̂j
)
42
Podemos também executar os testes de hipóteses sobre uma combinação linear dos
parâmetros, por exemplo:
H0 : β1 + β2 = 1
onde:
t =
(
β̂1 + β̂2
)
− (β1 + β2)
ep
(
β̂1 + β̂2
) =
(
β̂1 + β̂2
)
− 1
ep
(
β̂1 + β̂2
)
em que,
ep
(
β̂1 + β̂2
)
=
√
V ar
(
β̂1 + β̂2
)
=
√
V ar
(
β̂1
)
+ V ar
(
β̂2
)
+ 2Cov
(
β̂1, β̂2
)
.
Exemplo 32 (Determinantes da Nota Média em Curso Superior nos Estados Unidos (Wooldridge, 2010, p. 71 e 121))
Suponha que desejemos analisar os determinantes da nota média em curso superior nos
EUA (supGPA).
Selecionamos entre eles: nota média do ensino médio (emGPA), a nota do teste de
avaliação de conhecimentos para ingresso em curso superior (ACT) e número de faltas
às aulas por semana (faltas) para uma amostra de 141 estudantes de uma universidade
americana.
Tanto o supGPA como o emGPA são calculados para uma escala de quatro pontos.
O modelo (função de regressão) populacional que desejamos estimar é dado por:
supGPA = β0 + β1emGPA+ β2AC + β3faltas+ u
Obtemos a seguinte reta de regressão amotral por MQO para estimar supGPA a partir
dos regressores:
̂supGPA = 1, 39
(0,33)
+ 0, 412
(0,094)
emGPA+ 0, 015
(0,011)
ACT − 0, 083
(0,026)
faltas
n = 141, R2 = 0, 234
em que, os erros-padrão são os números entre parênteses.
Como se interpreta esta equação?
Inicialmente, verifique que (as variabilidades de) emGPA, ACT e faltas explicam juntos
23,4% da variação de supGPA.
Em relação os coeficientes, primeiro, note que a estimativa do intercepto de 1,39 é o
valor previsto de supGPA se empGPA=ACT=faltas=0.
Como ninguém teve nota média no ensino médio nula ou nota no vestibular nula, o
intercepto não tem uma fácil interpretação.
Poderíamos interpretar este valor como sendo a resposta a seguinte pergunta: Qual seria
a nota no ensino superior de um aluno que foi reprovado, no ensino médio e vestibular com
nota nula, mas comparecesse a todas as aulas?
43
A princípio poderíamos pensar que esta nota seria zero, mas o modelo acima nos des-
mente. (Isso é um exemplo de um contrafactual).
Mas, lembre-se que temos uma estimativa do intercepto a partir da amostra e não sabe-
mos ao certo o valor verdadeiro (populacional). Como proceder? Primeiro especificamos
as hipóteses nula e alternativa:
H0 : β0 = 0
Ha : β0 6= 0
Neste caso queremos testar se o intercepto é estatisticamente diferente de zero.
Para testar tais hipóteses, devemos calcular a estatística t:
tintercepto =
1, 39
0, 33
= 4, 21
Deveríamos comparar com valores críticos extraídos da tabela da distribuição t com
n− k − 1 = 141− 3− 1 = 137 graus de liberdade.
Como este número é alto, podemos usar a tabela da normal.
Para um nível de significância de 5%, sendo o teste bilateral, o valor crítico será de
1,96 e para um nível de significância de 1% (onde estamos sendo mais rígidos para rejeitar
a hipótese nula), o valor crítico será de 2,58.
Assim:
tintercepto = 4, 21 > 2, 58 = t1%
crı́tico
Ou seja, a estatística caiu na região crítica. Logo, rejeitamos H0 a um nível de sig-
nificância de 1% (e, claro, também a 5%).
Ou seja, dizemos que o intercepto é estatisticamente diferente de zero (não-nulo) ou
estatisticamente significante. Então a interpretação que fizemos acima é válida.
Olhando para a estimativa do coeficiente de inclinação de emGPA, notamos que existe
uma relação positiva entre esta variável e supGPA. Como interpretamos?
∂ ̂supGPA
∂emGPA
= 0, 412
ou
∆ ̂supGPA
∆emGPA
= 0, 412
ou seja, quando mantemos fixo os outros fatores, um ponto adicional em emGPA está
associado a 0, 412 ponto a mais em ̂supGPA.
Ou ainda, se escolhermos aleatoriamente dois estudantes (A e B), ambos com os mes-
mos valores em ACT e faltas, mas se o estudante A teve um ponto a mais na nota empGPA
do que o estudante B, prevemos que o estudante A tem uma nota de supGPA 0, 412 maior
do que o estudante B (usamos a palavra prevemos pois estamos interpretandoem termos
de ̂supGPA).
44
Este efeito é estatisticamente significante? Ou ainda a variável emGPA é (estatistica-
mente) significante?
Sua estatística t será:
temGPA =
0, 412
0, 094
= 4, 38 > 2, 58 = t1%
crı́tico
que é o valor crítico para um teste bilateral.
Assim, dizemos que o efeito (ou a variável emGPA) é estatisticamente significante, pois
a estatística de teste caiu na região crítica.
Uma última pergunta sobre esta variável: um efeito de 0,412 da nota emGPA sobre
supGPA pode ser considerado alto?
Uma forma de avaliar a magnitude deste impacto é converter o impacto em termos da
média da variável dependente.
Neste caso, a média de supGPA da amostra é: 3,06. Assim o impacto é de:
0, 412
3, 06
= 0, 1347→ 13, 5%
ou seja, elevando a nota de emGPA em um ponto implica em um aumento na nota média
(amostral) de supGPA em torno de 13,5%.
Ou ainda, como a média de emGPA é de 3,4 e aumentar um ponto nesta nota significa
um aumento de quase 30%, podemos interpretar também da seguinte forma: elevando a
nota média emGPA em 30% eleva-se a nota supGPA em 13,5%.
Em relação ao efeito da ACT, considere primeiro que sua média na amostra é de 24,2
(com desvio-padrão de 3).
Assim, supondo uma variação de 10 pontos nesta nota (que é alto, pois representa mais
de 40% da média de ACT), o efeito previsto sobre supGPA será de apenas 0,15 (ou 5% da
média de supGPA).
Este efeito é estatisticamente significativo? Não, pois a estatística t será:
tACT =
0, 015
0, 011
= 1, 36 < 1, 64 = t10%
c
ou seja, o impacto de ACT em supGPA é estatisticamente nulo (ou não significativo), pois
a estatística caiu na região de aceitação da hipótese nula.
Por último, em relação a variável faltas, sua estatística t é de:
tfaltas =
−0, 083
0, 026
= −3, 19 < −2, 58 = −t1%
c
ou seja, ela caiu na região crítica e rejeitamos a hipótese nula de que o parâmetro é zero.
Assim, uma falta a mais por semana, reduz o supGPA previsto em cerca de 0,083.
Este efeito pode parecer pequeno, mas tome dois estudantes, um que não falta à nenhuma
aula (estudante A) e outro que falta 5 aulas por semana (estudante B). O estudante B terá
uma nota prevista 0,42 ponto menor do que o estudante A (ou 13,8% da média de supGPA).
45
5.2 Testes de Restrições Lineares Múltiplas: O Teste F
Podemos estar interessados em testar se um conjunto de parâmetros populacionais é igual
a zero. Ou seja, considere o modelo:
y = β0 + β1x1 + β2x2 + ...+ βkxk + u (14)
E queremos testar se q parâmetros são conjuntamente iguais a zero, por exemplo, os q
últimos:
H0 :

βk−q+1
.
.
.
βk
 = 0
Esta H0 é composta por q restrições de exclusão, sendo este um exemplo de conjunto
de restrições múltiplas, pois impõe mais de uma restrição sobre os parâmetros.
A alternativa a esta H0 é se pelo menos um dos coeficientes é diferente de zero.
O modelo (14) é denominado modelo irrestrito, pois inclui todos os parâmetros.
A idéia do teste é estimar o modelo retirando os parâmetros da H0, ou seja, estimar o
modelo restrito:
y = β0 + β1x1 + β2x2 + ...+ βk−qxk−q + u, (15)
e analisar o SQR dos dois modelos.
Sabemos que o SQR sempre aumenta quando retiramos regressores, mas a questão é
saber se esse aumento do SQR modelo restrito é grande o suficiente em relação ao SQR
do modelo irrestrito.
E SQR está relacionado à variância do erro. Assim, a idéia do teste basicamente é
comparar variâncias. E o teste propício para isso é o teste F .
Assim, retomando H0 :
H0 : βk−q+1 = 0, ..., βk = 0
Esta hipótese nula constitui q restrições de exclusão. Um teste sobre tal hipótese é
chamado de teste de hipóteses múltiplas ou teste de hipóteses conjuntas.
Assim, temos o modelo irrestrito:
y = β0 + β1x1 + ...+ βkxk + u
E quando impomos as retrições de H0, temos o modelo restrito:
y = β0 + β1x1 + ...+ βkxk−q + u
46
Suporemos que em ambos os modelos contêm os interceptos. A estatística F será:
F ≡ (SQRr − SQRir) /q
SQRir/ (n− k − 1)
∼ Fq,n−k−1 (16)
onde SQRr é a soma dos quadrados dos resíduos do modelo restrito e SQRur do modelo
irrestrito.
Observação 33 SQRr ≥ SQRir e SQT é o mesmo nos dois modelos pois y é o mesmo.
Observação 34 O denominador de F é apenas o estimador não viesado de σ2 = V ar (u)
do modelo irrestrito.
Observação 35 Quando q = 1, estamos testando uma hipótese simples sobre um parâmetro.
E pode ser mostrado que: t2n−k−1 ∼ F1,n−k−1, ou seja, a estatística t elevada ao
quadrado é igual a estatística F.E assim, as duas abordagens levam ao mesmo resultado,
dado que o teste é bilateral.
A estatística t é mais flexível pois pode ser utilizada também para um teste unilateral.
Observação 36 É possível que um regressor tenha uma estatística t significante, mas um
grupo de variáveis (incluindo esta última) seja conjuntamente insignificante ao utilizar a
estatística F.
Além disso, a estatística F para restrições conjuntas, incluindo, por exemplo, β1 = 0,
terá menos poder para detectar β1 6= 0 que a estatística t.
Outra forma de se medir a estatística F é a sua forma R2.
F =
(SQRr − SQRir) /q
SQRir/ (n− k − 1)
Substituindo SQRr = SQT
(
1−R2
r
)
e SQRir = SQT
(
1−R2
ir
)
acima:
F =
(
SQT
(
1−R2
r
)
− SQT
(
1−R2
ir
))
/q
SQT
(
1−R2
ir
)
/ (n− k − 1)
F =
(
R2
ir −R2
r
)
/q(
1−R2
ir
)
/ (n− k − 1)
(17)
Agora, podemos verificar que o teste F serve para testar a significância global da re-
gressão (ou seja, se todos os coeficientes são conjuntamente iguais a zero) é um caso especial
do teste F geral de restrição de coficientes (a ser apresentado abaixo).
A estatística F para significância geral de uma regressão é baseada na hipótese:
H0 : β1 = ... = βk = 0
47
ou seja, que todos os coeficientes sejam nulos.
Agora note que R2
r = 0, pois y é rodado contra apenas a constante1. Assim (sendo
R2
ir = R2):
F =
R2/k
(1−R2) / (n− k − 1)
Este teste de significância global (ou geral) da regressão ajuda a testar se o seu mod-
elo está bem especificado. Caso a hipótese nula não seja rejeitada, então nenhum dos
regressores ajudam a explicar y.
Hipóteses de Restrição Linear Geral
Um exemplo:
H0 : β1 = 1, β2 = 0, ..., β4 = 0
A estatística F pode ser computada normalmente, mas não o seu formato R2 (equação
17) logo acima, apenas o primeiro formato mostrado (equação 16), pois as variáveis depen-
dentes dos modelos restritos e irrestritos serão diferentes.
Exemplo 37 Suponha que desejemos estimar o seguinte modelo que procura explicar os
salários dos jogadores da principal liga de beisebol dos EUA:
ln (salário) = β0 + β1anos+ β2jogosano+ β3rebmed
+β4hrunano+ β5rebrunano+ u,
em que, salário é o salário total do jogador em 1993, anos são os anos do jogador na
liga, jogosano é a média de partidas jogadas por ano, rebmed é a média de rebatidas na
carreira do jogador, hrunano é o número de rebatidas para fora do campo (homeruns) que
redundaram em pontos por ano, e rebrunano é o número de rebatidas que redundaram em
corrida até a próxima base por ano.
Suponha que desejemos testar a hipótese nula: uma vez controlado para anos na liga e
jogos por ano, as estatísticas que medem desempenho (rebmed, hrunano, rebrunano) não
têm efeito sobre o salário?
Ou seja, será que a produtividade do jogador tem algum efeito sobre o salário?
1A rigor, estamos estimando o modelo restrito:
yi = β0 + ui
Logo:
SQE =
∑
i
(ŷi − ȳ)2
=
∑
i
(β0 − β0)
2
= 0
Logo, R2r = 0.
48
Assim, a hipótese nula seria:
β3 = β4 = β5 = 0
Temos 3 restrições de exclusão. Assim, este é um exemplo de restrições múltiplas porque
estamos colocando mais de uma restrição sobre os parâmetros.
Qual a hipótese alternativa?
Quando pelo menos um dos betas, especificados em H0, for diferente de zero?
O modelo estimado acima por MQO segue abaixo:
̂ln (salário) = 11, 19
(0,29)
+ 0, 0689
(0,0121)
anos+ 0, 0126
(0,0026)
jogosano
+0, 000098
(0,00110)
rebmed+ 0, 0144
(0,0161)
hrunano+ 0, 0108
(0,0072)
rebrunano
n = 353, SQRir = 183, 186, R2
ir = 0, 6278
Se fôssemos calcular a estatística t de cada regressor, verificaríamos que anos e jogosano
são estatisticamente significativas.Mas as outras variáveis explicativas não seriam.significativas.
Podemos concluir que a hipótese nula acima é válida? Não, pois cada teste t separada-
mente não impõe restrições sobre os demais parâmetros.
(A interpretação dos coeficientes quando a variável dependente está no formato log será
dada no capítulo de Formas Funcionais).
O modelo estimado acima é irrestrito. Para aplicamos o teste F devemos estimar o
modelo restrito, ou seja, aquele que impôe a hipótese nula como válida:
̂ln (salário) = 11, 22
(0,11)
+ 0, 0713
(0,0125)
anos+ 0, 0202
(0,0013)
jogosano
n = 353, SQRr = 198, 311, R2
r = 0, 5971
Note que o SQRr é maior do que o SQRir. E, logicamente, R2
ir é maior do que R
2
r.
O teste (F) apropriado envolve a diferença entre os SQR’s. Ou seja, será que o aumento
no SQR é suficientemente grande para rejeitarmos a H0 imposta acima.
Assim, a estatística F será:
F =
(SQRr − SQRir) /q
SQRir/ (n− k − 1)
=
(198, 311− 183, 186)/3
183, 186/(353− 5− 1)
= 9, 55 > 3, 78 = F 1%
c
em que, q = 3 é o número de restrições impostas em H0, k = 5 a quantidade de regressores
e F 1%
c = 3, 78 é o valor crítico da distribuição F3,347.
Poderíamos também ter calculado a estatística F no seu formato R2:
F =
(
R2
ir −R2
r
)
/q(
1−R2
ir
)
/ (n− k − 1)
=
(0, 6278− 0, 5971)/3
(1− 0, 6278)/(353− 5− 1)
= 9, 55 > 3, 78 = F 1%
c
49
Assim, notamos que o valor da estatística F está acima do valor crítico e, portanto,
rejeitamos a hipótese de que rebmed, hrunano, rebrunano não têm efeito sobre o salário.
Porque esta distinção ocorre entre os testes t e F? O problema aqui é de multicolineari-
dade.
As variáveis hrunano e rebrunano são altamente correlacionadas o que reflete em
variâncias altas dos seus estimadores, o que reduz o valor das estatísticas t.
A estatística F testa se essas variáveis são conjuntamente significantes, e a multicolin-
earidade entre hrunano e rebrunano não afeta esse teste.
50
6 Teoria Assintótica do MQO
As propriedades vistas anteriormente se mantém para amostras finitas.
Aqui apresentamos as propriedades assintóticas (de amostra grande ou infinita) dos
estimadores e das estatísticas de teste. Assim, por exemplo, mesmo sem a hipótese H.8
(Normalidade), as estatísticas t e F tem aproximadamente distribuições t e F, con-
siderando amostras grandes.
6.1 Consistência
A primeira propriedade assimptótica dos estimadores se refere à provável distância que o
estimador fica do parâmetro que ele supostamente estará estimando conforme o tamanho
da amostra cresça indefinidamente.
• Definição 38 Um estimador θ̂n é dito consistente se:
lim
n→∞
P
(∣∣∣θ̂n − θ∣∣∣ < ε
)
= 1
i.e., p lim θ̂n = θ
i.e., θ̂n
p→ θ
ou seja, se θ̂n converge em probabilidade para a constante θ, que é o seu valor ver-
dadeiro.
(Obs.: Para saber se um estimador é consistente, basta verificar se a LGN se verifica
para ele)
Proposição 39 Um estimador θ̂n é dito consistente se:
lim
n→∞
E
(
θ̂n
)
= θ
lim
n→∞
V ar
(
θ̂n
)
= 0
ou
limEQM
(
θ̂n
)
= 0
onde EQM
(
θ̂n
)
= V ar
(
θ̂n
)
+ viés2
(
θ̂n
)
, EQM é o Erro Quadrático Médio.
Cuidado: Consistência do EQM implica consistência do θ̂n, mas o inverso não é
necessariamente válido.
51
Teorema 40 Sob as hipóteses H1 a H4, os estimadores MQO são consistentes
Prova. Vamos provar para o caso da RLS:
yi = β0 + β1x1i + ui
Retomando:
β̂1 = β1 +
∑
i
diui
= β1 +
∑
i (x1i − x̄)ui∑
i (x1i − x̄)2
β̂1 = β1 +
(
∑
i (x1i − x̄)ui) /n(∑
i (x1i − x̄)2
)
/n
Calculando o limite da probabilidade (plim):
plimβ̂1 = plimβ1 + plim
(
∑
i (x1i − x̄)ui) /n(∑
i (x1i − x̄)2
)
/n

plimβ̂1 = β1 +
plim [(
∑
i (x1i − x̄)ui) /n]
plim
[(∑
i (x1i − x̄)2
)
/n
] (plim
(
Xn
Yn
)
= plimXn
plimYn
)
plimβ̂1 = β1 +
Cov (x1, u)
V ar (x1)
onde, na última igualdade, eu utilizei a Lei dos Grandes Números que implica que o
numerador e denominador convergem para suas expressões populacionais. E assim:
plimβ̂1 = β1
pois pela H.4 V ar (x1) 6= 0 e pela H.3 Cov (x1, u) = 0.
Outra forma de se provar é utilizar a proposição 39 e assim:
lim
n→∞
E
(
β̂1
)
= lim
n→∞
β1 = β1
lim
n→∞
V ar
(
β̂1
)
= lim
n→∞
σ2∑
i (x1i − x̄)2
= lim
n→∞
σ2
(n− 1)σ2
x1
= 0 (σ2
x =
∑
i(xi−x̄)2
n−1 )
onde σ2
x1 6= 0 pela H.4 e E
(
β̂1
)
= β1 pois vale H.3.
H.3’: (Média Zero e Correlação Zero): E (u) = 0 e Cov (xj , u) = 0, para j = 1, ..., k.
52
Observação 41 Correlação de u com qualquer um dos regressores gera estimadores MQO
de todos os regressores são viesados e inconsistentes.
Observação 42 Mas, por exemplo, se tivermos um modelo com dois regressores x1 e x2,
e se x1 e x2 forem não correlacionados, então qualquer correlação entre x1 e u não resulta
em inconsistência de β̂2, apenas no estimador β̂1.
Observação 43 No caso de regressão linear simples, teríamos o viés assintótico (in-
consistência) definido como:
plimβ̂1 − β1 = Cov (x1, u) /V ar (x1)
6.2 Normalidade Assintótica e Inferência em Amostras Grandes
Teorema 44 (Normalidade Assintótica do MQO): Sob as hipóteses de H1 a H5,
(i)
√
n
(
β̂j − βj
)
a∼ N
(
0, σ2/a2
j
)
, onde σ2/a2
j > 0 é a variância assintótica; a2
j =
plim
(
n−1
∑n
i=1 r̂
2
ij
)
, onde o r̂ij são os resíduos de regredir xj em outras variáveis inde-
pendentes. Assim, β̂j é assintoticamente normalmente distribuído.
(ii) σ̂2 é um estimador consistente de σ2 = V ar (u)
(iii)Para cada j : (
β̂j − βj
)
/ep
(
β̂j
)
a∼ N (0, 1)
onde ep(.) é o erro padrão MQO (no qual está incluído a estimativa σ̂2)
Observação: A normalidade assintótica dos estimadores MQO também implica que a
estatistica F tem distribuição F aproximada em amostras grandes. Mas para isso devem
ser válidas as hipóteses do teorema acima.
53
6.3 Estatística do Multiplicador de Lagrange (LM)
É outra estatística para testar restrições de exclusão múltiplas. Recebe esse nome pois
provém de um problema de otimização com restrição.
Outro nome para a estatística LM é estatística de escore (score), o qual também é
proveniente da otimização utilizada em cálculo.
Devem ser válidas também as hipóteses de Gauss-Markov (H1 a H5) do teorema acima
para sua derivação. Seja a hipótese nula:
H0 : βk−q+1 = 0, ..., βk = 0
Esta hipótese nula constitui q restrições de exclusão.
A estatística LM requer apenas a estimação do modelo restrito, definido como:
y = β̃0 + β̃1x1 + ...+ β̃k−qxk−q + ũ
A idéia do teste é rodar uma regressão dos resíduos desse modelo estimado, ̂̃u, contra
todos os regressores, x1, ..., xk.
Este é um exemplo de uma regressão auxiliar, a qual é utilizada para obter a estatís-
tica do teste.
Assim, se a hipótese nula acima for verdadeira, então o R2
ũ desta regressão auxiliar
deve ser próximo de zero, porque ũ será aproximadamente não correlacionado com todas
as variáveis independentes. Sob H0, temos:
LM = nR2
u ∼ χ2
q
A estatística LM é também denominada como estatística n−R2.
Observação: Se rodássemos os resíduos restritos apenas contra o conjunto restrito de q
regressores (e não contra todos) obteríamos R2
u = 0.
54
7 Formas Funcionais da Regressão
Nesta seção trataremos sobre diversas formas funcionais que surgem em trabalhos empíri-
cos.
7.1 Formas Funcionais Logarítmicas
Seja o seguinte modelo:
̂log y = β̂0 + β̂1 log x1 + β̂2x2
Ele é log-log de y em relação a x1 e é log-linear em relação a x2.
β1 mede a elasticidade de y em relação a x1, fixado x2. Vejamos porque:
β̂1 =
∂̂log y
∂ log x1
=
∂y/y
∂x1/x1
=
∂y
∂x1
x1
y
= εx1y
A interpretação do β̂1 é que para um aumento de 1% em x1 temos um aumento de β1%
em y.
Em relação a x2, podemos escrever, mantendo x1 fixo:
β̂2 =
∂̂log y
∂x2
Se x2 varia discretamente:
∆ ̂log y = β̂2∆x2
Para termos a medida em termos da mudança percentual exata:
∆ ̂log y = log y1 − log y0 = β̂2∆x2
log
y1
y0
= β̂2∆x2
e
log
y1
y0 = eβ̂2∆x2
y1
y0
− 1 = eβ̂2∆x2 − 1
y1 − y0
y0
= eβ̂2∆x2 − 1
×100%→ ∆y% = 100
[
eβ̂2∆x2 − 1
]
%
onde a multiplicação por 100 transforma a mudança proporcional em mudança per-
centual.
Quando ∆x2 = 1 :
%∆̂y = 100
[
eβ̂2 − 1
]
%
55
Assim, β̂2 pode ser interpretadocomo: um aumento de uma unidade em x2 dá um
aumento exato de 100
[
exp
(
β̂2
)
− 1
]
% em y.
Uma medida aproximada, para uma mudança pequena em x2 seria 100β̂2%. Este
coeficiente é, às vezes, denominado como semi-elasticidade.
Observação:
[
exp
(
β̂2
)
− 1
]
não é um estimador não-viesado devido à função não-linear
exp (.), pois o operador esperança não passa diretamente nesta função, mas é um estimador
consistente.
Outras vantagens de se usar o log tanto nas variáveis dependente e independentes:
1. Além da interpretação econômica, quando, y > 0, suas distribuições condicionais
geralmente são heterocedásticas ou assimétricas, tomando o log podemos reduzir ou elim-
inar estes problemas, ao suavizar tais séries.
2. Reduz o impacto de outliers (ou valores extremos), pois reduz o intervalo de domínio
das variáveis.
3. É o artifício mais comum em econometria para permitir relações não-lineares entre
a variável dependente e as independentes.
Exemplo 45 (Preços de Casas e Poluição do Ar) (Wooldridge, págs 126, 179). Seja
uma amostra de 506 comunidades da região de Boston, nos EUA. Seja um modelo que
procura determinar os fatores que impactam no preço mediano das casas (preço) em tais
comunidades.
Os fatores considerados são: oxn é a quantidade de óxido nitroso no ar (causa danos à
camada de ozônio), em partes por milhão; dist é uma distância ponderada da comunidade
em relação a cinco centros de emprego, em milhas; comods é o número médio de cômodos
nas casas da comunidade; e razestud é a razão média estudante-professor nas escolas da
comunidade.
A função de regressão populacional é:
ln (preço) = β0 + β1 ln (oxn) + β2 ln (dist) + β3comod s+ β4razestud+ u
O modelo estimado (função de regressão amostral) é:
ln (preço) = 11, 08
(0,32)
− 0, 954
(0,117)
ln (oxn)− 0, 134
(0,043)
ln (dist) + 0, 255
(0,019)
comod s− 0, 052
(0,006)
razestud+ u
em que, os números entre parênteses, abaixo de cada estimativa, são os erros-padrão.
Todos as variáveis são estatisticamente significativas, ou seja, a estatística t de cada
coeficiente é alta.
Em relação a oxn, verificamos uma elasticidade quase unitária, ou seja, para um au-
mento de 1% na quantidade de óxido nitroso no ar, o preço dos imóveis reduz em 0,954%.
Ou seja, o preço dos imóveis reagem praticamente na mesma proporção de emissão deste
óxido.
56
Em relação a dist, notamos uma elasticidade pequena, ou seja: para um aumento de 1%
na distância da comunidade em relação aos centros de emprego, o preço do imóvel reduz
em 0,134%.
Para a variável comods, o efeito de um cômodo a mais (aumentando assim o tamanho
da casa) é de um aumento aproximado de 25,5% no preço das casas. Se quisermos avaliar
o efeito exato de um cômodo a mais, devemos calcular:
%∆̂y = 100
[
eβ̂2 − 1
]
%
%∆̂y = 100
[
e0,255 − 1
]
% = 29%
uma diferença de 3,5 pontos percentuais (p.p.) em relação ao efeito aproximado. Ou seja,
quanto maiores as casas, mais valorizadas elas são.
Para a variável comods, o efeito de um aumento em uma unidade na razão média
estudante-professor nas escolas da comunidade (ou seja, aumentando a quantidade de
alunos atendida por cada professor, o que pode ser considerado uma piora da qualidade
educacional) é de uma redução aproximada de 5,2% no preço das casas. Se quisermos
avaliar o efeito exato de um cômodo a mais, devemos calcular:
%∆̂y = 100
[
eβ̂2 − 1
]
%
%∆̂y = 100
[
e0,052 − 1
]
% = 5, 3%
uma diferença pequena de 0,1 p.p. em relação ao efeito aproximado. Este resultado pode
ser interpretado da seguinte maneira: quanto pior a qualidade das escolas nas comunidades
menos valorizado são os imóveis.
7.2 Formas Funcionais Quadráticas
As funções quadráticas são bastante usadas para capturar efeitos marginais crescentes ou
decrescentes de algum regressor sobre a variável dependente.
Assim, seja o seguinte modelo:
ŷ = β̂0 + β̂1x+ β̂2x
2
O efeito de x em y será:
∂ŷ
∂x
= β̂1 + 2β̂2
Para variações discretas em x, teremos a seguinte aproximação:
∆̂y ≈
(
β̂1 + 2β̂2x
)
∆x
∆̂y/∆x ≈
(
β̂1 + 2β̂2x
)
57
β̂1 é interpretado como o impacto de x partir de 0 para 1.
Quando o coeficiente de x é positivo e o coeficiente de x2 é negativo, a função quadrática,de
y em relação a x, tem um formato côncavo.
Exemplo 46 (Impacto da Experiência nos Rendimentos) Seja a seguinte equação
de salários estimada:
̂salárioh = 3, 73 + 0, 298 exp er − 0, 0061 exp er2 + u
em que salárioh é o salário do trabalhador dividido pelas horas trabalhadas e exp er é uma
medida de experiência do trabalho.
Como interpretamos o efeito de exper no salário-hora? Devemos calcular a derivada
parcial, ou seja, o efeito marginal de exper em salarioh:
∂ ̂salárioh
∂ exp er
= 0, 298− 0, 0122 exp er
ou
∆ ̂salárioh
∆ exp er
= 0, 298− 0, 0122 exp er
ou seja, o impacto de um ano a mais de experiência sobre o salário-hora depende do nível
de experiência do trabalhador.
Quando o mesmo tem 0 anos de experiência, o efeito acima se reduz a 0,298, ou seja, o
primeiro ano de experiência lhe confere um aumento no salário-hora de quase 0,30 centavos
de dólar por hora.
O segundo ano de experiência vale menos e, assim, sucessivamente. Assim, como o
coeficiente de exper é positivo e de exper2 é negativo, a função quadrática do salário-hora
em relação a experiência é uma função côncava.
Assim, a taxa de crescimento do salário-hora é decrescente com o aumento da exper-
iência.
58
Podemos, assim, desenhar o gráfico deste efeito:
Assim, o impacto se torna nulo nos 24,4 anos de experiência e, a partir daí, passa a
ser negativo.
7.3 Formas Funcionais com Termos de Interação
Muitas vezes o efeito parcial de um regressor sobre y pode depender do valor de outro
regressor:
y = β0 + β1x1 + β2x2 + β3x1x2 + u
Note que
∂y
∂x2
= β2 + β3x1
59
Assim, β2 é o efeito parcial de x2 quando x1 = 0. Mas, muitas vezes, queremos saber
o impacto para outros valores de x1. Por exemplo, podemos mensurar o efeito acima para
o valor médio de x1.
De forma mais geral, podemos reparametrizar o modelo:
y = α0 + δ1x1 + δ2x2 + β3 (x1 − µ1) (x2 − µ2) + u
onde µ1 e µ2 são as médias populacionais de x1 e x2.
Podemos verificar a relação entre os parâmetros deste modelo com o do modelo acima.
Rearrumando:
y = α0 + δ1x1 + δ2x2 + β3x1x2 − β3x1µ2 − β3x2µ1 + β3µ1µ2 + u
y = (α0 + β3µ1µ2)︸ ︷︷ ︸
=β0
+ (δ1 − β3µ2)︸ ︷︷ ︸
=β1
x1 + (δ2 − β3µ1)︸ ︷︷ ︸
=β2
x2 + β3x1x2 + u
Assim:
α0 = β0 − β3µ1µ2
δ1 = β1 + β3µ2
δ2 = β1 + β3µ1
Agora o coeficiente δ2 = β2 + β3µ1, mede o efeito parcial de x2 sobre y no valor médio
de x1, i.e., quando x1 = µ1.
Na prática, as médias populacionais podem ser substituídas pelas médias amostrais.
7.4 Adicionando Regressores para Reduzir a Variância do Erro
A adição à regressão de certos regressores pode aumentar o problema de multicolinearidade.
Mas é sempre bom adicionar variáveis que afetam y e que são não-correlacionadas
com todos os outros regressores, e assim, não induzindo multicolinearidade e reduzirá a
variância do erro. Em amostras grandes, os erros padrões de todos estimadores MQO
serão reduzidos.
Para notar isso, veja que:
V ar
(
β̂j
)
=
σ2
SQTj
(
1−R2
j
)
Se adicionamos um regressor novo, teremos um componente a menos no erro, u, e
portanto, σ2 se reduz. E se esse novo regressor for não correlacionado com os outros
regressores, então o R2
j de algum regressor xj que já estava incluído na regressão antes,
não será afetado.
60
7.5 Variáveis Binárias (ou Dummy) como Variáveis Explicativas
Tais variáveis transforma informações qualitativas em informações quantitativas.
Mudança de Intercepto
yi = β0 + β1xi + ui
E (yi|xi) = β0 + β1xi + E (ui|xi)︸ ︷︷ ︸
=0
E (yi|xi) = β0 + β1xi
Suponha que tenhamos a seguinte variável dummy:
Di =
{
1, se mulher
0, se homem
Incluindo essa variável no modelo acima de forma aditiva:
yi = β0 + β1xi + β2Di + ui
Tomando a esperança condicional:
E (yi|xi, Di = 1) = β0 + β1xi + β2 = (β0 + β2) + β1xi
E (yi|xi, Di = 0) = β0 + β1xi
Assim:
β2 = E (yi|xi, Di = 1)− E (yi|xi, Di = 0)
Graficamente, seria da seguinte forma:
GráficoAssim, ao incluirmos a dummy ao modelo de forma aditiva, ela atua como uma mudança
de intercepto da função de regressão.
Observação 47 A variável dummy é uma variável discreta. Logo, ela não é diferenciável
e não podemos calcular ∂y
∂D . Assim ela não pode ser interpretada como as demais variáveis.
61
Mudança de Inclinação
yi = β0 + β1xi + ui
Podemos incluir a dummy de forma multiplicativa, ou seja:
yi = β0 + β1xi + β3xiDi + ui
ou seja, a dummy entra como um termo de interação com a variável explicativa. Assim:
E (yi|xi, Di = 1) = β0 + β1xi + β3xi = β0 + (β1 + β3)xi
E (yi|xi, Di = 0) = β0 + β1xi
Graficamente:
Gráfico
Assim, ao incluirmos a dummy ao modelo de forma multiplicativa, ela atua como uma
mudança de inclinação da função de regressão.
Mudança de Intercepto e Inclinação A dummy pode entrar simultaneamente de
forma aditiva e multiplicativa:
yi = β0 + β1xi + β2Di + β3xiDi + ui
Assim:
E (yi|xi, Di = 1) = (β0 + β2) + (β1 + β3)xi (18)
E (yi|xi, Di = 0) = β0 + β1xi (19)
Note que podemos considerar as equações (18) e (19) como regressões separadas para
homem e mulher. Graficamente:
Gráfico
Assim, ao incluirmos a dummy ao modelo de forma aditiva e multiplicativa, ela atua
como uma mudança de intercepto e de inclinação da função de regressão.
Exemplo 48 Seja a seguinte equação de salário-hora (salárioh) explicada por uma variável
dummy para mulheres (feminino), ou seja, recebe valor 1 para mulher e 0 caso contrário,
considerando uma amostra de trabalhadores americanos de 1976.
̂salárioh = 7, 10
(0,21)
− 2, 51
(0,30)
feminino
n = 526, R2 = 0, 116
O intercepto é o salário-hora médio dos homens, que é igual a 7,10 e é obtido quando
femin ino = 0. O salário médio das mulheres é obtido quando femin ino = 1, o que dá:
7, 10− 2, 51 = 4, 59.
62
Assim, a diferença média de salário entre homens e mulheres é de 2,51 favorável aos
homens, ou seja, as mulheres ganham 2,51 dólares por hora a menos do que os homens.
Agora, se incluirmos a variável educação (educ), experiência profissional (exp) e tempo
de permanência no atual emprego (perm) no modelo de regressão, as estimativas serão:
̂salárioh = −1, 57
(0,72)
− 1, 81
(0,26)
feminino+ 0, 572
(0,049)
educ+ 0, 025
(0,012)
exp +0, 141
(0,021)
perm
n = 526, R2 = 0, 326
Se compararmos uma mulher e um homem com os mesmos níveis de educação, exper-
iência e permanência, a mulher ganha, em média, U$1,81 por hora a menos que o homem.
O efeito é bem menor do que a regressão anterior pois no primeiro caso não controlamos
(incluímos) as diferenças em educação, experiência e permanência, e esses fatores são mais
baixos, em média, para as mulheres do que para os homens na amostra utilizada.
Dummies Múltiplas Quando temos categorias variadas, entramos com N−1 categorias
no modelo.
Isso para que a categoria excluída seja a base de comparação, pois se colocar N cate-
gorias as colunas das dummies serão uma combinação linear com a coluna do intercepto, e
assim violaremos a hipótese H.4, pois como posto (X) = posto (X ′X) e a matriz X ′X não
será invertível.
Um bom exemplo deste caso é quando temos a variável categórica raça:
raça =

1, branco
2, negro
3, pardo
4, amarelo
5, indı́gena
Assim, podemos ter uma dummy para cada raça, ou seja:
D1i =
{
1, se branco
0, se c.c.
D2i =
{
1, se negro
0, se c.c.
D3i =
{
1, se pardo
0, se c.c.
D4i =
{
1, se amarelo
0, se c.c.
D5i =
{
1, se indígena
0, se c.c.
63
Assim, podemos ter o seguinte modelo:
yi = β0 + β1xi + β2D1i + β3D2i + β4D3i + β5D4i + (β6D5i) + ui
Devemos retirar uma das dummies. Se retirarmos D5i, teremos as interpretações em
termos do grupo base indígena.
Se por exemplo y é ln (salário), então β2 mede o quanto que os brancos ganham, em
termos percentuais, a mais (ou a menos) que os indígenas.
Observação 49 Assim para evitar o problema de colinearidade perfeita (aqui denominado
como dummy trap na literatura) podemos:
i) Manter o intercepto e eliminar uma categoria;
ii) Manter todas as categorias e eliminar o intercepto. Neste caso, não teremos grupo
de comparação.
Para o exemplo acima, os coeficientes vão indicar apenas o salário médio para cada
raça.
Exemplo 50 Seja o seguinte modelo estimado:
̂ln (salárioh) = 0, 321
(0,100)
+ 0, 213
(0,055)
hcasados−0, 198
(0,058)
mcasadas−0, 110
(0,056)
msolteiras
+0, 079
(0,007)
educ+0, 027
(0,005)
exp er −0, 00054
(0,00011)
exp er2 +0, 029
(0,007)
perm−0, 00053
(0,00023)
perm2
n = 526, R2 = 0, 461
em que, hcasados, mcasadas e msolteiras são dummies para homens casados, mulheres
casadas e mulheres solteiras, respectivamente.
O grupo-base (omitido) é homens solteiros. Assim, a interpretação dessas dummies
será em termos deste grupo.
Assim, estima-se que os homens casados ganhem, em média, cerca de 21,3% a mais que
os homens solteiros. Este é o efeito aproximado, para obtermos o efeito percentual exato,
devemos calcular:
[exp (0, 213)− 1] 100% = 23, 7%.
O efeito marginal para as mulheres casadas é que estas ganham em torno de 19,8% a
menos, em média, do que os homens solteiros. O efeito exato seria de:
[exp (−0, 198)− 1] 100% = −18%.
Já as mulheres solteiras ganham em média 11% a menos do que os homens solteiros ou
,em termos exatos: -10,4%.
Podemos comparar as estimativas para verificar também quanto um grupo (que não seja
homens solteiros) ganhe em relação a outro.
64
Por exemplo, podemos verificar o ganho entre mulheres solteiras e casadas, mantido os
demais fatores constantes.
Para isso, computamos o ganho médio de cada grupo (para simplificar, desconsideramos
o efeito de educ, exp e perm que será o mesmo para cada grupo):
E
[
̂log salárioh|msolteiras = 1
]
= 0, 321− 0, 110
E
[
̂log salárioh|mcasadas = 1
]
= 0, 321− 0, 198
Tirando a diferença:
E
[
̂log salárioh|msolteiras = 1
]
− E
[
̂log salárioh|mcasadas = 1
]
=
−0, 110− (−0, 198) = 0, 088
ou seja, as mulheres solteiras ganham, em média, 8,8% a mais (aproximadamente) do que
as mulheres casadas (o efeito em termos exatos seria 9,2%).
7.5.1 Testando para Diferenças em Funções de Regressões de Grupos difer-
entes (Teste de Quebra Estrutural ou Teste de Chow)
Podemos testar se dois grupos seguem a mesma função de regressão, contra a hipótese
alternativa de que pelo menos um coeficiente de inclinação seja diferente entre os grupos.
No modelo geral com k variáveis explicativas e um intercepto, suponha que existam 2
grupos, g = 1 (por exemplo, homens) e g = 2.(por exemplo, mulheres)
A hipótese nula seria se o intercepto e todas as inclinações são as mesmas entre os dois
grupos.
Seja o modelo:
y = βg,0 + βg,1x1 + ...+ βg,kxk + u
A hipótese nula envolve que cada beta da equação seja o mesmo entre os dois grupos e
assim, inclui k + 1 restrições.
O modelo irrestrito, tem além do intercepto e as variáveis explicativas, uma variável
dummy de grupo e k termos adicionais de interação entre esta dummy e as variáveis
explicativas.
Exemplo 51 Para se construir um teste F , deste tipo precisamos do SQRir, do modelo
irrestrito. Ele pode ser obtido de duas regressões separadas para cada grupo, que denotamos
por: SQR1 e SQR2, tal que: SQRir = SSR1 + SSR2. Para se obter o SQR do modelo
restrito, é obtido do SQR oriundo do empilhamento (pooling) dos grupos e estimação de
uma equação simples (como a equação acima); que será denominado SQRp = SQRr Assim,
65
a estatística F será:
FCHOW =
[SSRP − (SSR1 + SSR2)] /k + 1
(SSR1 + SSR2) / [n− 2 (k + 1)]
FCHOW =
[SSRP − SQRir] /k + 1
SQRir/ [n− 2 (k + 1)]
Esta estatística F é denominada de estatística de Chow. Como é um teste F, será
válido apenas sob a hipótese de homocedasticidade.
Sob H0, as variâncias dos erros para os dois grupos devem ser iguais.
Exemplo 52 Vejamos um exemplo para ficar mais claro. Sejam dois grupos: homens e
mulheres. O modelo para cada parte da amostra é:
lnwi = βh,0 + βh,1 exp +βh,2 exp2 +βh,3educ+ uh,i (20)
lnwi = βm,0 + βm,1 exp +βm,2 exp2 +βm,3educ+ um,i (21)
ou seja, temos o modelo para cada grupo (h = homens, m = mulheres)
Assim, a hipótese nulaé:
H0 : βh,0 = βm,0, βh,1 = βm,1, βh,2 = βm,2, βh,3 = βm,3
Podemos obter o SQRir, estimando estes dois modelos e somando os SQRs, tal que:
SQRir = SQRh + SQRm. E obtemos o SQRr empilhando as duas amostras (homens e
mulheres) e estimando o modelo acima. E, portanto, obtendo:
FCHOW =
[SSRr − SQRir] /k + 1
SQRr/ [n− 2 (k + 1)]
onde k+ 1 = 4 é o número de coeficientes ou restrições na hipótese nula (ou k número
de regressores). O termo 2 (k + 1) = 8, é o número total de regressores do modelo (20)
mais o total do modelo (21).
Uma outra forma é estimar o modelo irrestrito do seguinte modo:
lnwi = α0 + α1 exp +α2 exp2 +α3educ (22)
+α4Di + α5Di exp +α6Di exp2 +α7Dieduc+ ui (23)
para toda a amostra, onde Di = 1 se mulher e 0, c.c.
E estimar o modelo restrito (também considerando toda a amostra):
lnwi = β0 + β1 exp +β2 exp2 +β3educ+ ui
Agora podemos computar a estatística F no formato R2:
FCHOW =
[
R2
ir −R2
r
]
/k + 1(
1−R2
ir
)
/ [n− 2 (k + 1)]
66
Assim, queremos testar se há alguma quebra no comportamento do salário (wi) com a
inclusão da variável dummy Di (gênero).
Ou seja, se há estabilidade do modelo entre as condições da variável dummy.
O teste é vantajoso pois roda-se somente duas regressões. E através da estatística t
(para o modelo (22)) podemos testar individualmente a significância, para identificar onde
pode ter ocorrido a origem da quebra.
Observação 53 Não existe o formato R2 do teste, como tem para o teste F padrão.
Observação 54 Um teste F padrão poderia ser aplicado diretamente no modelo irrestrito.
O teste de Chow é apenas um modo mais fácil de computar a estatística do teste.
Observação 55 Se fosse aplicado o teste F padrão, então poder-se-ia usar o formato R2
do teste visto anteriormente.
Observação 56 Este teste é também muito aplicado em séries temporais. Por exemplo,
será que houve uma queda abrupta no nível de emprego do país na época da desvalorização
cambial, em 1999?
67
8 Multicolinearidade
8.1 O que é Multicolinearidade?
• Existência de algum nível de relação linear (correlação) entre as variáveis explicativas
do modelo.
• Multicolinearidade não é questão de existência, mas de grau. Ou seja, ela sempre
existe, mas nem sempre é um grande problema na inferência.
Conseqüências:
1. Multicolinearidade Severa2:(
X ′X
)−1
=
1
det (X ′X)
adj
(
X ′X
)
Com uma correlação alta entre as colunas de X, det (X ′X) se aproxima de zero. E
com isso (X ′X)−1 aumenta consideravelmente.
Logo:
V ar
(
β̂
)
= σ2
(
X ′X
)−1
aumenta.
Assim, um aumento da variância estimada do estimador de β gera um intervalo de
confiança muito grande.
2. Multicolinearidade Severa:
A estatística do teste t muito baixa, e um R2 alto.
Por exemplo: O teste t para β1 = 0, será t = β̂1
V ar(β̂1)
será reduzido pois sua variância
aumentará.
Pode haver um conflito entre o teste de significância individual (t) e o teste de sig-
nificância global (F ).
Um exemplo seria:
lnw = β0 + β1x+ β2x
2 + β3x
3 + ...+ β7x
7 + u
O teste t seria aplicado para cada hipótese nula, separadamente: H0 : β1 = 0;H0 :
β2 = 0;H0 : β3 = 0; ...;H0 : β7 = 0. Como x deve ter uma correlação alta com as
2A matriz adjunta de uma matriz quadrada A (adj (A)) é a transposta da matriz que se obtem sub-
stituindo cada termo ai,j pelo determinante da matriz resultante de retirar a A a linha i e a coluna j
multiplicado por ( - 1)i+j .
68
demais potências, isso ocasionaria multicolinearidade severa e, provavelmente, tais
hipóteses não seriam rejeitadas
Mas ao se aplicar um teste F sobre H0 :
 β1
β2
β3
 = 0 pode rejeitar tal hipótese, pois
x pode ser um bom preditor de lnw, o que gera um R2 alto.
Assim, isso é um indício de multicolinearidade: testes t baixos, não rejeitando H ′0s
individuais, e teste F rejeitando H0 conjunta.
3. Multicolinearidade Perfeita: Existe relação linear perfeita entre as variáveis. Logo @
(X ′X)−1.
E portanto, β̂ = (X ′X)−1X ′y não pode ser obtido. Ou seja, não haverá os EMQ’s.
O exemplo do item 2 não seria um caso de multicolinearidade perfeita? Não, pois a
relação entre as variáveis explicativas não é linear (relembre: correlação é associação
linear entre as variáveis).
4. Ausência de Multicolinearidade: variáveis explicativas ortogonais.
Exercício 57 Mostre que no modelo:
yi = β0 + β1x1i + ...+ βkxki + ui
supondo ausência de multicolinearidade, poderíamos estimar regressões separadas de
y contra cada regressor, ou seja:
yi = α10 + α1x1i + e1i
.
.
.
yi = αk0 + αkxki + eki
e obteríamos da mesma forma os estimadores, ou seja, α̂j = β̂j , j = 1, ..., k.
(Dica: use a definição do EMQ em termos de somatório ou compute (X ′X) na prova
com matriz).
69
8.2 Como detectar multicolinearidade?
1. Analisar a matriz de correlação das variáveis explicativas.
Problema: só capta relações entre pares de variáveis explicativas. Não reconheceria
uma relação linear de uma variável com duas ou mais variáveis.
2. Estimar regressões auxiliares:
x1i = γ0 + γ1x2i + ...+ γk−1xki + vi
Se obtiver um R2
1 alto (alguns livros dizem > 0.9) é um indício de multicolinearidade.
Neste caso existe um indício forte de que x1i pode ser uma combinação linear dos
outros regressores (ou de alguns).
Problema: Se existir muitos regressores, deve ser estimada uma regressão auxiliar
para cada regressor como variável dependente.
3. Seja a fórmula da variância do estimador em termos de somatório:
V ar
(
β̂1
)
=
σ2
SQT1
(
1−R2
1
) =
σ2
SQT1
1(
1−R2
1
)
Alguns livros consideram o fator inflação da variância (que seria, segundo a fórmula
acima, um termo da variância do estimador) para inferir o grau da multicolinearidade:
FIV
(
β̂1
)
=
1
1−R2
1
Alguns livros dizem FIV > 10 (que equivale a um R2
1 > 0.9) é um indício de multi-
colinearidade.
Problema: Semelhante ao do item acima, ou seja, existindo muitos regressores com
suspeita de correlação alta, devemos calcular o FIV para cada um.
Além disso, esse valor é arbitrário.
4. Número de condição
Xkxk tem k autovalores (λ1, ..., λk)
det (X) = Πk
i=1λi
Logo, X singular se pelos menos um dos λ′s igual a zero.
X é aproximadamente singular se existe um λi ' 0.
Mas, mesmo assim, existe um problema de unidade de medida, ou seja, para algumas
variáveis um λi próximo de zero pode ser considerado "normal "pois suas observações
variam em um intervalo pequeno e próximo de zero.
70
Assim, uma medida que contorna isso é o número de condição:
NC =
√
λmax
λmin
se NC < 10 :Multicolinearidade suave
se NC ∈ [10, 30] : Multicolinearidade moderada
se NC > 30 :Multicolinearidade severa.
Problema: Tais valores ainda assim são arbitrários.
Exemplo 58 Seja o modelo de regressão:
yi = β0 + β1x1i + β2x2i + β3x3i + ui
V ar
(
β̂2
)
=
σ2(
1−R2
2
)∑
(x2i − x̄2)2
onde
σ̂2 =
∑
û2
i
n− k − 1
k=3
=
∑
û2
i
n− 4
Então, substituindo o estimador de σ2, na fórmula anterior, temos:
V ar
(
β̂2
)
=
∑
û2
i
(n− 4)
(
1−R2
2
)∑
(x2i − x̄2)2
onde R2
2 é o R
2 da regressão (auxiliar) de x2 contra x1, x3.
Assim, a V ar
(
β̂2
)
pode ser inflada por 3 razões:
1. Micronumerosidade: n "baixo"ou n ' k + 1 = 4(neste exemplo), ou seja, amostra
pequena em comparação ao número de graus de liberdade.
2. Multicolinearidade alta: R2
2 próxima de 1.
3. Baixa variabilidade das variáveis explicativas:
∑n
i=1 (xki − x̄k)2 → 0. Neste caso,
ter’iamos
∑
(x2i − x̄2)2 próximo de zero. Esta baixa variabilidade pode ser por carac-
ter’isticas do regressor e/ou por micronumerosidade.
Mas note que a correlação alta entre algumas variáveis terá impacto somente nas var-
iâncias de seus parâmetros estimados. Ou seja, correlação alta entre x1 e x3 implica em
V ar
(
β̂1
)
e V ar
(
β̂3
)
mais alta, mas sem efeito na V ar
(
β̂2
)
.
71
8.3 Como corrigir Multicolinearidade?
1. Aumentar a amostra: talvez o pesquisador esteja com um problema decorrente da
amostra.
Exemplo: lnw = β0 + β1x+ β2 (tempo no emprego atual) + εi
Se sua amostra for composta apenas por pessoas no 1o emprego, você terá multicol-
inearidade perfeita.
2. Exclusão de variáveisexplicativas. Às vezes não é uma boa solução.
Mas, se em sua regressão você controla não apenas para x, mas para x2, x3, x4, ...,
talvez seja bom não incluir tantos termos polinomiais, preferindo um modelo mais
parcimonioso.
Geralmente até o termo cúbico é o suficiente.
3. Regressão de Ridge:
β̂R =
(
X ′X + kI
)−1
X ′Y, k ≥ 0
β̂R é viesado: não vale mais o Teorema de Gauss Markov.
Mas este estimador diminui o problema de condicionamento (quando o acréscimo de
1 observação gera grande mudança dos estimadores).
E ∃ k tal que V ar
(
β̂R
)
< V ar
(
β̂MQO
)
, ou seja, eu sempre obtenho um k que reduz a
variância do estimador e consequentemente, reduz o problema de multicolinearidade.
(Note que MQO é um caso particular desta regressão, pois MQO → k = 0).
Quanto maior o k, maior o viés e menor a variância: ou seja, aumenta a influên-
cia do k no viés e V ar
(
β̂R
)
é proporcional a (X ′X + kI)−1, pois V ar
(
β̂R
)
=
σ2 (X ′X + kI)−1.
Note que:
β̂R =
(
X ′X + kI
)−1
X ′ (Xβ + u) =
(
X ′X + kI
)−1
X ′Xβ +
(
X ′X + kI
)−1
X ′u
E
(
β̂R
)
=
(
X ′X + kI
)−1
X ′Xβ 6= β.
E ∃ k tal que:
EQM
(
β̂R
)
=
[
viés
(
β̂R
)]2
+ V ar
(
β̂R
)
< V ar
(
β̂MQO
)
= EQM
(
β̂MQO
)
4. Uso de Informação A priori: utiliza parâmetros estimados em outro estudo mais
refinado que o seu.
72
Exemplo:
yi = β0 + β1x1i + β2x2i + ui
Obtemos de outro trabalho que: β2 = 0.85
Se Corr (x2, x1) = 1, então substituímos este parâmetro na regressão:
yi = β0 + β1x1i + 0.85x2i + ui
yi − 0.85x2i = β0 + β1x1i + ui
y∗i = β0 + β1x1i + ui
e estimamos a regressão acima.
73
9 Heterocedasticidade
Definição 59 É a violação da hipótese de homocedasticidade do erro, ou seja, que a var-
iância do erro seja constante. Assim, sob heterocedasticidade temos que:
V ar (ui) = σ2
i
ou seja, a variância do erro depende de cada i, ou seja, ela pode variar ao longo das
observações.
Algumas possíveis origens ou razões da heterocedasticidade são:
1. Aprendizado - erro: Variância dos erros diminui com o aumento do tempo de apren-
dizado.
2. Poupança - renda: Variância dos erros aumento com o aumento da renda —> ricos
tem consumo variado de mês para mês
3. Presença de outliers (obervações extremas)
4. É um fenômeno mais comum em cross-section.
Conseqüências:
1. Heterocedasticidade não afeta a propriedade de não-viés e consistência do EMQ.
2. A interpretação do R2 e R̄2 não é afetada pela presença de heterocedasticidade.
Isso porque as medidas σ2
u e σ
2
y a serem estimadas (e que constam na fórmulas dos
coeficientes de determinação) são variâncias incondicionais, não dependendo do valor
que os regressores assumem.
3. Os testes t e F usuais não serão válidos, pois baseiam-se na variância do estimador
cuja variância do erro era constante.
Retome que para o caso de RLS:
V ar
(
β̂1
)
=
V ar (ui)∑n
i=1 (xi − x̄)
V ar
(
β̂1
)
=
σ2
i∑n
i=1 (xi − x̄)
A variância do estimador não será constante também e dependerá da amostra. Logo,
a variância é viesada e o teste t e F também serão, o que os tornam inválidos.
As estatísticas t do MQO usuais não seguirão mais uma distribuição t e o problema
não é solucionado quando eleva-se o tamanho amostral. Da mesma forma, a estatís-
tica F não segue mais uma distribuição F, e a estatística LM não segue mais uma
distribuição χ2 assintótica.
74
Vejamos o caso geral, de RLM. Seja a FRP e FRA:
y = Xβ + u ([FRP ])
y = Xβ̂ + û ([FRA])
Se a hipótese de homocedasticidade for violada:
1. Os EMQ continuam não viesados e consistentes (as hipóteses necessárias para provar
estas propriedades não inclui homocedasticidade). Retome que:
β̂ =
(
X ′X
)−1
X ′y =
(
X ′X
)−1
X ′ (Xβ + u)
= β +
(
X ′X
)−1
X ′u
β̂ − β =
(
X ′X
)−1
X ′u
Calculando a variância:
V ar
(
β̂
)
= E
[(
β̂ − β
)(
β̂ − β
)′]
= E
[(
X ′X
)−1
X ′u
((
X ′X
)−1
X ′u
)′]
= E
[(
X ′X
)−1
X ′uu′X
(
X ′X
)−1
]
onde na última linha eu utilizei o fato de que
[
(X ′X)−1
]′
=
[
(X ′X)′
]−1
= (X ′X)−1.
Continuando, assumindo X não estocástico:
V ar
(
β̂
)
=
(
X ′X
)−1
X ′E
(
uu′
)
X
(
X ′X
)−1
Relembre que E (uu′) = V ar (u), ou seja, é a matriz de variância e covariância de u.
Sob homocedasticidade seria:
V ar (u) = σ2I
logo:
V ar
(
β̂
)
=
(
X ′X
)−1
X ′σ2IX
(
X ′X
)−1
= σ2
(
X ′X
)−1
X ′X
(
X ′X
)−1
= σ2
(
X ′X
)−1
75
Sob heterocedasticidade será:
V ar (u) =

σ2
1 0 . . . 0
0 σ2
2 0
. . . .
. . . .
. . . .
0 0 . . . σ2
n

n×n
= Ωnxn
logo:
V ar
(
β̂
)
=
(
X ′X
)−1
X ′ΩX
(
X ′X
)−1
Se houver heterocedasticidade, a variância σ2 (X ′X)−1 não está mais garantindo
eficiência do estimador de mínimos quadrados. Logo, não vale mais o Teorema de
Gauss Markov e o EMQ não é mais BLUE.
2. E como vimos acima, os testes t , F e LM não são mais confiáveis.
Como corrigir heterocedasticidade?
1. Estimação de MQ ponderados
Se soubermos a forma específica da heterocedasticidade, então pode-se construir um
estimador mais eficiente que o do MQO e que produz estatísticas t e F que tenham
distribuições t e F .
A Heterocedasticidade é conhecida como um termo multiplicativo
Assuma que:
V ar (u|x1, ..., xk) = σ2h (x1, ..., xk) = σ2hi
Seja a equação original a ser estimada:
yi = β0 + β1xi1 + ...+ βkxik + ui
Note que:
E
((
ui/
√
hi
)2
)
= E
(
u2
i
)
/hi =
(
σ2hi
)
/hi = σ2
Assim, podemos dividir a equação de regressão acima por
√
hi para obter erros ho-
mocedásticos:
yi/
√
hi = β0/
√
hi + β1xi1/
√
hi + ...+ βkxik/
√
hi + ui/
√
hi
y∗i = β0x
∗
i0 + β1x
∗
i1 + ...+ βkx
∗
ik + u∗i
76
Assim, se a equação original acima satisfaz H1-H4, então esta última equação trans-
formada satisfaz H1-H5.
E se ui tem distribuição Normal, então u∗i também tem. Então a última equação
satisfaz as hipóteses do Modelo Linear Clássico.
Os estimadores de MQO da última equação são exemplos dos estimadores de MQ
generalizados (MQG). E eles então são BLUE, quando a hipótese de homocedas-
ticidade é violada. Os estimadores MQG para correção de heterocedasticidade são
chamados de estimadores MQ ponderados (MQP).
O problema deste método é que não recuperamos os parâmetros do modelo inicial,
ou seja, o impacto de x1i sobre yi.
Para isso, precisamos inferir o formato da heterocedasticidade. Ou seja, precisamos
inferir V ar (ui|x) = σ2
i , que a priori é desconhecida
A Função de Heterocedasticidade deve ser estimada: MQG factível
Se não temos idéia da função h (xi), podemos modelá-la e estimá-la. E assim resulta
em uma estimativa ĥi, e utilizando este estimador para transformar a equação original
rsultará no estimador denominado estimador de MQG factível (MQGF) ou MQG
estimado (MQGE).
Existem várias formas de modelar heterocedasticidade, mas assumimos uma forma
aqui:
V ar (u|x) = σ2 exp (δ0 + δ1x1 + ...+ δkxk)
Transformamos esta equação no formato linear, a fim de aplicarmos MQO. Sob a
hipótese acima, podemos escrever:
u2 = σ2 exp (δ0 + δ1x1 + ...+ δkxk) v
onde v tem média igual a 1, condicionado em x1, ..., xk. Se assumirmos que v é
independente dos regressores, então:
log u2 = α0 + δ1x1 + ...+ δkxk + e
onde e tem média zero e é independente dos regressores. Esta equação satisfaz as
hipóteses de Gauss-Markov e obtemos estimadores não-viesados de δj por MQO.
Então regredimos o log do resíduo MQO log û2 contra os regressores (x1, ..., xk) e
obtemos os valores ajustados dessa regressão, denominados ĝi. Então:
ĥi = exp (ĝi)
E agora estimamos o modelo original por MQP com pesos 1/ĥi.
77
Observação: O estimador MQGF pode ser viesado, mas é consistente e assintotica-
mente mais eficiente que o MQO. E tem estatísticas t e F com distribuições t e F,
em amostras grandes.
Uma alternativa para estimar hi é rodar a regressão log û2 contra ŷ, ŷ2 (estes da
regressão original por MQO) e não contra os regressores. E assim, obter os valores
previstos ĝi e obter ĥi = exp (ĝi), como especificado acima.
2. Matriz de Variância-Covariância de White (ou Correção de White ou Matriz de
Variância-Covariância robusta a heterocedasticidade)
Esta solução corrige a variânciados estimadores sem alterar o modelo.
É possível ajustar os erros padrões e as estísticas t, F e LM tal que sejam válidos
na presença de heterocedasticidade que tenha forma desconhecida. Este método
é denominado como procedimentos robustos a heterocedasticidade porque eles são
válidos, pelo menos em amostras grandes.
1o Considere um modelo de RLS (Reg. Lin. Simples):
yi = β0 + β1xi + ui
As hipóteses H1-H4, se mantém, mas os erros contém heterocedasticidade, tal que:
V ar (ui|xi) = σ2
i
ou seja, a variância depende do valor de xi. O estimador MQO pode ser escrito como:
β̂1 = β1 +
∑n
i=1 (xi − x̄)ui∑n
i=1 (xi − x̄)2
Sob as hipóteses H1-H4, a variância do estimador, condicionada nos valores xi da
amostra é:
V ar
(
β̂1
)
=
∑n
i=1 (xi − x̄)2 σ2
i
SQT 2
x
em que, SSTx =
∑n
i=1 (xi − x̄)2. Quando σ2
i = σ2, esta fórmula se reduz a fórmula
padrão σ2/SQTx.
Mas agora, precisamos estimar a equação acima, a qual contém heterocedasticidade.
White formulou uma correção. Seja ûi os resíduos de MQO da regressão acima.
Então um estimador válido para V ar
(
β̂1
)
, para qualquer formato de heterocedas-
ticiade (incluindo até homocedasticidade) é:∑n
i=1 (xi − x̄)2 û2
i /n
SQT 2
x/ (n− 1)
78
É possível demonstar que:
n
∑n
i=1 (xi − x̄)2 û2
i
SQT 2
x
p→ n
E
[
(xi − µx)2 u2
i
]
(σ2
x)2
n
∑n
i=1 (xi − x̄)2 σ2
i
SQT 2
x
p→ n
E
[
(xi − µx)2 u2
i
]
(σ2
x)2
ou seja, n vezes o estimador de White converge em probabilidade para a mesma
expressão que o estimador da variância anterior. E assim, é possível construir ICs e
estatísticas t.
Mas note que, como é uma convergência, para essa aproximação ser razoável é
necessário ter um tamanho amostral razoávelmente grande.
Uma fórmula similar para a RLM é:
V ar
(
β̂j
)
=
∑n
i=1 r̂
2
ij û
2
i /n(∑n
i=1 r̂
2
ij
)2
/ (n− k − 1)
(24)
onde r̂ij denota o i− ésimo resíduo da regressão de xj em todos os outros regressores.
A raiz quadrada desta medida é chamada de erro padrão robusto (a heterocedastici-
dade) para β̂j , ou ainda como erros padrões de White.
Às vezes, o estimador (24), é mutiplicado por uma correção dos graus de liberdade,
n/ (n− k − 1). Isso porque se os resíduos de MQO quadráticos, û2
i , fossem os mes-
mos para todas observações i (a forma mais forte possível de homocedasticidade da
amostra), então tirando a raiz quadrada da expressão final ajustada obteríamos os
erros padrões de MQO.
De posse destas estimativas robustas do erro padrão podemos construir estatísticas
t robustas também.
Exemplo 60 Suponha a seguinte equação de salários estimada por MQO:
ln (salário− hora) = 0, 321
(0, 100)
[0, 109]
+ 0, 0789
(0, 0067)
[0, 0074]
educ+ 0, 0268
(0, 0055)
[0, 0051]
exp− 0, 00054
(0, 00011)
[0, 00011]
exp2
em que, o número entre parênteses é o erro padrão usual e entre colchetes é o erro
padrão robusto a heterocedasticidade.
Nota-se que a maior diferença é para a variável educ, mas não a ponto de alterar a
significância do coeficiente.
79
3. Em termos matriciais, estimamos o modelo diretamente por MQO e computamos sua
variância, sob heterocedasticidade :S
V ar
(
β̂MQO
)
=
(
X ′X
)−1
X ′ΩX
(
X ′X
)−1
A correção de White será:
V ar
(
β̂MQO
)
White
=
n
n− k − 1
(
X ′X
)−1
X ′Ω̂X
(
X ′X
)−1
Ω̂ =

u2
1 0 . . . 0
0 u2
2 0
. . . .
. . . .
. . . .
0 0 . . . u2
n

Como detectar heterocedasticidade?
Existem dois testes clássicos:
1. Teste Breusch-Pagan (BP)
Seja o modelo de RLM, valendo as hipóteses H1-H4 e assumimos também que E (u|x1, ..., xk) =
0, tal que MQO é não-viesado e consistente. A hipótese nula assume que H5 é válida,
ou seja:
H0 : V ar (u|x1, ..., xk) = σ2
onde u, é o erro da equação da RLM. Esta hipótese é equivalente a:
H0 : E
(
u2|x1, ..., xk
)
= E
(
u2
)
= σ2
A idéia é verificar se u2 (seu valor esperado) é relacionado a algum regressor. Uma
abordagem simples é assumir:
u2 = δ0 + δ1x1 + ...+ δkxk + v
tal que, E (v|xj) = 0
Então, a hipótese nula de homocedasticidade será:
H0 : δ1 = ... = δk = 0.
Obtendo estimativas de u, pelos resíduos de MQO, ûi, a partir do modelo original de
RLM, podemos estimar:
û2 = δ0 + δ1x1 + ...+ δkxk + erro (25)
80
e assim, computar as estatísticas F e LM para testar a hipótese nula acima. Ass-
intoticamente, estas estatísticas seguem uma distribuição F .e χ2. Denote o R2 da
regressão acima, como R2
û2 . Então a estatística F será:
F =
R2
û2/k(
1−R2
û2
)
/ (n− k − 1)
onde k é o número de regressores da regressão (25) . Esta estatística tem distribuição
aproximada Fk,n−k−1, sob H0.
A estatística LM será:
LM = nR2
û2
a qual assintoticamente segue χ2
k. Este teste LM é também chamado de teste
Breusch-Pagan (BP).
Observação:
1. Se a suspeita da heterocedasticidade é relacionada a apenas alguns regressoreso,
o teste BP pode ser feito simplesmente regredindo ũ2 contra apenas estes regres-
sores suspeitos e computar as estatísticas F e LM padrões, e os graus de liberdade
dependem do número de regressores da regressão (25) e não da regressão original.
2. Se a suspeita é em relação a apenas um regressor, então o teste de heterocedasti-
cidade é feito utilizando a estatística t.
2. Teste de White para Heterocedasticidade
A hipótese de homocedasticidade, V ar (u|x1, ..., xk) = σ2, pode ser substituída por
uma hipótese mais fraca que seria o erro quadrático, u2, ser não correlacionado com
todos regressores, xj , os seus quadrados, x2
j , e todos os produtos cruzados, xjxh
(j 6= h). Assim, White propôs um teste que incluía todos estes termos na regressão
(25). Assim, o teste de White é baseado na estimação de:
û2 = δ0 + δ1x1 + ...+ δkxk +
∑
m=1
∑
l=1
δlk+mxlxm + erro
O teste de White para heterocedasticidade é a estatística LM que testa se
todos os δj (com exceção do intercepto) na equação acima são iguais a zero. Pode-se
utilizar também o teste F , e ambos os testes têm as mesmas distribuições assintóticas
dadas anteriomente.
Um problema deste teste é que, como visto na equação acima, mesmo para poucos
regressores incluídos no modelo original, o teste será feito para diversos regressores e
assim um valor elevado de graus de liberdade deverá ser utilizado no teste.
Uma alternativa é utilizar os valores ajustados do MQO em um teste para hetero-
cedasticidade. Elevando ao quadrado os valores ajustados de ŷi teremos uma função
81
particular dos quadrados e produtos cruzados dos regressores. Assim, pode-se estimar
a equação:
û2 = δ0 + δ1ŷ + δ2ŷ
2 + erro
Pode-se utilizar um teste F ou LM para testar a significância conjunta de δ1 e δ2.
Este é um caso especial do teste de White. Este teste segue assintoticamente
uma distribuição F2,n−3 e χ2
2, respectivamente.
Observação: Se H.3 (E (u|x1, ..., xk) = 0) é violada, principalmente se a forma fun-
cional de E (y|x) é mal especificada, então um teste de heterocedasticidade pode re-
jeitar H0, mesmo se V ar (y|x) é constante. Isto conduz alguns economistas a verem
os testes de heterocedasticidade como testes para má especificação das formas fun-
cionais da equação. Mas testes deste tipo serão especificados mais adiantes e são
mais apropriados.
10 Mais sobre Problemas nos Dados e na Especificação
10.1 Má especificação da Forma Funcional
Teste RESET como um Teste Geral para Má Especificação da Forma Funcional
RESET (Teste do erro de especificação da regressão), devido a Ramsey, tem uma idéia
simples. Seja o modelo:
y = β0 + β1x1 + ...+ βkxk + u
Se valer a hipótese H.3 então, adicionar funções não lineares dos regressores (tipo:
x2
1) não devem ser significantes. Se for, deve haver problemas de forma funcional. O
teste RESET inclui funções dos valores ajustados, como por exemplo, o seguinte modelo
expandido:
y = β0 + β1x1 + ...+ βkxk + δ1ŷ
2 + δ2ŷ
3 + erro
afim de captar não-linearidades dos regressores. A hipótese nula do teste é que δ1 =
δ2 = 0.
A estatística do teste RESET é a de um teste F padrão sobre esta H0.
A distribuição assintótica é F2,n−k−3, sob H0 e as hipóteses de Gauss-Markov.
Observações:
1. Não existe uma quantidade certade ŷ a ser incluída no teste RESET.
2. Alguns pesquisadores dizem que o teste RESET é visto como um teste muito geral
para má especificação, pois inclui variáveis omitidas não observadas e heterocedasti-
cidade (ambas captadas por ŷ2 e ŷ3).
82
Mas RESET não tem poder para detectar variáveis omitidas, se estas forem lineares
(note que o teste acima inclui apenas .ŷ2 e ŷ3, ou seja, se exisitir alguma outra variável
- ex: z - o teste logicamente não detectará).
E se a forma funcional é bem especificada, RESET não tem poder para detectar
heterocedasticidade (pois neste caso δ2 = δ3 = 0, mas ainda assim o erro pode
apresentar heterocedasticidade, reveja o teste BP e de White do capítulo anterior).
Enfim, RESET é um teste apenas para forma funcional.
Testes contra Alternativas Non-nested
Supondo o modelo:
y = β0 + β1x1 + +β2x2 + u (26)
E o modelo expandido a ser testado (nonnested):
y = β0 + β1 log (x1) + +β2 log (x2) + u (27)
Não se pode usar o teste F, então constroi-se o seguinte modelo:
y = γ0 + γ1x1 + γ2x2 + γ3 log (x1) + γ4 log (x2) + u
Agora, podemos testar H0 : γ3 = γ4 = 0, como um teste para (26) e um teste H0 :
γ1 = γ2 = 0, como um teste para (27). Esta abordagem foi sugerida por Mizon e Richard.
Outra abordagem é a seguinte: estimo (27) por MQO e obtenho os valores ajustados,
denominados ̂̂y. E depois estimo a equação:
y = β0 + β1x1 + β2x2 + θ1
̂̂y + erro
um teste t sobre θ1 serve para testar a hipótese nula que o modelo (26) é válido. Este
teste é chamado de teste de Davidson-MacKinnon.
De forma análoga podemos testar a hipótese nula que o modelo (27) é válido, ao obter
os resíduos de (26).
Observações:
1. Esta abordagem que vimos é um exemplo específico, mas pode ser utilizada para
testar quaisquer dois modelos non-nested.
2. Se nenhum dos modelos é rejeitado, pode-se utilizar o R̄2 para escolher entre ambos.
3. Outro problema é que rejeitar o modelo (26), utilizando o teste Davidson_MacKinnon
não significa que o modelo (27) é correto.O modelo (26) pode ser rejeitado por vários outros
modelos.
83
10.2 Usando Variáveis Proxy para Variáveis Explicativas Não-Observadas
Às vezes, alguma variável é omitida devido a sua indisponibilidade, como por exemplo
habilidade dos indivíduos.
Uma solução é utilizar uma variável proxy para a variável omitida.
Assim, por exemplo, para habilidade poderíamos utilizar como proxy a variável QI. QI
tem que ser correlacionada com habilidade.
Assim, seja o modelo:
y = β0 + β1x1 + β2x2 + β3x
∗
3 + u
em que, x∗3 não é observado. Mas seja uma variável proxy para ela denotada como: x3,
que tenha alguma relação com x∗3, capturada pela regressão:
x∗3 = δ0 + δ3x3 + v3
Para obtermos estimadores consistentes de β1 e β2, ao se utilizar x3 na regressão,
devemos assumir algumas hipóteses:
Hipótese 1: u seja não correlacionado com x1, x2, x
∗
3, x3. (outra forma de assumir isso
seria que E (u|x1, x2, x
∗
3, x3) = 0).
Hipótese 2: v3 seja não correlacionado com x1, x2, x3. Essa hipótese requer que x3 seja
uma boa variável proxy. Isto pode ser visto como o análogo desta hipótese:
E (x∗3|x1, x2, x3) = E (x∗3|x3) = δ0 + δ3x3
que diz que uma vez que controlamos para x3, x∗3 não tem correlação com x1 e x2.
Substituindo as equações acima teremos:
y = β0 + β3δ0︸ ︷︷ ︸
α0
+ β1x1 + β2x2 + β3δ3︸︷︷︸
α3
x3 + u+ β3v︸ ︷︷ ︸
e
Rodando y contra x1, x2 e x3 não teremos estimadores não-viesados de β0 e β3, mas
teremos estimadores não-viesados de α0, β1 e β2 e α3.
Muitas vezes a estimativa de α3 pode ser mais interessante do que a de β3. Por exemplo,
se x3 =aptidão e sua proxy x∗3 =nota em um teste de QI. Assim, α3 nos daria o acréscimo
salarial se um ponto fosse adicionado à nota do QI.
Exemplo 61 Exemplo 9.3 do Wooldridge
10.3 Propriedades de MQO sob Erro de Medida
Erro de medida ocorre quando utilizamos uma medida imprecisa de alguma variável econômica
no modelo de regressão.
84
Erro de Medida na Variável Dependente
Seja y∗, a variável correta do modelo, mas suponha que tenhamos apenas uma medida
imperfeita dela, denotada como y. O erro de medida seria:
e0 = y − y∗
O modelo verdadeiro seria:
y∗ = β0 + β1x1 + ...+ βkxk + u
que satisfaz as hipóteses de Gauss-Markov.
Mas o modelo que é passível de estimação será:
y = β0 + β1x1 + ...+ βkxk + u+ e0
Os estimadores MQO são consistentes?
Como o modelo verdadeiro satisfaz as hipóteses de Gauss-Markov, então u é não cor-
relacionado com os regressores.
Geralmente assume-se que o erro de medida tem média zero. Caso contrário, o esti-
mador MQO do intercepto, β0, é viesado.
Outra hipótese é que o erro de medida é independente dos regressores, e assim, os
estimadores MQO são não viesados e consistentes.
Se e0 e u são não correlacionados, então V ar (u+ e0) = σ2
u + σ2
e0 > σ2
u, o que implica
em variância dos estimadores maior.
Mas, se e0 é correlacionado com pelo menos um regressor, então os estimadores MQO
podem ficar viesados.
Erro de Medida em uma Variável Explicativa
Seja o modelo de RLS:
y = β0 + β1x
∗
1 + u
que satisfaz H1-H4. Mas temos apenas uma medida imperfeita do regressor, que seria:
x1. E assim, o erro de medida seria:
e1 = x1 − x∗1
Assume-se que:
Hipótese 1: E (e1) = 0.
Hipótese 2: u é não correlacionado com x∗1 e x1, que pode ser escrita como:
E (y|x∗1, x1) = E (y|x∗1)
que diz que x1 não afeta y, depois que controlamos para x∗1.
O que acontece se utilizarmos x1 no lugar de x∗1 na regressão acima?
85
Sejam as hipóteses em relação ao erro de medida:
Hipotese 3: Cov (x1, e1) = 0
E assim, e1 também não é correlacionado com x1.
Substituindo a fórmula do erro no modelo verdadeiro teremos:
y = β0 + β1x1 + (u− β1e1)
Dada as hipóteses acima, podemos dizer que (u− β1e1) tem média zero e é não cor-
relacionado com x1.
Assim, os estimadores MQO do intercepto e da inclinação são consistentes.
Desde que u é não correlacionado com e1, temos que V ar (u− β1e1) = σ2
u+β2
1σ
2
e1 > σ2
u.
Assim, a não ser que β1 = 0, o erro de medida aumenta a variância dos estimadores, mas
sem afetar as propriedades do MQO.
Mas geralmente, a hipótese assumida, no lugar da hipótese 3 é:
Hipótese 3’Cov (x∗1, e1) = 0, denominada Hipótese Clássica de Erros nas Var-
iáveis (CEV)
Se valer esta hipótese, então x1 e e1 devem ser correlacionadas:
Cov (x1, e1) = E (x1e1) = E (x∗1e1) + E
(
e2
1
)
= 0 + σ2
e1
que é a variância do erro de medida. Assim, dado o erro (u− β1e1) do modelo estimado
acima:
Cov (x1, (u− β1e1)) = −β1Cov (x1, e1) = −β1σ
2
e1
Assim, teremos um problema de endogeneidade, e o estimador MQO será viesado e
inconsistente. O viés assintótico pode ser escrito como:
p lim β̂1 = β1 +
Cov (x1, u− β1e1)
V ar (x1)
= β1 −
β1σ
2
e1
σ2
x∗1
+ σ2
e1
= β1
(
1−
σ2
e1
σ2
x∗1
+ σ2
e1
)
= β1
(
σ2
x∗1
σ2
x∗1
+ σ2
e1
)
= β1
(
V ar (x∗1)
V ar (x1)
)
e pela expressão acima, p lim β̂1 é sempre menor que β1, em termos absolutos.
Este é o chamado viés de atenuação em MQO. Assim, se β1 > 0, então β̂1 tenderá a
subestimar β1.
Para o caso de regressão linear múltipla, no qual temos uma variável com erro de medida
e mais regressores na equação, todas as conclusões vistas são as mesmas.
Sob a hipótese de CEV acima, todos os estimadores MQO serão viesados. O viés de
ateuuação neste caso será:
p lim β̂1 = β1
(
σ2
r∗1
σ2
r∗1
+ σ2
e1
)
86
onde r∗1 é o erro da regressão x
∗
1 = α0 + α1x2 + ...αk−1xk. Assim, β̂1 é inconsistente
(em relação aos outros estimadores não podemos afirmar isso).
Por fim, se o erro de medida, e1, for correlacionado com x∗1 e x1, então o estimador
MQO é inconsistente.
Uma forma de corrigir problemas de erro de medida é através de variáveis instrumentais.
Exemplo 62 Exemplo 9.7
87
11 Endogeneidade
Seja o modelo de RLS:
y = β0 + β1x+ u (28)
tal que:
Cov (x, u) 6= 0,
acarretando em um problema de endogeneidade (falha da H.3), visto que Cov (x, u) 6=
0 =⇒ E (u|x) 6= 0. Estimadores de MQO serão viesados e inconsistentes.
O que pode ocasionar endogeneidade?
1. Erro de Medida como foi visto na seção anterior.
2. Variável Omitida: omitir uma variável relevante,pode acarretar em falha da hipótese
H.3 e viesar o estimador. Vejamos este caso.
O modelo verdadeiro é:
y = β0 + β1x1 + β2x2 + u
que satisfaz as hipóteses H.1 a H.4. Suponha que o analista omita x2 e estime:
y = β̃0 + β̃1x1 + v
onde v = β2x2 + u. O estimador MQO de β̃1 será:
̂̃
β1 =
∑n
i=1 (x1i − x̄1) yi∑n
i=1 (x1i − x̄1)2
substituindo o modelo verdadeiro:
̂̃
β1 =
∑n
i=1 (x1i − x̄1) (β0 + β1x1i + β2x2i + ui)∑n
i=1 (x1i − x̄1)2
=
β0
∑n
i=1 (x1i − x̄1) + β1
∑n
i=1 (x1i − x̄1)x1i + β2
∑n
i=1 (x1i − x̄1)x2i +
∑n
i=1 (x1i − x̄1)ui∑n
i=1 (x1i − x̄1)2
=
β1
∑n
i=1 (x1i − x̄1) (x1i − x̄1) + β2
∑n
i=1 (x1i − x̄1)x2i∑n
i=1 (x1i − x̄1)2
onde utilizamos:
∑n
i=1 (x1i − x̄1) = 0;
∑n
i=1 (x1i − x̄1)x1i =
∑n
i=1 (x1i − x̄1) (x1i − x̄1) ;∑n
i=1 (x1i − x̄1)ui = 0 (pois para o modelo verdadeiro x1 é não correlacionado com
ui).
Assim: ̂̃
β1 = β1 +
β2
∑n
i=1 (x1i − x̄1)x2i∑n
i=1 (x1i − x̄1)2
88
Note que o segundo termo é simplesmente o coeficiente de inclinação da regressão de
x2i contra x1i:
x2 = δ0 + δ1x1 + ε
onde, supomos que as hipóteses H.1 a H.4 são satisfeitas.
E assim: ̂̃
β1 = β1 + β2δ̂1
onde
δ̂1 =
∑n
i=1 (x1i − x̄1)x2i∑n
i=1 (x1i − x̄1)2 =
Cov (x1, x2)
V ar (x1)
Logo:
E
(̂̃
β1
)
= β1 + β2δ1
Assim, o estimador MQO, ̂̃β1, será viesado. E o termo β2δ1 é geralmente chamado
viés de variável omitida.
Há dois casos em que ̂̃β1 é não viesado: (i) se β2 = 0, ou seja, se x2 não aparece
no modelo verdadeiro; (ii) se a variável omitida (x2) não for correlacionada com
x1, ou seja, δ1 = 0. Como δ̂1 = Cov(x1,x2)
V ar(x1) , então δ̂1 = 0 é a mesma coisa que
Cov (x1, x2) = 0, ou seja, x1 e x2 não correlacionados.
Se tivermos um modelo de RLM, como por exemplo:
y = β0 + β1x1 + β2x2 + β3x3 + u
Suponha que omitimos x3. As mesmas conclusões derivam se x1 e x2 forem correla-
cionados com x3.
Mas suponha que x1 é correlacionado com x3, mas x2 não é. O estimador de x2 tam-
bém será viesado se ele for correlacionado com x1. Ou seja, o viés de endogeneidade
contamina também x2, através de x1.
Assim, se a variável omitida for correlacionada com pelo menos um regressor, então
todos os estimadores serão viesados e inconsistentes, via correlação pelo regressor
endógeno.
Seja o EMQ de x2, quando omitimos x3:
̂̃
β2 = β2 +
∑
i r̂2ivi∑
i r̂
2
2i
89
onde r̂2i é o resíduo da regressão de x2 contra x1 e vi = β3x3 + u. Assim:
β̂2 = β2 +
∑
i r̂2i (β3x3i + ui)∑
i r̂
2
2i
E
(
β̂2
)
= β2 +
β3
∑
i r̂2ix3i∑
i r̂
2
2i
assim, a não ser que: (i) β3 = 0, ou (ii) Cov (r̂2i, x3i) = 0 (que ocorre quando
na regressão x2i = δ̂2 + δ̂3x1i + r̂2i, temos que δ̂3 = 0, logo r̂2i = x2i − δ̂2, ou
seja, o resíduo é simplesmente o regressor x2 deslocado de sua média e portanto:
Cov (r̂2i, x3i) = Cov (x2i, x3i) que é zero ao supormos que x2 é não correlacionado
com a variável omitida, x3.
A inconsistência pode ser mostrada facilmente. No caso de regressão linear simples,
teríamos o viés assintótico (inconsistência) como:
̂̃
β1 = β1 +
β2
∑n
i=1 (x1i − x̄1)x2i∑n
i=1 (x1i − x̄1)2
̂̃
β1 = β1 +
β2
∑n
i=1 (x1i − x̄1)x2i/n∑n
i=1 (x1i − x̄1)2 /n
plimβ̂1 − β1 = Cov (x1, u) /V ar (x1) = β2δ1
onde δ1 = Cov(x1,x2)
V ar(x1) , que é expressa em termos da covariância e variância popula-
cional.
Observação: Incluir variáveis irrelevantes no modelo não afeta esta propriedade dos
estimadores MQO. Mas pode ter efeitos adversos na variância dos mesmos se houver
multicolinearidade, como vimos anteriormente.
3. Variável (omitida) não observável: quando temos no erro alguma variável não ob-
servável e que é correlacionada com algum dos regressores, este será endógeno. Um
exemplo clássico é na regressão:
lnw = β0 + β1educ+ (hab+ u)
onde, w é salário, educ é educação e hab é a habilidade inata do indivíduo. Aqui não
temos nenhuma medida da variável e assim, não incluímos na regressão (não deixa
de ser um caso de variável omitida). Geralmente habilidade é correlacionada com
educação, ou seja, é provável que indivíduos com maior nível de habilidade acumulem
mais anos de estudo e conseqüentemente obtenham um maior nível salarial. Assim,
β1 não mede apenas o impacto de um maior nível educacional sobre o salário, mas
provavelmente está contaminado (viesado) pelo efeito da habilidade do indivíduo.
90
11.1 Estimação por Variáveis Instrumentais (VI ou IV) em RLS
Para resolver este problema necessitamos de informação adicional.
Seja uma variável observável z que satisfaça duas hipóteses:
Cov (z, u) = 0 ou z é exógeno (29)
e
Cov (z, x) 6= 0 (30)
Assim, z é chamado de uma variável instrumental para x.
Alguns exemplos de instrumento para o exemplo clássico de habilidade é: distância da
residência do aluno até a escola e trimestre de nascimento.
A primeira hipótese é vista também, no contexto de variável omitida, como: z não deve
ter efeito parcial em y (uma vez que x e a variável omitida em u são controladas) e z não
deve ser correlacionada com fatores não observáveis que afetem y.
Enquanto a primeira hipótese não é passível de teste (vale a argumentação do analista),
a segunda é, e pode ser feita através da regressão:
x = π0 + π1z + v
visto que π1 = Cov(z,x)
V ar(z) . Bastando então testar a hipótese nula π1 = 0.
Usando a equação (28), ou seja, y = β0 + β1x+ u, podemos escrever:
Cov (z, y) = Cov (z, β0 + β1x+ u)
Cov (z, y) = β1Cov (z, x) + Cov (z, u)
que sob as hipóteses acima, implica em:
Cov (z, y) = β1Cov (z, x)
β1 =
Cov (z, y)
Cov (z, x)
que está em termos da Cov populacional. Para obter o estimador, utilizamos a contra-
parte amostral que será:
β̂
V I
1 =
∑n
i=1 (zi − z̄) (yi − ȳ)∑n
i=1 (zi − z̄) (xi − x̄)
= β̂
V I
1 =
∑n
i=1 (zi − z̄) yi∑n
i=1 (zi − z̄) (xi − x̄)
que é o estimador de VI. E o estimador de β0 é: β̂0 = ȳ − β̂1x̄.
Quando x é exógeno, então z = x, ou seja o próprio x pode ser usado como seu próprio
instrumento e então estimador MQO é igual ao estimador IV (β̂
V I
1 = β̂
MQO
1 ).
Quando Cov (x, u) = 0, o estimador IV é viesado, mas será consistente.
91
Propriedades de VI com uma Variável Instrumental Pobre (Fraca) (ou In-
strumentos Fracos)
O estimador VI pode ter viés assintótico grande mesmo se z e u são pouco correlaciona-
dos, como pode ser visto abaixo:
β̂
V I
1 =
∑n
i=1 (zi − z̄) yi∑n
i=1 (zi − z̄) (xi − x̄)
=
∑n
i=1 (zi − z̄) (β0 + β1x1i + ui)∑n
i=1 (zi − z̄) (xi − x̄)
β̂
V I
1 =
β0
∑n
i=1 (zi − z̄) + β1
∑n
i=1 (zi − z̄)x1i +
∑n
i=1 (zi − z̄)ui∑n
i=1 (zi − z̄) (xi − x̄)
β̂
V I
1 =
β1
∑n
i=1 (zi − z̄)x1i∑n
i=1 (zi − z̄) (xi − x̄)
+
∑n
i=1 (zi − z̄)ui∑n
i=1 (zi − z̄) (xi − x̄)
Note que:
n∑
i=1
(zi − z̄) (xi − x̄) =
n∑
i=1
(zi − z̄)xi − x̄
n∑
i=1
(zi − z̄)
=
n∑
i=1
(zi − z̄)xi
Substituindo de volta:
β̂
V I
1 =
β1
∑n
i=1 (zi − z̄)x1i∑n
i=1 (zi − z̄)xi
+
∑n
i=1 (zi − z̄)ui∑n
i=1 (zi − z̄) (xi − x̄)
β̂
V I
1 = β1 +
∑n
i=1 (zi − z̄)ui∑n
i=1 (zi − z̄) (xi − x̄)
Tomando o p lim :
p lim β̂
V I
1 = β1 +
Cov (z, u)
Cov (z, x)
p lim β̂
V I
1 = β1 +
Corr (z, u)
Corr (z, x)
σuσz
σxσz
p lim β̂
V I
1 = β1 +
Corr (z, u)
Corr (z, x)
σu
σx
Assim, se Corr (z, u) = 0 e Corr (z, x) 6= 0, segundo as hipóteses anteriores, então o
estimador VI será consistente.
No entanto, na prática, mesmo se Corr (z, u) for pequena, a inconsistência do estimador
V I pode ser muito grande se Corr (z, x) também for pequena. Ou seja, denominamos de
instrumento fraco, quando Corr (z, x) é pequena aliado a Corr (z, u) não nula (mesmo que
pequena). Assim, o viés assintótico será grande.
92
Portanto, não será óbvio que o V I será melhor que o MQO.
O estimador do MQO pode ser escrito como:
p lim β̂
MQO
1 = β1 +
Cov (x1, u)
V ar (x1)
p lim β̂
MQO
1 = β1 + Corr (x, u)
σu
σx
Assim, o VI é preferível ao MQO, em termos de viés assintótico, quando Corr(z,u)
Corr(z,x) <
Corr (x, u).
11.2 Estimação de VI em RLM
Seja o modelo RLM (equação estrutural):
y1 = β0 + β1y2 + β2z1 + ...+ βkzk−1 + u1 (31)
onde zj , j = 1, ..., k − 1, são exógenos e y2 é endógena. Todos estimadores MQO serão
viesados e inconsistentes neste caso.
Seja zk um instrumento para y2. Assim,assumimos que:
1. u1 tem média zero, E (u1) = 0
2. zj , j = 1, ...., k, são não correlacionados com u1, ou seja, Cov (zj , u1) = 0, j = 1, ..., k,
ou seja, todos os regressores, com excessão de y2, e o instrumento são exógenos.
Através destas hipóteses, via métodos dos momentos, podemos inferir os parâmetros
(basta expressar em termos amostrais estas hipóteses, que seriam o "análogo"das CPOs do
problema de MQO), ou seja:
n∑
i=1
(
y1i − β̂0 − β̂1y2i − β̂2z1i − ...− β̂kzk−1
)
= 0
n∑
i=1
(
y1i − β̂0 − β̂1y2i − β̂2z1i − ...− β̂kzk−1
)
z1i = 0
.
.
.
n∑
i=1
(
y1i − β̂0 − β̂1y2i − β̂2z1i − ...− β̂kzk−1
)
zk−1i = 0
n∑
i=1
(
y1i − β̂0 − β̂1y2i − β̂2z1i − ...− β̂kzk−1
)
zki = 0
93
Mas ainda precisamos que zk (instrumento) seja correlacionado com y2, mas o sen-
tido como essas duas variáveis devem ser correlacionadas é complicado pela presença dos
regressores exógenos no modelo.
Então precisamos afirmar esta hipótese em termos de correlação parcial:
y2 = π0 + π1z1 + ...+ πkzk + v2
onde a variável endógena é escrita em função das exógenas, e valem as hipóteses:
E (v2) = 0, Cov (zj , v2) = 0, j = 1, ..., k
E deve valer πk 6= 0. Em outras palavras, após considerar os efeitos parciais (z1, ..., zk−1)
(ou seja, uma vez que controlamos para estes regressores), y2 e zk ainda são correlacionados
(ou seja, ainda tem efeito parcial de zk em y2).
Podemos testar πk 6= 0, simplesmente estimando a regressão acima por MQO e efet-
uando um teste t.
Observação: Podemos pensar as outras variáveis zj , j = 1, ...., k−1, como seus próprios
instrumentos. Assim, a lista de variáveis exógenas é também chamada de lista de variáveis
instrumentais.
11.3 Mínimos Quadrados de 2 Estágios (2SLS ou MQ2E)
Aqui discutimos o caso de se utilizar instrumentos múltiplos para uma variável endógena.
Uma única Variável Explicativa Endógena
Suponha do modelo (31) que nós tenhamos não apenas uma, mas duas variáveis exóge-
nas excluídas: zk e zk+1, que servirão de instrumentos. A hipótese que estas duas variáveis
são exógenas, i.e, não correlacionadas com u, é denominada como restrições de exclusão.
Poderíamos utilizar zk e zk+1 como instrumentos separadamente para y2, provendo 2
estimadores VI, mas nenhum, provavelmente, seria eficiente.
Como cada zj , j = 1, ..., k+1, é não correlacionado com u1, então qualquer combinação
linear destes será também não correlacionado com u1, e portanto será uma VI válida.
Para obter o melhor VI, escolhemos a combinação linear das variáveis exógenas que é
mais correlacionada com y2.
Então, seja o modelo original:
y1 = β0 + β1y2 + β2z1 + ...+ βkzk−1 + u1
E seja:
y2 = π0 + π1z1 + ...+ πkzk + πk+1zk+1 + v2
94
tal que:
E (v2) = 0, Cov (zj , v2) = 0, j = 1, ..., k + 1.
Sejam as seguintes hipóteses:
Hipóteses 2SLS.1 Linearidade nos Parâmetros
Hipóteses 2SLS.2 Amostragem Aleatória
Hipóteses 2SLS.3 VIs Exógenas: u1 com média zero e cada VI não correlacionada com
u1
Hipóteses 2SLS.4 Condição de ordem e de rank:
Condição de rank: (i) não existe relação de linearidade perfeita entre as VIs; (ii) a
condição de rank (classificação) para identificação é válida, ou seja, da equação:
y2 = π0 + π1z1 + ...+ πkzk + πk+1zk+1 + v2 (32)
é necessário que pelo menos um dos parâmetros das VIs (πk ou πk+1) seja diferente
de zero. Isso é importante para que a combinação linear (y∗2 = π0 + π1z1 + ...+ πk+1zk+1)
não seja perfeitamente correlacionada com as exógenas, z1, ..., zk−1.
Caso contrário (ou seja, πk = πk+1 = 0), y∗2 = π0 + π1z1 + ...+ πk−1zk−1. No segundo
estágio, que veremos abaixo, substituímos y∗2 por y2 na estimação do modelo original, aí
ficará mais claro a função desta hipótese.
A condição de ordem é que tenhamos pelo menos um instrumento para a variável
endógena. (No caso de termos l variáveis endógenas, então necessitaríamos de pelo menos
l variáveis exógenas excluídas da equação estrutural, ou seja, l instrumentos). Esta é um
condição apenas necessária. Uma condição suficiente é a condição de rank acima.
1o Estágio: Então, sob 2SLS1-2SLS4, a melhor VI para y2 é a combinação linear:
y∗2 = π0 + π1z1 + ...+ πk+1zk+1
Assim, para esta VI não ser perfeitamente correlacionada com z1, ..., zk−1, um dos outros
parâmetros (πk, πk+1) deve ser não nulo. Para verificar isso, podemos efetuar um teste F
sobre estes parâmetros.
Uma forma útil de pensar a regressão (32) acima é que ela quebra y2 em dois termos:
y∗2 que é a parte de y2 não correlacionada com o erro, u1; e outra parte que é v2, que é
correlacionada com u1 (dado que y2 é endógeno).
Podemos obter y∗2 estimando (32) por MQO e obtendo os valores ajustados (preditos),
ŷ2, ou seja, estimamos por MQO:
y2 = π̂0 + π̂1z1 + ...+ π̂k+1zk+1︸ ︷︷ ︸
ŷ2
+ v̂2
Este valor ajustado é não correlacionado com o erro (u1) do modelo original.
2o estágio: Utilizando ŷ2, como instrumento, obtemos o chamado estimador 2SLS
(ou MQ2E). Dado o primeiro estágio de estimação, podemos computar este estimador
95
através de um segundo estágio, rodando a regressão de y1 contra ŷ2 e z1, ..., zk−1, via MQO,
ou seja:
y1 = β̂0 + β̂1ŷ2 + β̂2z1 + ...+ β̂kzk−1
Aqui fica claro a importância da hipótese de identificação. Se tivéssemos, πk = πk+1 =
0, então ŷ2 = π̂0 + π̂1z1 + ...+ π̂k−1zk−1. e substituindo acima:
y1 = β̂0 + β̂1 (π̂0 + π̂1z1 + ...+ π̂k−1zk−1) + β̂2z1 + ...+ β̂kzk−1
y1 =
(
β̂0 + β̂1π̂0
)
+
(
β̂1π̂1 + β̂2
)
z1 + ...+
(
β̂1π̂k−1 + β̂k
)
zk−1
Assim, o estimador de z1 seria
(
β̂1π̂1 + β̂2
)
e não poderíamos identificar o estimador
β̂2. Por isso se chama condição de rank para identificação.
Outro ponto que fica claro agora é que substituindo y2 = ŷ2 + v2 na equação original
temos:
y1 = β0 + β1y2 + β2z1 + ...+ βkzk−1 + u1
y1 = β0 + β1ŷ2 + β2z1 + ...+ βkzk−1 + u1 + β1v2
agora, o erro (u1 + β1v2) tem média zero (pelas hipóteses anteriores) e é não correla-
cionado com ŷ2 (pois o mesmo é uma função apenas de variáveis exógenas).
Teorema 63 Sob as hipóteses 2SLS1-SLS4, o estimador 2SLS é consistente.
Exercício 64 Mostre que se tivermos apenas 1 instrumento, então o estimador VI é igual
ao de MQ2E (2SLS).
11.4 Testes para Endogeneidade e Restrições de Sobreidentificação
Testes para Endogeneidade
Suponha o modelo:
y1 = β0 + β1y2 + β2z1 + β3z2 + u1
onde z1 e z2 são exógenos e y2 é uma variável endógena suspeita. Temos duas variáveis
exógenas z3 e z4 excluídas do modelo estrutural acima.
A idéia do teste é simples: comparar as estimativas MQO e 2SLS e verificar se elas são
estatisticamente diferentes.
Passos do teste:
1. Estime a forma reduzida de y2, regredindo-a cotnra todas as variáveis exógenas (do
modelo estrutural e os excluídos), ou seja, estime:
y2 = π0 + π1z1 + π2z2 + π3z3 + π4z4 + v2
96
Obtenha os resíduos v̂2, por MQO.
Como cada zj é não correlacionado com u1, y2 é não correlacionado com u1 se, e somente
se, v2 é não correlacionado com u1.
2. Adicione este resíduos, v̂2, ao modelo estrutural incial e estime por MQO:
y1 = β0 + β1y2 + β2z1 + β3z2 + δ1v̂2 + u1
e um teste t sobre δ1 é um teste para endogeneidade. Se δ1 6= 0, então y2 é endógena.
Este teste é denominado como teste de Hausman para endogeneidade.
Observação:
Testes podem ser feitos para variáveis endógenas múltiplas. Para cada variável suspeita,
obtém-se os resíduos da forma reduzida (regredir cada variável endógena suspeita contra
todas variáveis exógenas), e testamos para significância conjunta destes resíduos na equação
estrutural, usando teste F .
Testes de Restrições de Sobreidentificação
Se tivermos utilizando mais de um instrumento, podemos testar se alguns deles são não
correlacionados com o erro. Seja o modelo acima novamente:
y1 = β0 + β1y2 + β2z1 + β3z2 + u1
com z3 e z4 dois VIs adicionais.
Poderíamos utilizar z3 apenas como instrumento para y2 e testar se z4 e ûi (resíduos
das estimativas de VI) são correlacionados. Se forem, então z4 não é uma VI válida para
y2.
Observações:
1. Neste teste assumimos que z3 é válido, ou seja, que z3 e u1 são não correlacionados.
2. Da mesma forma podemos testar se z3 é uma VI válida, dada a hipóteseque z4 é
uma VI válida.
Então qual teste devemos utilizar?
Assim utilizamos o chamado teste das restrições de sobreidentificação que são
usadas no 2SLS, que é o número de instrumentos extras.
A idéia do teste é: exogeneidade dos instrumentos significa que eles são não correla-
cionados com ui e portanto, aproximadamente não correlacionado com o resíduo, ûi (aprox-
imadamente pois usamos o resíduo que é a contraparte amostral do erro, ui).
Passos:
1. Estime o modelo estrutural (original) acima por 2SLS utilizando todos os instru-
mentos z3, z4 e obtenha ûi, ou seja: ûi = y1− β̂
2SLS
0 − β̂2SLS
1 y2− β̂
2SLS
2 z1− β̂
2SLS
3 z2 (Note
que estimamos os betas por 2SLS, mas os resíduos são computados pelo modelo estrutural
sem substituir y2 pelo seu valor predito (ajustado) do primeiro estágio.
97
2. Regrida ûi contra todas as variáveis exógenas (além de z1, z2 também z3, z4).
Obtenha o seu R2
1. Ou seja, regrida:
ûi = θ0 + θ1z1 + θ2z2 + θ3z3 + θ4z4 + ε
3. Sob a H0 que todas as VIs são não correlacionadas com u1, ou seja, θ2 = θ3 = 0 e
valendo homocedasticidade, nR2
1
a∼ χ2
q , onde q é o n
o de instrumentos (variáveis exógenas
excluídas do modelo estrutural) menos o número de endógenas, ou seja, q é o número de
restrições de sobreidentificação, neste caso q = 1.
Além deste teste, podemos computar a estatística F para esta H0. A estatística através
da F é denominada estatística J , e é computada como J = mF
a∼ χ2
q , onde m é o número
de instrumentos, neste caso, m = 2.
Observações:
1. Se rejeitarmos H0, concluímos que pelo menos uma das VIs não são exógenas. Então
devemos mudar o grupo de instrumentos utilizados.
2. Assim, adicionar muitos instrumentos, pode acarretar que alguns não sejam exógenos,
ocasionando vieses crescentes em seus estimadores, além de serem inconsistentes.
3. Se tivermos o no de instrumentos igual ao no de endógenas, então o modelo é
dito exatamente identificado e o R2
1, obtido no passo 2 acima é exatamente igual a zero.
Logicamente, não existe nada para ser testado.
12 Equações Simultâneas
Seja o seguinte modelo, especificado em um sistema de equações:{
y1i = α0 + α1x1i + α2y2i + u1i
y2i = β0 + β1x2i + β2y1i + u2i
Note que u1i da 1a. equação, gera um impacto em y1i que também está na 2a. equação,
que por sua vez gera um impacto em y2i que está na 1a. equação. Assim, u1i gera um
impacto em y2i. Assim, temos um processo circular, pois Cov (y2i, u1i) 6= 0 e, portanto,
temos um problema de endogeneidade.
Analogamente o raciocínio é válido para Cov (y1i, u2i) 6= 0. (Abaixo veremos o cálculo
dessas covariâncias).
Na literatura esse problema de endogeneidade em ambas as equações é denominado
viés de simultaneidade. Porque y1i determina y2i e vice-versa. Por isso, o modelo acima se
chama (sistema de) equações simultâneas.
Logo, y1i e y2i são variáveis endógenas e x1i e x2i são variáveis exógenas.
O modelo acima da forma como está especificado é denominado forma estrutural.
98
Exemplo 65 (Modelo Oferta e Demanda) Forma estrutural do modelo de oferta e de-
manda: 
Qst = α0 + α1Pt + u1t
Qdt = β0 + β1Pt + u2t
Qd = Qs (clearing market)
Vamos resolver o sistema. Em equilíbrio, temos:
Qd = Qs
α0 + α1Pt + u1t = 0 + β1Pt + u2t
Pt =
β0 − α0
α1 − β1
+
u2t − u1t
α1 − β1
Essa é a chamada forma reduzida, pois escrevemos as variáveis endógenas em função
das exógenas (neste modelo não temos exógenas, apenas a constante).
Assim, note que Pt é função dos erros e, portanto, está correlacionado com os erros:
Cov (Pt, u2t) = Cov
(
β0 − α0
α1 − β1
+
u2t − u1t
α1 − β1
, u2t
)
= Cov
(
u2t − u1t
α1 − β1
, u2t
)
=
1
α1 − β1
Cov (u2t, u2t)−
1
α1 − β1
Cov (u1t, u2t)
=
σ2
u2t − Cov (u1t, u2t)
α1 − β1
6= 0
Da mesma forma, Cov (Pt, u1t) 6= 0. Logo, existe problema de endogeneidade.
Logo, se estimarmos as equações da forma estrutural de forma separada obteremos
estimativas viesadas e inconsistentes.
Aqui surge o problema de identificação dos parâmetros, ou seja, a partir dos parâmet-
ros da forma reduzida não conseguimos recuperar os parâmetros da forma estrutural. Ou
seja, se estimarmos
Pt =
β0 − α0
α1 − β1︸ ︷︷ ︸
π0
+
u2t − u1t
α1 − β1︸ ︷︷ ︸
vt
ou seja, estaremos estimando π0 e não saberemos identificar (ou recuperar) os esti-
madores α0, β0, α1 e β1 do modelo estrutural.
Note também que, se multiplicarmos a equação da demanda e da oferta por λ e (1− λ),
respectivamente, teremos:
λ (Qt) = λ (α0 + α1Pt + u1t)
(1− λ) (Qt) = (1− λ) (β0 + β1Pt + u2t)
99
Somando:
Q = λα0 + (1− λ)β0︸ ︷︷ ︸
θ0
+ [λα1 + (1− λ)β1]︸ ︷︷ ︸
θ1
P + λu1t + (1− λ)u2t︸ ︷︷ ︸
θ2=v
Logo, estaremos estimando
Q = θ0 + θ1P + v
ou seja, se regredimos a quantidade do produto contra o preço, em equilíbrio, não saber-
emos se estamos estimando a oferta, a demanda ou uma combinação das duas. Grafica-
mente:
Gráfico oferta x demanda
Para podermos estimar a oferta, por exemplo, teremos que variar a demanda de forma
exógena, ou seja:
Gráfico oferta x demanda variando paralelamente
Ou seja, precisamos de uma variável exógena na equação da demanda, que não esteja
na equação da oferta.
E de forma análoga vale para estimar a demanda. Ou seja, temos que ter uma outra
exógena na oferta que não esteja na demanda. (Veremos mais adiante como isso funciona).
Exemplo 66 (Função de Consumo Keynesiana){
Ct = β0 + β1Yt + εt
Yt = Ct + It(= St)
Note que temos também aqui um processo circular: εt afeta Ct que afeta Yt que afeta
Ct e assim, sucessivamente.
Neste modelo, as variáveis endógenas são Ct e Yt e a variável exógena é It.
Resolvendo o modelo, substituindo a 1a. equação na 2a. equação:
Yt = β0 + β1Yt + εt + It
Yt =
β0
1− β1
+
1
1− β1
It +
εt
1− β1
Yt = π0 + π1It + u1t
Substituindo agora, a 2a. na 1a. equação:
Ct = β0 + β1Ct + β1It + εt
Ct =
β0
1− β1
+
β1
1− β1
It +
εt
1− β1
Ct = π2 + π3It + u2t
100
Assim, temos:
Yt = π0 + π1It + u1t
Ct = π2 + π3It + u2t
Estas equações são formas reduzidas, ou seja, as variáveis endógenas escritas em função
das variáveis exógenas.
O que queremos é recuperar os parâmetros da forma estrutural a partir da estimação
destes parâmetros da forma reduzida.
Note que:
π0 = π2 =
β0
1− β1
π1 =
1
1− β1
π3 =
β1
1− β1
ou ainda:
π0 = β0π1
π3 = β1π1
Logo:
β0 =
π0
π1
ou β0 =
π2
π1
β1 =
π3
π1
Ou seja, a partir da estimação dos π′s conseguimos recuperar os betas.
Note que vimos nos exemplos anteriores 2 casos, o primeiro de um sistema que não
pudemos identificar os parâmetros da forma estrutural e o segundo no qual pudemos iden-
tificar.
Assim, existem 3 casos que iremos analisar:
1. Equação exatamente identificada: podemos recuperar os parâmetros da equação na
forma estrutural a partir da forma reduzida de uma única maneira.
2. Equação sub-identificada ou não-identificada: não podemos recuperar os parâmetros
da forma estrutural a partir da reduzida.
3. Equação sobre-identificada: podemos recuperar de diversas maneiras.
101
Equações Sub-Identificadas
Vejamos o caso de sistemas sub-identificados.
Exemplo 67 Retome o exemplo do modelo de oferta e demanda:
Qst = α0 + α1Pt + u1t
Qdt = β0 + β1Pt + u2t
Qd = Qs (clearing market)
Obtivemos:
Pt =
β0 − α0
α1 − β1
+
u2t − u1t
α1 − β1
Pt = π0 + v1
Substituindo Pt da forma reduzida na forma estrutural (pode ser a oferta ou demanda):
Q = α0 + α1
(
β0 − α0
α1 − β1
)
+ α1
(
u2t − u1t
α1 − β1
)
+ u1
Q =
α0α1 − α0β1 + α1β0 − α0α1
α1 − β1
+
α1u2 − α1u1 + α1u1 − β1u1
α1 − β1
Q =
α1β0 − α0β1
α1 − β1
+
α1u2 − β1u1
α1 − β1
Q = π1 + v2
Assim, temos dois parâmetros para a forma reduzida (π1, π0) e quatro parâmetros para
a forma estrutural (α0, α1, β0, β1):
π0 =
β0 − α0
α1 − β1
π1 =
α1β0 − α0β1
α1 − β1
Ou seja, não podemos recuperar os parâmetros da forma estrutural a partir da forma
reduzida. Logo as equações da oferta e demanda é não identificado ou sub-identificado.
Equações Exatamente Identificadas
Exemplo 68 Seja o mesmo modelo de oferta e demanda, mas com uma modificação:
Qst = α0 + α1Pt + u1t
Qdt = β0 + β1Pt + β2Xt + u2t
Qd = Qs (clearingmarket)
onde Xt é renda. Pode ser tratada como uma variável exógena (ou pré-determinada).
102
Exemplo 69 Resolvendo o sistema:
α0 + α1Pt + u1t = β0 + β1Pt + β2Xt + u2t
Pt =
β0 − α0
α1 − β1
+
β2
α1 − β1
Xt +
u2t − u1t
α1 − β1
Pt = π0 + π1Xt + v1
E substituindo Pt de volta, na oferta, temos:
Qt = α0 + α1
(
β0 − α0
α1 − β1
+
β2
α1 − β1
Xt +
u2t − u1t
α1 − β1
)
+ u1t
Q =
α0α1 − α0β1 + α1β0 − α0α1
α1 − β1
+
α1β2
α1 − β1
Xt +
α1u2 − α1u1 + α1u1 − β1u1
α1 − β1
Qt =
α1β0 − α0β1
α1 − β1
+
α1β2
α1 − β1
Xt +
α1u2 − β1u1
α1 − β1
Qt = π2 + π3Xt + v2
Logo:
π0 =
β0 − α0
α1 − β1
π1 =
β2
α1 − β1
π2 =
α1β0 − α0β1
α1 − β1
π3 =
α1β2
α1 − β1
Podemos escrever:
α0 = π2 − α1π0
α1 =
π3
π1
Assim, a equação da oferta é identificada.
Podemos estimar, os parâmetros da forma reduzida e depois obter os da forma es-
trutural. Tal método de inferência é denominado de Mínimos Quadrados Indiretos
(MQI). Ou seja:
α̂MQI
1 =
π̂3
π̂1
α̂MQI
0 = π̂2 − α̂MQI
1 π̂0 = π̂2 −
π̂3
π̂1
π̂0
Obs: Podemos utilizar MQI somente quando as equações são exatamente identificadas.
103
Exercício 70 Mostre no exemplo acima que a equação da demanda é sub-identificada.
Porque isso ocorre?
Exercício 71 Seja o seguinte modelo de oferta e demanda:
Qst = α0 + α1Pt + α2Pt−1 + u1t
Qdt = β0 + β1Pt + β2Xt + u2t
Qd = Qs (clearing market)
onde Xt e Pt−1 são variáveis exógenas para a demanda e oferta, respectivamente.
Mostre que as duas equações são exatamente identificadas (ou seja, mostre a relação
dos coeficientes da forma estrutural em função dos coeficientes da forma reduzida para as
duas equações). Porque isso ocorre?
Equações Sobre-Identificadas
Exemplo 72 Seja o mesmo modelo de oferta e demanda, mas com algumas modificações:
Qst = α0 + α1Pt + α2Pt−1 + u1t
Qdt = β0 + β1Pt + β2Xt + β3Rt + u2t
Qd = Qs (clearing market)
onde Xt é renda, Rt é a riqueza e Pt−1 é o preço defasado em um período. Podem ser
tratadas como variáveis exógenas (ou pré-determinadas).
Resolvendo o sistema, chegamos na forma reduzida das duas endógenas:
Pt = π0 + π1Xt + π2Rt + π3Pt−1 + v1
Qt = π4 + π5Xt + π6Rt + π7Pt−1 + v2
E encontraremos que:
α̂1 =
π̂6
π̂2
e α̂1 =
π̂5
π̂1
ou seja, obtivemos duas maneiras de recuperar β̂1. Logo a equação da oferta é sobre-
identificada.
Neste caso não utilizaremos MQI e sim 2SLS.
As variáveis instrumentais para a equação da oferta são Xt e Rt, ou seja, as restrições
de exclusão desta equação.
Obs.: Mas lembre-se que a lista de instrumentos geralmente é considerada na literatura
como a lista de todas exógenas incluídas na equação (Pt−1) mais as exógenas excluídas do
modelo (Xt e Rt).
Assim o 1o estágio é computado regredindo Pt contra todas as exógenas do modelo
todo, ou seja:
Pt = π0 + π1Xt + π2Rt + π3Pt−1 + v1
104
e assim obtemos P̂t, os valores ajustados da regressão. E o 2o estágio é a regressão de Qt
contra P̂t e Pt−1.
Obs.: Caso a equação seja exatamente identificada, o estimador 2SLS é igual ao es-
timador VI (quando existe apenas um instrumento para cada endógena) que é igual ao
estimador de MQI. Logo, neste caso os estimadores 2SLS e MQI são iguais.
Assim, para o caso da equação de demanda que é exatamente identificada, o estimador
2SLS = VI = MQI.
A mesma igualdade vale para o exemplo anterior.
Assim, notem que o fato de excluirmos variáveis exógenas da equação que estamos
interessados em estimar nos ajuda a identificar os seus parâmetros (na forma estrutural).
Este fato pode ser enunciado da seguinte forma:
Condição 73 (Condição de Ordem para Identificação) Seja:
M : endógenas incluídas no sistema
m : endógenas incluídas na equação
K : exógenas incluídas no sistema
k : exógenas incluídas na equação
Assim uma condição necessária para identificação (ou seja, para que a equação seja
exatamente ou sobre-identificada) é que:
K − k ≥ m− 1
ou seja, o número de variáveis exógenas (pré-determinadas) excluídas da
equação devem ser pelo menos tão grande quanto o número de variáveis endó-
genas incluídas menos um.
Se valer com igualdade, a equação é exatamente identificada. Se valer com desigualdade
estrita então é sobre-identificada.
Vale ressaltar que esta é uma condição necessária mas não suficiente.
Vejamos a condição suficiente:
Condição 74 (Condição de Posto) Uma forma simples de enunciá-la é, com base no
exemplo da equação exatamente identificada (penúltimo exemplo): a equação da oferta é
identificada se, e somente se, a equação da demanda contém pelo menos 1 variável exógena
(no exemplo seria Xt), com coeficiente diferente de zero, que é excluída da equação da
oferta. Esta é uma condição necessária e suficiente. Assim, podemos utilizar esta
variável como instrumento para a endógena (Pt).
Uma forma mais geral que podemos enunciá-la é:
Em um sistema de equações com M endógenas, uma equação é identificada se o posto
da submatriz de coeficientes construída a partir dos coeficientes (das variáveis endógenas
e exógenas) excluídos da equação analisada e incluídos em alguma das demais equações do
modelo for igual a (M − 1)
105
Assim, é importante ressaltar que o problema da identificação precede o da estimação.
Ou seja, necessitamos saber primeiramente se a equação é exatamente, sobre ou sub-
identificada para saber qual método devemos aplicar (nos dois primeiros casos).
Vejamos primeiramente um exemplo bem geral:
y1 − β10 − β12y2 − β13y3 − γ11x1 = u1
y2 − β20 − β23y3 − γ21x1 − γ22x2 = u2
y3 − β30 − β31y1 − γ31x1 − γ32x2 = u3
y4 − β40 − β41y1 − β42y2 − γ43x3 = u4
Vamos monstar a matriz de coeficientes do sistema:
y1 y2 y3 y4 x0 x1 x2 x3 K − k T m− 1
1 −β12 −β13 0 −β10 −γ11 0 0
0 1 −β23 0 −β20 −γ21 −γ22 0
−β31 0 1 0 −β30 −γ31 −γ32 0
−β41 −β42 0 1 −β40 0 0 −γ43

m = 3, k = 2 : 4− 2 = 2− 1
m = 2, k = 3 : 4− 3 = 2− 1
m = 2, k = 3 : 4− 3 = 2− 1
m = 3, k = 2 : 4− 2 = 2− 1
endógenas (M = 4) exógenas (K = 4)
ou seja, os y′s são endógenas e os x′s são exógenas. Assim, pela condição de ordem,
todas seriam identificadas.
Montando a submatriz construída a partir dos coeficientes (das variáveis endógenas e
exógenas) excluídos da 1a. equação, mas incluído em alguma das demais equações.
Primeiramente, tais coeficientes são das variáveis: y4, x2 e x3 que não aparecem na 1a.
equação, mas aparecem em alguma das demais equações. Vamos montar a submatriz com
os valores destes coeficientes nas demais equações, sem ser a 1a equação:
A1 =
 0 −γ22 0
0 −γ32 0
1 0 −γ43

Agora devemos calcular o posto desta matriz e verificar se posto (A1) = (M − 1). Assim:
posto (A1) = 2 < 3 = M − 1
Assim, pela condição de posto a 1a. equação não é identificável (sub-identificada).
A condição de posto para a 2a. equação será:
A2 =
 1 0 0
−β31 0 0
−β41 1 −γ43

posto (A2) = 2 < 3 = M − 1
106
Assim, pela condição de posto a 2a. equação não é identificável (sub-identificada).
A condição de posto para a 3a. equação será:
A3 =
 −β12 0 0
1 0 0
−β42 1 −γ43

posto (A3) = 2 < 3 = M − 1
Assim, pela condição de posto a 3a. equação não é identificável (sub-identificada).
A condição de posto para a 4a. equação será:
A4 =
 −β13 −γ11 0
−β23 −γ21 −γ22
1 −γ31 −γ32

posto (A4) = 3 = M − 1 se, e somente se,
det (A4) = −β13γ21γ32 + γ11γ22 + γ11β32γ32 + β13γ22γ31 6= 0
Assim, pela condição de posto a 4a. equação é exatamente identificável. Assim, ela
pode ser estimada por MQI (ou VI ou 2SLS que geram o mesmo estimador).
Exemplo 75 Analisemos o modelo de oferta e demanda:
Qst = α0 + α1Pt + u1t
Qdt = β0 + β1Pt + β2X1t + u2t
Qd = Qs (clearing market){
Qt − α0 − α1Pt = u1t
Qt − β0 − β1Pt − β2X1t = u2t
Montando a matriz de coeficientes:
Qt Pt X0t X1t K − k T m− 1[
1 −α1 −α0 0
1 −β1 −β0 −β2
]
m = 2, k = 1→ 2− 1 = 2− 1
m = 2, k = 2→ 2− 2 < 2− 1
endógenas (M = 2) exógenas (K = 2)
Assim pela condição de ordem a 1a. equação (oferta) é exatamente identificada e a 2a.
equação (demanda) é sub-identificada.
Vejamos a condição de posto para a 1a. equação:
A1 = [−β2]
posto (A1) = 1 = 2− 1 = M − 1
107
Logo, pela condição de posto confirmamos que aequação de oferta é exatamente iden-
tificada.
A condição de posto para a 2a. equação:
A2 = sem eliminação
ou seja, não existe submatriz construída a partir dos coeficientes (das variáveis endóge-
nas e exógenas) excluídos da equação da demanda e incluídos na equação da oferta, porque
não foi eliminado (excluído) nenhum coeficiente na demanda. Logo:
posto (A2) = 0 < 2− 1 = M − 1
Logo, a equação da demanda é sub-identificada. Isso já era esperado pois tal equação
não havia atendido nem mesmo a condição de ordem. Ou seja, se a equação não atender
a condição de ordem então ela não atenderá a condição de posto.
13 Máxima Verossimilhança
A idéia desta estimação é que: se soubermos a distribuição da população, os valores
dos parâmetros a serem estimados serão aqueles que mais se adequam aos valores da
amostra. Ou de outra forma, são os valores dos parâmetros que maximizam a proba-
bilidade (verossimilhança) de que os valores da amostra sigam, de fato, a distribuição da
população a priori.
E para maximizar esta probabilidade, definimos a função de probabilidade, que será
a função de verossimilhança: L (θ; yi) , onde θ = (θ1, ..., θk). Ou seja, esta função de-
pende dos parâmetros θk que serão estimados, dada a nossa amostra que assume valores
{yi, i = 1, ..., n}.
Assim, seja a função densidade como f (yi; θ). O termo θ é escrito aqui para lembrar
que a f.d.p. depende do parâmetro θ.
Definição 76 (Função de verossimilhança) Seja y1, ..., yn uma amostra aleatória da v.a.
y e sejam y1, ..., yn os valores amostrais. A função de verossimilhança L é definida como
a seguinte função da amostra e de θ:
L (θ; y, ..., yn) = f (y1, y2, ..., yn; θ)
= f (y1; θ) f (y2; θ) ...f (yn; θ)
= Πn
i=1f (yi; θ)
Como os valores amostrais de y são conhecidos, devemos inferir θ. A partir da função de
verossimilhança, o método MV propõe responder a seguinte pergunta: Para qual valor de
θ teremos a máxima probabilidade (verossimilhança) de que os valores da amostra sigam,
de fato, a distribuição da população a priori?
Segue a definição formal:
108
Definição 77 (Estimativa de MV) A estimativa de MV de θ (θ̂) é baseada em uma amostra
aleatória y1, ..., yn é aquele valor de θ que torna máxima L (θ;X1, ..., Xn), considerada como
uma função de θ para uma dada amostra y1, ..., yn.
Exemplo 78 Seja y uma v.a. Se a distribuição da população é uma normal, e dada uma
amostra desta v.a. de tamanho n, obtemos os valores dos parâmetros da normal (µ e σ2)
que maximizam a função de verossimilhança. Ela é dada por:
L
(
µ, σ2;xi
)
= Πn
i=1
1
(2πσ2)
1
2
exp
[
− 1
2σ2
(yi − µ)2
]
=
1
(2πσ2)
n
2
exp
[
− 1
2σ2
n∑
i=1
(yi − µ)2
]
Para simplificar, façamos uma transformação monotônica crescente, que não altere o
máximo desta função:
max
µ,σ2
l
(
µ, σ2; yi
)
= max
µ,σ2
−n
2
ln
(
2πσ2
)
− 1
2σ2
n∑
i=1
(yi − µ)2
∂l
∂µ
= 0→ µ̂ = ȳ
∂l
∂σ2
= 0→ µ̂ =
∑n
i=1 (yi − ȳ)2
n
= σ̂2
Assim, este último estimador da variância é viesado, enquanto o da média é não-
viesado.
Aplicando o método da MV para o contexto de regressão:
yi = β0 + β1xi + ui
Supondo que ui
i.i.d.∼ N
(
0, σ2
)
Então, para x não-estocástico (fixo):
E (yi) = β0 + β1xi
V ar (yi) = σ2
Como yi é função linear do ui então: yi
i.i.d.∼ N
(
β0 + β1xi, σ
2
)
. Os parâmetros β0 e β1
definem a média.
Para obter os EMVs de β0 e β1, devemos montar a função de verossimilhança:
L
(
β0, β1, σ
2;xi
)
= Πn
i=1
1
(2πσ2)
1
2
exp
[
− 1
2σ2
(yi − β0 − β1xi)
2
]
=
1
(2πσ2)
n
2
exp
[
− 1
2σ2
n∑
i=1
(yi − β0 − β1xi)
2
]
109
Maximizando o log:
max
β0,β1,,σ
2
l
(
β0, β1, σ
2; yi
)
= max
β0,β1,,σ
2
−n
2
ln
(
2πσ2
)
− 1
2σ2
n∑
i=1
(yi − β0 − β1xi)
2
As CPOS serão:
∂l
∂θ
=

∂l
∂β0
∂l
∂β1
∂l
∂σ2
 = 0
onde o vetor gradiente ∂l
∂θ é chamado de vetor score, pois ele resume as primeiras
derivadas do log da densidade.
β0 :
1
σ2
∑
i
(
yi − β̂0 − β̂1xi
)
= 0
β̂
MV
0 = ȳ − β̂1x̄
β1 :
1
σ2
∑
i
(
yi − β̂0 − β̂1xi
)
xi = 0
Substit indo β̂0 acima∑
i
(
yi − ȳ + β̂1x̄− β̂1xi
)
xi = 0∑
i
(yi − ȳ)xi −
∑
i
β̂1 (xi − x̄)xi = 0
β̂
MV
1 =
∑
i
(yi − ȳ)xi∑
i
(xi − x̄)xi
=
∑
i
(yi − ȳ) (xi − x̄)∑
i
(xi − x̄) (xi − x̄)
β̂
MV
1 =
∑
i
(yi − ȳ) (xi − x̄)∑
i
(xi − x̄)2
= β̂
OLS
1 e
β̂
MV
0 = ȳ − β̂1x̄ = β̂
OLS
0
110
σ2 :
−n
2
1
2πσ̂2
2π
+
1
2
1
σ̂4
∑
i
(
yi − β̂0 − β̂1xi
)2
= 0
−n
2
1
σ̂2 +
1
2
1
σ̂4
∑
i
û2
i = 0
σ̂2
MV =
∑
i
û2
i
n
Assim, o estimador da variäncia do erro da MV é viesado, mas é consistente.
Propriedades dos estimadores de MV
(i) são consistentes:
p lim θ̂ = θ
onde, θ = (β0, β1) e θ̂ =
(
β̂0, β̂1
)
(ii) têm distribuição assintótica normal:
θ̂
a∼ N
(
θ, I−1 (θ)
)
onde I (θ) é a matriz de informação de Fischer.
(iii) são assintoticamente eficientes.
(iv) eles são invariantes, ou seja, suponha que θ̂ seja um estimador de MV de θ. Assim,
uma estimativa de MV de g (θ), onde g é uma função contínua, é g
(
θ̂
)
.
Definição 79 Matriz de Informação de Fischer é definida como:
I (θ) = E
[(
∂l
∂θ
)2
]
= −E
[(
∂2l
∂θ2
)]
onde l (θ) é o log da função de verossimilhança. A terminologia matriz de informação
é utilizada pois I (θ) é a variância de ∂l
∂θ (que é o score cuja média é zero). Então valores
altos de l (θ) significam que mudanças pequenas em θ conduzem a mudanças grandes no
log da verossimilhança e portanto contém informação considerável sobre θ. Ou ainda, I (θ)
nos fornece informação sobre a curvatura do log da verossimilhança. E portanto, fala da
concavidade da mesma. Quanto mais côncava a função, mais fácil de detectar o θ̂ máximo.
Se for pouco côncava, ou seja, mais plana, haverão θ̂’s muito próximos do θ̂ que gera o
máximo da função.
Logo, I (θ) é também escrito como:
I (θ) = V ar
((
∂l
∂θ
))
111
Exemplo 80 O score do exemplo anterior será:
s (θ) =

∂l
∂β0
∂l
∂β1
∂l
∂σ2
 =

1
σ2
∑
i
(yi − β0 − β1xi)
1
σ2
∑
i
(yi − β0 − β1xi)xi
−n
2
1
σ2
+ 1
2
1
(σ2)2
∑
i
(yi − β0 − β1xi)
2

No entanto, para ficar mais fácil, podemos considerar a estimação da regressão em
termos de desvios da média, ou seja:
yi = β0 + β1xi + ui
ȳ = β0 + β1x̄+ ū
yi − ȳ = β1 (xi − x̄) + (ui − ū)
y∗i = β1x
∗
i + u∗i
onde o asterisco indica que a variável está formulada em termos de desvios da média.
Maximizando:
max
β1,,σ
2
l
(
β0, β1, σ
2; yi
)
= max
β1,,σ
2
−n
2
ln
(
2πσ2
)
− 1
2σ2
n∑
i=1
(y∗i − β1x
∗
i )
2
Assim, o vetor score seria o mesmo de cima, mas sem o β0:
s (θ) =
[
∂l
∂β1
∂l
∂σ2
]
=

1
σ2
∑
i
(yi − β1x
∗
i )x
∗
i
−n
2
1
σ2
+ 1
2
1
(σ2)2
∑
i
(y∗i − β1x
∗
i )
2

112
A matriz de informação de Fisher para este caso, seria:
I (θ) = −E
[(
∂2l
∂θ2
)]
= −E
[
∂2l/∂β2
1 ∂2l/∂β1∂σ
2
∂2l/∂σ2β1 ∂2l/∂
(
σ2
)2 ]
= −E

− 1
σ2
∑
i
x∗2i − 1
(σ2)2
∑
i
(yi − β1x
∗
i )x
∗
i
− 1
(σ2)2
∑
i
(yi − β1x
∗
i )x
∗
i
n
2(σ2)2
− 1
(σ2)3
∑
i
(yi − β1x
∗
i )
2

= E

1
σ2
∑
i
x∗2i
1
(σ2)2
∑
i
(u∗i )x
∗
i
1
(σ2)2
∑
i
(u∗i )x
∗
i − n
2(σ2)2
+ 1
(σ2)3
∑
i
(u∗i )
2

=
 1
σ2
∑
i
E
[
x∗2i
]
1
(σ2)2
∑n
i=1E [u∗ix
∗
i ]
1
(σ2)2
∑n
i=1E [u∗ix
∗
i ] − n
2(σ2)2
+ 1
(σ2)3
∑n
i=1E
[
u∗2i
]

=
 1
σ2
∑
i
x∗2i
1
(σ2)2
∑n
i=1 x
∗
iE [u∗i ]
1
(σ2)2
∑n
i=1 x
∗
iE [u∗i ] − n
2(σ2)2
+ 1
(σ2)3
nσ2

I (θ) =
 1
σ2
∑
i
x∗2i 0
0 n
2σ4

Teorema 81 (Desigualdade de Cramér-Rao) Sejam y1, . . . , yn iid com pdf f(y|θ) e
seja θ̃n um estimador não viesado de θ, então:
V (θ̃) ≥ I−1 (θ)
Assim I−1 (θ) (que é o inverso da Matriz de Informação de Fischer) é chamado limite
inferior de Cramer-Rao, ou seja, a menor variância possível que um estimador pode atingir.
Exemplo 82 No caso do Exemplo anterior, teríamos que o limite inferior de Cramer-Rao
seria:
I−1 (θ) =
 1
σ2
∑
i
x∗2i 0
0 n
2σ4
−1
=

σ2∑
i
(xi−x̄)2
0
0 2σ4
n

onde na diagonal principal temos as estimativas das variâncias mínimas dos estimadores
de β1 e σ
2. A variäncia de β̂1 é justamente a variäncia obtida quando estimamos por
113
MQO. Mas isso era esperado pois β̂
MQO1 = β̂
MV
1 . Ou seja, o estimador de MV (e do
MQO) dos parâmetros das variáveis, atingem a menor variância possível.
(Obs.: A variância do estimador MV do σ2 (variância do erro) não atinje 2σ4
n . Sua
variância é igual a V ar
(
σ̂2
)
= n−2
n2
2σ4, a qual pode ser revista do curso de Probabilidade.
No entanto, veremos uma propriedade abaixo muito útil.).
A estimativa da variância mínima do intercepto poderia ser obtida através de:
β̂0 = ȳ − β̂1x̄
V ar
(
β̂0
)
= V ar (ȳ) + x̄2V ar
(
β̂1
)
− 2x̄Cov
(
ȳ, β̂1
)
︸ ︷︷ ︸
=0
V ar
(
β̂0
)
= V ar (ȳ) + x̄2V ar
(
β̂1
)
Mas a variância de y é:
yi = β0 + β1xi + ui
V ar (yi) = V ar (ui)
Assim:
V ar
(
β̂0
)
= V ar (ū) + x̄2V ar
(
β̂1
)
=
σ2
n
+ x̄2 σ2∑
i
(xi − x̄)2
= σ2
 1
n
+
x̄2∑
i
(xi − x̄)2

que é justamente a variância do β̂
MQO
0 .
Teorema 83 (Eficiência assintótica do estimador de máxima-verossimilhança)
Se θ̂ é o EMV, então: √
n[θ̂ − θ]→ N [0, V ],
na qual V é a variância assintótica, ou seja, é a variância da distribuição limite (neste
caso, a normal).
Se θ̂ for um vetor de parämetros, então V é a matriz de variância-covariância, sendo
positiva definida.
Assim:
θ̂
a∼ N
(
θ, I−1 (θ)
)
Ou seja, pela desigualdade de Cramer-Rao θ̂ é éassintoticamente eficiente para θ, ou
seja, nenhum outro estimador assintoticamente normal e consistente tem variância menor.
114
Exercício 84 Derive o EMV para o modelo de regressão múltipla. Ou seja, resolva o
seguinte problema de maximização:
max
β0,β1,σ
2
lnL = max
β0,β1,σ
2
−n
2
lnσ2 − n
2
ln (2π)− 1
2σ2
∑
(yi − β0 − β1x1i − ...− βkxki)2
Ou se preferir, faça em termos matriciais.
13.1 Testes baseados na verossimilhança
Veremos os testes de Wald, LR (razão da verossimilhança) e LM (multiplicador de la-
grange).
Seja L (θ) a função de verossimilhança. Desejamos testar a hipótese nula:
H0 : h (θ) = 0
que pode ser uma restrição linear ou não-linear.
Um exemplo é: h (θ) = β1β2 = 1.
θ é o vetor de (alguns) parâmetros.
Seja o seguinte gráfico que ajudará na motivação e intuição dos testes:
Gráfico
13.1.1 Teste LR
A motivação para o teste LR é que se H0 é verdadeira, o máximo função de verossimilhança
restrita e não-restrita deve ser o mesmo.
Então a idéia do teste é testar se a diferença entre os logartimos de L (θ) são estatisti-
camente diferentes.
A estatística do teste LR é:
LR = −2
[
lnL
(
θ̂r
)
− lnL
(
θ̂ir
)]
a∼ χ2 (q)
onde q é o número de restrições, θ̂ir é o EMV do modelo irrestrito e θ̂r é o EMV do
modelo restrito, ou seja, maximiza o lagrangeano lnL (θ)− λ′h (θ).
13.1.2 Teste de Wald
A motivação do teste de Wald é que se H0 é verdadeira, o EMV θ̂ir = θ̂ deve satisfazer as
restrições de H0 e então h
(
θ̂ir
)
deve ser próximo de zero.
A estatística do teste de Wald é:
Wald = h
(
θ̂
)′ [
V ar
[
h
(
θ̂
)]]−1
h
(
θ̂
)
a∼ χ2 (q)
115
13.1.3 Teste LM
A motivação para o teste LM é que o gradiente ∂ lnL/∂θ̂ir = 0 no máximo da função de
verossimilhança. Se H0 é verdadeiro, então este máximo deve também ocorrer no EMV
restrito, i.e., ∂ lnL/∂θ̂r ≡ 0, porque impor a restrição de H0 terá pouco impacto sobre o
valor estimado de θ. Usando esta motivação o teste LM é também chamado de teste de
score pois avalia se ∂ lnL/∂θ̂ é igual a zero.
Uma motivação alternativa é medida a aproximidade em relação a zero dos multipli-
cadores de lagrange do problema de otimização restrito para o EMV restrito.
Maximizar lnL (θ)− λ′h (θ) com relação a θ implica que:
∂ lnL
∂θr
=
∂h (θ)
∂θr
′
λ̂r
assim, testes baseados nos multiplicadores de Lagrange estimados, λ̂r, são equivalentes
a testes baseados no score ∂ lnL/∂θ̂r.
A estatística do teste LM é:
LM =
(
∂ lnL
∂θr
)′
I−1 (θr)
(
∂ lnL
∂θr
)
a∼ χ2 (q)
onde I−1 (θr) é a matriz de informação de Fischer para o EMV restrito que é, como
vimos, a variância do score.
Observação 85 Em particular para testes de restrições lineares no modelo de regressão
linear sob normalidade vale a seguinte desigualdade:
Wald ≥ LR ≥ LM
14 Variável dependente binária
Na maioria das vezes, a variável dependente é uma variável quantitativa. Mas e se ocorrer
da mesma ser qualitativa, temos que utilizar outros métodos para a estimação. A seguir,
veremos dois tipos de modelos de resposta binária: de probabilidade linear e não-linear.
14.1 Modelo de Probabilidade Linear (MPL)
Na maioria das vezes, a variável dependente é uma variável quantitativa. Mas e se ocorrer
da mesma ser qualitativa, temos que utilizar outros métodos para a estimação. Geralmente
o evento que queremos explicar é um resultado binário. Neste caso a variável dependente
toma apenas dois valores 0 ou 1. Escrevemos um modelo de regressão múltipla:
y = β0 + β1x1 + ...+ βkxk + u
116
Se tivermos a hipótese de média condicional zero do erro, então:
E[y|x] = β0 + β1x1 + ...+ βkxk
Mas tem-se que:
P (y = 1|x) = E[y|x] = β0 + β1x1 + ...+ βkxk
onde, P (y = 1|x) (= p(x)) é a probabilidade de resposta que é uma função linear de
xj . Ou seja, dado que y é uma variável binária, temos que P (y = 1|x) = E[y|x], ou
seja, a probabilidade de que y = 1, e a mesma do valor esperado de y. Este modelo
chama-se modelo de probabilidade linear (MPL).Neste modelo βj mede a mudança
na probabilidade de sucesso quando xj muda, ceteris paribus. Ou seja:
∆P (y = 1|x) = βj∆xj
Assim, nota-se duas desvantagens: (i) as probabilidades ajustadas podem ser menores
que zero ou maiores que um e (ii) o efeito parcial de qualquer variável explicativa (apare-
cendo na forma de nível) é constante.
Além disso, o parâmetro estimado
ˆ
β1 mede a mudança prevista na probabilidade de
sucesso quando x1 aumenta por uma unidade. Observe que neste caso deste modelo, temos:
V ar(y|x) = p(x) [1− p (x)]
onde, p(x) = β0 + β1x1 + ...+ βkxk
então, viola-se a hipótese de homocedasticidade. Apesar de não causar viés na estimação
dos parâmetros, isso invalida as estatísticas F e t padrão. Assim, deve-se corrigir os erros
padrões com a presença de heterocedasticidade (via correção de White).
Mas, mesmo a despeito de tais problemas, é ainda aceitável em trabalhos empíricos
apresentar uma análise MQO padrão de um modelo de probabilidade linear.
Este modelo pode ser útil também na avaliação de programas e aspectos sociais. A
variável dependente poderia ser uma dummy se o indivíduo está abaixo da linha de pobreza
ou não. E dentre as variáveis explicativas poder-se-ia ter se um indivíduo participa ou não
de um determinado programa social.
Aqui pode surgir um problema que geralmente surge nesta avaliação. É se a decisão do
indivíduo de participar ou não do programa depende de outros fatores (que estariam no
termo errático) e que explicam também a variável dependente. Este problema é chamado
de auto-seleção (self-selection).
Assim, participação não é aleatoriamente determinada. Logo, o indicador binário de
participação está correlacionado a fatores não observados. Isto torna o estimador viesado.
Este é um meio da variável explicativa ser endógena. Mas o problema pode ser também em
relação a outras variáveis explicativas, o que geraria um problema de multicolinearidade.
117
Assim, devemos ter cuidado ao incluir mais variáveis explicativas. Além disso podemos
encontrar efeitos espúrios dos programas nas variáveis de interesse devido ao problema de
self-selection.
Quando este problema causa a análise da regressão múltipla padrão ser viesada devido
a uma falta de variáveis de controle suficiente, utiliza-se métodos mais avançados como
os de diff-in-diff e de 1a diferença, modelos de painel (efeito fixo e aletório) e de variáveis
instrumentais, com exceção do último não sendo estudados aqui.
14.1.1 Modelos de Probabilidade Não-Linear: Probit e Logit
Agora veremos modelos de probabilidade não-linear. O interesse está novamente na prob-
abilidade de resposta:
P (y = 1|x) = P (y = 1|x1, x2, ..., xk)
onde, y pode ser, por exemplo, um indicador de emprego, enquanto os x′is podem ser várias
características individuais. NoMPL considerava-se a probabilidade uma função linear das
variáveis. Agora considera-seuma classe de modelos de resposta binária mais amplo:
P (y = 1|x) = G(β0 + β1x1 + ...+ βkxk) = G(β0 + xβ),
onde, 0 < G(z) < 1, para ∀z ∈ R, é uma função distribuição (ou seja, uma função densidade
acumulada). Isso assegura a probabilidade entre zero e um. Aqui abordaremos dois tipos
de funções para assegurar isso. Primeiramente a função logística:
G(z) =
ez
1− ez = Λ(z),∈ (0, 1), ∀z ∈ R.
Esta é a f.d.a para um v.a. logística padrão. Por isso, esse modelo é denominado logit.
Outra função seria a f.d.a. normal, que é:
G(z) = Φ(z) ≡
z∫
−∞
φ(v)dv
onde a φ(z) é a densidade normal padrão. φ(z) = (2π)−1/2e−
z2
2 . Esse modelo é denominado
probit.
Modelos probit e logit podem ser derivados de um modelo de variável latente. Seja y∗
uma variável não observada, ou latente determinada por:
y∗ = β0 + xβ + e,
onde, y = 1[y∗>0]
118
em que 1[.] é uma função indicadora, valendo um se a condição entre colchetes for satisfeita
e 0 caso contrário.
Um exemplo de variável latente é quando y∗ é o valor de um benefício da Seguridade
Social, como previdência ou pensão. Muitas vezes não observamos y∗ em uma base de
dados, mas apenas se o indivíduo é beneficiário (que implica que y∗ > 0 e, portanto y = 1)
ou não (quando y∗ = 0 e, portanto, y = 0).
Assumimos que e é independente de x e que e tem a distribuição logística ou normal
padrão. Quando assumimos uma distribuição para e, tal distribuição será a mesma de y,
pois como y = β0 + xβ + e, então a distribuição de y|x será a mesma de e|x.
A partir da simetria das distribuições logísticas e normal (ou seja, 1 − G(−z) =
G(z), ∀z ∈ R), da equação acima e das hipóteses dadas, o modelo será:
P (y = 1|x) = P (y∗ > 0|x) = P [e > −(β0 + xβ)|x]
= 1−G[−(β0 + xβ)] = G(β0 + xβ) (33)
que é a mesma que obtida acima.
Para o logit e probit, a direção do efeito de xj em E(y∗|x) = β0 + xβ e em E(y|x) =
P (y = 1|x) = G(β0 + xβ) é sempre o mesmo. Ou seja, Sabendo o sinal de βj é suficiente
para determinar se o programa teve um efeito positivo ou negativo. Mas para obter a
magnitude do efeito marginal temos que estimar tal efeito sobre a probabilidade de resposta
que será:
∂p(x)
∂xj
= g(β0 + xβ)βj ,
onde, g(z) =
dG
dz
(z) é f.d.p.
logo, g(.) é uma f.d.p. Como no caso do logit e probit G(.) é estritamente crescente, então
g(.) > 0. Assim, o sinal depende de βj .
No caso do probit, tal efeito, avaliado na média, seria:
∂p(x)
∂xj
= φ(
ˆ
β0 + x̄
ˆ
β)β̂j
onde φ (.) é a fdp da Normal padrão.
E no caso do logit, precisamos primeiramente obter a f.d.p. da logística:
g (z) = G′ (z) =
d
[
ez
1−ez
]
dz
=
g (z) =
ez (1− ez) + ezez
(1− ez)2
g (z) =
ez
(1− ez)2 .
119
Substituindo na fórmula acima do efeito marginal:
∂p(x)
∂xj
=
e
ˆ
β0+x
ˆ
β[
1− e
ˆ
β0+x
ˆ
β
]2 .β̂j
Se x1 é uma variável explicativa binária, então o efeito parcial de mudar x1 de zero
para um, ceteris paribus, é:
G(β0 + β1 + β2x2 + ...+ βkxk)−G(β0 + β2x2 + ...+ βkxk)
Se y é dummy de emprego, e xj é dummy de participação de um programa de treina-
mento, então a equação acima é a mudança na probabilidade de emprego devido ao pro-
grama de treinamento, que vai depender de outras variáveis explicativas, como educação,
experiência etc.
Sabendo o sinal de β1é suficiente para determinar se o programa teve um efeito positivo
ou negativo. Mas para obter a magnitude do efeito temos que estimar a equação acima.
14.2 Estimação por Máxima Verossimilhança
Devido à natureza não-linear de E (y|x), o MQO não é aplicável. Uma alternativa seria
Mínimos Quadrados Não-Linear (MQNL). Mas tal técnica é bem complicada para um curso
de graduação. Por isso, utilizaremos a técnica de MV.
Suponha uma amostra aleatória de yi, xi, i = 1, ..., n. Devemos montar a função de
verossimilhança. Para isso, é necessário saber a densidade de yi|xi. A sua f.d.p. será:
f (yi|xi;β) = [G (xiβ)]yi [1−G (xiβ)]1−yi
onde, y = 0, 1.
Note que quando y = 1, obtemos justamente a equação (33). E no caso de y = 0, seria
a probabilidade complementar.
Assim, a função de verossimilhança será o produtório das densidades marginais:
L (β; x) = Πn
i=1f (yi|xi;β) = Πn
i=1 [G (xiβ)]yi [1−G (xiβ)]1−yi
E o log de tal função (que é mais fácil de maximizar na maioria dos casos) será:
l (β; x) =
∑
i
ln
{
[G (xiβ)]yi [1−G (xiβ)]1−yi
}
l (β; x) =
∑
i
yi ln [G (xiβ)] +
∑
i
(1− yi) [1−G (xiβ)]
Assim, para obter os estimadores MV dos parâmetros β que definem a f.d.a. G (.)
devemos maximizar tal função.
120
Se G (.) for a normal padrão, então β̂MV será o estimador probit.
Se G (.) for a logística, então β̂MV será o estimador logit.
O R2 usual não pode ser computado, pois estamos estimando por MV e o modelo não
é linear. Assim, um indicador alternativo é o pseudo − R2, sendo uma de suas versões
definidas como:
1− lir/l0
onde lir é a função de log-verossimilhança do modelo estimado (irrestrito) e l0 é a função log-
verossimilhança do modelo estimado apenas com intercepto (ou seja, um modelo restrito,
que impomos que todos os parâmetros β = 0).
No caso de y binário, o l é negativo. Para ver isso, note da equação l (β; x) que o termo
dentro do ln é a f.d.a. que está entre 0 e 1 e, portanto, o valor do ln será negativo. Assim,
temos:
|lir| ≤ |l0|
Logo:
pseudo−R2 ∈ [0, 1]
Como g (0) ≈ 0.4 no caso do probit e g (0) ≈ 0.25 no caso do logit, para tornarmos
comparáveis as estimativas do βj de cada um, devemos multiplicar as estimativas do probit
por 0.4/0.25 = 1.6, ou multiplicar as estimativas do logit por 0.25/0.4 = 0.625.
Como g (0) = 1 no MPL, para compararmos suas estimativas com as do logit, devemos
dividir as últimas por 4 e para comparar com o probit devemos dividir estas por 2.5 (na
comparação com o MPL).
121

Mais conteúdos dessa disciplina