23 Variáveis Instrumentais

•

UERN

Edilson Junior

08/02/2020

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

1
T.E.A. II (Curso Preparatório para o Exame da ANPEC) 
Disciplina: Estatística - Professor: Eduardo Lima Campos
23 -
ENDOGENEIDADE
E VARIÁVEIS 
INSTRUMENTAIS
• O Problema da Endogeneidade
Uma hipótese do modelo de regressão 
linear clássico é que Cov(X,u) = 0. 
Se esta hipótese é violada, os estimadores 
de MQO são viciados e inconsistentes.
Demonstração da Inconsistência:
Pela L.G.N., o estimador de MQO de β1
converge em probabilidade para
Todavia: Cov(X,Y) = β1V(X) + Cov(X,u),
e assim: .
)X(V
)u,X(Cov
)X(V
)Y,X(Cov
1 −=β
.
)X(V
)Y,X(Cov
Ou seja, se Cov(X,u) ≠ 0, então o limite em 
probabilidade do estimador de MQO de β1 é 
diferente de β1, logo ele é inconsistente para β1.
Argumentação para o Vício:
Se o estimador é não viciado e possui limite 
em probabilidade (como verificado no slide 
anterior), este limite teria que ser igual a β1.
Por outro lado, temos do slide anterior que:
e assim o estimador de MQO é viciado.
,
)X(V
)u,X(Cov
)ˆ(PLim 11 +β=β
• Exogeneidade x Endogeneidade
Se Cov(X,u) = 0, X é chamada exógena. 
Se Cov(X,u) ≠ 0, X é chamada endógena. 
Obs - a nomenclatura é oriunda da literatura 
de equações simultâneas, assunto a ser 
abordado no capítulo 24 deste material.
Possíveis causas da endogeneidade:
1 - omissão de variável explicativa relevante, 
sendo esta variável correlacionada com X.
2 - erro de medida em X.
3 - simultaneidade (ou causalidade 
simultânea) na relação entre X e Y.
2
T.E.A. II (Curso Preparatório para o Exame da ANPEC) 
Disciplina: Estatística - Professor: Eduardo Lima Campos
• Omissão de Variáveis(revisão de 
conteúdo abordado no capítulo 22) 
Exemplo 23.1- Seja a regressão de Y = 
ln(salário) em X = anos de educação. Esta 
regressão apresenta viés de variável omitida. 
Por exemplo, a experiência profissional, além 
de afetar o salário, deve ser correlacionada 
com anos de educação (em qual sentido?).
O problema pode ser resolvido incorporando ao 
modelo a variável X2 = experiência profissional. 
Porém esta solução só é viável se for possível 
obter dados sobre a variável omitida, ou seja, se 
ela for observável (= possível de ser observada).
O problema se torna mais crítico quando o 
fator que causa a endogeneidade de X é não 
observável/mensurável. Por exemplo, aptidão.
Neste caso, uma forma de contornar é utilizar 
uma proxy para aptidão. Uma proxy é uma 
variável observável, que teoricamente tem 
correlação elevada com a variável omitida.
• Erros de Medida
Ocorrem quando queremos medir X e Y, mas 
acabamos só conseguindo observar X* = X + 
eX e Y* = Y + eY, em que eX e eY são erros.
Apenas o erro de medida em X é fonte de 
endogeneidade. Para ver isto, considere o 
modelo populacional : Y = β0 + β1X + u, 
substitua X por (X* - eX) e reescreva o modelo 
considerando X* como variável explicativa.
O modelo resultante será: Y = β0 + β1X* + v, 
em que v = u -β1eX. Daí, verifica-se que:
Cov(v,X*) = Cov(u -β1eX,X + eX) 
= , que é diferente de 0.2e1σβ−
Obs - a consequência do erro em Y é menos 
grave: a variância de u aumentará, acarretando 
perda de eficiência aos estimadores de MQO.
Também neste caso, o uso de uma 
proxy para X resolve o problema.
O problema com o uso de proxies é que 
encontrar uma boa proxy não é simples!
Além disto, esta abordagem não resolve 
problema causado por outras fontes de 
endogeneidade, como - por exemplo -
a simultaneidade na relação de Y e X 
(problema abordado no capítulo 24).
3
T.E.A. II (Curso Preparatório para o Exame da ANPEC) 
Disciplina: Estatística - Professor: Eduardo Lima Campos
O uso de variáveis instrumentais permite obter 
estimadores consistentes dos coeficientes de 
uma regressão sob endogeneidade em qualquer 
caso, isto é, seja qual for a fonte do problema. 
O método consiste em considerar outra 
variável Z, que seja (altamente) correlacionada 
com X, porém não seja correlacionada com u.
Z é chamada variável instrumental (VI). 
• Condições de Validade de 
uma Variável Instrumental
Em um modelo de regressão simples, 
uma variável instrumental Z é válida
se satisfaz às duas condições a seguir:
1. relevância - Cov(Z,X) ≠ 0.
2. exogeneidade- Cov(Z,u) = 0.
Ambasas condições são necessárias para que 
o método conduza a estimadores consistentes.
Exemplo 23.1- (cont.) Poderiam ser usadas, 
como VI`s da educação, variáveis de perfil 
familiar. Por exemplo: escolaridade da mãe. 
Entretanto, esta variável, embora bastante 
relevante, não deve ser uma boa VI. Por que? 
Resposta: a escolaridade da mãe pode afetar 
a aptidão dos filhos (pela genética ou pela 
qualidade da nutrição infantil, por exemplo)
E o que você diria sobre a 
variável número de irmãos?
Resposta: parece uma boa VI, devidamente 
correlacionada com o nível educacional e, 
aparentemente, não afetando a aptidão. 
(mas pode-se questionar, por exemplo, o 
impacto da atenção dos pais sobre a aptidão)
Exemplo 23.2- Seja uma regressão de Y = nota 
de um aluno e X = número de faltas às aulas.
Diversos fatores fazem com que o número 
de faltas seja endógeno nesta regressão, entre 
elas: aptidão, motivação do aluno, etc. 
Que variável você poderia sugerir como VI 
para o número de faltas? (avalie ambas as 
condições) Haveria necessidade de controlar 
alguma variável, para evitar endogeneidade?
Resposta: 
Uma possível VI é a distância da universidade.
Esta distância provavelmente é correlacionada 
com a renda, que também afeta a aptidão, 
então é recomendável controlar a renda.
Obs - caso uma boa proxy para a aptidão esteja 
disponível (neste caso, o c.r. talvez fosse uma 
opção), a abordagem por VI não é necessária!
4
T.E.A. II (Curso Preparatório para o Exame da ANPEC) 
Disciplina: Estatística - Professor: Eduardo Lima Campos
• Proxy x Variável Instrumental
A diferença entre o uso de uma proxy e de uma 
VI é que, no caso da proxy, incorpora-se ao 
modelo uma variável correlacionada com u (na 
verdade, com um fator não observável em u).
No caso da VI, a variável omitida é mantida 
no termo de erro, e considera-se uma variável 
Z não correlacionada com o termo de erro, e 
correlacionada com a variável endógena X.
Um proxy precisa ter, por definição, 
correlação alta com o termo de erro u. 
Já uma VI deve ter correlação zero com u.
Portanto, uma proxy adequada é uma 
VI inválida, uma vez que, por definição, 
a proxy é correlacionada com o erro u.
Observação Importante
Como veremos, o uso de uma VI não consiste 
em substituir X por Z no modelo original (de 
Y em X), e sim em considerá-la no processo 
de estimação dos coeficientes deste modelo.
• Estimadores de VI de ββββ0 e ββββ1
Os estimadores de VI podem ser obtidos 
pelo método dos momentos, mediante os 
equivalentes amostrais de E(u) = 0 e E(uZ) 
= 0, em que é o resíduo do modelo original:iû
0Z)XˆˆY(Zû)II(
0)XˆˆY(û)I(
ii10i
n
1i
n
1i
ii
i10i
n
1i
n
1i
i
=β−β−=⇒
=β−β−=⇒
∑∑
∑∑
==
==
Os estimadores resultantes são:
.
S
Sˆ
ZX
ZYVI
1 =β
Estes estimadores são chamados 
estimadores de VIe, sob (ambas!) as 
condições de validade, são consistentes.
.XˆYˆ VI1
VI
0 β−=β
covariância amostral 
de Z com Y
covariância amostral 
de Z com X
Estimadores de VI x Estimadores de MQO
Se Z = X, os estimadores de VI coincidem 
com os de MQO, como de fato é esperado!
Os estimadores de VI são viciados, embora 
consistentes. Só seriam não viciados caso X 
fosse exógena (mas neste caso seu uso não 
faria sentido, pois MQO seria mais eficiente).
5
T.E.A. II (Curso Preparatório para oExame da ANPEC) 
Disciplina: Estatística - Professor: Eduardo Lima Campos
Verificando a Consistência de :
Pela L.G.N., o estimador de VI para β1
converge em probabilidade para
Todavia: Cov(Z,Y) = β1Cov(Z,X) + Cov(Z,u),
e assim: 
.
)X,Z(Cov
)Y,Z(Cov
Se Cov(Z,u) = 0 (condição de exogeneidade) 
e Cov(Z,X) ≠ 0 (condição de relevância), 
então o estimador de VI para β1 é consistente.
.
)X,Z(Cov
)u,Z(Cov
)X,Z(Cov
)Y,Z(Cov
1 −=β
VI
1β̂ • O Caso de k (>1) Potenciais VI`s
Neste caso, a solução é usar uma combinação 
linear delas, com pesos que conduzam ao 
estimador de VI mais eficiente possível. 
É possível demonstrar que esses pesos são 
as estimativas dos coeficientes da regressão 
de variável endógena X nos k instrumentos.
Sejam então Z1, Z2, ..., Zk as k VI`s 
possíveis. A regressão mencionada é:
X = π0 + π1Z1 + π2Z2 + ... + πkZk + υ,
e deve-se utilizar como VI:
.Zˆ...ZˆˆX̂ kk110 π++π+π=
Sob o ponto de vista da estimação, basta 
substituir Z por nas equações da página 4:
0X̂)XˆˆY(X̂û)II(
0)XˆˆY(û)I(
ii10i
n
1i
n
1i
ii
i10i
n
1i
n
1i
i
=β−β−=⇒
=β−β−=⇒
∑∑
∑∑
==
==
X̂
É possível demonstrar que utilizar 
como VI equivale a incorporá-la como
variável explicativa na equação original.
O método resultante é chamado Mínimos 
Quadrados em 2 Estágios(MQ2E), que é 
o procedimento usual quando temos k VI`s, 
e cujo algoritmo é apresentado a seguir.
X̂
• Mínimos Quadrados em 2 Estágios (MQ2E)
Primeiro estágio: estimar a regressão X = 
π0 + π1Z1 + π2Z2 + ... + πkZk + υ, por MQO. 
Segundo estágio: substituir X, na regressão 
original, pelos valores previstos resultantes 
da regressão efetuada no primeiro estágio:
MQO.por resultante regressão aestimar e
 ,Zˆ...ZˆˆX̂ kk110 π++π+π=
6
T.E.A. II (Curso Preparatório para o Exame da ANPEC) 
Disciplina: Estatística - Professor: Eduardo Lima Campos
Sob o ponto de vista da estimação, MQ2E 
pode ser definido pelas seguintes equações:
0X̂)X̂ˆˆY(X̂ˆ)II(
0)X̂ˆˆY(ˆ)I(
ii10i
n
1i
n
1i
ii
i10i
n
1i
n
1i
i
=β−β−=ε⇒
=β−β−=ε⇒
∑∑
∑∑
==
==
Compare com as equações da página anterior. 
Os resíduos considerados passam a ser os do 
segundo estágio, e não os da equação original.
Para demonstrar a equivalência entre 
os dois conjuntos de equações, basta 
substituir nas equações do início da página:
E usar as seguintes propriedades de MQO: 
υ+= ˆX̂X
.0X̂ˆ e 0ˆ i
n
1i
i
n
1i
i =υ=υ ∑∑
==
Qual a idéia por detrás do MQ2E?
é uma combinação linear dos Zi`s, que são 
exógenos. Portanto, também é exógena, 
podendo ser incorporada ao modelo original.
A endogeneidade de X é “absorvida” pelos 
resíduos da regressão do primeiro estágio.
Além disto, fornece a combinação linear 
ótima (mais eficiente) das VI`s disponíveis!
X̂
X̂
X̂
• MQ2E para o caso de uma única VI possível
Primeiro estágio: estimar a regressão de 
X em Z: X = π0 + π1Z + υ, por MQO, sendo Z a 
(única) variável instrumental disponível para X. 
Segundo estágio: substituir X, na regressão 
original, pelos valores previstos resultantes 
da regressão efetuada no primeiro estágio:
MQO.por regressão estaestimar e ,ZˆˆX̂ 10 π+π=
Exemplo 23.3- Considere a regressão de Y 
= ln(salários) em X = anos de educação 
(endógena) e W = experiência (exógena). 
a) W pode ser usada como VI para X? 
b) Sugira uma VI para X.
c) Que outras variáveis têm que ser controladas?
Respostas:
a) Não, pois causaria multicolinearidade 
perfeita na equação estrutural.
b) Z = distância a uma universidade.
c) genero, raça, região.
7
T.E.A. II (Curso Preparatório para o Exame da ANPEC) 
Disciplina: Estatística - Professor: Eduardo Lima Campos
• Acrescentando uma Variável Exógena
Nos exemplos 23.2 e 23.3, foi ilustrada a 
eventual necessidade de controlar variáveis.
Considere então o acréscimo de uma variável 
exógena W ao modelo estrutural, que se torna: 
Y = β0 + β1X + β2W + u. 
A regressão de X em Z precisa 
considerar/controlar W, tornando-se:
X = π0 + π1Z + π2W + υ.
A regressão do segundo estágio também 
tem que considerar W, além de Z.
Note que, para que seja possível estimar o 
modelo, é necessário que haja uma variável 
instrumental Z disponível para a variável X.
Note ainda que W não pode ser usada como VI 
de X pois, embora seja correlacionada com X 
(por isso está sendo controlada), e exógena, sua 
inclusão causaria multicolinearidade perfeita!
É necessário, portanto, que esteja disponível 
uma variável exógena que não esteja 
incluída na regressão original.
Isto remete às condições de identificação de 
uma equação, a serem estudadas no contexto de 
sistemas de equações simultâneas (capítulo 24).
A ampliação do modelo para a inclusão 
de r variáveis exógenas W1, W2, ..., Wr
não altera o processo: todas elas têm que 
ser controladas nas regressões envolvidas.
A ampliação para M variáveis endógenas 
gera o chamado Sistema de Equações 
Simultâneas, a ser estudado no capítulo 24.
• Verificando a Relevância das VI`s
É fundamental verificar a relevância dos 
instrumentos disponíveis, o que pode ser feito 
testando a significância dos seus coeficientes 
no primeiro estágio da estimação por MQ2E.
Se eles não forem significantes, não é 
relevante para X, e não pode ser utilizada 
como VI (o vício assintótico “explodiria”).
X̂
8
T.E.A. II (Curso Preparatório para o Exame da ANPEC) 
Disciplina: Estatística - Professor: Eduardo Lima Campos
No caso de uma VI potencial, a relevância
pode ser verificada por meio de um teste t. No
caso de k VI`s, é necessário um teste F da
significância conjunta de
Havendo variáveis exógenas controladas no 
modelo original, o teste de relevância é (no 
caso de uma VI) um teste t para o coeficiente 
de Z ou (no caso de k VI`s) um teste F geral 
para a significância dos coeficientes das VI`s.
.ˆ e ... ,ˆ ,ˆ k21 πππ
• Verificando a Endogeneidade
É mais complicado testar endogeneidade 
do que testar relevância, uma vez que o erro 
u do modelo original não é observável. 
Uma forma empírica é comparar as estimativas 
de MQO e MQ2E. Sob exogeneidade, ambas são 
consistentes. Assim, uma diferença elevada é 
indício de endogeneidade no modelo original.
Um procedimento formal para investigar 
endogeneidade consiste em verificar se o 
erro υ da regressão do primeiro estágio é 
correlacionado com o erro u do modelo original.
Inclui-se no modelo original o resíduo da 
regressão estimada no primeiro estágio. Se 
a estimativa do respectivo coeficiente for 
significante, conclui-se que X é endógena. 
O teste de Haussman para erro de especificação 
também é usado para investigar endogeneidade.
Vimos que, sob as condições de validade, 
os estimadores de VI`s são consistentes, 
porém viciados. Por isto, esta abordagem 
só é recomendada para grandes amostras.
Se, porém, Corr(Zi,u) não for nula, mas apenas 
baixa, é fundamental que Corr(Zi,X) seja alta, 
para que o vício assintótico seja moderado. 
• Instrumentos Fracos
Um instrumento é fraco (ou menos relevante) 
para X se a correlação entre ele e X, embora 
não-nula (condição de relevância), for baixa.
Neste caso, se a correlação de Z com o 
erro u é apenas próxima de zero, mas não 
exatamente igual, o vício assintótico dos 
estimadores de VI`s pode ser muito elevado. 
Por outro lado, se o instrumento fraco for 
exógeno, os estimadores serão consistentes. 
Há, no entanto, outra consequência séria: na 
presença de instrumentos fracos, os estimadores 
de VI`s não são mais assintoticamente Normais, 
o que compromete a validadedos testes usuais.