Prévia do material em texto
1 T.E.A. II (Curso Preparatório para o Exame da ANPEC) Disciplina: Estatística - Professor: Eduardo Lima Campos 23 - ENDOGENEIDADE E VARIÁVEIS INSTRUMENTAIS • O Problema da Endogeneidade Uma hipótese do modelo de regressão linear clássico é que Cov(X,u) = 0. Se esta hipótese é violada, os estimadores de MQO são viciados e inconsistentes. Demonstração da Inconsistência: Pela L.G.N., o estimador de MQO de β1 converge em probabilidade para Todavia: Cov(X,Y) = β1V(X) + Cov(X,u), e assim: . )X(V )u,X(Cov )X(V )Y,X(Cov 1 −=β . )X(V )Y,X(Cov Ou seja, se Cov(X,u) ≠ 0, então o limite em probabilidade do estimador de MQO de β1 é diferente de β1, logo ele é inconsistente para β1. Argumentação para o Vício: Se o estimador é não viciado e possui limite em probabilidade (como verificado no slide anterior), este limite teria que ser igual a β1. Por outro lado, temos do slide anterior que: e assim o estimador de MQO é viciado. , )X(V )u,X(Cov )ˆ(PLim 11 +β=β • Exogeneidade x Endogeneidade Se Cov(X,u) = 0, X é chamada exógena. Se Cov(X,u) ≠ 0, X é chamada endógena. Obs - a nomenclatura é oriunda da literatura de equações simultâneas, assunto a ser abordado no capítulo 24 deste material. Possíveis causas da endogeneidade: 1 - omissão de variável explicativa relevante, sendo esta variável correlacionada com X. 2 - erro de medida em X. 3 - simultaneidade (ou causalidade simultânea) na relação entre X e Y. 2 T.E.A. II (Curso Preparatório para o Exame da ANPEC) Disciplina: Estatística - Professor: Eduardo Lima Campos • Omissão de Variáveis(revisão de conteúdo abordado no capítulo 22) Exemplo 23.1- Seja a regressão de Y = ln(salário) em X = anos de educação. Esta regressão apresenta viés de variável omitida. Por exemplo, a experiência profissional, além de afetar o salário, deve ser correlacionada com anos de educação (em qual sentido?). O problema pode ser resolvido incorporando ao modelo a variável X2 = experiência profissional. Porém esta solução só é viável se for possível obter dados sobre a variável omitida, ou seja, se ela for observável (= possível de ser observada). O problema se torna mais crítico quando o fator que causa a endogeneidade de X é não observável/mensurável. Por exemplo, aptidão. Neste caso, uma forma de contornar é utilizar uma proxy para aptidão. Uma proxy é uma variável observável, que teoricamente tem correlação elevada com a variável omitida. • Erros de Medida Ocorrem quando queremos medir X e Y, mas acabamos só conseguindo observar X* = X + eX e Y* = Y + eY, em que eX e eY são erros. Apenas o erro de medida em X é fonte de endogeneidade. Para ver isto, considere o modelo populacional : Y = β0 + β1X + u, substitua X por (X* - eX) e reescreva o modelo considerando X* como variável explicativa. O modelo resultante será: Y = β0 + β1X* + v, em que v = u -β1eX. Daí, verifica-se que: Cov(v,X*) = Cov(u -β1eX,X + eX) = , que é diferente de 0.2e1σβ− Obs - a consequência do erro em Y é menos grave: a variância de u aumentará, acarretando perda de eficiência aos estimadores de MQO. Também neste caso, o uso de uma proxy para X resolve o problema. O problema com o uso de proxies é que encontrar uma boa proxy não é simples! Além disto, esta abordagem não resolve problema causado por outras fontes de endogeneidade, como - por exemplo - a simultaneidade na relação de Y e X (problema abordado no capítulo 24). 3 T.E.A. II (Curso Preparatório para o Exame da ANPEC) Disciplina: Estatística - Professor: Eduardo Lima Campos O uso de variáveis instrumentais permite obter estimadores consistentes dos coeficientes de uma regressão sob endogeneidade em qualquer caso, isto é, seja qual for a fonte do problema. O método consiste em considerar outra variável Z, que seja (altamente) correlacionada com X, porém não seja correlacionada com u. Z é chamada variável instrumental (VI). • Condições de Validade de uma Variável Instrumental Em um modelo de regressão simples, uma variável instrumental Z é válida se satisfaz às duas condições a seguir: 1. relevância - Cov(Z,X) ≠ 0. 2. exogeneidade- Cov(Z,u) = 0. Ambasas condições são necessárias para que o método conduza a estimadores consistentes. Exemplo 23.1- (cont.) Poderiam ser usadas, como VI`s da educação, variáveis de perfil familiar. Por exemplo: escolaridade da mãe. Entretanto, esta variável, embora bastante relevante, não deve ser uma boa VI. Por que? Resposta: a escolaridade da mãe pode afetar a aptidão dos filhos (pela genética ou pela qualidade da nutrição infantil, por exemplo) E o que você diria sobre a variável número de irmãos? Resposta: parece uma boa VI, devidamente correlacionada com o nível educacional e, aparentemente, não afetando a aptidão. (mas pode-se questionar, por exemplo, o impacto da atenção dos pais sobre a aptidão) Exemplo 23.2- Seja uma regressão de Y = nota de um aluno e X = número de faltas às aulas. Diversos fatores fazem com que o número de faltas seja endógeno nesta regressão, entre elas: aptidão, motivação do aluno, etc. Que variável você poderia sugerir como VI para o número de faltas? (avalie ambas as condições) Haveria necessidade de controlar alguma variável, para evitar endogeneidade? Resposta: Uma possível VI é a distância da universidade. Esta distância provavelmente é correlacionada com a renda, que também afeta a aptidão, então é recomendável controlar a renda. Obs - caso uma boa proxy para a aptidão esteja disponível (neste caso, o c.r. talvez fosse uma opção), a abordagem por VI não é necessária! 4 T.E.A. II (Curso Preparatório para o Exame da ANPEC) Disciplina: Estatística - Professor: Eduardo Lima Campos • Proxy x Variável Instrumental A diferença entre o uso de uma proxy e de uma VI é que, no caso da proxy, incorpora-se ao modelo uma variável correlacionada com u (na verdade, com um fator não observável em u). No caso da VI, a variável omitida é mantida no termo de erro, e considera-se uma variável Z não correlacionada com o termo de erro, e correlacionada com a variável endógena X. Um proxy precisa ter, por definição, correlação alta com o termo de erro u. Já uma VI deve ter correlação zero com u. Portanto, uma proxy adequada é uma VI inválida, uma vez que, por definição, a proxy é correlacionada com o erro u. Observação Importante Como veremos, o uso de uma VI não consiste em substituir X por Z no modelo original (de Y em X), e sim em considerá-la no processo de estimação dos coeficientes deste modelo. • Estimadores de VI de ββββ0 e ββββ1 Os estimadores de VI podem ser obtidos pelo método dos momentos, mediante os equivalentes amostrais de E(u) = 0 e E(uZ) = 0, em que é o resíduo do modelo original:iû 0Z)XˆˆY(Zû)II( 0)XˆˆY(û)I( ii10i n 1i n 1i ii i10i n 1i n 1i i =β−β−=⇒ =β−β−=⇒ ∑∑ ∑∑ == == Os estimadores resultantes são: . S Sˆ ZX ZYVI 1 =β Estes estimadores são chamados estimadores de VIe, sob (ambas!) as condições de validade, são consistentes. .XˆYˆ VI1 VI 0 β−=β covariância amostral de Z com Y covariância amostral de Z com X Estimadores de VI x Estimadores de MQO Se Z = X, os estimadores de VI coincidem com os de MQO, como de fato é esperado! Os estimadores de VI são viciados, embora consistentes. Só seriam não viciados caso X fosse exógena (mas neste caso seu uso não faria sentido, pois MQO seria mais eficiente). 5 T.E.A. II (Curso Preparatório para oExame da ANPEC) Disciplina: Estatística - Professor: Eduardo Lima Campos Verificando a Consistência de : Pela L.G.N., o estimador de VI para β1 converge em probabilidade para Todavia: Cov(Z,Y) = β1Cov(Z,X) + Cov(Z,u), e assim: . )X,Z(Cov )Y,Z(Cov Se Cov(Z,u) = 0 (condição de exogeneidade) e Cov(Z,X) ≠ 0 (condição de relevância), então o estimador de VI para β1 é consistente. . )X,Z(Cov )u,Z(Cov )X,Z(Cov )Y,Z(Cov 1 −=β VI 1β̂ • O Caso de k (>1) Potenciais VI`s Neste caso, a solução é usar uma combinação linear delas, com pesos que conduzam ao estimador de VI mais eficiente possível. É possível demonstrar que esses pesos são as estimativas dos coeficientes da regressão de variável endógena X nos k instrumentos. Sejam então Z1, Z2, ..., Zk as k VI`s possíveis. A regressão mencionada é: X = π0 + π1Z1 + π2Z2 + ... + πkZk + υ, e deve-se utilizar como VI: .Zˆ...ZˆˆX̂ kk110 π++π+π= Sob o ponto de vista da estimação, basta substituir Z por nas equações da página 4: 0X̂)XˆˆY(X̂û)II( 0)XˆˆY(û)I( ii10i n 1i n 1i ii i10i n 1i n 1i i =β−β−=⇒ =β−β−=⇒ ∑∑ ∑∑ == == X̂ É possível demonstrar que utilizar como VI equivale a incorporá-la como variável explicativa na equação original. O método resultante é chamado Mínimos Quadrados em 2 Estágios(MQ2E), que é o procedimento usual quando temos k VI`s, e cujo algoritmo é apresentado a seguir. X̂ • Mínimos Quadrados em 2 Estágios (MQ2E) Primeiro estágio: estimar a regressão X = π0 + π1Z1 + π2Z2 + ... + πkZk + υ, por MQO. Segundo estágio: substituir X, na regressão original, pelos valores previstos resultantes da regressão efetuada no primeiro estágio: MQO.por resultante regressão aestimar e ,Zˆ...ZˆˆX̂ kk110 π++π+π= 6 T.E.A. II (Curso Preparatório para o Exame da ANPEC) Disciplina: Estatística - Professor: Eduardo Lima Campos Sob o ponto de vista da estimação, MQ2E pode ser definido pelas seguintes equações: 0X̂)X̂ˆˆY(X̂ˆ)II( 0)X̂ˆˆY(ˆ)I( ii10i n 1i n 1i ii i10i n 1i n 1i i =β−β−=ε⇒ =β−β−=ε⇒ ∑∑ ∑∑ == == Compare com as equações da página anterior. Os resíduos considerados passam a ser os do segundo estágio, e não os da equação original. Para demonstrar a equivalência entre os dois conjuntos de equações, basta substituir nas equações do início da página: E usar as seguintes propriedades de MQO: υ+= ˆX̂X .0X̂ˆ e 0ˆ i n 1i i n 1i i =υ=υ ∑∑ == Qual a idéia por detrás do MQ2E? é uma combinação linear dos Zi`s, que são exógenos. Portanto, também é exógena, podendo ser incorporada ao modelo original. A endogeneidade de X é “absorvida” pelos resíduos da regressão do primeiro estágio. Além disto, fornece a combinação linear ótima (mais eficiente) das VI`s disponíveis! X̂ X̂ X̂ • MQ2E para o caso de uma única VI possível Primeiro estágio: estimar a regressão de X em Z: X = π0 + π1Z + υ, por MQO, sendo Z a (única) variável instrumental disponível para X. Segundo estágio: substituir X, na regressão original, pelos valores previstos resultantes da regressão efetuada no primeiro estágio: MQO.por regressão estaestimar e ,ZˆˆX̂ 10 π+π= Exemplo 23.3- Considere a regressão de Y = ln(salários) em X = anos de educação (endógena) e W = experiência (exógena). a) W pode ser usada como VI para X? b) Sugira uma VI para X. c) Que outras variáveis têm que ser controladas? Respostas: a) Não, pois causaria multicolinearidade perfeita na equação estrutural. b) Z = distância a uma universidade. c) genero, raça, região. 7 T.E.A. II (Curso Preparatório para o Exame da ANPEC) Disciplina: Estatística - Professor: Eduardo Lima Campos • Acrescentando uma Variável Exógena Nos exemplos 23.2 e 23.3, foi ilustrada a eventual necessidade de controlar variáveis. Considere então o acréscimo de uma variável exógena W ao modelo estrutural, que se torna: Y = β0 + β1X + β2W + u. A regressão de X em Z precisa considerar/controlar W, tornando-se: X = π0 + π1Z + π2W + υ. A regressão do segundo estágio também tem que considerar W, além de Z. Note que, para que seja possível estimar o modelo, é necessário que haja uma variável instrumental Z disponível para a variável X. Note ainda que W não pode ser usada como VI de X pois, embora seja correlacionada com X (por isso está sendo controlada), e exógena, sua inclusão causaria multicolinearidade perfeita! É necessário, portanto, que esteja disponível uma variável exógena que não esteja incluída na regressão original. Isto remete às condições de identificação de uma equação, a serem estudadas no contexto de sistemas de equações simultâneas (capítulo 24). A ampliação do modelo para a inclusão de r variáveis exógenas W1, W2, ..., Wr não altera o processo: todas elas têm que ser controladas nas regressões envolvidas. A ampliação para M variáveis endógenas gera o chamado Sistema de Equações Simultâneas, a ser estudado no capítulo 24. • Verificando a Relevância das VI`s É fundamental verificar a relevância dos instrumentos disponíveis, o que pode ser feito testando a significância dos seus coeficientes no primeiro estágio da estimação por MQ2E. Se eles não forem significantes, não é relevante para X, e não pode ser utilizada como VI (o vício assintótico “explodiria”). X̂ 8 T.E.A. II (Curso Preparatório para o Exame da ANPEC) Disciplina: Estatística - Professor: Eduardo Lima Campos No caso de uma VI potencial, a relevância pode ser verificada por meio de um teste t. No caso de k VI`s, é necessário um teste F da significância conjunta de Havendo variáveis exógenas controladas no modelo original, o teste de relevância é (no caso de uma VI) um teste t para o coeficiente de Z ou (no caso de k VI`s) um teste F geral para a significância dos coeficientes das VI`s. .ˆ e ... ,ˆ ,ˆ k21 πππ • Verificando a Endogeneidade É mais complicado testar endogeneidade do que testar relevância, uma vez que o erro u do modelo original não é observável. Uma forma empírica é comparar as estimativas de MQO e MQ2E. Sob exogeneidade, ambas são consistentes. Assim, uma diferença elevada é indício de endogeneidade no modelo original. Um procedimento formal para investigar endogeneidade consiste em verificar se o erro υ da regressão do primeiro estágio é correlacionado com o erro u do modelo original. Inclui-se no modelo original o resíduo da regressão estimada no primeiro estágio. Se a estimativa do respectivo coeficiente for significante, conclui-se que X é endógena. O teste de Haussman para erro de especificação também é usado para investigar endogeneidade. Vimos que, sob as condições de validade, os estimadores de VI`s são consistentes, porém viciados. Por isto, esta abordagem só é recomendada para grandes amostras. Se, porém, Corr(Zi,u) não for nula, mas apenas baixa, é fundamental que Corr(Zi,X) seja alta, para que o vício assintótico seja moderado. • Instrumentos Fracos Um instrumento é fraco (ou menos relevante) para X se a correlação entre ele e X, embora não-nula (condição de relevância), for baixa. Neste caso, se a correlação de Z com o erro u é apenas próxima de zero, mas não exatamente igual, o vício assintótico dos estimadores de VI`s pode ser muito elevado. Por outro lado, se o instrumento fraco for exógeno, os estimadores serão consistentes. Há, no entanto, outra consequência séria: na presença de instrumentos fracos, os estimadores de VI`s não são mais assintoticamente Normais, o que compromete a validadedos testes usuais.