Baixe o app para aproveitar ainda mais
Prévia do material em texto
Tópico 9 – Estimação de Variáveis Instrumentais e Mínimos Quadrados em Dois Estágios Bibliografia: STOCK, James H. e WATSON, Mark W. Econometria. 1ª. Edição. Prentice Hall, 2004. WOOLDRIDGE, J.M. Introdução à Econometria: uma abordagem moderna. 4ª ed. São Paulo: Pioneira Thomson Learning, 22015. (capítulo 15). Variáveis instrumentais Correlação entre 𝑥 e 𝑢 pode surgir de várias fontes: Omissão de variáveis; Erros nas variáveis (erros de medidas nos regressores); Causalidade simultâneas (quando ela ocorre tanto “para trás, de 𝑦 para 𝑥,quanto “para frente” de 𝑥 para 𝑦). Por exemplo: o viés de omissão de variáveis pode ser solucionado diretamente pela inclusão da variável omitida em uma regressão múltipla, porém isso só é viável se você tem dados sobre essa variável. Se uma solução direta para esses problemas não é viável ou não está disponível, um novo método se faz necessário. Variáveis instrumentais Problemas de variáveis omitidas: Ignorar o problema? (viés e inconsistência?!); Proxy para a variável não-observada. Se pudermos deixar a variável não-observada no termo de erro, mas ao invés de estimarmos por MQO, usarmos outro método que reconheça a variável omitida → VI Variáveis instrumentais A regressão de VI utiliza uma terminologia especializada para distinguir as variáveis que estão correlacionadas com o termo de erro da população 𝑢 daquelas que não estão. Variáveis endógenas: estão correlacionadas com o termo de erro. Variáveis exógenas: não-correlacionadas com o termo de erro. Variáveis instrumentais Abordagem diferente para o problema de endogeneidade: Métodos da VI podem ser usados para se obter estimadores consistentes na presença de variáveis omitidas; Métodos da VI também podem ser usados para resolver erros de medida. A regressão de variáveis instrumentais (VI) é uma forma geral de se obter um estimador consistente dos coeficientes desconhecidos da regressão da população quando o regressor 𝑥, está correlacionado com o termo de erro. Variáveis instrumentais Para entender como a regressão de VI funciona, pense na variação em 𝑥 como composta por 2 parte: Uma parte que, por um motivo qualquer, está correlacionada com 𝑢 (esta é a parte que provoca problema); Uma segunda parte que não está correlacionada com 𝑢. Se tivesse informações que lhe permitissem isolar a segunda parte, poderia se concentrar nas variações de 𝑥 que estão correlacionadas com 𝑢 e desconsiderar as variações em 𝑥 que tornam os estimadores de MQO viesados. Isso é, de fato, o que a regressão de VI faz. As informações sobre os movimentos de 𝑥 não-correlacionados com 𝑢 são obtidas de uma ou mais variáveis adicionais→VI, ou simplesmente instrumento. Variáveis instrumentais A regressão de variáveis instrumentais utiliza essas variáveis adicionais como ferramentas ou “instrumentos” para isolar os movimentos de 𝑥 não-correlacionados com 𝑢. Isso, por sua vez, permite uma estimação consistente dos coeficientes da regressão. Variáveis instrumentais Problema da habilidade não-observada: log 𝑠𝑎𝑙𝑎𝑟𝑖𝑜 = 𝑦𝑖𝑡 = 𝛽0 + 𝛽1𝑒𝑑𝑢𝑐 + 𝛽2ℎ𝑎𝑏𝑖𝑙 + 𝑢 (1) Proxy: QI Se não tivermos QI disponível? log 𝑠𝑎𝑙𝑎𝑟𝑖𝑜 = 𝑦𝑖𝑡 = 𝛽0 + 𝛽1𝑒𝑑𝑢𝑐 + 𝑢 (2) onde u contém hábil. Por MQO, 𝛽1 será viesado e inconsistente se 𝑒𝑑𝑢𝑐 e hábil estiverem correlacionados. Se conseguirmos um instrumento para 𝑒𝑑𝑢𝑐, podemos usar a equação anterior como base para nossa estimação: y= 𝛽0 + 𝛽1𝑥 + 𝑢 (3) Variáveis instrumentais Qualquer que seja a fonte da correlação entre 𝑥 e 𝑢, se existe uma variável instrumental válida, 𝑧, o efeito de uma variação em 𝑥 sobre 𝑦 pode ser estimado utilizando o estimador de VI. As duas condições para um instrumento: Uma variável instrumental válida (“instrumento”) deve satisfazer duas condições: 1. Relevância do instrumento: 𝐶𝑜𝑣 𝑧, 𝑥 ≠ 0 2. Exogeneidade do instrumento: 𝐶𝑜𝑣 𝑧, 𝑢 = 0 𝑧 é chamada de variável instrumental de x. Variáveis instrumentais Se um instrumento é relevante → a ∆ do instrumento está relacionada com a ∆ em 𝑥1. Se o instrumento for exógeno → a parte da ∆𝑥1 captada pela VI é exógena. Essa variação exógena pode, por sua vez, ser usada para estimar o coeficiente da população 𝛽1. Variáveis instrumentais Diferenças entre os dois requisitos de uma variável instrumental: Como 𝐶𝑜𝑣 𝑧, 𝑢 = 0 envolve a covariância entre 𝑧 e o erro não observado 𝑢, não podemos geralmente ter esperança de testar essa hipótese: na maioria dos casos, temos que manter essa relação, recorrendo ao comportamento ou à introspecção econômica . Em casos menos usais, é possível que tenhamos uma variável proxy observável de algum fator contido em 𝑢, caso em que poderemos verificar se 𝑧 e a variável proxy são mais ou menos correlacionada. Se tivermos uma boa proxy de um elemento importante de 𝑢, poderemos simplesmente adicionar a proxy como uma variável explicativa e estimar a equação expandida por MQO. Variáveis instrumentais Em contraposição, a condição de que 𝑧 seja correlacionado com 𝑥 (na população) → 𝐶𝑜𝑣 𝑧, 𝑥 ≠ 0 pode ser testada dada uma amostra aleatória na população. Neste caso, estimamos uma regressão simples entre x e z: 𝑥 = 𝜋0 + 𝜋1𝑧 + 𝑣 (4) Sendo 𝜋1 = 𝐶𝑜𝑣(𝑧,𝑥) 𝑉𝑎𝑟(𝑧) , a hipótese (𝐶𝑜𝑣 𝑧, 𝑥 ≠ 0) será válida se, e somente se, 𝜋1 ≠ 0. Variáveis instrumentais Para que a condição 𝜋1 ≠ 0 é necessário rejeitar a seguinte Hipótese Nula: 𝐻0: 𝜋1 = 0 Hipótese alternativa 𝐻1: 𝜋1 ≠ 0, em um nível de significância relativamente pequeno (digamos, 5% ou 1%). Se esse for o caso, podemos ter uma razoável confiança em que 𝐶𝑜𝑣 𝑧, 𝑥 ≠ 0 se mantém. Exemplo Para a equação de salários: log 𝑠𝑎𝑙𝑎𝑟𝑖𝑜 = 𝑦𝑖𝑡 = 𝛽0 + 𝛽1𝑒𝑑𝑢𝑐 + 𝛽2ℎ𝑎𝑏𝑖𝑙 + 𝑢 (5) Um instrumento 𝑧 de 𝑒𝑑𝑢𝑐 deve: não estar correlacionado com habilidades (e quaisquer outros fatores não observáveis que afetem o salário) e correlacionado com educação. Algo com último dígito do número da previdência social de um indivíduo, satisfará o primeiro requisito: será não correlacionado com habilidades, por ser determinado de forma aleatória. No entanto, essa variável não será correlacionada com educação → será uma variável instrumental muito pobre de 𝑒𝑑𝑢𝑐. Exemplo O que chamamos de variável proxy da variável omitida transforma-se em uma VI pobre pelo motivo oposto. Se ℎ𝑎𝑏𝑖𝑙 for omitida, uma variável proxy de ℎ𝑎𝑏𝑖𝑙 deverá ser não correlacionada com quanto possível com ℎ𝑎𝑏𝑖𝑙. Uma VI deverá ser não correlacionada com ℎ𝑎𝑏𝑖𝑙 → embora a variável QI seja uma boa candidata para ser uma variável 𝑝𝑟𝑜𝑥𝑦 de ℎ𝑎𝑏𝑖𝑙, não será uma boa VI de 𝑒𝑑𝑢𝑐. . Exemplo Equações de salários: utilização de variáveis de perfil familiar como Vis da educação. Por exemplo: Escolaridade da mãe: positivamente correlacionada com a educação dos filhos→ satisfará 𝐶𝑜𝑣 𝑧, 𝑥 ≠ 0 Problema: Escolaridade da mãe também poderá estar correlacionada com habilidade dos filhos (por meio da aptidão da mãe e talvez da qualidade da nutrição em certa idade) → 𝐶𝑜𝑣 𝑧, 𝑢 = 0 falha. Outra possível VI de 𝑒𝑑𝑢𝑐𝑎çã𝑜 é o número de irmãos durante o crescimento→ ter mais irmãos está associado a níveis médios mais baixos de educação. Com isso, se o número de irmãos for não correlacionado com ℎ𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒, ele pode agir como uma VI de 𝑒𝑑𝑢𝑐. Motivação Exemplo: Estimação do efeito causal de faltar às aulas sobre as notas do exame final: 𝑁𝑜𝑡𝑎𝑠 = 𝛽0 + 𝛽1𝑓𝑎𝑙𝑡𝑎𝑠 + 𝑢 (6) Onde: 𝑛𝑜𝑡𝑎 = é a nota no exame final e 𝑓𝑎𝑙𝑡𝑎𝑠 = é o número total de faltas às aulas durante o semestre. Preocupadose 𝑓𝑎𝑙𝑡𝑎𝑠 está correlacionado com outros fatores em 𝑢: alunos mais aptos, altamente motivados, devem ter um menor número de faltas. Assim, uma regressão simples de nota sobre faltas pode não produzir uma boa estimativa do efeito causal de faltas às aulas. Existe uma V.I. para faltas? Precisamos de uma variável que não tenha efeito direto sobre 𝑛𝑜𝑡𝑎 e que não seja correlacionado com a aptidão e motivação do aluno. Motivação Exemplo: Estimação do efeito causal de faltar às aulas sobre as notas do exame final: 𝑁𝑜𝑡𝑎𝑠 = 𝛽0 + 𝛽1𝑓𝑎𝑙𝑡𝑎𝑠 + 𝑢 (6) Onde: 𝑛𝑜𝑡𝑎 = é a nota no exame final e 𝑓𝑎𝑙𝑡𝑎𝑠 = é o número total de faltas às aulas durante o semestre. Existe uma V.I. para faltas? Distância da residência ao campus, contudo distância pode estar correlacionado com renda. Se incluirmos a renda como variável explicativa, distância pode ser um bom instrumento (regressão múltipla). Motivação Se garantirmos: 𝐶𝑜𝑣(𝑧, 𝑢) = 0 → (exogeneidade) 𝐶𝑜𝑣(𝑧, 𝑢) ≠ 0 Então podemos identificar o parâmetro 𝛽1 da equação: 𝑦 = 𝛽0 + 𝛽1𝑥 + 𝑢 (7) Neste caso, identificação de um parâmetro significa que podemos escrever 𝛽1 em termos de momentos populacionais que possam ser estimados usando uma amostra de dados. Motivação Para escrever 𝛽1 em termos de covariâncias populacionais, temos: 𝐶𝑜𝑣 𝑧, 𝑦 = 𝛽1𝐶𝑜𝑣 𝑧, 𝑥 + 𝐶𝑜𝑣 𝑧, 𝑢 (8) Como 𝐶𝑜𝑣 𝑧, 𝑢 = 0 e 𝐶𝑜𝑣 𝑧, 𝑦 ≠ 0 , podemos resolver 𝛽1como: 𝛽1 = 𝐶𝑜𝑣(𝑧,𝑦) 𝐶𝑜𝑣(𝑧,𝑥) (9) 𝛽1 é a covariância populacional entre 𝑧 e 𝑦 , dividida pela covariância populacional entre 𝑧 e 𝑥, o que mostra que 𝛽1 é identificada. Motivação Estimador de V.I para o estimador 𝛽1: መ𝛽1 = σ𝑖=1 𝑛 (𝑧𝑖− ҧ𝑧)(𝑦𝑖−ത𝑦) (𝑧𝑖− ҧ𝑧)(𝑥𝑖− ҧ𝑥) (10) O estimador de VI de 𝛽0 é: መ𝛽0 = ത𝑦 − መ𝛽1 ҧ𝑥, que é semelhante com o estimador MQO do intercepto, exceto pelo fato de que o estimador de inclinação, መ𝛽1 é o estimador de VI. Quando 𝑧 = 𝑥, obtém MQO de መ𝛽1. Ou seja, se 𝑥 é exógeno, ele pode ser usado como seu próprio VI , e o estimador de VI será, então, idêntico aos estimador MQO. Motivação Estimador de MQO para 𝛽1: Estimação dos parâmetros: MQO: መ𝛽𝑀𝑄𝑂 = σ𝑖(𝑥𝑖− ҧ𝑥)(𝑦𝑖−ത𝑦) σ𝑖 𝑥𝑖− ҧ𝑥 2 (11) Exemplo -Estimação do Retorno da Educação para Mulheres Casadas Estimação do Retorno da Educação para Mulheres Casadas 1. Primeiro: estimar um modelo de regressão simples log 𝑠𝑎𝑙á𝑟𝑖𝑜 = 𝛽0 + 𝛽1𝑒𝑑𝑢𝑐 + 𝑢 _cons -.1851969 .1852259 -1.00 0.318 -.5492674 .1788735 educ .1086487 .0143998 7.55 0.000 .0803451 .1369523 lwage Coef. Std. Err. t P>|t| [95% Conf. Interval] Total 223.327451 427 .523015108 Root MSE = .68003 Adj R-squared = 0.1158 Residual 197.001028 426 .462443727 R-squared = 0.1179 Model 26.3264237 1 26.3264237 Prob > F = 0.0000 F( 1, 426) = 56.93 Source SS df MS Number of obs = 428 . reg lwage educ - A estimativa 𝛽1 (educação) implica um retorno de quase 11% para um ano a mais de educação. Exemplo -Estimação do Retorno da Educação para Mulheres Casadas 2) Usamos a educação do pai (𝑒𝑑𝑢𝑐𝑝 - 𝑓𝑎𝑡ℎ𝑒𝑑𝑢𝑐) como uma variável instrumental de 𝑒𝑑𝑢𝑐: Temos que sustentar que 𝑒𝑑𝑢𝑐𝑝 é não correlacionado com 𝑢; 𝑒𝑑𝑢𝑐 e 𝑒𝑑𝑢𝑐𝑝 sejam correlacionado. Estimamos uma regressão simples de 𝑒𝑑𝑢𝑐 sobre 𝑒𝑑𝑢𝑐𝑝 (𝑓𝑎𝑡ℎ𝑒𝑟𝑑𝑢𝑐). 𝑖𝑛𝑙𝑓 == 1, isto é, utilizando somente as mulheres que trabalham na amostra. Exemplo -Estimação do Retorno da Educação para Mulheres Casadas Utilizando 𝑒𝑑𝑢𝑐𝑝 (𝑓𝑎𝑡ℎ𝑒𝑑𝑢𝑐) como uma VI de 𝑒𝑑𝑢𝑐: - A estimativa VI do retorno da educação é 5,9%. - MQO: a estimativa é alta, consistente com o viés de aptidão omitida. Erro-padrão da VI: é maior que dos MQO. - Ainda não podemos dizer se a diferença é estatisticamente significante. Instruments: fatheduc Instrumented: educ _cons .4411035 .4461018 0.99 0.323 -.4357311 1.317938 educ .0591735 .0351418 1.68 0.093 -.0098994 .1282463 lwage Coef. Std. Err. t P>|t| [95% Conf. Interval] Total 223.327451 427 .523015108 Root MSE = .68939 Adj R-squared = 0.0913 Residual 202.460089 426 .475258426 R-squared = 0.0934 Model 20.8673618 1 20.8673618 Prob > F = 0.0929 F( 1, 426) = 2.84 Source SS df MS Number of obs = 428 Instrumental variables (2SLS) regression . ivreg lwage (educ = fatheduc) Exemplo -Estimação do Retorno da Educação para Homens 1. Primeiro: estimar um modelo de regressão simples log 𝑠𝑎𝑙á𝑟𝑖𝑜 = 𝛽0 + 𝛽1𝑒𝑑𝑢𝑐 + 𝑢 _cons 5.973062 .0813737 73.40 0.000 5.813366 6.132759 educ .0598392 .0059631 10.03 0.000 .0481366 .0715418 lwage Coef. Std. Err. t P>|t| [95% Conf. Interval] Total 165.656294 934 .177362199 Root MSE = .40032 Adj R-squared = 0.0964 Residual 149.518587 933 .16025572 R-squared = 0.0974 Model 16.1377074 1 16.1377074 Prob > F = 0.0000 F( 1, 933) = 100.70 Source SS df MS Number of obs = 935 . reg lwage educ Exemplo -Estimação do Retorno da Educação para Homens 2º: utilizamos a variável 𝑠𝑖𝑏𝑠 (𝑖𝑟𝑚𝑠 - número de irmãos) como uma instrumental de 𝑒𝑑𝑢𝑐. Elas são negativamente correlacionadas. _cons 14.13879 .1131382 124.97 0.000 13.91676 14.36083 sibs -.2279164 .0302768 -7.53 0.000 -.287335 -.1684979 educ Coef. Std. Err. t P>|t| [95% Conf. Interval] Total 4506.81925 934 4.82528828 Root MSE = 2.134 Adj R-squared = 0.0562 Residual 4248.7642 933 4.55387374 R-squared = 0.0573 Model 258.055048 1 258.055048 Prob > F = 0.0000 F( 1, 933) = 56.67 Source SS df MS Number of obs = 935. reg educ sibs - Cada irmão estar associado, na média, com cerca de menos 0.23 ano de educação. - Segundo: se presumirmos que 𝑖𝑟𝑚𝑠 é não correlacionado com o termo de erro, o estimador de VI será consistente. Exemplo -Estimação do Retorno da Educação para Homens Instruments: sibs Instrumented: educ _cons 5.130026 .3551712 14.44 0.000 4.432999 5.827053 educ .1224327 .0263506 4.65 0.000 .0707194 .1741459 lwage Coef. Std. Err. t P>|t| [95% Conf. Interval] Total 165.656294 934 .177362199 Root MSE = .4233 Adj R-squared = . Residual 167.176033 933 .179181172 R-squared = . Model -1.5197389 1 -1.5197389 Prob > F = 0.0000 F( 1, 933) = 21.59 Source SS df MS Number of obs = 935 Instrumental variables (2SLS) regression . ivreg lwage (educ = sibs ) - Estimativa do MQO: 𝛽1 é 0.059 com erro-padrão de 0.006. - Estimativa VI: É mais alta que o MQO (𝛽1 0.1224 com erro-padrão 0.026). Exemplo -Estimação do Retorno da Educação para Homens Instruments: sibs Instrumented: educ _cons 5.130026 .3551712 14.44 0.000 4.432999 5.827053 educ .1224327 .0263506 4.65 0.000 .0707194 .1741459 lwage Coef. Std. Err. t P>|t| [95% Conf. Interval] Total 165.656294 934 .177362199 Root MSE = .4233 Adj R-squared = . Residual 167.176033 933 .179181172 R-squared = . Model -1.5197389 1 -1.5197389 Prob > F = 0.0000 F( 1, 933) = 21.59 Source SS df MS Number of obs = 935 Instrumental variables (2SLS) regression . ivreg lwage (educ = sibs ) - Pode ser que 𝑠𝑖𝑏𝑠 (𝑖𝑟𝑚𝑠) também seja correlacionada com aptidão: mais irmãos significa, em média, menos atenção dos pais, o que pode resultar em menor aptidão. - O estimador MQO viesado para ser em razão de um erro de medida em 𝑒𝑑𝑢𝑐. 1) A equação seguinte explica o número de horas por semana que uma criança passa assistindo televisão, em termos da idade da criança, educação da mãe, educação do pai e número de irmãos: 𝑡𝑣ℎ𝑜𝑟𝑎𝑠∗ = 𝛽0 + 𝛽1𝑖𝑑𝑎𝑑𝑒 + 𝛽2𝑖𝑑𝑎𝑑𝑒 2 + 𝛽3𝑒𝑑𝑢𝑐𝑚 + 𝛽4𝑒𝑑𝑢𝑐𝑝 + 𝛽5𝑖𝑟𝑚𝑠 + 𝑢 Estamos preocupados com a possibilidade de que 𝑡𝑣ℎ𝑜𝑟𝑎𝑠∗ tenha sido medida com erro em nossa pesquisa. Seja 𝑡𝑣ℎ𝑜𝑟𝑎𝑠 o número de horas por semana que se gasta assistindo televisão. O que as hipóteses do erro clássico nas variáveis (CEV) requerem nesta aplicação? 2) Qual a motivação para o uso da estimação por variáveis instrumentais? Exercício
Compartilhar