Baixe o app para aproveitar ainda mais
Prévia do material em texto
Gabarito 1a Lista de Exercícios Teóricos Econometria II - 2017 Professora: Fabiana Rocha Monitora: Bruna Bloco 1 - Exercícios Teóricos do Wooldridge Exercício 1 (13.2): As seguintes equações foram estimadas usando os dados contidos em KIELMC, dos anos de 1978 e 1981: ˆlog(preco) = β0 + β1proxincin+ β2a81 ∗ proxincin (1) ˆlog(preco) = β0 + β1a81 + β2a81 ∗ proxincin (2) Tabela 1: Resultados da Regressão 1 Variável Coeficiente (Erro padrão) a81*proxincin 0,394 (0,080) proxincin 0,547 (0,058) Intercepto 11,49 (0,26) N=321 R2=0,220 Tabela 2: Resultados da Regressão 2 Variável Coeficiente (Erro padrão) a81*proxincin 0,403 (0,067) a81 0,563 (0,044) Intercepto 11,18 (0,27) N=321 R2=0,337 Compare as estimativas do termo de interação a81∗proxincin com as estimativas da equação 13.9 (exemplo 13.3 do efeito da localização de um incinerador de lixo sobre os preços dos imóveis). Por que as estimativas são diferentes? A primeira equação omite a dummy anual de 1981 (a81), e dessa maneira não permite nenhuma apreciação/depreciação nos preços nominais das casas entre 1979 e 1981 que ocorreria mesmo na ausência de um incinerador. O termo de interação nesse caso está simplesmente captando o fato de que mesmo casas localizadas próximas ao incinerador tiveram seu valor apreciado no decorrer dos anos. Essa equação sofre de viés de variável omitida. A segunda equação omite a dummy que indica se o imóvel se localiza próximo ao incinerador (proxincin), o que significa que ela não permite diferenças sistemáticas entre casas próximas e afastadas do incinerador antes que este fosse construído. Se, como parece ser o caso, o incinerador for localizado perto de casas menos valorizadas, então a omissão da variável proxincin atribui esses preços mais baixos dos imóveis como efeito do incinerador de lixo. Novamente, nós temos um problema de viés de variável omitida. 1 Exercício 2 (13.3): Por que não podemos utilizar as primeiras diferenças quando temos cortes transversais independentes em dois anos (ao contrário dos dados de painel)? Em cortes transversais independentes não acompanhamos as mesmas observações da cross-section ao longo do tempo, e não faz sentido fazer a diferenciação de pares de observações distintas ao longo do tempo. Exercício 3 (13.5): Suponha que queremos estimar o efeito de diversas variáveis sobre a poupança anual e que temos um conjunto de dados de painel sobre indivíduos coletado em 31/01/1990 e 31/01/1992. Se incluirmos uma dummy anual para o ano de 1992 e usarmos a primeira diferenci- ação, poderemos também incluir a idade no modelo original? Explique. Não poderemos incluir idade como uma variável explicativa no modelo origi- nal. Cada pessoa do banco de dados em painel terá exatamente 2 anos a mais em 31/01/1992, o que significa que ∆idadet = 2 para todas as observações da amostra. A equação que gostaríamos de estimar tem a forma: ∆poupi = δ0 + β∆idadei +..., onde δ0 é coeficiente da dummy anual para o ano de 1992. Como a idade muda para todos os indivíduos da mesma forma, não conseguiremos distinguir o efeito da idade do efeito agregado do tempo. Exercício 4 (13.6): Em 1985, nem a Flórida nem a Geórgia tinham leis banindo recipientes abertos de bebidas alcóolicas nos compartimentos de veículos de passageiros. Em 1990, a Flórida sancionou tal lei, mas a Geórgia não. a) Suponha que você colete amostras aleatórias da população com idade para dirigir em ambos os estados, de 1985 a 1990. Defina prisão como uma variável binária igual à unidade se uma pessoa foi presa por dirigir embriagada durante o ano. Sem controlar quaisquer outros fatores, escreva um modelo de probabilidade linear que possibilite verificar se a lei de recipientes abertos reduziu a probabilidade de alguém ser preso por dirigir embriagado. Que coeficiente em seu modelo mede o efeito da lei? Seja FL uma variável binária igual a 1 se a pessoa mora na Flórida, e zero caso contrário. Seja y90 uma dummy do ano de 1990. Então, temos que o modelo de probabilidade linear é dado por: prisao = β0 + β1y90 + β2FL+ β3FL ∗ y90 + u O efeito da lei é medido por β3, que é a mudança na probabilidade de detenção di- rigindo bêbado devido à nova lei na Flórida. A inclusão de y90 permite tendências agregadas em prisões por embriaguez que afetam ambos os Estados; e a inclusão de FL permite diferenças sistemáticas entre Flórida e Geórgia quanto ao comportamento de dirigir embriagado ou à aplicação da lei. b) Por que você pode querer controlar outros fatores nesse modelo? Quais poderiam ser esses fatores? Pode ser que as populações dos motoristas nos dois estados mudem de formas diferentes ao longo do tempo. Por exemplo, idade, raça ou distribuições de gênero podem ter mudado. Os níveis de educação médios entre os dois estados podem ter mudado. Como estes fatores podem afetar o fato de alguém ser preso por dirigir bêbado, podendo ser importante controlá-los. No mínimo, há a possibilidade de obter um estimador mais preciso de β3, reduzindo a variância do erro. Essencialmente, qualquer variável explicativa que afeta a prisão pode ser usado para essa finalidade. c) Agora, suponha que somente seja possível coletar dados de 1985 e 1990 em nível de municí- pios dos dois estados. A variável dependente seria a fração dos motoristas habilitados presos por dirigirem embriagados durante o ano. Como essa estrutura de dados difere dos dados em nível individual descritos na parte (i)? Que método econométrico você usaria? 2 Teríamos agora um painel de municípios, e não um agrupamento de cortes transver- sais independentes de indivíduos. Poderíamos usar ainda o método de diferenças-em- diferenças, pois ele também é aplicável aos dados em painel. Além disso, nossa variável dependente não seria mais uma variável binária, e assim não seria mais um modelo de probabilidade linear. Exercício 5 (14.4): Para determinar os efeitos do desempenho atlético universitário em algumas variáveis, você coleta dados de candidatos às vagas de uma amostra das faculdades da Divisão I dos anos de 1985, 1990 e 1995. a) Que indicadores de êxito atlético você incluiria em uma equação? Quais seriam alguns dos problemas temporais? Porcentagens de vitórias nos esportes mais populares dentre os universitários são boas possibilidades, assim como indicadores relacionados à participação em campe- onatos. Devemos estar seguros de que as medidas usadas de êxito atlético estavam disponíveis antes dos prazos de aplicação. Então, poderíamos usar o desempenho atlético de anos anteriores. b) Que outros fatores você controlaria na equação? Taxa de matrícula pode ser importante: ceteris paribus, taxas mais altas devem significar menos inscrições. Medidas de qualidade da universidade que mudam ao longo do tempo, tais como razões aluno/faculdade, financiamento e subsídios pode- riam ser importantes. c) Escreva uma equação que possibilite estimar os efeitos do êxito atlético sobre a mudança percentual nas inscrições. Como você estimaria essa equação? Por que você escolheria esse método? Um modelo de efeitos não observados é dado por: log(aps)it = β1y95t + β2y90t + β3atletit + β4log(taxa)it + ...+ ai + uit A variável atletit é uma abreviação para uma medida de sucesso atlético. Nós poderíamos incluir várias medidas. y95 e y90 são dummies temporais, e log(taxa)it é o log da taxa de matrícula. É provável que ai esteja correlacionada com o êxito atlético, e taxa de matrícula, e sendo assim o estimador de efeitos fixos é o mais adequado (alternativa- mente poderíamos usar também o estimador de primeiras diferenças). Exercício 6 (15.1): Considere um modelo simples para estimar o efeito da propriedade de um computador pessoal na nota média de graduação de formandos de uma grande universidade pública: nmgrad = β0 + β1PC + u Onde PC é uma variável binária indicando a propriedade de um computador pessoal. a) Por que a propriedade de um PC pode estar correlacionada com u? Um fato já conhecido é que o status socioeconômico afeta o desempenho do aluno. O termo de erro u contém, dentre outrascoisas, a renda familiar, que tem um efeito positivo nota média de graduação e também muito provavelmente é correlacionada com a propriedade um PC. b) Explique por que PC possivelmente está relacionada à renda anual dos pais. Isso significa que a renda dos pais seria uma boa VI de PC? Por quê? Famílias com rendimentos mais elevados terão recursos para comprar computadores para seus filhos. Portanto, a renda familiar satisfaz certamente um dos requisitos para uma variável instrumental: ele está correlacionado com a variável explicativa endó- gena. Todavia, a renda familiar também tem um efeito positivo sobre a nota média 3 de graduação e, portanto, a renda dos pais não será exógena na equação da renda. Se tivéssemos a variável de renda dos pais nós iríamos incluí-la como uma variável explicativa na equação; se ela é a única variável omitida importante correlacionada com PC, poderíamos então estimar a equação expandida por MQO. c) Suponha que, quatro anos atrás, a universidade tenha concedido subvenções para a compra de computadores a aproximadamente metade dos alunos novos, e que os alunos que receberam es- sas subvenções tenham sido escolhidos aleatoriamente. Explique cuidadosamente como você usaria essa informação para construir uma variável instrumental de PC. Este é um experimento natural que afeta se alguns alunos possuem computadores ou não. Alguns estudantes que compraram computadores quando a concessão ocorreu talvez não teriam comprado sem o subsídio. (Estudantes que não receberam as bolsas podem ainda assim possuir computadores.) Defina uma variável dummy concessão igual a um se o estudante recebeu uma concessão, e zero caso contrário. Então, se a concessão foi distribuída aleatoriamente, ela será não correlacionada com o erro (exó- gena). Em particular, será não correlacionada com a renda familiar e outros fatores socioeconômicos contidos no erro. Além disso, concessão deve ser correlacionada com o PC: a probabilidade de possuir um PC deve ser significativamente maior para o aluno que recebeu subsídio. Aliás, se a universidade deu prioridade de concessão para estudantes de baixa renda, concessão seria negativamente correlacionada com o erro, e a IV seria inválida. Exercício 7 (15.2): Suponha que você queira estimar o efeito da frequência escolar sobre o de- sempenho dos alunos, como no Exemplo 6.3. Um modelo básico é: respad = β0 + β1taxafreq + β2nmgradp+ β3tac+ u, onde as variáveis foram definidas no capítulo 6. a) Defina dist como a distância da residência do aluno até o local de estudos. Você consideraria que dist é não correlacionado com u? Considero que dist poderá ser correlacionado com u. Por exemplo, se alunos com maior renda alugam apartamentos próximos à faculdade; ou se a faculdade está local- izada em algum lugar central da cidade, e os alunos mais pobres moram mais longe da faculdade (ou o contrário). b) Assumindo que dist e u sejam não correlacionados, que outras hipóteses dist deverá satisfazer para ser uma IV válida de taxafreq? A variável dist deve ser parcialmente correlacionada com taxafreq. Mais precisa- mente, na forma reduzida: taxafreq = π0 + π1nmgradp+ π2tac+ π3dist+ v, devemos ter π3 6== 0. Dada uma amostra de dados, podemos testar H0 : π3 = 0 contraH1 : π3 6= 0 usando um teste t. c) Suponha que adicionemos um termo de interação nmgradp∗taxafreq. Se taxafreq for correla- cionado com u, então, em geral a interação também será. O que poderíamos usar como uma boa IV de nmgradp ∗ taxafreq? Agora precisamos de variáveis instrumentais para taxafreq e para o termo de interação nmgradp ∗ taxafreq. Sob a hipótese de exogeneidade de dist e nmgradp, qualquer função dessas variáveis será não correlacionada com o erro. Em particu- lar, a interação nmgradp ∗ dist será não correlacionada com o erro. Se dist é par- cialmente correlacionada com taxafreq, então nmgradp ∗ dist também será parcial- mente correlacionada com nmgradp ∗ taxafreq. Assim, podemos estimar a equação respad = β0 + β1taxafreq + β2nmgradp + β3tac + β4nmgradp ∗ taxafreq + u por MQ2E us- ando como variáveis instrumentais as variáveis exógenas do modelo junto com dist e nmgradp ∗ dist. Exercício 8 (15.6): 4 a) No modelo com uma variável explicativa endógena, uma variável explicativa exógena e uma variável exógena extra, considere a forma reduzida: y2 = π0 + π1z1 + π2z2 + v2. Inserindo-a na equação estrutural y1 = β0 + β1y2 + β2z1 + u1. Isso produzirá a forma reduzida de y1 = α0 + α1z1 + α2z2 + v1. Encontre os αj em termos de βj e πj . Solução: y1 = β0 + β1(π0 + π1 + π2z2 + v2) + β2z1 + u1 y1 = (β0 + β1π0) + (β1π1 + β2)z1 + β1π2z2 + (β1v2 + u1) α0 = (β0 + β1π0) α1 = (β1π1 + β2) α2 = β1π2 b) Encontre a forma reduzida do erro, v1 , em termos de u1, v2 e os parâmetros. Solução: v1 = (β1v2 + u1) c) Como você estimaria consistentemente os αj? Por hipótese, u1 tem média zero e é não correlacionado com z1 e z2. v2 também tem essas propriedades por definição. Assim, v1 tem média zero e é não correlacionado com z1 e z2, o que significa que os αj são consistentemente estimados por MQO. Exercício 9 (15.7): O que segue é um modelo simples para medir o efeito de um programa de escolha de escola sobre o desempenho em um teste padronizado: nota = β0 + β1escolha + β2rendfam + u1, onde nota é a nota de um teste de âmbito estadual, escolha é uma variável binária indicando se o aluno frequentou uma escola de sua escolha no último ano e rendfam é a renda familiar. A VI de escolha é conc, o montante em dólares concedido aos alunos para ser usado como paga- mento da anuidade da escola particular de sua escolha. O montante da concessão difere conforme o nível de renda familiar, razão pela qual controlamos rendfam na equação. a) Mesmo com rendfam na equação por que escolha pode ser correlacionada com u1? Mesmo em um dado nível de renda, alguns alunos estão mais motivados e/ou mais capazes do que outros, e suas famílias podem dar um apoio maior à educação dos fil- hos que outras famílias. Portanto, é provável que haja um problema de auto-seleção: estudantes que iriam melhor de qualquer forma também eram mais propensos a fre- quentar uma escola de sua escolha. b) Se no interior de cada classe de rendimento os montantes de concessão fossem atribuídos aleatoriamente, conc seria não correlacionada com u1? Supondo que a forma funcional de rendfam está correta, conc seria não correla- cionada com u1. Como u1 não contém a renda, a atribuição aleatória de subvenções dentro de cada classe de renda implica que a designação da concessão não está correla- cionada com fatores não observáveis como a capacidade do aluno, motivação e apoio da família. c) Escreva a forma reduzida da equação de escolha. O que é necessário para que conc seja parcialmente correlacionado com escolha? A forma reduzida é dada por: escolha = π0 + π1conc+ π2rendfam+ v1 5 Para que conc seja parcialmente correlacionado com escolha é necessário que valha π1 6= 0. Em outras palavras, após o controle pelos rendimentos, o montante da concessão deve ter algum efeito na escolha. Isso parece razoável, desde que os montantes de concessão sejam diferentes dentro de cada classe de renda. d) Escreva a equação da forma reduzida de nota. Explique por que isso é importante. A forma reduzida para pontuação é apenas uma função linear das variáveis exóge- nas: nota = γ0 + γ1conc+ γ2rendfam+ u2 Esta equação nos permite estimar diretamente o efeito de aumentar o montante de concessão sobre a pontuação no teste, mantendo a renda familiar constante. Exercício 10 (16.8): Suponha que você queira testar se as meninas que frequentam uma escola de ensino médio só para meninas se saem melhor em matemática do que as que frequentam escolas mistas. Você tem uma amostra aleatória de meninas veteranas de escolas de ensino médio de um estado dos Estados Unidos, e nota é a nota de um teste padronizado de matemática. Defina meni- naem como uma variável dummy indicando se uma aluna frequenta uma escola de ensino médio só para meninas. a) Que outros fatores você controlariana equação? Renda e outras variáveis relacionadas ao background familiar, como educação dos pais. b) Escreva uma equação relacionando nota com meninaem e os outros fatores que você listou na parte (i). O modelo populacional será dado por: nota = β0 + β1meninaem+ β2rendfam+ β3educpai+ β4educmae+ u1 c) Suponha que o suporte e o incentivo dos pais sejam fatores não indicados no termo erro na parte (ii). E possível que eles sejam correlacionados com meninaem? Explique. Sim, é possível que tais fatores sejam correlacionados com meninaem. Os pais que são motivados e dão o suporte necessário para suas filhas tenham um bom desem- penho na escola também podem ser mais propensos a matricular suas filhas em uma escola de ensino médio só para meninas. Isso traria uma correlação entre o termo erro e meninaem, tornando os estimadores de MQO viesados e inconsistentes. d) Discuta as hipóteses necessárias para que o número de escolas do ensino médio só para meni- nas situadas em um raio de 20 milhas da residência de uma menina seja uma VI válida de meninaem. Seja nummen o número de escolas de ensino médio só para meninas dentro de um raio de 20 quilômetros da casa de uma menina. Para ser uma VI válida de meninaem, nummen deve satisfazer dois requisitos: deve ser não correlacionada com o erro não observado (exógena) e deve ser parcialmente correlacionada com meninaem. e) Escreva a equação da forma reduzida de nota. Explique por que isso é importante. Solução: nota = γ0 + γ1nummen+ γ2rendfam+ γ3educpai+ γ4educmae+ u2 Esta equação nos permite estimar diretamente o efeito de aumentar o número de es- colas de ensino médio só para meninas sobre a nota, mantendo a renda familiar, e a 6 educação dos pais fixos. Exercício 11 (15.9): Suponha que na equação nota = β0 +β1faltas+u você não tenha uma boa candidata a variável instrumental de faltas. Entretanto, você tem duas outras informações sobre os alunos: a nota média ponderada de habilidade verbal e matemática do estudante para ingresso em curso superior (sat) e a nota média acumulada anterior ao semestre (nmgradc). O que você faria em vez da estimação de VI? Faria a estimação de mínimos quadrados ordinários em uma equação expandida, onde sat e nmgradc são adicionadas como variáveis proxy para a capacidade do aluno e motivação. Exercício 12 (15.10): Em um artigo recente, Evans e Schwab (1995) estudaram os efeitos que frequentar uma escola de ensino médio teria sobre a probabilidade de cursar uma faculdade. Conc- retamente, defina faculdade como uma variável binária igual a um se o aluno estiver na facul- dade, e zero caso contrário. Defina EMcat como uma variável binária igual a um se o aluno frequenta uma escola católica no ensino médio. Um modelo de probabilidade linear é dado por: faculdade = β0 + β1EMCat + outrosfatores + u, onde, entre outros fatores, estão sexo, raça, renda familiar e instrução dos pais. a) Por que EMcat pode ser correlacionado com u? Estudantes melhores e mais sérios tendem a ir para a faculdade, e esse mesmo tipo de alunos pode ter uma maior/menor probabilidade de estudar em escolas católicas. A correlação resultante entre u e EMcat é outro exemplo de problema de auto-seleção: alunos se auto selecionam em direção de colégios católicos, ao invés de ser aleatoria- mente atribuídos a eles. b) Evans e Schwab tinham dados sobre a nota de um teste padronizado feito quando cada estudante era aluno do 2o ano. O que pode ser feito com essa variável para melhorar a estimativa ceteris paribus de frequentar uma escola católica de ensino médio? A nota de um teste padronizado é uma medida da capacidade do aluno. Sendo assim, essa variável pode ser usada como uma proxy em uma regressão por MQO. A existência dessa medida em uma regressão de MQO traz uma melhoria, pois temos algum controle da capacidade do aluno. c) Defina Relcat como uma variável binária igual a um se o estudante for católico. Detalhe os dois requisitos necessários para que essa seja uma VI válida de EMcat na equação precedente. Qual deles pode ser testado? O primeiro requisito é que EMcat seja não correlacionada com a motivação e ca- pacidade não observadas do estudante (o que não é capturado por qualquer proxies) e outros fatores, no termo de erro. Isto será válido se o fato de ser católico (ao contrário de frequentar uma escola católica) não fizer de você um melhor aluno. Parece razoável supor que os católicos não têm uma capacidade inata maior do que os não-católicos. Se fato de ser católico está relacionado com a motivação do aluno, ou à preparação para o ensino médio, é uma questão um pouco mais controversa. Não conseguiremos testar esse requisito. O segundo requisito é que o fato de ser católico tenha algum efeito sobre a fre- quentar uma escola católica, controlando-se por outros fatores exógenos que aparecem no modelo estrutural. Isso pode ser testado estimando a forma reduzida de EMcat e verificando se o coeficiente de Relcat é estatisticamente significativo. d) Não surpreendentemente, o fato de ser católico tem um efeito significante sobre frequentar uma escola católica no ensino médio. Você julga que Relcat é uma variável instrumental válida de EMcat? 7 Evans e Schwab (1995) acharam que ser católico aumenta substancialmente a prob- abilidade de frequentar uma escola católica. Além disso, parece razoável assumir que Relcat é exógena na equação estrutural. Bloco 2 – Assinale se as alternativas são verdadeiras (V) ou falsas (F) e justifique. a) Um banco de dados em painel é tal que acompanhamos a mesma observação da cross-section ao longo do tempo. Verdadeiro - Um conjunto de dados em painel consiste em uma série de tempo para cada membro do corte transversal do conjunto de dados. b) Um experimento natural ocorre quando um evento exógeno altera o meio no qual os agentes operam. Verdadeiro - Um experimento natural ocorre quando um evento exógeno, como, por exemplo, uma mudança de política do governo, muda o ambiente no qual indiví- duos, famílias, firmas ou cidades, (etc..) operam. c) A existência de 2 grupos e períodos de tempo distintos é suficiente para a utilização do método de diferenças-em-diferenças. Falso - Esse método é utilizado na análise do efeito de um experimento natural. Assim sendo, a utilização do método de diferenças-em-diferenças pressupõe a ocor- rência de um evento exógeno que alterou o meio no qual os agentes operam. d) Quando temos um banco de dados de painel podemos estimar nosso modelo por MQO agru- pado (sem nenhuma transformação das variáveis) caso o erro idiossincrático tenha média zero. Falso - Para que possamos estimar consistentemente nosso modelo por MQO agru- pado deverá ser válida a hipótese que o efeito fixo não observado é não correlacionado com as variáveis explicativas ao longo do tempo. (Assumindo que o erro idiossin- crático também não tenha correlação com tais variáveis). e) O estimador de primeiras diferenças exige que as variáveis de controle utilizadas na análise variem ao longo do tempo. Verdadeiro - Uma condição crucial do estimador de primeiras diferenças é que a diferenciação das variáveis explicativas ao longo do tempo tenha alguma variação en- tre as observações da amostra. f) A hipótese de exogeneidade estrita nos diz que yit deve ser não correlacionado com o erro de composição. Falso - A hipótese de exogeneidade estrita nos diz que, para cada período de tempo, o valor esperado do erro idiossincrático, dadas as variáveis explicativas em todos os períodos de tempo e os efeitos não observados, é zero. g) Para dois períodos de tempo, os estimadores de efeitos fixos, primeiras diferenças e efeitos aleatórios são idênticos. ‘Falso - Para dois períodos de tempo, os estimadores de efeitos fixos e primeiras diferenças são idênticos. Eles só serão idênticos ao estimador de efeitos aleatórios se na transformação do EA tivermos que λ = 1. h) Sob a hipótese de ausência de correlação entre o efeito fixo não observado e as variáveis independentes, o estimador de efeitos aleatórios será o mais adequado relativamenteao estimador 8 de efeitos fixos. Verdadeiro - Sob a hipótese de ausência de correlação entre o efeito fixo não obser- vado e as variáveis independentes, o estimador de efeitos aleatórios será mais eficiente que o estimador de efeitos fixos, e ambos os estimadores serão consistentes. i) O estimador de efeitos aleatórios permite a inclusão de variáveis de controle constantes ao longo do tempo. Verdadeiro - A transformação do estimador de efeitos aleatórios subtrai uma fração da média temporal. Dessa forma, ela possibilita a inclusão de variáveis explicativas que sejam constantes ao longo do tempo. j) O teste de Hausman serve para testar se o estimador de efeitos fixos é consistente. Falso - O teste de Hausman compara as estimativas do estimador de efeitos fixos e aleatórios para verificar se as variáveis explicativas são correlacionadas com o efeito fixo, assumindo que o erro idiossincrático e as variáveis de controle são não correla- cionados ao longo do tempo. Sob a hipótese nula das estimativas serem suficiente- mente próximas, teremos que ambos os estimadores são consistentes (pois é um indício de ausência de correlação das explicativas e do efeito fixo), e o EA seria mais ade- quado. Se rejeitamos a nula, somente o estimador de efeitos fixo é consistente, e esse estimador será o mais adequado. Em suma, o teste de Hausman testa a consistên- cia do estimador de efeitos aleatórios, pois o EF será consistente sob as duas hipóteses. k) O problema de endogeneidade surge quando as variáveis explicativas são correlacionadas entre si. Falso - O problema de endogeneidade surge quando as variáveis explicativas são correlacionadas com o erro não observado. l) Uma boa variável instrumental deve ser uma variável exógena excluída da equação estrutural que tenha alguma correlação com a explicativa endógena. Verdadeiro - Seja u o erro não observado e x uma variável explicativa endógena Uma variável instrumental z deve satisfazer as seguintes hipóteses: Cov(Z,u) = 0 e Cov(Z,x) 6= 0. m) O estimador de variável instrumental será não viesado sob as hipóteses usuais associadas a esse estimador. Falso - Uma das características do estimador de variável instrumental é que, quando houver alguma explicativa endógena, a estimação por IV será necessariamente viesada. Como esse estimador é consistente na presença de uma variável instrumental válida, vemos que deveremos utilizar amostras grandes ao utilizarmos o estimador de var- iáveis instrumentais. n) O uso de uma variável proxy e o método de variável instrumental são duas possíveis formas de lidar o viés de variável omitida. Verdadeiro - A abordagem da variável proxy tenta resolver o problema da variável omitida substituindo a variável não observada por uma variável proxy. O método de variável instrumental deixa a variável omitida no erro, mas reconhece a presença da variável omitida em sua estimação. o) Um instrumento fraco terá boas propriedades assintóticas. Falso - Um instrumento fraco faz com que o estimador de VI possa ter um grande 9 viés assintótico, mesmo se a correlação entre o erro e o instrumento for muito pequena. Bloco 3 – Exercícios adicionais Exercício 1: Suponha que você queira estimar o seguinte modelo: yit = β0 + β1yit−1 + β2xit + uit uit = vit + ci Explique por que não podemos estimá-lo por nenhum dos métodos de painel aprendidos em sala. (Dica: olhe para a hipótese de exogeneidade de cada modelo). (i) Mínimos quadrados agrupados: yit = β0 + β1yit−1 + β2xit + uit pode ser escrito como yit = β0 + β1yit−1 + β2xit + (vit + ci). Note que, yit−1 pode ser escrito como yit−1 = β0 + β1yit−2 + β2xit−1 + (vit−1 + ci), isso implica correlação entre yit−1 e ci, fazendo com que yit−1 seja correlacionado com uit por construção, o que inviabiliza a estimação. (ii) Efeitos fixos: O estimador de efeitos fixos pode ser encontrado da seguinte forma: yit = β0 + β1yit−1 + β2xit + ci + vit − ȳi = β0 + β1ȳi + β2x̄i + ci + v̄i yit − ȳi = β1(yit−1 − ȳi) + β2(xit − x̄i) + (vit − v̄i) Como v̄i = ∑T t=1 vit T = ...+vit−2+vit−1+vit+vit+1+... T , temos que v̄i contém vit−1 que é correla- cionado com yit por construção. Logo β̂EF1 é inconsistente. (iii) Primeiras diferenças: De forma análoga ao caso anterior, os estimadores de primeira diferença podem ser encontrados da seguinte forma: yit = β0 + β1yit−1 + β2xit + ci + vit − yit−1 = β0 + β1yit−2 + β2xit−1 + ci + vit−1 yit − yit−1 = β1(yit−1 − yit−1) + β2(xit − xit−1) + (vit − vit−1) Como yit−1 é correlacionado com vit−1 o estimador é inconsistente. (iv) Efeitos aleatórios: Podemos encontrar os estimadores de efeitos aleatórios da seguinte forma: : yit = β0 + β1yit−1 + β2xit + ci + vit − λȳi = λβ0 + λβ1ȳi + λβ2x̄i + λci + λv̄i yit − λȳi = (1− λ)β0 + β1(yit−1 − λȳi) + β2(xit − λx̄i) + (1− λ)ci + (vit − λv̄i) Pelo mesmo motivo explicado na estimação por efeitos fixos β1 é inconsistente. Exercício 2: Queremos analisar como o salário dos trabalhadores se comporta quando as firmas fazem investimento interno, usando um painel de indivíduos. Para isso, vamos considerar o salário do trabalhador i, na firma j e no ano t, investimento que a firma faz no ano t e demais covariadas denotadas por xijt: log(sal)ijt = β0 + β1investjt + β2xijt + efeitosfixos+ µt + uijt Suponha, ainda, que os trabalhadores estão alocados em 50 firmas. a) O que são os efeitos fixos? O que eles captam nesse caso? Efeitos fixos captam variáveis que estão fixas no tempo. É como se tirássemos todas essas variáveis (fixas no tempo) do termo de erro e usássemos como controle na re- gressão. Se incluirmos efeixo fixo de trabalhador, estamos controlando por todos os fatores ligados aos trabalhadores que não variam no tempo e influenciam os salários. b) Se considerarmos que alguns trabalhadores trocaram de emprego ao longo do período anal- isado, quais efeitos fixos você pode incluir? Justifique. Se existe a possibilidade de os trabalhadores trocarem de firma (não é regra, mas acontece), podemos incluir efeito fixo de trabalhador, firma e trabalhador-firma, todos 10 ao mesmo tempo. c) Se os trabalhadores não puderem trocar de emprego, quais seriam os efeitos fixos? Se os trabalhadores não trocam de emprego, não é possível incluir efeito de trabal- hador e de firma ao mesmo tempo, dado que a soma dos efeitos fixos dos trabalhadores de uma determinada firma resultaria no efeito fixo dessa firma (colinearidade perfeita). Sendo assim, apenas incluiríamos o efeito fixo de trabalhador. Exercício 3: Suponha que você queira estimar uma equação de salários como função dos anos de escolaridade no Brasil e descobriu que um teste de QI foi realizado em 2010 numa amostra aleatória da população brasileira. a) Por que incluir somente a variável “anos de escolaridade” produziria um estimador inconsis- tente do verdadeiro retorno adicional de salário relacionado à educação no Brasil? Nesse caso, a hipótese de exogeneidade não é satisfeita, isto é, E("anos de escolar- idade".u) 6= 0. É simples pensar em variáveis não incluídas no modelo (logo, estão no termo de erro) que são relacionada com anos de excolaridade ex: idade, sexo, exper- iência, habilidade, entre outras. b) Você usaria o teste de QI como variável de controle na regressão ou como variável instru- mental? Explique. Para que QI seja variável de controle, precisamos ter: E(QI’.u)=0 e E(educ’.u)=0. Para que ela sirva como variável instrumental precisamos que: E(QI’.U)=0 e E(QI’.educ) 6= 0. Não há resposta exata aqui (por um lado, não resolve o problema de endogenei- dade da escolaridade, por outro lado, mesmo ao incluí-la como controle, ainda restará viés de variável omitida).Qual caso você acha mais factível? c) Você estava pensando em usar a educação da mãe como instrumento para educação. Suponha que você esteja em dúvida sobre a exogeneidade do seu instrumento. Um amigo seu diz que você pode fazer um teste-t de significância da variável "educação da mãe" na equação de salário contra educação e QI para provar que esta variável não está correlacionada com o erro. Oque você acha desse conselho? Esse conselho não é bom por vários motivos. A exogeneidade do instrumento não é testável. Mesmo se fosse testável, o teste t não diria nada sobre exogeneidade, ape- nas apontaria se o instrumento afeta a variável dependente sem ser via educação. No entanto, os coeficientes da equação não seriam consistentes (já que a endoneneidade de educação não foi resolvida) invalidando qualquer tipo de teste de hipótese. Exercício 4: Suponha que você queira estimar o impacto do metrô no preço dos imóveis em São Paulo, dispondo de um painel anual de imóveis ao longo de 5 anos, com características do imóvel e preço do aluguel. a) Que tipo de variação você precisa ter nos dados para estimar um modelo de efeitos fixos? Explique. Precisamos que a variável metrô tenha variação no tempo, isto é, que um mesmo imóvel não tenha metrô perto e passe a ter, ou vice-versa. b) Sabendo que uma nova linha foi inaugurada entre os anos 2 e 3, proponha um método para estimar o impacto do metrô. Escreva a equação estimada, explicando como as variáveis seriam construídas. Um método que se adequa ao caso é o diferenças em diferenças com dados em painel. Nesse caso, estimaríamos a seguinte equação: precoit = β0 + post + µi + δpost ∗ 11 tratadoi + uit. Em que pos é uma dummy que indica período pos tratamento, tratado é uma dummy que indica quem está no grupo de tratado e µ representa o efeito fixo. Nesse caso, podemos considerar como tratado imóveis em bairro que contará com estações da nova linha, e como controle os demais. Nesse caso, o efeito de interesse é dado por δ. c) Se uma estação de uma outra linha for inaugurada em t=3, o coeficiente encontrado no item anterior será válido? Justifique. Não, o coeficiente não será mais consistente. Nesse caso, há imóveis tratados (por essa outra linha) dentro do grupo de controle. Outro problema pode surgir se o preço dos imóveis nos bairros que já tinham metrô e que não são atendidos diretamente por essa nova linha sofrer mudanças após a inauguração, já que agora o metrô dá acesso a mais lugares. d) Se em t=1 as pessoas já soubessem que essa nova linha seria inaugurada, haveria algum problema para a estimação? Explique. Sim. Provavelmente o efeito do imóvel estaria subestimado nessa situação. Se as pessoas já soubessem da inauguração da linha (que é o mais provável), há grandes chances de os preços dos imóveis nos bairros atendidos por essa nova linha já subirem antes mesmo da inauguração. Se considerarmos o período de tratamento como o pós inauguração, estaríamos tirando a diferença com o preço dos imóveis já aumentados, subestimando o impacto. obs: isso invalida a hipótese de tendência paralela requerida pelo método. Exercício 5: Considere o seguinte modelo de regressão simples: yi = β0 + β1xi + ui Considere que são válidas três das quatro primeiras hipóteses de Gauss-Markov, exceto a hipótese de exogeneidade. Isso é, cov(x,u) 6= 0. a) Calcule a inconsistência dos estimadores da regressão. β̂1 = ∑ (xi−x̄)yi∑ (xi−x̄)2 = ∑ (xi−x̄)(β0+β1xi+ui)∑ (xi−x̄)2 plim(β̂1) = β1 + plim( ∑ (xi−x̄)ui∑ (xi−x̄)2 ) = β1 + σxu σ2x β̂0 = ȳ − β̂1x̄ plim(β̂0) = plim(ȳ)− plim(β̂1x̄) plim(β̂0) =E(y)− (β1 + σxuσ2x )E(x) plim(β̂0) = β0 − σxuσ2x E(x) Considere agora que você tem outra variável z, que não é correlacionada com o termo de erro, isto é, cov(z,u) = 0. Você ainda está interessado em estudar a relação entre x e y e usa o seguinte esti- mador: β̂1 = ∑ (zi−z̄)yi∑ (x̂i−ˆ̄x)(zi−z̄) , em que x̂ é o valor predito do primeiro estágio (regressão de x contra z). b) Mostre que plim(β̂1) = β1 β̂1 = ∑ (zi−z̄)yi∑ (x̂i−ˆ̄x)(zi−z̄) = ∑ (zi−z̄)(β0+β1xi+ui)∑ (zi−z̄)(x̂i−ˆ̄x) Supondo que a regressão do 1o estágio seja: xi=δ0 + δ1zi + vi => xi = x̂i + vi β̂1= ∑ (zi−z̄)(β0+β1(x̂i+vi)+ui)∑ (zi−z̄)(x̂i−ˆ̄x)) = ∑ (zi−z̄)(β1(x̂i+vi))+ui)∑ (zi−z̄)(x̂i−ˆ̄x) 12 plim(β̂1) = β1 + plim(β1 ∑ (zi−z̄)vi∑ (zi−z̄)(x̂i−ˆ̄x) ) + ∑ (zi−z̄)ui∑ (zi−z̄)(x̂i−ˆ̄x) = β1 c) Que outra condição você precisou impor para garantir que os novos estimadores sejam con- sistentes além de cov(z,u) = 0? Primeiro, para falar de x̂ precisamos garantir a existência do primeiro estágio. Logo, impor que cov(z,x) seja diferente de zero. Além disso, tivemos que impor cov(z,v)=0, em que v é o erro da regressão do primeiro estágio, para que o estimador acima fosse consistente. Isso nada mais é dizer que a equação do primeiro estágio é válida ou que o instrumento é aleatório. Note que isso não é testável, pois cov(z,û) = 0 por construção. Exercício 6: Considere o seguinte modelo: y = Xβ + u Em que y é um vetor nx1, X é uma matriz nxk contendo todas as variáveis explicativas (inclusive o intercepto), e u é um vetor nx1. Considere que X’u 6= 0. Considere também que você possui uma variável instrumental para cada variável explicativa endógena, sendo Z sua matriz de instrumentos. a) Qual a dimensão e quais termos estão contidos em Z? Explique. Z é uma matriz nxk, assim como X. Para construir Z, basta replicar X substituindo as variáveis endógenas pelos seus respectivos instrumetos. Assim, Z é uma matriz que contém apenas e todas as variáveis exógenas usadas no modelo. b) Derive o estimador de variável instrumental na forma matricial. 1) Pelo método dos momentos, olhando para o momento amostal: Z ′û=0 => Z ′(y −Xβ̂) = 0 => Z ′y − Z ′Xβ̂ = 0 => β̂ = (Z ′X)−1Z ′Y 2) Dado o modelo: y = Xβ + u Pré multiplicando pela matriz de instrumentos: Z ′y = Z ′Xβ + Z ′u 2.1) Multiplicando a equação anterior por n−1 e tomando a esperança, sabendo que E(Z’u)=0. n−1E(Z ′y) = n−1E(Z ′X)β => β = [n−1E(Z ′X)]−1n−1E(Z ′y) Estimamos o beta pela sua contrapartida amostral: β̂ = (Z ′X)−1(Z ′y) 2.2) Multiplicando a equação anterior por n−1 e tomando o limite de probabilidade: (dessa forma encontramos qual o estimador consistente) plim(n−1Z ′y) = plim(n−1Z ′Xβ + n−1Z ′u) => plim(n−1Z ′y) = plim(n−1Z ′X)β β = [plim(n−1Z ′X)]−1plim(n−1Z ′y) = plim[(Z ′X)−1(Z ′y)] β = plim(β̂IV ) => β̂IV = (Z ′X)−1(Z ′y) c) Encontre a variância do estimador derivado acima (também na forma matricial). β̂IV = (Z ′X)−1(Z ′y) = (Z ′X)−1(Z ′(Xβ + u)) = β + (Z ′X)−1(Z ′u) V ar(β̂IV /Z,X) = V ar((Z ′X)−1Z ′u/Z,X) = (Z ′X)−1Z ′V ar(u/Z,X)Z(Z ′X)−1 Se considerarmos o caso homocedástico: V ar(u/X,Z) = σ2 V ar(β̂IV /Z,X) = (Z ′X)−1Z ′σ2Z(Z ′X)−1 = σ2(Z ′X)−1Z ′Z(Z ′X)−1 13
Compartilhar