gabarito-1a-lista

Camila De Lima Ettinger

06/01/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 13 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 13 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 13 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Econometria

6.322 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Gabarito
1a Lista de Exercícios Teóricos
Econometria II - 2017
Professora: Fabiana Rocha
Monitora: Bruna
Bloco 1 - Exercícios Teóricos do Wooldridge
Exercício 1 (13.2): As seguintes equações foram estimadas usando os dados contidos em KIELMC,
dos anos de 1978 e 1981:
ˆlog(preco) = β0 + β1proxincin+ β2a81 ∗ proxincin (1)
ˆlog(preco) = β0 + β1a81 + β2a81 ∗ proxincin (2)
Tabela 1: Resultados da Regressão 1
Variável Coeficiente (Erro padrão)
a81*proxincin 0,394 (0,080)
proxincin 0,547 (0,058)
Intercepto 11,49 (0,26)
N=321 R2=0,220
Tabela 2: Resultados da Regressão 2
Variável Coeficiente (Erro padrão)
a81*proxincin 0,403 (0,067)
a81 0,563 (0,044)
Intercepto 11,18 (0,27)
N=321 R2=0,337
Compare as estimativas do termo de interação a81∗proxincin com as estimativas da equação
13.9 (exemplo 13.3 do efeito da localização de um incinerador de lixo sobre os preços dos imóveis).
Por que as estimativas são diferentes?
A primeira equação omite a dummy anual de 1981 (a81), e dessa maneira não
permite nenhuma apreciação/depreciação nos preços nominais das casas entre 1979 e
1981 que ocorreria mesmo na ausência de um incinerador. O termo de interação nesse
caso está simplesmente captando o fato de que mesmo casas localizadas próximas ao
incinerador tiveram seu valor apreciado no decorrer dos anos. Essa equação sofre de
viés de variável omitida.
A segunda equação omite a dummy que indica se o imóvel se localiza próximo ao
incinerador (proxincin), o que significa que ela não permite diferenças sistemáticas
entre casas próximas e afastadas do incinerador antes que este fosse construído. Se,
como parece ser o caso, o incinerador for localizado perto de casas menos valorizadas,
então a omissão da variável proxincin atribui esses preços mais baixos dos imóveis
como efeito do incinerador de lixo. Novamente, nós temos um problema de viés de
variável omitida.
1
Exercício 2 (13.3): Por que não podemos utilizar as primeiras diferenças quando temos cortes
transversais independentes em dois anos (ao contrário dos dados de painel)?
Em cortes transversais independentes não acompanhamos as mesmas observações
da cross-section ao longo do tempo, e não faz sentido fazer a diferenciação de pares
de observações distintas ao longo do tempo.
Exercício 3 (13.5): Suponha que queremos estimar o efeito de diversas variáveis sobre a poupança
anual e que temos um conjunto de dados de painel sobre indivíduos coletado em 31/01/1990 e
31/01/1992. Se incluirmos uma dummy anual para o ano de 1992 e usarmos a primeira diferenci-
ação, poderemos também incluir a idade no modelo original? Explique.
Não poderemos incluir idade como uma variável explicativa no modelo origi-
nal. Cada pessoa do banco de dados em painel terá exatamente 2 anos a mais em
31/01/1992, o que significa que ∆idadet = 2 para todas as observações da amostra. A
equação que gostaríamos de estimar tem a forma: ∆poupi = δ0 + β∆idadei +..., onde δ0
é coeficiente da dummy anual para o ano de 1992. Como a idade muda para todos os
indivíduos da mesma forma, não conseguiremos distinguir o efeito da idade do efeito
agregado do tempo.
Exercício 4 (13.6): Em 1985, nem a Flórida nem a Geórgia tinham leis banindo recipientes
abertos de bebidas alcóolicas nos compartimentos de veículos de passageiros. Em 1990, a Flórida
sancionou tal lei, mas a Geórgia não.
a) Suponha que você colete amostras aleatórias da população com idade para dirigir em ambos
os estados, de 1985 a 1990. Defina prisão como uma variável binária igual à unidade se uma pessoa
foi presa por dirigir embriagada durante o ano. Sem controlar quaisquer outros fatores, escreva
um modelo de probabilidade linear que possibilite verificar se a lei de recipientes abertos reduziu
a probabilidade de alguém ser preso por dirigir embriagado. Que coeficiente em seu modelo mede
o efeito da lei?
Seja FL uma variável binária igual a 1 se a pessoa mora na Flórida, e zero caso
contrário. Seja y90 uma dummy do ano de 1990. Então, temos que o modelo de
probabilidade linear é dado por:
prisao = β0 + β1y90 + β2FL+ β3FL ∗ y90 + u
O efeito da lei é medido por β3, que é a mudança na probabilidade de detenção di-
rigindo bêbado devido à nova lei na Flórida. A inclusão de y90 permite tendências
agregadas em prisões por embriaguez que afetam ambos os Estados; e a inclusão de
FL permite diferenças sistemáticas entre Flórida e Geórgia quanto ao comportamento
de dirigir embriagado ou à aplicação da lei.
b) Por que você pode querer controlar outros fatores nesse modelo? Quais poderiam ser esses
fatores?
Pode ser que as populações dos motoristas nos dois estados mudem de formas
diferentes ao longo do tempo. Por exemplo, idade, raça ou distribuições de gênero
podem ter mudado. Os níveis de educação médios entre os dois estados podem ter
mudado. Como estes fatores podem afetar o fato de alguém ser preso por dirigir
bêbado, podendo ser importante controlá-los. No mínimo, há a possibilidade de obter
um estimador mais preciso de β3, reduzindo a variância do erro. Essencialmente,
qualquer variável explicativa que afeta a prisão pode ser usado para essa finalidade.
c) Agora, suponha que somente seja possível coletar dados de 1985 e 1990 em nível de municí-
pios dos dois estados. A variável dependente seria a fração dos motoristas habilitados presos por
dirigirem embriagados durante o ano. Como essa estrutura de dados difere dos dados em nível
individual descritos na parte (i)? Que método econométrico você usaria?
2
Teríamos agora um painel de municípios, e não um agrupamento de cortes transver-
sais independentes de indivíduos. Poderíamos usar ainda o método de diferenças-em-
diferenças, pois ele também é aplicável aos dados em painel. Além disso, nossa variável
dependente não seria mais uma variável binária, e assim não seria mais um modelo
de probabilidade linear.
Exercício 5 (14.4): Para determinar os efeitos do desempenho atlético universitário em algumas
variáveis, você coleta dados de candidatos às vagas de uma amostra das faculdades da Divisão I
dos anos de 1985, 1990 e 1995.
a) Que indicadores de êxito atlético você incluiria em uma equação? Quais seriam alguns dos
problemas temporais?
Porcentagens de vitórias nos esportes mais populares dentre os universitários são
boas possibilidades, assim como indicadores relacionados à participação em campe-
onatos. Devemos estar seguros de que as medidas usadas de êxito atlético estavam
disponíveis antes dos prazos de aplicação. Então, poderíamos usar o desempenho
atlético de anos anteriores.
b) Que outros fatores você controlaria na equação?
Taxa de matrícula pode ser importante: ceteris paribus, taxas mais altas devem
significar menos inscrições. Medidas de qualidade da universidade que mudam ao
longo do tempo, tais como razões aluno/faculdade, financiamento e subsídios pode-
riam ser importantes.
c) Escreva uma equação que possibilite estimar os efeitos do êxito atlético sobre a mudança
percentual nas inscrições. Como você estimaria essa equação? Por que você escolheria esse método?
Um modelo de efeitos não observados é dado por:
log(aps)it = β1y95t + β2y90t + β3atletit + β4log(taxa)it + ...+ ai + uit
A variável atletit é uma abreviação para uma medida de sucesso atlético. Nós poderíamos
incluir várias medidas. y95 e y90 são dummies temporais, e log(taxa)it é o log da taxa
de matrícula. É provável que ai esteja correlacionada com o êxito atlético, e taxa de
matrícula, e sendo assim o estimador de efeitos fixos é o mais adequado (alternativa-
mente poderíamos usar também o estimador de primeiras diferenças).
Exercício 6 (15.1): Considere um modelo simples para estimar o efeito da propriedade de um
computador pessoal na nota média de graduação de formandos de uma grande universidade pública:
nmgrad = β0 + β1PC + u
Onde PC é uma variável binária indicando a propriedade de um computador pessoal.
a) Por que a propriedade de um PC pode estar correlacionada com u?
Um fato já conhecido é que o status socioeconômico afeta o desempenho do aluno.
O termo de erro u contém, dentre outrascoisas, a renda familiar, que tem um efeito
positivo nota média de graduação e também muito provavelmente é correlacionada
com a propriedade um PC.
b) Explique por que PC possivelmente está relacionada à renda anual dos pais. Isso significa
que a renda dos pais seria uma boa VI de PC? Por quê?
Famílias com rendimentos mais elevados terão recursos para comprar computadores
para seus filhos. Portanto, a renda familiar satisfaz certamente um dos requisitos para
uma variável instrumental: ele está correlacionado com a variável explicativa endó-
gena. Todavia, a renda familiar também tem um efeito positivo sobre a nota média
3
de graduação e, portanto, a renda dos pais não será exógena na equação da renda.
Se tivéssemos a variável de renda dos pais nós iríamos incluí-la como uma variável
explicativa na equação; se ela é a única variável omitida importante correlacionada
com PC, poderíamos então estimar a equação expandida por MQO.
c) Suponha que, quatro anos atrás, a universidade tenha concedido subvenções para a compra
de computadores a aproximadamente metade dos alunos novos, e que os alunos que receberam es-
sas subvenções tenham sido escolhidos aleatoriamente. Explique cuidadosamente como você usaria
essa informação para construir uma variável instrumental de PC.
Este é um experimento natural que afeta se alguns alunos possuem computadores
ou não. Alguns estudantes que compraram computadores quando a concessão ocorreu
talvez não teriam comprado sem o subsídio. (Estudantes que não receberam as bolsas
podem ainda assim possuir computadores.) Defina uma variável dummy concessão
igual a um se o estudante recebeu uma concessão, e zero caso contrário. Então, se a
concessão foi distribuída aleatoriamente, ela será não correlacionada com o erro (exó-
gena). Em particular, será não correlacionada com a renda familiar e outros fatores
socioeconômicos contidos no erro. Além disso, concessão deve ser correlacionada com
o PC: a probabilidade de possuir um PC deve ser significativamente maior para o
aluno que recebeu subsídio. Aliás, se a universidade deu prioridade de concessão para
estudantes de baixa renda, concessão seria negativamente correlacionada com o erro,
e a IV seria inválida.
Exercício 7 (15.2): Suponha que você queira estimar o efeito da frequência escolar sobre o de-
sempenho dos alunos, como no Exemplo 6.3. Um modelo básico é: respad = β0 + β1taxafreq +
β2nmgradp+ β3tac+ u, onde as variáveis foram definidas no capítulo 6.
a) Defina dist como a distância da residência do aluno até o local de estudos. Você consideraria
que dist é não correlacionado com u?
Considero que dist poderá ser correlacionado com u. Por exemplo, se alunos com
maior renda alugam apartamentos próximos à faculdade; ou se a faculdade está local-
izada em algum lugar central da cidade, e os alunos mais pobres moram mais longe
da faculdade (ou o contrário).
b) Assumindo que dist e u sejam não correlacionados, que outras hipóteses dist deverá satisfazer
para ser uma IV válida de taxafreq?
A variável dist deve ser parcialmente correlacionada com taxafreq. Mais precisa-
mente, na forma reduzida: taxafreq = π0 + π1nmgradp+ π2tac+ π3dist+ v, devemos ter
π3 6== 0. Dada uma amostra de dados, podemos testar H0 : π3 = 0 contraH1 : π3 6= 0
usando um teste t.
c) Suponha que adicionemos um termo de interação nmgradp∗taxafreq. Se taxafreq for correla-
cionado com u, então, em geral a interação também será. O que poderíamos usar como uma boa
IV de nmgradp ∗ taxafreq?
Agora precisamos de variáveis instrumentais para taxafreq e para o termo de
interação nmgradp ∗ taxafreq. Sob a hipótese de exogeneidade de dist e nmgradp,
qualquer função dessas variáveis será não correlacionada com o erro. Em particu-
lar, a interação nmgradp ∗ dist será não correlacionada com o erro. Se dist é par-
cialmente correlacionada com taxafreq, então nmgradp ∗ dist também será parcial-
mente correlacionada com nmgradp ∗ taxafreq. Assim, podemos estimar a equação
respad = β0 + β1taxafreq + β2nmgradp + β3tac + β4nmgradp ∗ taxafreq + u por MQ2E us-
ando como variáveis instrumentais as variáveis exógenas do modelo junto com dist e
nmgradp ∗ dist.
Exercício 8 (15.6):
4
a) No modelo com uma variável explicativa endógena, uma variável explicativa exógena e uma
variável exógena extra, considere a forma reduzida: y2 = π0 + π1z1 + π2z2 + v2. Inserindo-a
na equação estrutural y1 = β0 + β1y2 + β2z1 + u1. Isso produzirá a forma reduzida de y1 =
α0 + α1z1 + α2z2 + v1. Encontre os αj em termos de βj e πj .
Solução:
y1 = β0 + β1(π0 + π1 + π2z2 + v2) + β2z1 + u1
y1 = (β0 + β1π0) + (β1π1 + β2)z1 + β1π2z2 + (β1v2 + u1)
α0 = (β0 + β1π0)
α1 = (β1π1 + β2)
α2 = β1π2
b) Encontre a forma reduzida do erro, v1 , em termos de u1, v2 e os parâmetros.
Solução:
v1 = (β1v2 + u1)
c) Como você estimaria consistentemente os αj?
Por hipótese, u1 tem média zero e é não correlacionado com z1 e z2. v2 também tem
essas propriedades por definição. Assim, v1 tem média zero e é não correlacionado
com z1 e z2, o que significa que os αj são consistentemente estimados por MQO.
Exercício 9 (15.7): O que segue é um modelo simples para medir o efeito de um programa
de escolha de escola sobre o desempenho em um teste padronizado: nota = β0 + β1escolha +
β2rendfam + u1, onde nota é a nota de um teste de âmbito estadual, escolha é uma variável
binária indicando se o aluno frequentou uma escola de sua escolha no último ano e rendfam é a
renda familiar.
A VI de escolha é conc, o montante em dólares concedido aos alunos para ser usado como paga-
mento da anuidade da escola particular de sua escolha. O montante da concessão difere conforme
o nível de renda familiar, razão pela qual controlamos rendfam na equação.
a) Mesmo com rendfam na equação por que escolha pode ser correlacionada com u1?
Mesmo em um dado nível de renda, alguns alunos estão mais motivados e/ou mais
capazes do que outros, e suas famílias podem dar um apoio maior à educação dos fil-
hos que outras famílias. Portanto, é provável que haja um problema de auto-seleção:
estudantes que iriam melhor de qualquer forma também eram mais propensos a fre-
quentar uma escola de sua escolha.
b) Se no interior de cada classe de rendimento os montantes de concessão fossem atribuídos
aleatoriamente, conc seria não correlacionada com u1?
Supondo que a forma funcional de rendfam está correta, conc seria não correla-
cionada com u1. Como u1 não contém a renda, a atribuição aleatória de subvenções
dentro de cada classe de renda implica que a designação da concessão não está correla-
cionada com fatores não observáveis como a capacidade do aluno, motivação e apoio
da família.
c) Escreva a forma reduzida da equação de escolha. O que é necessário para que conc seja
parcialmente correlacionado com escolha?
A forma reduzida é dada por:
escolha = π0 + π1conc+ π2rendfam+ v1
5
Para que conc seja parcialmente correlacionado com escolha é necessário que valha π1 6=
0. Em outras palavras, após o controle pelos rendimentos, o montante da concessão
deve ter algum efeito na escolha. Isso parece razoável, desde que os montantes de
concessão sejam diferentes dentro de cada classe de renda.
d) Escreva a equação da forma reduzida de nota. Explique por que isso é importante.
A forma reduzida para pontuação é apenas uma função linear das variáveis exóge-
nas:
nota = γ0 + γ1conc+ γ2rendfam+ u2
Esta equação nos permite estimar diretamente o efeito de aumentar o montante de
concessão sobre a pontuação no teste, mantendo a renda familiar constante.
Exercício 10 (16.8): Suponha que você queira testar se as meninas que frequentam uma escola
de ensino médio só para meninas se saem melhor em matemática do que as que frequentam escolas
mistas. Você tem uma amostra aleatória de meninas veteranas de escolas de ensino médio de um
estado dos Estados Unidos, e nota é a nota de um teste padronizado de matemática. Defina meni-
naem como uma variável dummy indicando se uma aluna frequenta uma escola de ensino médio
só para meninas.
a) Que outros fatores você controlariana equação?
Renda e outras variáveis relacionadas ao background familiar, como educação dos
pais.
b) Escreva uma equação relacionando nota com meninaem e os outros fatores que você listou
na parte (i).
O modelo populacional será dado por:
nota = β0 + β1meninaem+ β2rendfam+ β3educpai+ β4educmae+ u1
c) Suponha que o suporte e o incentivo dos pais sejam fatores não indicados no termo erro na
parte (ii). E possível que eles sejam correlacionados com meninaem? Explique.
Sim, é possível que tais fatores sejam correlacionados com meninaem. Os pais que
são motivados e dão o suporte necessário para suas filhas tenham um bom desem-
penho na escola também podem ser mais propensos a matricular suas filhas em uma
escola de ensino médio só para meninas. Isso traria uma correlação entre o termo
erro e meninaem, tornando os estimadores de MQO viesados e inconsistentes.
d) Discuta as hipóteses necessárias para que o número de escolas do ensino médio só para meni-
nas situadas em um raio de 20 milhas da residência de uma menina seja uma VI válida de meninaem.
Seja nummen o número de escolas de ensino médio só para meninas dentro de um
raio de 20 quilômetros da casa de uma menina. Para ser uma VI válida de meninaem,
nummen deve satisfazer dois requisitos: deve ser não correlacionada com o erro não
observado (exógena) e deve ser parcialmente correlacionada com meninaem.
e) Escreva a equação da forma reduzida de nota. Explique por que isso é importante.
Solução:
nota = γ0 + γ1nummen+ γ2rendfam+ γ3educpai+ γ4educmae+ u2
Esta equação nos permite estimar diretamente o efeito de aumentar o número de es-
colas de ensino médio só para meninas sobre a nota, mantendo a renda familiar, e a
6
educação dos pais fixos.
Exercício 11 (15.9): Suponha que na equação nota = β0 +β1faltas+u você não tenha uma boa
candidata a variável instrumental de faltas. Entretanto, você tem duas outras informações sobre
os alunos: a nota média ponderada de habilidade verbal e matemática do estudante para ingresso
em curso superior (sat) e a nota média acumulada anterior ao semestre (nmgradc). O que você
faria em vez da estimação de VI?
Faria a estimação de mínimos quadrados ordinários em uma equação expandida,
onde sat e nmgradc são adicionadas como variáveis proxy para a capacidade do aluno
e motivação.
Exercício 12 (15.10): Em um artigo recente, Evans e Schwab (1995) estudaram os efeitos que
frequentar uma escola de ensino médio teria sobre a probabilidade de cursar uma faculdade. Conc-
retamente, defina faculdade como uma variável binária igual a um se o aluno estiver na facul-
dade, e zero caso contrário. Defina EMcat como uma variável binária igual a um se o aluno
frequenta uma escola católica no ensino médio. Um modelo de probabilidade linear é dado por:
faculdade = β0 + β1EMCat + outrosfatores + u, onde, entre outros fatores, estão sexo, raça,
renda familiar e instrução dos pais.
a) Por que EMcat pode ser correlacionado com u?
Estudantes melhores e mais sérios tendem a ir para a faculdade, e esse mesmo tipo
de alunos pode ter uma maior/menor probabilidade de estudar em escolas católicas.
A correlação resultante entre u e EMcat é outro exemplo de problema de auto-seleção:
alunos se auto selecionam em direção de colégios católicos, ao invés de ser aleatoria-
mente atribuídos a eles.
b) Evans e Schwab tinham dados sobre a nota de um teste padronizado feito quando cada
estudante era aluno do 2o ano. O que pode ser feito com essa variável para melhorar a estimativa
ceteris paribus de frequentar uma escola católica de ensino médio?
A nota de um teste padronizado é uma medida da capacidade do aluno. Sendo
assim, essa variável pode ser usada como uma proxy em uma regressão por MQO. A
existência dessa medida em uma regressão de MQO traz uma melhoria, pois temos
algum controle da capacidade do aluno.
c) Defina Relcat como uma variável binária igual a um se o estudante for católico. Detalhe
os dois requisitos necessários para que essa seja uma VI válida de EMcat na equação precedente.
Qual deles pode ser testado?
O primeiro requisito é que EMcat seja não correlacionada com a motivação e ca-
pacidade não observadas do estudante (o que não é capturado por qualquer proxies) e
outros fatores, no termo de erro. Isto será válido se o fato de ser católico (ao contrário
de frequentar uma escola católica) não fizer de você um melhor aluno. Parece razoável
supor que os católicos não têm uma capacidade inata maior do que os não-católicos.
Se fato de ser católico está relacionado com a motivação do aluno, ou à preparação
para o ensino médio, é uma questão um pouco mais controversa. Não conseguiremos
testar esse requisito.
O segundo requisito é que o fato de ser católico tenha algum efeito sobre a fre-
quentar uma escola católica, controlando-se por outros fatores exógenos que aparecem
no modelo estrutural. Isso pode ser testado estimando a forma reduzida de EMcat e
verificando se o coeficiente de Relcat é estatisticamente significativo.
d) Não surpreendentemente, o fato de ser católico tem um efeito significante sobre frequentar
uma escola católica no ensino médio. Você julga que Relcat é uma variável instrumental válida de
EMcat?
7
Evans e Schwab (1995) acharam que ser católico aumenta substancialmente a prob-
abilidade de frequentar uma escola católica. Além disso, parece razoável assumir que
Relcat é exógena na equação estrutural.
Bloco 2 – Assinale se as alternativas são verdadeiras (V) ou falsas (F) e
justifique.
a) Um banco de dados em painel é tal que acompanhamos a mesma observação da cross-section
ao longo do tempo.
Verdadeiro - Um conjunto de dados em painel consiste em uma série de tempo
para cada membro do corte transversal do conjunto de dados.
b) Um experimento natural ocorre quando um evento exógeno altera o meio no qual os agentes
operam.
Verdadeiro - Um experimento natural ocorre quando um evento exógeno, como,
por exemplo, uma mudança de política do governo, muda o ambiente no qual indiví-
duos, famílias, firmas ou cidades, (etc..) operam.
c) A existência de 2 grupos e períodos de tempo distintos é suficiente para a utilização do
método de diferenças-em-diferenças.
Falso - Esse método é utilizado na análise do efeito de um experimento natural.
Assim sendo, a utilização do método de diferenças-em-diferenças pressupõe a ocor-
rência de um evento exógeno que alterou o meio no qual os agentes operam.
d) Quando temos um banco de dados de painel podemos estimar nosso modelo por MQO agru-
pado (sem nenhuma transformação das variáveis) caso o erro idiossincrático tenha média zero.
Falso - Para que possamos estimar consistentemente nosso modelo por MQO agru-
pado deverá ser válida a hipótese que o efeito fixo não observado é não correlacionado
com as variáveis explicativas ao longo do tempo. (Assumindo que o erro idiossin-
crático também não tenha correlação com tais variáveis).
e) O estimador de primeiras diferenças exige que as variáveis de controle utilizadas na análise
variem ao longo do tempo.
Verdadeiro - Uma condição crucial do estimador de primeiras diferenças é que a
diferenciação das variáveis explicativas ao longo do tempo tenha alguma variação en-
tre as observações da amostra.
f) A hipótese de exogeneidade estrita nos diz que yit deve ser não correlacionado com o erro de
composição.
Falso - A hipótese de exogeneidade estrita nos diz que, para cada período de tempo,
o valor esperado do erro idiossincrático, dadas as variáveis explicativas em todos os
períodos de tempo e os efeitos não observados, é zero.
g) Para dois períodos de tempo, os estimadores de efeitos fixos, primeiras diferenças e efeitos
aleatórios são idênticos.
‘Falso - Para dois períodos de tempo, os estimadores de efeitos fixos e primeiras diferenças são
idênticos. Eles só serão idênticos ao estimador de efeitos aleatórios se na transformação do EA
tivermos que λ = 1.
h) Sob a hipótese de ausência de correlação entre o efeito fixo não observado e as variáveis
independentes, o estimador de efeitos aleatórios será o mais adequado relativamenteao estimador
8
de efeitos fixos.
Verdadeiro - Sob a hipótese de ausência de correlação entre o efeito fixo não obser-
vado e as variáveis independentes, o estimador de efeitos aleatórios será mais eficiente
que o estimador de efeitos fixos, e ambos os estimadores serão consistentes.
i) O estimador de efeitos aleatórios permite a inclusão de variáveis de controle constantes ao
longo do tempo.
Verdadeiro - A transformação do estimador de efeitos aleatórios subtrai uma fração
da média temporal. Dessa forma, ela possibilita a inclusão de variáveis explicativas
que sejam constantes ao longo do tempo.
j) O teste de Hausman serve para testar se o estimador de efeitos fixos é consistente.
Falso - O teste de Hausman compara as estimativas do estimador de efeitos fixos
e aleatórios para verificar se as variáveis explicativas são correlacionadas com o efeito
fixo, assumindo que o erro idiossincrático e as variáveis de controle são não correla-
cionados ao longo do tempo. Sob a hipótese nula das estimativas serem suficiente-
mente próximas, teremos que ambos os estimadores são consistentes (pois é um indício
de ausência de correlação das explicativas e do efeito fixo), e o EA seria mais ade-
quado. Se rejeitamos a nula, somente o estimador de efeitos fixo é consistente, e esse
estimador será o mais adequado. Em suma, o teste de Hausman testa a consistên-
cia do estimador de efeitos aleatórios, pois o EF será consistente sob as duas hipóteses.
k) O problema de endogeneidade surge quando as variáveis explicativas são correlacionadas
entre si.
Falso - O problema de endogeneidade surge quando as variáveis explicativas são
correlacionadas com o erro não observado.
l) Uma boa variável instrumental deve ser uma variável exógena excluída da equação estrutural
que tenha alguma correlação com a explicativa endógena.
Verdadeiro - Seja u o erro não observado e x uma variável explicativa endógena
Uma variável instrumental z deve satisfazer as seguintes hipóteses: Cov(Z,u) = 0 e
Cov(Z,x) 6= 0.
m) O estimador de variável instrumental será não viesado sob as hipóteses usuais associadas a
esse estimador.
Falso - Uma das características do estimador de variável instrumental é que, quando
houver alguma explicativa endógena, a estimação por IV será necessariamente viesada.
Como esse estimador é consistente na presença de uma variável instrumental válida,
vemos que deveremos utilizar amostras grandes ao utilizarmos o estimador de var-
iáveis instrumentais.
n) O uso de uma variável proxy e o método de variável instrumental são duas possíveis formas
de lidar o viés de variável omitida.
Verdadeiro - A abordagem da variável proxy tenta resolver o problema da variável
omitida substituindo a variável não observada por uma variável proxy. O método de
variável instrumental deixa a variável omitida no erro, mas reconhece a presença da
variável omitida em sua estimação.
o) Um instrumento fraco terá boas propriedades assintóticas.
Falso - Um instrumento fraco faz com que o estimador de VI possa ter um grande
9
viés assintótico, mesmo se a correlação entre o erro e o instrumento for muito pequena.
Bloco 3 – Exercícios adicionais
Exercício 1: Suponha que você queira estimar o seguinte modelo:
yit = β0 + β1yit−1 + β2xit + uit
uit = vit + ci
Explique por que não podemos estimá-lo por nenhum dos métodos de painel aprendidos em sala.
(Dica: olhe para a hipótese de exogeneidade de cada modelo).
(i) Mínimos quadrados agrupados: yit = β0 + β1yit−1 + β2xit + uit pode ser escrito
como yit = β0 + β1yit−1 + β2xit + (vit + ci). Note que, yit−1 pode ser escrito como yit−1 =
β0 + β1yit−2 + β2xit−1 + (vit−1 + ci), isso implica correlação entre yit−1 e ci, fazendo com
que yit−1 seja correlacionado com uit por construção, o que inviabiliza a estimação.
(ii) Efeitos fixos: O estimador de efeitos fixos pode ser encontrado da seguinte
forma:
yit = β0 + β1yit−1 + β2xit + ci + vit
− ȳi = β0 + β1ȳi + β2x̄i + ci + v̄i
yit − ȳi = β1(yit−1 − ȳi) + β2(xit − x̄i) + (vit − v̄i)
Como v̄i =
∑T
t=1 vit
T =
...+vit−2+vit−1+vit+vit+1+...
T , temos que v̄i contém vit−1 que é correla-
cionado com yit por construção. Logo β̂EF1 é inconsistente.
(iii) Primeiras diferenças: De forma análoga ao caso anterior, os estimadores de
primeira diferença podem ser encontrados da seguinte forma:
yit = β0 + β1yit−1 + β2xit + ci + vit
− yit−1 = β0 + β1yit−2 + β2xit−1 + ci + vit−1
yit − yit−1 = β1(yit−1 − yit−1) + β2(xit − xit−1) + (vit − vit−1)
Como yit−1 é correlacionado com vit−1 o estimador é inconsistente.
(iv) Efeitos aleatórios: Podemos encontrar os estimadores de efeitos aleatórios da
seguinte forma: :
yit = β0 + β1yit−1 + β2xit + ci + vit
− λȳi = λβ0 + λβ1ȳi + λβ2x̄i + λci + λv̄i
yit − λȳi = (1− λ)β0 + β1(yit−1 − λȳi) + β2(xit − λx̄i) + (1− λ)ci + (vit − λv̄i)
Pelo mesmo motivo explicado na estimação por efeitos fixos β1 é inconsistente.
Exercício 2: Queremos analisar como o salário dos trabalhadores se comporta quando as firmas
fazem investimento interno, usando um painel de indivíduos. Para isso, vamos considerar o salário
do trabalhador i, na firma j e no ano t, investimento que a firma faz no ano t e demais covariadas
denotadas por xijt:
log(sal)ijt = β0 + β1investjt + β2xijt + efeitosfixos+ µt + uijt
Suponha, ainda, que os trabalhadores estão alocados em 50 firmas.
a) O que são os efeitos fixos? O que eles captam nesse caso?
Efeitos fixos captam variáveis que estão fixas no tempo. É como se tirássemos todas
essas variáveis (fixas no tempo) do termo de erro e usássemos como controle na re-
gressão. Se incluirmos efeixo fixo de trabalhador, estamos controlando por todos os
fatores ligados aos trabalhadores que não variam no tempo e influenciam os salários.
b) Se considerarmos que alguns trabalhadores trocaram de emprego ao longo do período anal-
isado, quais efeitos fixos você pode incluir? Justifique.
Se existe a possibilidade de os trabalhadores trocarem de firma (não é regra, mas
acontece), podemos incluir efeito fixo de trabalhador, firma e trabalhador-firma, todos
10
ao mesmo tempo.
c) Se os trabalhadores não puderem trocar de emprego, quais seriam os efeitos fixos?
Se os trabalhadores não trocam de emprego, não é possível incluir efeito de trabal-
hador e de firma ao mesmo tempo, dado que a soma dos efeitos fixos dos trabalhadores
de uma determinada firma resultaria no efeito fixo dessa firma (colinearidade perfeita).
Sendo assim, apenas incluiríamos o efeito fixo de trabalhador.
Exercício 3: Suponha que você queira estimar uma equação de salários como função dos anos
de escolaridade no Brasil e descobriu que um teste de QI foi realizado em 2010 numa amostra
aleatória da população brasileira.
a) Por que incluir somente a variável “anos de escolaridade” produziria um estimador inconsis-
tente do verdadeiro retorno adicional de salário relacionado à educação no Brasil?
Nesse caso, a hipótese de exogeneidade não é satisfeita, isto é, E("anos de escolar-
idade".u) 6= 0. É simples pensar em variáveis não incluídas no modelo (logo, estão no
termo de erro) que são relacionada com anos de excolaridade ex: idade, sexo, exper-
iência, habilidade, entre outras.
b) Você usaria o teste de QI como variável de controle na regressão ou como variável instru-
mental? Explique.
Para que QI seja variável de controle, precisamos ter: E(QI’.u)=0 e E(educ’.u)=0.
Para que ela sirva como variável instrumental precisamos que: E(QI’.U)=0 e E(QI’.educ)
6= 0. Não há resposta exata aqui (por um lado, não resolve o problema de endogenei-
dade da escolaridade, por outro lado, mesmo ao incluí-la como controle, ainda restará
viés de variável omitida).Qual caso você acha mais factível?
c) Você estava pensando em usar a educação da mãe como instrumento para educação. Suponha
que você esteja em dúvida sobre a exogeneidade do seu instrumento. Um amigo seu diz que você
pode fazer um teste-t de significância da variável "educação da mãe" na equação de salário contra
educação e QI para provar que esta variável não está correlacionada com o erro. Oque você acha
desse conselho?
Esse conselho não é bom por vários motivos. A exogeneidade do instrumento não
é testável. Mesmo se fosse testável, o teste t não diria nada sobre exogeneidade, ape-
nas apontaria se o instrumento afeta a variável dependente sem ser via educação. No
entanto, os coeficientes da equação não seriam consistentes (já que a endoneneidade
de educação não foi resolvida) invalidando qualquer tipo de teste de hipótese.
Exercício 4: Suponha que você queira estimar o impacto do metrô no preço dos imóveis em São
Paulo, dispondo de um painel anual de imóveis ao longo de 5 anos, com características do imóvel
e preço do aluguel.
a) Que tipo de variação você precisa ter nos dados para estimar um modelo de efeitos fixos?
Explique.
Precisamos que a variável metrô tenha variação no tempo, isto é, que um mesmo
imóvel não tenha metrô perto e passe a ter, ou vice-versa.
b) Sabendo que uma nova linha foi inaugurada entre os anos 2 e 3, proponha um método para
estimar o impacto do metrô. Escreva a equação estimada, explicando como as variáveis seriam
construídas.
Um método que se adequa ao caso é o diferenças em diferenças com dados em
painel. Nesse caso, estimaríamos a seguinte equação: precoit = β0 + post + µi + δpost ∗
11
tratadoi + uit. Em que pos é uma dummy que indica período pos tratamento, tratado
é uma dummy que indica quem está no grupo de tratado e µ representa o efeito fixo.
Nesse caso, podemos considerar como tratado imóveis em bairro que contará com
estações da nova linha, e como controle os demais. Nesse caso, o efeito de interesse é
dado por δ.
c) Se uma estação de uma outra linha for inaugurada em t=3, o coeficiente encontrado no item
anterior será válido? Justifique.
Não, o coeficiente não será mais consistente. Nesse caso, há imóveis tratados (por
essa outra linha) dentro do grupo de controle. Outro problema pode surgir se o preço
dos imóveis nos bairros que já tinham metrô e que não são atendidos diretamente por
essa nova linha sofrer mudanças após a inauguração, já que agora o metrô dá acesso
a mais lugares.
d) Se em t=1 as pessoas já soubessem que essa nova linha seria inaugurada, haveria algum
problema para a estimação? Explique.
Sim. Provavelmente o efeito do imóvel estaria subestimado nessa situação. Se as
pessoas já soubessem da inauguração da linha (que é o mais provável), há grandes
chances de os preços dos imóveis nos bairros atendidos por essa nova linha já subirem
antes mesmo da inauguração. Se considerarmos o período de tratamento como o pós
inauguração, estaríamos tirando a diferença com o preço dos imóveis já aumentados,
subestimando o impacto. obs: isso invalida a hipótese de tendência paralela requerida
pelo método.
Exercício 5: Considere o seguinte modelo de regressão simples:
yi = β0 + β1xi + ui
Considere que são válidas três das quatro primeiras hipóteses de Gauss-Markov, exceto a hipótese
de exogeneidade. Isso é, cov(x,u) 6= 0.
a) Calcule a inconsistência dos estimadores da regressão.
β̂1 =
∑
(xi−x̄)yi∑
(xi−x̄)2 =
∑
(xi−x̄)(β0+β1xi+ui)∑
(xi−x̄)2
plim(β̂1) = β1 + plim(
∑
(xi−x̄)ui∑
(xi−x̄)2 ) = β1 +
σxu
σ2x
β̂0 = ȳ − β̂1x̄
plim(β̂0) = plim(ȳ)− plim(β̂1x̄)
plim(β̂0) =E(y)− (β1 + σxuσ2x )E(x)
plim(β̂0) = β0 − σxuσ2x E(x)
Considere agora que você tem outra variável z, que não é correlacionada com o termo de erro, isto
é, cov(z,u) = 0. Você ainda está interessado em estudar a relação entre x e y e usa o seguinte esti-
mador: β̂1 =
∑
(zi−z̄)yi∑
(x̂i−ˆ̄x)(zi−z̄)
, em que x̂ é o valor predito do primeiro estágio (regressão de x contra z).
b) Mostre que plim(β̂1) = β1
β̂1 =
∑
(zi−z̄)yi∑
(x̂i−ˆ̄x)(zi−z̄)
=
∑
(zi−z̄)(β0+β1xi+ui)∑
(zi−z̄)(x̂i−ˆ̄x)
Supondo que a regressão do 1o estágio seja: xi=δ0 + δ1zi + vi => xi = x̂i + vi
β̂1=
∑
(zi−z̄)(β0+β1(x̂i+vi)+ui)∑
(zi−z̄)(x̂i−ˆ̄x))
=
∑
(zi−z̄)(β1(x̂i+vi))+ui)∑
(zi−z̄)(x̂i−ˆ̄x)
12
plim(β̂1) = β1 + plim(β1
∑
(zi−z̄)vi∑
(zi−z̄)(x̂i−ˆ̄x)
) +
∑
(zi−z̄)ui∑
(zi−z̄)(x̂i−ˆ̄x)
= β1
c) Que outra condição você precisou impor para garantir que os novos estimadores sejam con-
sistentes além de cov(z,u) = 0?
Primeiro, para falar de x̂ precisamos garantir a existência do primeiro estágio.
Logo, impor que cov(z,x) seja diferente de zero. Além disso, tivemos que impor
cov(z,v)=0, em que v é o erro da regressão do primeiro estágio, para que o estimador
acima fosse consistente. Isso nada mais é dizer que a equação do primeiro estágio é
válida ou que o instrumento é aleatório. Note que isso não é testável, pois cov(z,û) =
0 por construção.
Exercício 6: Considere o seguinte modelo:
y = Xβ + u
Em que y é um vetor nx1, X é uma matriz nxk contendo todas as variáveis explicativas (inclusive
o intercepto), e u é um vetor nx1. Considere que X’u 6= 0. Considere também que você possui uma
variável instrumental para cada variável explicativa endógena, sendo Z sua matriz de instrumentos.
a) Qual a dimensão e quais termos estão contidos em Z? Explique.
Z é uma matriz nxk, assim como X. Para construir Z, basta replicar X substituindo
as variáveis endógenas pelos seus respectivos instrumetos. Assim, Z é uma matriz que
contém apenas e todas as variáveis exógenas usadas no modelo.
b) Derive o estimador de variável instrumental na forma matricial.
1) Pelo método dos momentos, olhando para o momento amostal:
Z ′û=0 => Z ′(y −Xβ̂) = 0 => Z ′y − Z ′Xβ̂ = 0 => β̂ = (Z ′X)−1Z ′Y
2) Dado o modelo: y = Xβ + u
Pré multiplicando pela matriz de instrumentos:
Z ′y = Z ′Xβ + Z ′u
2.1) Multiplicando a equação anterior por n−1 e tomando a esperança, sabendo que
E(Z’u)=0.
n−1E(Z ′y) = n−1E(Z ′X)β => β = [n−1E(Z ′X)]−1n−1E(Z ′y)
Estimamos o beta pela sua contrapartida amostral: β̂ = (Z ′X)−1(Z ′y)
2.2) Multiplicando a equação anterior por n−1 e tomando o limite de probabilidade:
(dessa forma encontramos qual o estimador consistente)
plim(n−1Z ′y) = plim(n−1Z ′Xβ + n−1Z ′u) => plim(n−1Z ′y) = plim(n−1Z ′X)β
β = [plim(n−1Z ′X)]−1plim(n−1Z ′y) = plim[(Z ′X)−1(Z ′y)]
β = plim(β̂IV ) => β̂IV = (Z ′X)−1(Z ′y)
c) Encontre a variância do estimador derivado acima (também na forma matricial).
β̂IV = (Z
′X)−1(Z ′y) = (Z ′X)−1(Z ′(Xβ + u)) = β + (Z ′X)−1(Z ′u)
V ar(β̂IV /Z,X) = V ar((Z
′X)−1Z ′u/Z,X) = (Z ′X)−1Z ′V ar(u/Z,X)Z(Z ′X)−1
Se considerarmos o caso homocedástico: V ar(u/X,Z) = σ2
V ar(β̂IV /Z,X) = (Z
′X)−1Z ′σ2Z(Z ′X)−1 = σ2(Z ′X)−1Z ′Z(Z ′X)−1
13