Lista_2_gabarito

Econometria

•

UNIFESP

5

0

5

0

Julio Cezar

28/12/2014

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Econometria

6.506 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

1

Econometria I
Lista de exercícios # 2
Gabarito
Thiago Fonseca Morello
fonseca.morello@ufabc.edu.br
sala 301, Bloco Delta, SBC
Resultados perniciosos da prática de cópia irrefletida de uma resposta
Aproximadamente 23 alunos apresentaram a mesma resposta para a questão 4 a qual, no
caso, estava não apenas insuficiente, mas errada. Errada por afirmar que o fato do R2 ser
baixo tem como fundamento uma FRA positivamente inclinada o que seria contra-
intuitivo. Em primeiro lugar, o sinal da inclinação da FRA, i.e., o sinal da estimativa
pontual para o coeficiente da FRP, nada tem a ver com a magnitude do R2. Em segundo
lugar, segundo discutido na sala de aula e nos dois laboratórios, o intuitivo, i.e., a
possibilidade consistente com a teoria, é exatamente que a FRA em que a medida de
desnutrição é explicada apenas em função da renda familiar per capita seja
positivamente inclinada. A conclusão que deve ser retirada disso é uma só: a melhor
maneira de evitar um equívoco de tal proporção é em primeiro lugar estudando e, em
segundo lugar, fazendo, de fato, a lista de exercício, o que quer dizer refletir seriamente
sobre os exercícios, vendo nesta reflexão uma etapa imprescindível do aprendizado.
Lamento que alguns alunos estejam preferindo queimar esta etapa o que sem dúvida
repercutirá no acúmulo de um conhecimento limitado e até mesmo equivocado. É claro
para mim que os 23 alunos copiaram, sem pensar no que estavam escrevendo, a resposta
elaborada por um deles. Este comportamento tem de ser corrigido imediatamente, dado
o prejuízo de aprendizado já mencionado e, no curto, prazo o fato de que se trata de uma
rota de alta probabilidade de reprovação.

2

A resolução desta lista deve ser escrita à mão e entregue ao professor, na sala de
aula, até no máximo dia 29 de Outubro (data da primeira prova). Ela deve conter,
no máximo, 4 páginas (ou 2 folhas frente e verso). Caso haja páginas além deste
limite, elas serão desconsideradas.
Todos os exercícios têm o mesmo valor, 2,5 pontos.
A cópia de resoluções será punida com a anulação das listas entregues por todos os
possíveis envolvidos.
(Texto para as questões 1 e 2) A equação abaixo explica o desempenho no ENEM
2013, “nota_ENEM”, de um aluno que concluiu ensino médio no ano de 2013 em
função do valor da mensalidade, “mensalidade”, da escola em que o aluno cursou o
ensino médio. O valor da mensalidade é uma proxy para a qualidade da escola. Apenas
alunos que estudaram em escolas particulares são considerados.
Nota_ENEMi = β0 + β1mensalidadei + ui
(Q.1) Selecione um fator (variável aleatória) que você acredita explicar o desempenho
do ENEM, mas que, estando omitido da equação, é captado pelo termo de perturbação,
“ui”. Explique com detalhe porque este fator influencia a variável dependente.
R: esta questão não tem uma resposta única. Uma resposta adequada deve selecionar
um fator e prover uma explicação que faça sentido (preferencialmente com base na
teoria econômica) para a relação entre o fator omitido proposto e a variável explicada.
Alguns fatores mencionados pelos alunos: horas de estudo, desempenho do aluno no
ensino médio, se o aluno se dedica exclusivamente ao estudo ou não.
Atenção: um número importante de alunos não apresentou uma explicação detalhada,
como pedido no enunciado, para a relação entre o fator omitido e a variável
dependente, o que, mesmo tendo sido tolerado desta vez (i.e., não tendo sido
descontado da nota), não será tolerado nas provas.
(Q.2) Os estimadores de mínimos quadrados ordinários (MQO) para os parâmetros β0 e
β1 manteriam a propriedade de ausência de viés caso um dos fatores captados pelo
termo de perturbação fossem correlacionados com o valor da mensalidade? Justifique
retomando a demonstração de ausência de viés para os estimadores de MQO.
R: aqui é preciso retomar a relação entre a hipótese de exogeneidade e as expressões
para os vieses dos estimadores, i.e, de que ܧ[ݑ௜|ܺ] = 0 e cov(xi,ui), tal como explicado
na última seção da nota de aula 5. De fato, com cov(xi,ui) ≠ 0, conforme coloca o
enunciado, ܧ[ݑ௜|ܺ] ≠ 0 e os estimadores do coeficiente e do intercepto serão viesados.
Para verificar esta última afirmação, basta retomar os fatos a seguir, oriundos das
demonstrações de ausência de viés para os dois estimadores. A expressão ܤ[. |ܺ] a
seguir denota as fórmulas dos vieses para os estimadores.
3

ܤൣߚመଵหܺ൧ = ∑ ܧ[ݑ௜|ܺ](ݔ௜ − ̅ݔ)ே௜ୀଵ∑ (ݔ௜ − ̅ݔ)ଶே௜ୀଵ
ܤൣߚመ଴หܺ൧ = ܰିଵ ൭ܧൣߚଵ − ߚመଵหܺ൧෍ ݔ௜ே
௜ୀଵ
+ ෍ܧ[ݑ௜|ܺ]ே
௜ୀଵ
൱
Apenas com ܧ[ݑ௜|ܺ] =0 teremos ܤൣߚመଵหܺ൧ = 0 e ܤൣߚመ଴หܺ൧ = 0.
Atenção: alguns alunos, em suas respostas, afirmaram que ausência de viés pressupõe
ausência de correlação entre o termo de perturbação e os valores populacionais dos
parâmetros da FRP, β0 e β1. Ou então que é preciso ter ausência de correlação entre a
variável explicativa e os valores populacionais. As duas afirmações são equivocadas,
pois os valores populacionais dos parâmetros, β0 e β1, são constantes, valores
invariáveis e, portanto, não são variáveis aleatórias, logo é incorreto aplicar o conceito
de correlação a eles. A ausência de correlação que deve prevalecer para que se tenha
ausência de viés é a que se refere ao termo de perturbação, ui, e à variável explicativa,
X.
(Texto para as questões 3 e 4) A regressão simples abaixo explica a severidade de
desnutrição infantil, medida pelo déficit de altura-para-idade, z_nutri, em função da
renda familiar, renda_percapita. São consideradas apenas crianças de zero a cinco anos
de idade.
z_nutrii = β0 + β1renda_percapitai + ui
Para responder às questões a seguir, realize o procedimento de dois estágios que segue,
utilizando, para isso, (i) o arquivo de dados “dados_lista_2” e (ii) os comandos
detalhados no arquivo script_lista_2_corr_21_10. Estes dois arquivos podem ser
encontrados na pasta “laboratórios” do repositório da disciplina no TIDIA.
1. Rode a regressão acima para toda a amostra;
2. Agora rode a regressão apenas para a fração da amostra que capta o estado do Rio
de Janeiro;
(Q.3) Porque o desvio padrão do estimador para o coeficiente é inferior na amostra
completa? Explique tomando por base a fórmula do desvio padrão para o estimador do
coeficiente.
R: Basta relembrar que o desvio padrão do estimador do coeficiente é dado por:
ܦܲൣߚመଵหܺ൧
෣ = ටܸൣߚመଵหܺ൧෣ = ඨ ߪොଶ ∑ (ݔ௜ − ̅ݔ)ଶே௜ୀଵ = ට 1ܰ − 2 ܴܵܳඥܸܰܣܴ(ܺ)
A variabilidade de X, medida por ଵ
ே
∑ (ݔ௜ − ̅ݔ)ଶே௜ୀଵ , é menor na amostra completa
(maior na amostra apenas para o Rio de Janeiro), basta entrar, no R, com os comandos
4

var(sub$renda_percapita) e var(sub_RJ$renda_percapita) para verificar. A soma dos
quadrados dos resíduos, SQR = ∑ ݑො௜
ଶே
௜ୀଵ é maior na amostra completa. Para verificar
este último fato, é preciso utilizar o comando deviance(mqo) e deviance(mqo_RJ),
sendo que a função deviance() calcula a soma dos quadrados dos resíduos para os
objetos que armazenam as regressões. Este último comando não consta no script
enviado para os alunos, então não foi descontada nota por falta da apresentação do
valor da SQR. Uma resposta adequada deveria contemplar uma discussão em torno dos
componentes da fórmula acima, em que se seja discutido quais devem ser os valores
relativos de cada um deles (comparando as duas amostras) para que o valor do desvio
padrão do estimador seja inferior na amostra completa.
Atenção 1: a maior parte dos alunos fundamentou sua resposta na fórmula do
estimador não-viesado da variância padrão dos resíduo, ߪොଶ = ଵ
ேିଶ
∑ ݑො௜
ଶே
௜ୀଵ . Tal
estimador é apenas um dos componentes do estimador da variância do estimador do
coeficiente da FRP. A fórmula correta em que a resposta deveria ser fundamentada é,
conforme colocado acima:
ܦܲൣߚመଵหܺ൧
෣ = ටܸൣߚመଵหܺ൧෣ = ඨ ߪොଶ ∑ (ݔ௜ − ̅ݔ)ଶே௜ୀଵAtenção 2: para o exercícios que requerem o uso do R é preciso apresentar resultados
gerados no R com o script fornecido.
(Q.4) Considerando apenas a amostra completa, explique porque o coeficiente de
determinação, R2, é tão baixo – trata-se do número reportado pelo R como “Multiple R
squared”. Fundamente sua explicação na fórmula do R2 e em um gráfico de dispersão
que contenha a reta de regressão linear estimada e a média para a variável explicada,
z_nutri. Para gerar tal gráfico, utilize a seção “gráfico combinado” do
script_lista_2_corr_21_10.
R: Em primeiro lugar, seria desejável que fosse calculado o R2, utilizando, para isso, os
comandos do scripto_lista_2. Poucos alunos apresentaram o valor do R2, que é de
0,01169, i.e., 1,2%. O modelo deixa por explicar, pois, aproximadamente 99% da
variação de Y na amostra.
Olhando para o gráfico combinado (reproduzido ao final desta resposta), é possível ver
que a reta de regressão está muito próxima da média de Y, ao passo que há um número
relevante de observações com valores para Y distantes da média desta variável. Ou
seja, a soma dos quadrados explicada, SQE = ∑ (ݕො௜ − ݕത)ଶே௜ୀଵ é baixa e a soma dos
quadrados total, SQT = ∑ (ݕ௜ − ݕത)ଶே௜ୀଵ é alta. O que quer dizer que a regressão
acrescenta pouco, em termos de capacidade preditiva de Y, em relação à média, esta
última podendo ser vista como uma técnica primitiva de previsão de Y, conforme
esclarecido na primeira seção da nota 5, cujos gráficos são reproduzidos ao final desta
5

resposta, depois do gráfico combinado. É também preciso ter em conta a fórmula do
R2:
ݎଶ = ܵܳܧ
ܵܳܶ
= ∑ (ݕො௜ − ݕത)ଶே௜ୀଵ
∑ (ݕ௜ − ݕത)ଶே௜ୀଵ = 1 − ∑ ݑො௜ଶே௜ୀଵ∑ (ݕ௜ − ݕത)ଶே௜ୀଵ = 1 − ܴܵܳܵܳܶ
Atenção: para o exercícios que requerem o uso do R é preciso apresentar resultados
gerados no R com o script fornecido.

Gráfico combinado deste exercício

Gráficos
Gráficos da nota 5 para o conceito de R2

6

Figura 1 Visualizando o coeficiente de determinação: reta de regressão
amostral para X e Y (linha vermelha), média de Y (linha pontilha horizontal) e
duas observações (pontos A e B)

7

Figura 2 Visualizando a repartição da SQT em SQR e SQE