Buscar

Lista_2_gabarito

Prévia do material em texto

1 
 
Econometria I 
Lista de exercícios # 2 
Gabarito 
Thiago Fonseca Morello 
fonseca.morello@ufabc.edu.br 
sala 301, Bloco Delta, SBC 
Resultados perniciosos da prática de cópia irrefletida de uma resposta 
Aproximadamente 23 alunos apresentaram a mesma resposta para a questão 4 a qual, no 
caso, estava não apenas insuficiente, mas errada. Errada por afirmar que o fato do R2 ser 
baixo tem como fundamento uma FRA positivamente inclinada o que seria contra-
intuitivo. Em primeiro lugar, o sinal da inclinação da FRA, i.e., o sinal da estimativa 
pontual para o coeficiente da FRP, nada tem a ver com a magnitude do R2. Em segundo 
lugar, segundo discutido na sala de aula e nos dois laboratórios, o intuitivo, i.e., a 
possibilidade consistente com a teoria, é exatamente que a FRA em que a medida de 
desnutrição é explicada apenas em função da renda familiar per capita seja 
positivamente inclinada. A conclusão que deve ser retirada disso é uma só: a melhor 
maneira de evitar um equívoco de tal proporção é em primeiro lugar estudando e, em 
segundo lugar, fazendo, de fato, a lista de exercício, o que quer dizer refletir seriamente 
sobre os exercícios, vendo nesta reflexão uma etapa imprescindível do aprendizado. 
Lamento que alguns alunos estejam preferindo queimar esta etapa o que sem dúvida 
repercutirá no acúmulo de um conhecimento limitado e até mesmo equivocado. É claro 
para mim que os 23 alunos copiaram, sem pensar no que estavam escrevendo, a resposta 
elaborada por um deles. Este comportamento tem de ser corrigido imediatamente, dado 
o prejuízo de aprendizado já mencionado e, no curto, prazo o fato de que se trata de uma 
rota de alta probabilidade de reprovação. 
 
 
 
2 
 
 
A resolução desta lista deve ser escrita à mão e entregue ao professor, na sala de 
aula, até no máximo dia 29 de Outubro (data da primeira prova). Ela deve conter, 
no máximo, 4 páginas (ou 2 folhas frente e verso). Caso haja páginas além deste 
limite, elas serão desconsideradas. 
Todos os exercícios têm o mesmo valor, 2,5 pontos. 
A cópia de resoluções será punida com a anulação das listas entregues por todos os 
possíveis envolvidos. 
(Texto para as questões 1 e 2) A equação abaixo explica o desempenho no ENEM 
2013, “nota_ENEM”, de um aluno que concluiu ensino médio no ano de 2013 em 
função do valor da mensalidade, “mensalidade”, da escola em que o aluno cursou o 
ensino médio. O valor da mensalidade é uma proxy para a qualidade da escola. Apenas 
alunos que estudaram em escolas particulares são considerados. 
Nota_ENEMi = β0 + β1mensalidadei + ui 
(Q.1) Selecione um fator (variável aleatória) que você acredita explicar o desempenho 
do ENEM, mas que, estando omitido da equação, é captado pelo termo de perturbação, 
“ui”. Explique com detalhe porque este fator influencia a variável dependente. 
R: esta questão não tem uma resposta única. Uma resposta adequada deve selecionar 
um fator e prover uma explicação que faça sentido (preferencialmente com base na 
teoria econômica) para a relação entre o fator omitido proposto e a variável explicada. 
Alguns fatores mencionados pelos alunos: horas de estudo, desempenho do aluno no 
ensino médio, se o aluno se dedica exclusivamente ao estudo ou não. 
Atenção: um número importante de alunos não apresentou uma explicação detalhada, 
como pedido no enunciado, para a relação entre o fator omitido e a variável 
dependente, o que, mesmo tendo sido tolerado desta vez (i.e., não tendo sido 
descontado da nota), não será tolerado nas provas. 
(Q.2) Os estimadores de mínimos quadrados ordinários (MQO) para os parâmetros β0 e 
β1 manteriam a propriedade de ausência de viés caso um dos fatores captados pelo 
termo de perturbação fossem correlacionados com o valor da mensalidade? Justifique 
retomando a demonstração de ausência de viés para os estimadores de MQO. 
R: aqui é preciso retomar a relação entre a hipótese de exogeneidade e as expressões 
para os vieses dos estimadores, i.e, de que ܧ[ݑ௜|ܺ] = 0 e cov(xi,ui), tal como explicado 
na última seção da nota de aula 5. De fato, com cov(xi,ui) ≠ 0, conforme coloca o 
enunciado, ܧ[ݑ௜|ܺ] ≠ 0 e os estimadores do coeficiente e do intercepto serão viesados. 
Para verificar esta última afirmação, basta retomar os fatos a seguir, oriundos das 
demonstrações de ausência de viés para os dois estimadores. A expressão ܤ[. |ܺ] a 
seguir denota as fórmulas dos vieses para os estimadores. 
3 
 
ܤൣߚመଵหܺ൧ = ∑ ܧ[ݑ௜|ܺ](ݔ௜ − ̅ݔ)ே௜ୀଵ∑ (ݔ௜ − ̅ݔ)ଶே௜ୀଵ 
ܤൣߚመ଴หܺ൧ = ܰିଵ ൭ܧൣߚଵ − ߚመଵหܺ൧෍	ݔ௜ே
௜ୀଵ
+ ෍ܧ[ݑ௜|ܺ]ே
௜ୀଵ
൱ 
Apenas com ܧ[ݑ௜|ܺ] =0 teremos ܤൣߚመଵหܺ൧ = 0 e ܤൣߚመ଴หܺ൧ = 0. 
Atenção: alguns alunos, em suas respostas, afirmaram que ausência de viés pressupõe 
ausência de correlação entre o termo de perturbação e os valores populacionais dos 
parâmetros da FRP, β0 e β1. Ou então que é preciso ter ausência de correlação entre a 
variável explicativa e os valores populacionais. As duas afirmações são equivocadas, 
pois os valores populacionais dos parâmetros, β0 e β1, são constantes, valores 
invariáveis e, portanto, não são variáveis aleatórias, logo é incorreto aplicar o conceito 
de correlação a eles. A ausência de correlação que deve prevalecer para que se tenha 
ausência de viés é a que se refere ao termo de perturbação, ui, e à variável explicativa, 
X. 
(Texto para as questões 3 e 4) A regressão simples abaixo explica a severidade de 
desnutrição infantil, medida pelo déficit de altura-para-idade, z_nutri, em função da 
renda familiar, renda_percapita. São consideradas apenas crianças de zero a cinco anos 
de idade. 
z_nutrii = β0 + β1renda_percapitai + ui 
Para responder às questões a seguir, realize o procedimento de dois estágios que segue, 
utilizando, para isso, (i) o arquivo de dados “dados_lista_2” e (ii) os comandos 
detalhados no arquivo script_lista_2_corr_21_10. Estes dois arquivos podem ser 
encontrados na pasta “laboratórios” do repositório da disciplina no TIDIA. 
1. Rode a regressão acima para toda a amostra; 
2. Agora rode a regressão apenas para a fração da amostra que capta o estado do Rio 
de Janeiro; 
(Q.3) Porque o desvio padrão do estimador para o coeficiente é inferior na amostra 
completa? Explique tomando por base a fórmula do desvio padrão para o estimador do 
coeficiente. 
R: Basta relembrar que o desvio padrão do estimador do coeficiente é dado por: 
ܦܲൣߚመଵหܺ൧
෣ = ටܸൣߚመଵหܺ൧෣ = ඨ ߪොଶ	∑ (ݔ௜ − ̅ݔ)ଶே௜ୀଵ = ට 1ܰ − 2 ܴܵܳඥܸܰܣܴ(ܺ) 
A variabilidade de X, medida por ଵ
ே
∑ (ݔ௜ − ̅ݔ)ଶே௜ୀଵ , é menor na amostra completa 
(maior na amostra apenas para o Rio de Janeiro), basta entrar, no R, com os comandos 
4 
 
var(sub$renda_percapita) e var(sub_RJ$renda_percapita) para verificar. A soma dos 
quadrados dos resíduos, SQR = ∑ ݑො௜
ଶே
௜ୀଵ é maior na amostra completa. Para verificar 
este último fato, é preciso utilizar o comando deviance(mqo) e deviance(mqo_RJ), 
sendo que a função deviance() calcula a soma dos quadrados dos resíduos para os 
objetos que armazenam as regressões. Este último comando não consta no script 
enviado para os alunos, então não foi descontada nota por falta da apresentação do 
valor da SQR. Uma resposta adequada deveria contemplar uma discussão em torno dos 
componentes da fórmula acima, em que se seja discutido quais devem ser os valores 
relativos de cada um deles (comparando as duas amostras) para que o valor do desvio 
padrão do estimador seja inferior na amostra completa. 
Atenção 1: a maior parte dos alunos fundamentou sua resposta na fórmula do 
estimador não-viesado da variância padrão dos resíduo, ߪොଶ = ଵ
ேିଶ
∑ ݑො௜
ଶே
௜ୀଵ . Tal 
estimador é apenas um dos componentes do estimador da variância do estimador do 
coeficiente da FRP. A fórmula correta em que a resposta deveria ser fundamentada é, 
conforme colocado acima: 
ܦܲൣߚመଵหܺ൧
෣ = ටܸൣߚመଵหܺ൧෣ = ඨ ߪොଶ	∑ (ݔ௜ − ̅ݔ)ଶே௜ୀଵAtenção 2: para o exercícios que requerem o uso do R é preciso apresentar resultados 
gerados no R com o script fornecido. 
 (Q.4) Considerando apenas a amostra completa, explique porque o coeficiente de 
determinação, R2, é tão baixo – trata-se do número reportado pelo R como “Multiple R 
squared”. Fundamente sua explicação na fórmula do R2 e em um gráfico de dispersão 
que contenha a reta de regressão linear estimada e a média para a variável explicada, 
z_nutri. Para gerar tal gráfico, utilize a seção “gráfico combinado” do 
script_lista_2_corr_21_10. 
R: Em primeiro lugar, seria desejável que fosse calculado o R2, utilizando, para isso, os 
comandos do scripto_lista_2. Poucos alunos apresentaram o valor do R2, que é de 
0,01169, i.e., 1,2%. O modelo deixa por explicar, pois, aproximadamente 99% da 
variação de Y na amostra. 
Olhando para o gráfico combinado (reproduzido ao final desta resposta), é possível ver 
que a reta de regressão está muito próxima da média de Y, ao passo que há um número 
relevante de observações com valores para Y distantes da média desta variável. Ou 
seja, a soma dos quadrados explicada, SQE = ∑ (ݕො௜ − ݕത)ଶே௜ୀଵ é baixa e a soma dos 
quadrados total, SQT = ∑ (ݕ௜ − ݕത)ଶே௜ୀଵ é alta. O que quer dizer que a regressão 
acrescenta pouco, em termos de capacidade preditiva de Y, em relação à média, esta 
última podendo ser vista como uma técnica primitiva de previsão de Y, conforme 
esclarecido na primeira seção da nota 5, cujos gráficos são reproduzidos ao final desta 
5 
 
resposta, depois do gráfico combinado. É também preciso ter em conta a fórmula do 
R2: 
ݎଶ = ܵܳܧ
ܵܳܶ
= ∑ (ݕො௜ − ݕത)ଶே௜ୀଵ
∑ (ݕ௜ − ݕത)ଶே௜ୀଵ = 1 − ∑ ݑො௜ଶே௜ୀଵ∑ (ݕ௜ − ݕത)ଶே௜ୀଵ = 1 − ܴܵܳܵܳܶ 
Atenção: para o exercícios que requerem o uso do R é preciso apresentar resultados 
gerados no R com o script fornecido. 
 
Gráfico combinado deste exercício
 
 
Gráficos 
Gráficos da nota 5 para o conceito de R2 
 
6 
 
 
 
 
 
Figura 1 Visualizando o coeficiente de determinação: reta de regressão 
amostral para X e Y (linha vermelha), média de Y (linha pontilha horizontal) e 
duas observações (pontos A e B) 
 
 
 
 
 
7 
 
 
 
 
 
Figura 2 Visualizando a repartição da SQT em SQR e SQE

Continue navegando

Outros materiais