Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 Econometria I Lista de exercícios # 2 Gabarito Thiago Fonseca Morello fonseca.morello@ufabc.edu.br sala 301, Bloco Delta, SBC Resultados perniciosos da prática de cópia irrefletida de uma resposta Aproximadamente 23 alunos apresentaram a mesma resposta para a questão 4 a qual, no caso, estava não apenas insuficiente, mas errada. Errada por afirmar que o fato do R2 ser baixo tem como fundamento uma FRA positivamente inclinada o que seria contra- intuitivo. Em primeiro lugar, o sinal da inclinação da FRA, i.e., o sinal da estimativa pontual para o coeficiente da FRP, nada tem a ver com a magnitude do R2. Em segundo lugar, segundo discutido na sala de aula e nos dois laboratórios, o intuitivo, i.e., a possibilidade consistente com a teoria, é exatamente que a FRA em que a medida de desnutrição é explicada apenas em função da renda familiar per capita seja positivamente inclinada. A conclusão que deve ser retirada disso é uma só: a melhor maneira de evitar um equívoco de tal proporção é em primeiro lugar estudando e, em segundo lugar, fazendo, de fato, a lista de exercício, o que quer dizer refletir seriamente sobre os exercícios, vendo nesta reflexão uma etapa imprescindível do aprendizado. Lamento que alguns alunos estejam preferindo queimar esta etapa o que sem dúvida repercutirá no acúmulo de um conhecimento limitado e até mesmo equivocado. É claro para mim que os 23 alunos copiaram, sem pensar no que estavam escrevendo, a resposta elaborada por um deles. Este comportamento tem de ser corrigido imediatamente, dado o prejuízo de aprendizado já mencionado e, no curto, prazo o fato de que se trata de uma rota de alta probabilidade de reprovação. 2 A resolução desta lista deve ser escrita à mão e entregue ao professor, na sala de aula, até no máximo dia 29 de Outubro (data da primeira prova). Ela deve conter, no máximo, 4 páginas (ou 2 folhas frente e verso). Caso haja páginas além deste limite, elas serão desconsideradas. Todos os exercícios têm o mesmo valor, 2,5 pontos. A cópia de resoluções será punida com a anulação das listas entregues por todos os possíveis envolvidos. (Texto para as questões 1 e 2) A equação abaixo explica o desempenho no ENEM 2013, “nota_ENEM”, de um aluno que concluiu ensino médio no ano de 2013 em função do valor da mensalidade, “mensalidade”, da escola em que o aluno cursou o ensino médio. O valor da mensalidade é uma proxy para a qualidade da escola. Apenas alunos que estudaram em escolas particulares são considerados. Nota_ENEMi = β0 + β1mensalidadei + ui (Q.1) Selecione um fator (variável aleatória) que você acredita explicar o desempenho do ENEM, mas que, estando omitido da equação, é captado pelo termo de perturbação, “ui”. Explique com detalhe porque este fator influencia a variável dependente. R: esta questão não tem uma resposta única. Uma resposta adequada deve selecionar um fator e prover uma explicação que faça sentido (preferencialmente com base na teoria econômica) para a relação entre o fator omitido proposto e a variável explicada. Alguns fatores mencionados pelos alunos: horas de estudo, desempenho do aluno no ensino médio, se o aluno se dedica exclusivamente ao estudo ou não. Atenção: um número importante de alunos não apresentou uma explicação detalhada, como pedido no enunciado, para a relação entre o fator omitido e a variável dependente, o que, mesmo tendo sido tolerado desta vez (i.e., não tendo sido descontado da nota), não será tolerado nas provas. (Q.2) Os estimadores de mínimos quadrados ordinários (MQO) para os parâmetros β0 e β1 manteriam a propriedade de ausência de viés caso um dos fatores captados pelo termo de perturbação fossem correlacionados com o valor da mensalidade? Justifique retomando a demonstração de ausência de viés para os estimadores de MQO. R: aqui é preciso retomar a relação entre a hipótese de exogeneidade e as expressões para os vieses dos estimadores, i.e, de que ܧ[ݑ|ܺ] = 0 e cov(xi,ui), tal como explicado na última seção da nota de aula 5. De fato, com cov(xi,ui) ≠ 0, conforme coloca o enunciado, ܧ[ݑ|ܺ] ≠ 0 e os estimadores do coeficiente e do intercepto serão viesados. Para verificar esta última afirmação, basta retomar os fatos a seguir, oriundos das demonstrações de ausência de viés para os dois estimadores. A expressão ܤ[. |ܺ] a seguir denota as fórmulas dos vieses para os estimadores. 3 ܤൣߚመଵหܺ൧ = ∑ ܧ[ݑ|ܺ](ݔ − ̅ݔ)ேୀଵ∑ (ݔ − ̅ݔ)ଶேୀଵ ܤൣߚመหܺ൧ = ܰିଵ ൭ܧൣߚଵ − ߚመଵหܺ൧ ݔே ୀଵ + ܧ[ݑ|ܺ]ே ୀଵ ൱ Apenas com ܧ[ݑ|ܺ] =0 teremos ܤൣߚመଵหܺ൧ = 0 e ܤൣߚመหܺ൧ = 0. Atenção: alguns alunos, em suas respostas, afirmaram que ausência de viés pressupõe ausência de correlação entre o termo de perturbação e os valores populacionais dos parâmetros da FRP, β0 e β1. Ou então que é preciso ter ausência de correlação entre a variável explicativa e os valores populacionais. As duas afirmações são equivocadas, pois os valores populacionais dos parâmetros, β0 e β1, são constantes, valores invariáveis e, portanto, não são variáveis aleatórias, logo é incorreto aplicar o conceito de correlação a eles. A ausência de correlação que deve prevalecer para que se tenha ausência de viés é a que se refere ao termo de perturbação, ui, e à variável explicativa, X. (Texto para as questões 3 e 4) A regressão simples abaixo explica a severidade de desnutrição infantil, medida pelo déficit de altura-para-idade, z_nutri, em função da renda familiar, renda_percapita. São consideradas apenas crianças de zero a cinco anos de idade. z_nutrii = β0 + β1renda_percapitai + ui Para responder às questões a seguir, realize o procedimento de dois estágios que segue, utilizando, para isso, (i) o arquivo de dados “dados_lista_2” e (ii) os comandos detalhados no arquivo script_lista_2_corr_21_10. Estes dois arquivos podem ser encontrados na pasta “laboratórios” do repositório da disciplina no TIDIA. 1. Rode a regressão acima para toda a amostra; 2. Agora rode a regressão apenas para a fração da amostra que capta o estado do Rio de Janeiro; (Q.3) Porque o desvio padrão do estimador para o coeficiente é inferior na amostra completa? Explique tomando por base a fórmula do desvio padrão para o estimador do coeficiente. R: Basta relembrar que o desvio padrão do estimador do coeficiente é dado por: ܦܲൣߚመଵหܺ൧ = ටܸൣߚመଵหܺ൧ = ඨ ߪොଶ ∑ (ݔ − ̅ݔ)ଶேୀଵ = ට 1ܰ − 2 ܴܵܳඥܸܰܣܴ(ܺ) A variabilidade de X, medida por ଵ ே ∑ (ݔ − ̅ݔ)ଶேୀଵ , é menor na amostra completa (maior na amostra apenas para o Rio de Janeiro), basta entrar, no R, com os comandos 4 var(sub$renda_percapita) e var(sub_RJ$renda_percapita) para verificar. A soma dos quadrados dos resíduos, SQR = ∑ ݑො ଶே ୀଵ é maior na amostra completa. Para verificar este último fato, é preciso utilizar o comando deviance(mqo) e deviance(mqo_RJ), sendo que a função deviance() calcula a soma dos quadrados dos resíduos para os objetos que armazenam as regressões. Este último comando não consta no script enviado para os alunos, então não foi descontada nota por falta da apresentação do valor da SQR. Uma resposta adequada deveria contemplar uma discussão em torno dos componentes da fórmula acima, em que se seja discutido quais devem ser os valores relativos de cada um deles (comparando as duas amostras) para que o valor do desvio padrão do estimador seja inferior na amostra completa. Atenção 1: a maior parte dos alunos fundamentou sua resposta na fórmula do estimador não-viesado da variância padrão dos resíduo, ߪොଶ = ଵ ேିଶ ∑ ݑො ଶே ୀଵ . Tal estimador é apenas um dos componentes do estimador da variância do estimador do coeficiente da FRP. A fórmula correta em que a resposta deveria ser fundamentada é, conforme colocado acima: ܦܲൣߚመଵหܺ൧ = ටܸൣߚመଵหܺ൧ = ඨ ߪොଶ ∑ (ݔ − ̅ݔ)ଶேୀଵAtenção 2: para o exercícios que requerem o uso do R é preciso apresentar resultados gerados no R com o script fornecido. (Q.4) Considerando apenas a amostra completa, explique porque o coeficiente de determinação, R2, é tão baixo – trata-se do número reportado pelo R como “Multiple R squared”. Fundamente sua explicação na fórmula do R2 e em um gráfico de dispersão que contenha a reta de regressão linear estimada e a média para a variável explicada, z_nutri. Para gerar tal gráfico, utilize a seção “gráfico combinado” do script_lista_2_corr_21_10. R: Em primeiro lugar, seria desejável que fosse calculado o R2, utilizando, para isso, os comandos do scripto_lista_2. Poucos alunos apresentaram o valor do R2, que é de 0,01169, i.e., 1,2%. O modelo deixa por explicar, pois, aproximadamente 99% da variação de Y na amostra. Olhando para o gráfico combinado (reproduzido ao final desta resposta), é possível ver que a reta de regressão está muito próxima da média de Y, ao passo que há um número relevante de observações com valores para Y distantes da média desta variável. Ou seja, a soma dos quadrados explicada, SQE = ∑ (ݕො − ݕത)ଶேୀଵ é baixa e a soma dos quadrados total, SQT = ∑ (ݕ − ݕത)ଶேୀଵ é alta. O que quer dizer que a regressão acrescenta pouco, em termos de capacidade preditiva de Y, em relação à média, esta última podendo ser vista como uma técnica primitiva de previsão de Y, conforme esclarecido na primeira seção da nota 5, cujos gráficos são reproduzidos ao final desta 5 resposta, depois do gráfico combinado. É também preciso ter em conta a fórmula do R2: ݎଶ = ܵܳܧ ܵܳܶ = ∑ (ݕො − ݕത)ଶேୀଵ ∑ (ݕ − ݕത)ଶேୀଵ = 1 − ∑ ݑොଶேୀଵ∑ (ݕ − ݕത)ଶேୀଵ = 1 − ܴܵܳܵܳܶ Atenção: para o exercícios que requerem o uso do R é preciso apresentar resultados gerados no R com o script fornecido. Gráfico combinado deste exercício Gráficos Gráficos da nota 5 para o conceito de R2 6 Figura 1 Visualizando o coeficiente de determinação: reta de regressão amostral para X e Y (linha vermelha), média de Y (linha pontilha horizontal) e duas observações (pontos A e B) 7 Figura 2 Visualizando a repartição da SQT em SQR e SQE
Compartilhar