Baixe o app para aproveitar ainda mais
Prévia do material em texto
Exercícios: soluções propostas 1. No Exercício 4.11 o R-quadrado da estimativa do modelo log(𝑠𝑎𝑙á𝑟𝑖𝑜) = 𝛽0 + 𝛽1 log(𝑣𝑎𝑙𝑚𝑒𝑟𝑐) + 𝛽3𝑙𝑢𝑐𝑟𝑚𝑎𝑟𝑔 + 𝛽4𝑝𝑒𝑟𝑐𝑒𝑜 + 𝛽5𝑝𝑒𝑟𝑐𝑜𝑚𝑝 + 𝑢 era 𝑅2 = 0,353 n (=177). Quando 𝑝𝑒𝑟𝑐𝑒𝑜2 e 𝑝𝑒𝑟𝑐𝑜𝑚𝑝2 são adicionados, 𝑅2 = 0,375. Existe evidência de má-especificação da forma funcional neste modelo? Solução: Não uma má especificação da forma funcional 𝛽6 ≠ 0 e 𝛽7 ≠ 0 onde estes são os parâmetros populacionais em 𝑝𝑒𝑟𝑐𝑒𝑜2 e 𝑝𝑒𝑟𝑐𝑜𝑚𝑝2, respectivamente. Por isso, testamos a significância conjunta destas variáveis usando o 𝑅2 no teste F: F = [ (.375 − .353)/(1 − .375)][(177 – 6)/2] =3.0096. Com 2 e ∞ gl o valor crítico de 10% é 2.30 o valor crítico de 5% é 3.00. Assim, o valor-p está ligeiramente acima .05, que é uma prova razoável de da má especificação da forma funcional. (Claro, se isso tem um impacto prático sobre os efeitos parciais estimadas para vários níveis das variáveis explicativas é uma questão diferente). 2. Seja mat10 a percentagem de aprovação em um teste padrão de matemática de estudantes de uma escola secundária. Estamos interessados em estimar o efeito do gasto por estudante no desempenho em matemática. Um modelo simples é: 𝑚𝑎𝑡10 = 𝛽0 + 𝛽1 log(𝑔𝑎𝑠𝑡𝑜) + 𝛽2 log(𝑚𝑎𝑡𝑟𝑖𝑐𝑙) + 𝛽3𝑝𝑜𝑏𝑟𝑒𝑧𝑎 + 𝑢 Onde: matricl=número de matriculados; pobreza=percentagem de estudantes vivendo em condições de pobreza. A variável progme é a percentagem de estudantes qualificados para o programa de merenda escolar financiado pelo governo federal. Ela é uma boa Proxy de pobreza? Por quê? Solução: A elegibilidade para o programa de merenda escolar financiado pelo governo federal está muito ligada a ser economicamente desfavorecido. Portanto, o percentual de estudantes elegíveis para o programa de merenda é muito semelhante ao percentual de estudantes que vivem na pobreza. 3. A equação seguinte explica o número de horas por semana que uma criança passa assistindo televisão, em termos da idade da criança, educação da mãe, educação do pai e número de irmãos: 𝑡𝑣ℎ𝑜𝑟𝑎𝑠∗ = 𝛽0 + 𝛽1𝑖𝑑𝑎𝑑𝑒 + 𝛽2𝑖𝑑𝑎𝑑𝑒 2 + 𝛽3𝑒𝑑𝑢𝑐𝑚 + 𝛽4𝑒𝑑𝑢𝑐𝑝 + 𝛽5𝑖𝑟𝑚𝑠 + 𝑢 Estamos preocupados com a possibilidade de que 𝑡𝑣ℎ𝑜𝑟𝑎𝑠∗ tenha sido medida com erro em nossa pesquisa. Seja 𝑡𝑣ℎ𝑜𝑟𝑎𝑠 o número de horas por semana que se gasta assistindo televisão. O que as hipóteses do erro clássico nas variáveis (CEV) requerem nesta aplicação? Solução: Pelas hipóteses do erro clássico nas variáveis, precisamos escrever: 𝑡𝑣ℎ𝑜𝑢𝑟𝑠 = 𝑡𝑣ℎ𝑜𝑢𝑟𝑠∗ + 𝑒0. Em que: 𝑒0 é o erro de medida com 𝐸(𝑒0) = 0, ou seja, tem média zero e não está correlacionada com 𝑡𝑣ℎ𝑜𝑢𝑟𝑠∗ e cada variável explicativa na equação. 4. Qual a motivação para o uso da estimação por variáveis instrumentais? Solução: Abordagem diferente para o problema de endogeneidade: i) métodos da VI podem ser usados para se obter estimadores consistentes na presença de variáveis omitidas. ii) métodos da VI também podem ser usados para resolver erros de medida. A regressão de variáveis instrumentais (VI) é uma forma geral de se obter um estimador consistente dos coeficientes desconhecidos da regressão da população quando o regressor 𝑥, está correlacionado com o termo de erro. 5. Considere um modelo de regressão simples para estimar o efeito da propriedade de um computador pessoal (PC) na nota média de graduação de formados de uma grande universidade pública: 𝑠𝑢𝑝𝐺𝑃𝐴 = 𝛽0 + 𝛽1𝑃𝐶 + 𝑢 Em que 𝑃𝐶 é uma variável binária que indica a propriedade de um 𝑃𝐶. a) Por que a propriedade de um 𝑃𝐶 pode estar correlacionada com 𝑢? Solução: Está bastante bem estabelecido que o status socioeconômico afeta o desempenho do aluno. O termo de erro pode conter, entre outras coisas, a renda familiar, que tem um efeito positivo no GPA e também é muito provável que seja correlacionado com a propriedade do PC. b) Explique por que 𝑃𝐶 possivelmente está relacionado à renda anual dos pais. Isso significa que a renda dos pais será uma boa VI de 𝑃𝐶? Por quê? Solução: As famílias com rendimentos mais elevados podem comprar computadores para seus filhos. Portanto, a renda familiar certamente satisfaz o requisito para uma variável instrumental: está correlacionada com a variável explicativa endógena [𝐶𝑜𝑣(𝑧, 𝑥) ≠ 0]. Mas, como sugerimos na parte (i), a renda da família tem um efeito positivo no GPA, então o requisito para uma boa IV (exogeneidade do instrumento: 𝐶𝑜𝑣(𝑧, 𝑢) = 0), falha para renda. Se tivéssemos a renda anual dos pais, nós a incluiríamos como uma variável explicativa na equação. Se for a única variável omitida importante correlacionada com o PC, então podemos estimar a equação expandida pela MQO. 6. Suponha que você queria estimar o efeito da frequência às aulas sobre o desempenho dos alunos. Um modelo básico é: 𝑟𝑒𝑠𝑝𝑎𝑑 = 𝛽0 + 𝛽1𝑡𝑎𝑥𝑎𝑓𝑟𝑒𝑞 + 𝛽2𝑝𝑟𝑠𝐺𝑃𝐴 + 𝛽3𝐴𝐶𝑇 + 𝑢 Em que 𝑟𝑒𝑠𝑝𝑎𝑑 é o resultado padronizado do exame final, 𝑡𝑎𝑥𝑎𝑓𝑟𝑒𝑞 corresponde a taxa de frequência escola, 𝑝𝑟𝑠𝐺𝑃𝐴 é a média geral das notas em curso superior e 𝐴𝐶𝑇 é a nota do teste de avaliação de conhecimentos para ingresso em curso superior nos Estados Unidos. a) Defina 𝑑𝑖𝑠𝑡 como a distância da residência do aluno até o local de estudos. Você considera que 𝑑𝑖𝑠𝑡 é não correlacionada com 𝑢? Solução: Parece razoável assumir que distância e 𝑒𝑟𝑟𝑜 não estão correlacionados, pois as salas de aula geralmente não são designadas com conveniência para estudantes específicos em mente. b) Supondo que 𝑑𝑖𝑠𝑡 e 𝑢 sejam não correlacionados, que outra hipótese 𝑑𝑖𝑠𝑡 terá que satisfazer para ser uma 𝑉𝐼 válida de 𝑡𝑎𝑥𝑎𝑓𝑟𝑒𝑞? Solução: Relevância do instrumento: 𝐶𝑜𝑣(𝑧, 𝑥) ≠ 0, ou seja: A variável dist deve estar parcialmente correlacionada com 𝑡𝑎𝑥𝑎𝑓𝑟𝑒𝑞. Mais precisamente, na forma reduzida 𝑡𝑎𝑥𝑎𝑓𝑟𝑒𝑞 = 𝜋0 + 𝜋1𝑝𝑟𝑠𝐺𝑃𝐴 + 𝜋2𝐴𝐶𝑇 + 𝜋3𝑑𝑖𝑠𝑡 + 𝑢 Devemos ter 𝜇3 ≠ 0. 0. Dada uma amostra de dados, podemos testar 𝐻0: 𝜋3 = 0 contra 𝐻1: 𝜋3 ≠ 0 usando uma estatística 𝑡. 7. Considere a seguinte tabela com resultados de MQO, com e sem progme como variável explicativa. Variável Dependente: mat10 Variáveis independentes (1) (2) Log(gasto) 11,13 (3,30) 7,75 (3,04) Log(matricl) 0,022 (0,615) -1,26 (0,58) Progme - -0,324 (0,036) Intercepto -69,24 (26,72) -23,14 (24,99) Observações R2 428 0,0297 428 0,1893 Nota: Desvio-padrão entre parênteses. a) Explique por que o efeito dos gastos sobre mat10 é menor na coluna 2 do que na coluna1. O efeito na coluna 2 ainda é estatisticamente maior que zero? Solução: Adicionar a variável progme na coluna (2) fez com que a variação em mat10 fosse “distribuída” entre os demais determinantes do desempenho dos alunos em matemática, tendo em vista que todas as variáveis {log(gasto), log(matricl), progme} são significativas ao nível de significância de 5%. Os gastos continuam sendo estatisticamente diferentes de 0 (zero): a estatística t referente a log(gasto) é 7,75/3,04 = 2,549; portanto, tcalculado = 2,549 > ttabelado = 1,96, rejeita H0. Ou seja, rejeita-se a hipótese de que os gastos {log(gasto)} não tenham efeito sobre o desempenho dos alunos em matemática (mat10). b) O que se pode dizer sobre o efeito do tamanho das escolas (em no. de matriculados) sobre as taxas de aprovação? Solução: Na coluna (1), sem a inclusão de progme, o número de matriculados não tinha efeito estatisticamente significativo sobre o desempenho dos alunos em matemática. Ademais, vale notar que o coeficiente possui o sinal positivo, diferente do esperado. Já na coluna (2), após inclusão de progme, o númerode matriculados tem efeito negativo sobre o desempenho dos alunos, significativo a 5% (tcalculado = 2,172 > ttabelado = 1,96, rejeita H0: log(matricl) = 0). De outra forma, há 95% de confiança de que quanto maior o número de matriculados na escola, menor o desempenho do aluno. c) Interprete o coeficiente de progme na coluna 2. Solução: Pode-se inferir que, ser “pobre” reduz o desempenho do aluno em matemática em 0,324, ao nível de significância de 1% {tcalculado = 9 > ttabelado = 2,64 (α = 0,01), rejeita H0: progme = 0}. d) O que você deduz sobre o substancial aumento de R2 da coluna 1 para a coluna 2? Solução: O aumento do grau de ajustamento do modelo foi devido à inclusão da variável progme no modelo: uma variável relevante que não havia sido considerada em (1). Dessa forma, percebe-se, pelas estatísticas e pelo maior ajustamento, que o modelo (1) incorria em viés de variável omitida resolvida pela proxy de pobreza. Diante de toda discussão, portanto, pode-se afirmar que a inclusão de progme no modelo é importante e, por conseguinte, progme é uma boa proxy para pobreza. 8. Quando usamos modelos de equação simultâneas? O que é o viés de simultaneidade em MQO? Como identificar e estimar a equação estrutural? Solução: A utilização de um MES é devido à outra importante forma de endogeneidade de variáveis explicativas, a saber, simultaneidade. Ela surge quando uma ou mais das variáveis explicativas são determinadas conjuntamente com a variável explicativa, em geral por meio de um mecanismo de equilíbrio. Seja o modelo estrutural de um sistema de 2 equações e 2 incógnitas: 𝑦1 = 𝛼1𝑦2 + 𝛽1𝑧1 + 𝑢1 (1) 𝑦2 = 𝛼2𝑦1 + 𝛽2𝑧2 + 𝑢2 Suponha que se deseje estimar a equação (1). Então: 𝑦2 = 𝛼2(𝛼1𝑦2 + 𝛽1𝑧1 + 𝑢1) + 𝛽2𝑧2 + 𝑢2 (1 − 𝛼2𝛼1)𝑦2 = 𝛼2𝛽1𝑧1 + 𝛽2𝑧2 + 𝛼2𝑢1 + 𝑢2 Para solucionar para 𝑦2 temos: 𝛼2𝛼1 ≠ 1 Que pode ser reescrito como: 𝑦2 = 𝜋21𝑧1 + 𝜋22𝑧2 + 𝑣2 Parâmetros na forma reduzida (funções não lineares dos parâmetros estruturais): 𝜋21 = 𝛼2𝛽1 (1−𝛼2𝛼1) , 𝜋22 = 𝛽2 (1−𝛼2𝛼1) , 𝑣2 = (𝛼2𝑢1+𝑢2) (1−𝛼2𝛼1) Para que o estimador de MQO da primeira equação seja consistente, é necessário que 𝐶𝑜𝑣 (𝑢1, 𝑦2) = 0. Ou seja, a covariância entre 𝑢1 e cada termo que compõe 𝑦2 (na forma reduzida) deve ser nula. Mas a forma reduzida do modelo mostra explicitamente que y2 também depende de 𝑢1. Logo, é evidente que, em geral, há correlação entre 𝑦2 e 𝑢1. Portanto, o estimador de MQO aplicado à equação é viesado e inconsistente! Esse tipo de viés do estimador de MQO é denominado viés de equações simultâneas ou simplesmente viés de simultaneidade. Portanto, dizemos que MQO sofre de viés de simultaneidade quando𝑦2 for correlacionado com 𝑢1. Identificação: Seja 𝑧1 todas as variáveis exógenas na 1ª equação, e 𝑧2 todas as variáveis exógenas na 2ª equação. Para identificar a 1ª equação, é necessário que algumas variáveis em 𝑧2 não estejam em 𝑧1. Já para identificar a 2ª equação, é necessário que algumas variáveis em 𝑧1 não estejam em 𝑧2. A identificação, portanto, requer a condição de posto (condição suficiente para identificação). Note que a variável exógena excluída da 1ª equação tem que ter um coeficiente diferente de zero na segunda equação para que a condição de posto se mantenha. A condição de ordem (condição necessária para identificação) claramente se mantém se a condição de posto é mantida – existirá uma variável exógena para a variável considerada endógena. Estimação: Para estimar a equação estrutural é necessária que a equação seja identificada. Garantida a identificação, pode-se estimar a equação por MQ2E utilizando como variáveis instrumentais, as variáveis exógenas que aparecem em cada equação. 9. Desenvolva um modelo de equações simultâneas para a oferta e demanda de dentistas no Brasil. Especifique as variáveis endógenas e exógenas do modelo. Solução: Ver exemplos 16.3 e 16.4 do livro (páginas 519 e 520) Referência: WOOLDRIDGE, J.M. Introdução à Econometria: uma abordagem moderna. 4ª ed. São Paulo: Pioneira Thomson Learning, 22015. (Capítulo 16).
Compartilhar