Prévia do material em texto
1 Prova #2 Econometria I Professor Thiago Fonseca Morello 1 Nome___________________________________________ RA________________ Turno_____________ 2 Instruções para resolução da prova 3 1. O tempo para resolução é de 2 horas: não será concedido tempo adicional; 4 2. Não ultrapassar o espaço reservado, no caderno de respostas (este documento) para a resolução de cada 5 questão: todo o texto escrito fora do espaço reservado será desconsiderado; 6 3. Será fornecido papel para rascunho em quantidade suficiente. Por favor, utilizar o rascunho para chegar 7 a respostas consistentes e concisas e reservar tempo para transcrevê-las neste caderno de respostas. Uma 8 hora e meia para elaborar as respostas (22,5 min. por questão) e meia hora para transcrever é 9 uma alocação adequada do tempo disponível. 10 (1) [2,5 pontos] Um pesquisador estimou a FRP abaixo. 11 log(salário) = β0 + β1anos_educ + β2exper + β3d_bca + β4d_indu + β5d_serv + β6d_apub + β7d_formal + 12 β8n_filhos + u (1) 13 Os resultados podem ser visualizados na tabela a seguir. Preencha, desconsiderando o intercepto, a coluna 14 “significativo (S/N)” com um “S” nas linhas da tabela 1 que correspondem a explicativas significativas a 15 5% e com um “N” nas linhas da tabela que corresponde a explicativas não significativas a 5%. 16 Nota: uma explicativa é não significativa quando não se pode rejeitar a hipótese de que seu coeficiente 17 tem valor populacional nulo. Sendo, pois, significativa caso seja possível rejeitar tal hipótese. 18 Considere que a teoria nada afirma quanto aos sinais dos coeficientes, i.e., o teste adequado é bicaudal. O 19 gráfico ao final do enunciado contém os valores críticos do teste. 20 Tabela 1 Resultados da estimação da FRP (1), preencher a coluna “significativo (S/N)” 21 Parâmetro Estimativas pontuais Desvios-padrão Estatísticas t Significativo (S/N) Intercepto 0,162 0,071 2,27 [Não marcar] anos_educ 0,079 0,003 25,23 S exper 0,012 0,001 11,61 S d_bca 0,040 0,021 1,89 N d_indu 0,031 0,067 0,47 N d_serv 0,090 0,063 1,44 N d_apub 0,187 0,075 2,49 S d_formal 0,146 0,022 6,70 S n_filhos -0,001 0,008 -0,18 N 22 Lendo o gráfico a seguir 23 As letras A, B e C indicam polígonos compreendidos entre a curva da distribuição t de Student e segmentos 24 específicos do eixo horizontal, quais sejam: [-4;-1.96], para a curva A, [-1.96;-1.65] para B e [-1.65;-1.28] 25 para C. As áreas dos polígonos são equivalentes a probabilidades acumuladas cujos valores são: 2,5% para 26 A, 2,5% para B e 5% para C. E analogamente para o segmento positivo do eixo horizontal. 27 2 Figura 1 Distribuição t de Student com 2.528 graus de liberdade 28 29 R: os valores críticos do teste são -1,96 e 1,96, dado que se trata de um teste bicaudal ao nível de 30 significância de 5%. As explicativas não individualmente significativas são d_bca, d_indu, d_serv e 31 n_filhos. 32 (2) [2,5 pontos] Um economista estimou, a partir da amostra da Pesquisa de Orçamentos Familiares (POF) 33 2008/2009 duas versões de um modelo linear que explica a demanda familiar por calorias, “Cal”. São elas: 34 Cal = β0 + β1preço_alimentos + β2preço_outros_bens + β3renda + ΓZ + u (1) 35 Cal = β0 + β1preço_alimentos + β2preço_outros_bens + β3renda + ΓZ + ΛW + u (2) 36 Z ≡ vetor com características da família, entre elas número de membros, idade dos membros, nível 37 educacional, etc. W ≡ vetor com características biofísicas e climáticas das localidades habitadas pelas 38 famílias da amostra, entre as quais temperatura anual média, nível de precipitação (chuvas), altitude (medida 39 em relação ao nível do mar), disponibilidade hídrica, qualidade do solo, etc. 40 Os resultados obtidos indicam um R2 ordinário (não ajustado) maior para o segundo modelo, mas, porém, 41 um R2 ajustado (ܴଶതതതത) maior para o primeiro modelo. Porque esta inconsistência entre as duas medidas do 42 coeficiente de determinação não pode ser vista como contraditória? Isto é, porque faz sentido, à luz dos 43 dados do enunciado, que tal inconsistência se manifeste? Justifique sua resposta com base nas fórmulas do 44 R2 ordinário e do R2 ajustado e também comparando as equações (1) e (2) deste enunciado. 45 R: A inconsistência tem como fundamento uma diferença crucial entre as duas medidas do coeficiente de 46 determinação (poder explicativo do modelo), R2 ordinário e R2 ajustado (ܴଶതതതത). Enquanto a primeira nunca é 47 reduzida com a inclusão de explicativas adicionais, o mesmo não pode ser dito da segunda, a qual pode cair 48 com uma expansão da FRP tal como a que se tem ao passar da equação (1) para a equação (2). De fato, a 49 queda do R2 ajustado ocorre quando a parcela da variação de Y que não é explicada pelas variáveis 50 independentes, medida pela soma dos quadrados dos resíduos (SQR), é reduzida, em resposta à 51 incorporação do vetor W, em magnitude não superior à redução no número de graus de liberdade 52 consumidos pela estimação dos coeficientes de W – coeficientes estes subsumidos a Λ. O cálculo abaixo, em 53 que são comparados os valores do R2 ajustado dos modelos (1) e (2) permite ver com clareza a relação 54 3 entre a variação do R2 ajustado e as variações da SQR e dos graus de liberdade (conforme consta na nota 55 de aula 8. 56 ܵ൫ܴଶ ଶതതതത − ܴଵ ଶതതതത൯ = ܵ ቆ൬ ܴܵܳଵ ܰ −ܭ − 1൰ − ൬ ܴܵܳଶܰ −ܭ − ܬ − 1൰ቇ (3) Em que S(.) é a função que informa o sinal de seu argumento, K é o número de explicativas do modelo 1 e 57 K+J o número de explicativas do modelo 2. Assim, pois, os graus de liberdade empregados no cálculo das 58 SQRs de cada modelo são N-K-1 para o primeiro e N-K-J-1 para o segundo. Mesmo com uma redução da 59 SQR, o R2 ajustado pode não aumentar e até mesmo cair, dada a redução no número de graus de liberdade 60 de N-K-1 para N-K-J-1. 61 Cabe acrescentar que a discrepância dos modelos em termos do R2 ordinário é dada por: 62 ܵ(ܴଶଶ − ܴଵଶ) = ܵ(ܴܵܳଵ − ܴܵܳଶ) (4) Os resultados apresentados no enunciado são suficientes para concluir que ao passar do modelo (1) para o 63 modelo (2), há uma redução na SQR, mas, porém, inferior à redução no número de graus de liberdade. Esta 64 é a única possibilidade consistente com a redução do R2 ajustado e com o aumento do R2 ordinário, 65 conforme atestam as expressões (3) e (4) acima. 66 Não há, conclusivamente, contradição entre o fato das duas medidas apontarem para modelos distintos. E 67 isso pois trata-se de medidas distintas, com apenas uma delas ( o R2 ajustado) penalizando a inclusão de 68 explicativas que pouco ou nada acrescentam ao poder explicativo do modelo. O que há, de fato, é um 69 equívoco que consiste em utilizar, como medida do poder explicativo de uma regressão múltipla, o R2 70 ordinário, pois este não penaliza a inclusão de explicativas que pouco ou nada contribuem para o poder 71 explicativo do modelo. A postura correta a ser tomada, na análise de regressão múltipla, é a de descartar o 72 R2 ordinário, considerando apenas o R2 ajustado. 73 (3) [2,5 pontos] Um pesquisador considera duas maneiras alternativas de mensurar a parcela do diferencial 74 salarial que se deve à discriminação de gênero pelo mercado de trabalho. 75 A primeira maneira consiste em estimar, com base na FRP (1), o coeficiente δ da binária d_fem que indica 76 com valor unitário o gênero feminino. 77 log(W) = β0 + β1educ + β2exper + β3exper_sq + ΓZ + δd_fem + u (1) 78 Em que W ≡ salário horário, educ ≡ nível educacional, exper ≡ experiência no mercado de trabalho, 79 exper_sq ≡ quadrado da experiência e Z ≡ vetor de características socioeconômicas adicionais. 80 A segunda maneira consiste no procedimento a seguir, proposto originalmente por Ronald Oaxaca: 81 1. Dividir a amostra em dois subgrupos, (i) o subgrupo de gênero masculino e (ii) o subgrupo de gênero 82 feminino. Estimar, separadamente,com os dados de cada um dos dois subgrupos, a FRP (2) abaixo: 83 log(W) = β0 + β1educ + β2exper + β3exper_sq + ΓZ + u (2) 84 2. Calcular o valor de ܦ = ∑ ቀߚመெ − ߚመிቁ ܺതതതெୀଵ , em que o sobrescrito “M” denota o gênero masculino e 85 o sobrescrito “F” o gênero feminino. D exclui as estimativas pontuais para os interceptos. 86 4 Porque D, a medida proposta por Oaxaca para a parcela da diferenciação salarial associada à discriminação 87 de gênero, é mais precisa do que a estimativa pontual de δ a partir da equação 1? 88 89 R: a medida de Oaxaca é mais precisa pois capta diferenças nos retornos das características 90 socioeconômicas existentes entre os grupos sociais. Ou seja, ela tem, em sua composição, medidas dos 91 graus em que o retorno da educação, da experiência, da formalização, etc, discrepam entre os grupos 92 sociais. O coeficiente da binária “d_fem” não incorpora as diferenças de retornos. Apesar de δ estar livre 93 da influência das explicativas em função das quais estes retornos se definem, este coeficiente não capta em 94 que medida o mercado remunera distintamente os gêneros masculino e feminino por um ano de educação a 95 mais ou por um aumento no nível de experiência. 96 Adicionalmente, cabe colocar que a medida de Oaxaca está livre do componente do diferencial salarial 97 inter-grupos sociais que reflete diferenças em características socioeconômicas outras que não o 98 pertencimento a um determinado grupo social. Por exemplo, pessoas do gênero feminino possuem, em 99 média, considerando os dados da PNAD, maior nível educacional do que pessoas do gênero masculino. Não 100 é correto, do ponto de vista da teoria ortodoxa, compreender a parcela do diferencial de remuneração 101 existente entre os dois grupos sociais associada ao diferencial de nível educacional como discriminação de 102 gênero. De fato, um mercado de trabalho com competição perfeita, mas contudo, sujeito à assimetria 103 informacional referente à produtividade intrínseca dos trabalhadores, atribuiria salários distintos para 104 indivíduos com níveis educacionais distintos, pertencendo, tais indivíduos, ao mesmo grupo de gênero ou 105 não. Esta segunda característica que também contribui para a precisão da medida de Oaxaca não é, 106 contudo, um diferencial em relação ao coeficiente δ da equação (1), dado que δ = 107 E[log(W)|X,d_fem=1] - E[log(W)|X,d_fem=0], em que X contém todas as explicativas da equação (1) 108 exceto d_fem. Deste modo, pois, o coeficiente δ capta o diferencial salarial entre indivíduos do gênero 109 feminino e masculino que diferem apenas em função desta característica socioeconômica, tendo, pois, níveis 110 equivalentes de educação, experiência, etc. De modo que é correto sustenta que δ também está livre da 111 influência de eventuais diferenças inter-pessoais em características socioeconômicas remuneradas pelo 112 mercado, como a educação. 113 114 (4) [2,5 pontos] Alguns equívocos foram cometidos ao transcrever a lista de proposições do Modelo 115 Clássico de Regressão Linear (MCRL) que consta no que segue. Identifique estes equívocos preenchendo a 116 lacuna ao final do enunciado com os números das proposições incorretas. Não informar os números das 117 proposições corretas, apenas das incorretas. 118 Atenção: os equívocos podem passar despercebidos em uma leitura rápida. Leia devagar e com 119 atenção. 120 Proposição 1 (teorema de Gauss-Markov): sob a validade das hipóteses do MCRL, o estimador de Mínimos 121 Quadrados Ordinários (MQO) é o estimador linear de menor variância entre todos os estimadores lineares. 122 Proposição 2: os estimadores de MQO têm a propriedade de ausência de viés apenas quando é válida a 123 hipótese de que E[ui|X] = 0, i=1,...,N. 124 Proposição 3: quanto maior a variabilidade da k-ésima explicativa, medida por ∑ (ݔ − ̅ݔ)ଶேୀଵ , menor a 125 variância do estimador para o k-ésimo coeficiente, mesmo com um nível crescente de correlação da k-ésima 126 explicativa com as demais explicativas. 127 5 Proposição 4 (teorema de Frisch-Waugh): Seja considerada a FRP abaixo. 128 Y = β0 + βX + ρz + u 129 Em que X é um vetor de explicativas e z é uma única explicativa (escalar), não incluída em X. 130 O coeficiente de z, denotador por “ρ”, pode ser estimado a partir do procedimento de três estágios a seguir. 131 Primeiro estágio: rodar a regressão de z contra X. Ou seja, estimar o modelo: 132 z = α0 + α1X + e (1) 133 Segundo estágio: rodar a regressão de y contra X, estimando: 134 Y = γ0 + γ1X + ∊ (2) 135 Terceiro estágio: rodar a regressão do resíduo ∊ො da regressão (2) contra z: 136 ∊ො = γ0 + γ1ݖ + ξ (3) 137 Resposta da questão 4 138 Preencha a lacuna: as proposições incorretas [marcar apenas os números] são: 139 R: 1,3 e 4 140 Apenas as proposições incorretas serão comentadas. A proposição 1 está incorreta pois o enunciado do 141 teorema de Gauss-Markov sustenta que o estimador de MQO para os parâmetros da FRP tem menor 142 variância na categoria dos estimadores lineares não-viesados. A redação do enunciado dá a entender que a 143 proposição se estende para toda a categoria de estimadores lineares, sejam eles viesados ou não-viesados, 144 o que é incorreto. A proposição 3 é equivocada, pois correlação crescente entre a k-ésima explicativa e as 145 demais significa que a primeira representa conteúdo informacional redundante e, quanto maior esta 146 redundância, maior a variância do estimador do k-ésimo coeficiente. Uma medida de tal redundância é o 147 R2k o qual, segundo a fórmula da variância do estimador de k-ésimo coeficiente a seguir, tem influência 148 positiva sobre a tal variância. 149 ܸ ቂߚመெொைቚܺቃ = ߪଶ∑ (ݔ − ̅ݔ)ଶேୀଵ (1 − ܴଶ) A fórmula acima mostra que, mesmo com ∑ (ݔ − ̅ݔ)ଶேୀଵ crescente, se ܴଶ é crescente, então não 150 necessariamente a variância do estimador do k-ésimo coeficiente é cadente. 151 A proposição 4 está equivocada, pois, no último estágio, é preciso, para obter a estimativa pontual para ρ, 152 regredir ∊ො contra ݁̂ e não contra z. Veja que o primeiro estágio não teria sentido algum caso fosse 153 suficiente, para eliminar a influência de X, regredir ∊ො contra z (retomar a nota de aula 7). 154 Em síntese, as proposições incorretas são as de números 1,3 e 4. 155 156