prova_2_matutino_gabarito

Econometria

•
UNIFESP

Julio Cezar
22/12/2014
Prévia do material em texto
1 
 
Prova #2 Econometria I Professor Thiago Fonseca Morello 1 
Nome___________________________________________ RA________________ Turno_____________ 2 
Instruções para resolução da prova 3 
1. O tempo para resolução é de 2 horas: não será concedido tempo adicional; 4 
2. Não ultrapassar o espaço reservado, no caderno de respostas (este documento) para a resolução de cada 5 
questão: todo o texto escrito fora do espaço reservado será desconsiderado; 6 
3. Será fornecido papel para rascunho em quantidade suficiente. Por favor, utilizar o rascunho para chegar 7 
a respostas consistentes e concisas e reservar tempo para transcrevê-las neste caderno de respostas. Uma 8 
hora e meia para elaborar as respostas (22,5 min. por questão) e meia hora para transcrever é 9 
uma alocação adequada do tempo disponível. 10 
(1) [2,5 pontos] Um pesquisador estimou a FRP abaixo. 11 
log(salário) = β0 + β1anos_educ + β2exper + β3d_bca + β4d_indu + β5d_serv + β6d_apub + β7d_formal + 12 
β8n_filhos + u (1) 13 
Os resultados podem ser visualizados na tabela a seguir. Preencha, desconsiderando o intercepto, a coluna 14 
“significativo (S/N)” com um “S” nas linhas da tabela 1 que correspondem a explicativas significativas a 15 
5% e com um “N” nas linhas da tabela que corresponde a explicativas não significativas a 5%. 16 
Nota: uma explicativa é não significativa quando não se pode rejeitar a hipótese de que seu coeficiente 17 
tem valor populacional nulo. Sendo, pois, significativa caso seja possível rejeitar tal hipótese. 18 
Considere que a teoria nada afirma quanto aos sinais dos coeficientes, i.e., o teste adequado é bicaudal. O 19 
gráfico ao final do enunciado contém os valores críticos do teste. 20 
Tabela 1 Resultados da estimação da FRP (1), preencher a coluna “significativo (S/N)” 21 
Parâmetro Estimativas pontuais Desvios-padrão Estatísticas t Significativo (S/N) 
Intercepto 0,162 0,071 2,27 [Não marcar] 
anos_educ 0,079 0,003 25,23 S 
exper 0,012 0,001 11,61 S 
d_bca 0,040 0,021 1,89 N 
d_indu 0,031 0,067 0,47 N 
d_serv 0,090 0,063 1,44 N 
d_apub 0,187 0,075 2,49 S 
d_formal 0,146 0,022 6,70 S 
n_filhos -0,001 0,008 -0,18 N 
 22 
Lendo o gráfico a seguir 23 
As letras A, B e C indicam polígonos compreendidos entre a curva da distribuição t de Student e segmentos 24 
específicos do eixo horizontal, quais sejam: [-4;-1.96], para a curva A, [-1.96;-1.65] para B e [-1.65;-1.28] 25 
para C. As áreas dos polígonos são equivalentes a probabilidades acumuladas cujos valores são: 2,5% para 26 
A, 2,5% para B e 5% para C. E analogamente para o segmento positivo do eixo horizontal. 27 
2 
 
Figura 1 Distribuição t de Student com 2.528 graus de liberdade 28 
 29 
R: os valores críticos do teste são -1,96 e 1,96, dado que se trata de um teste bicaudal ao nível de 30 
significância de 5%. As explicativas não individualmente significativas são d_bca, d_indu, d_serv e 31 
n_filhos. 32 
 (2) [2,5 pontos] Um economista estimou, a partir da amostra da Pesquisa de Orçamentos Familiares (POF) 33 
2008/2009 duas versões de um modelo linear que explica a demanda familiar por calorias, “Cal”. São elas: 34 
Cal = β0 + β1preço_alimentos + β2preço_outros_bens + β3renda + ΓZ + u (1) 35 
Cal = β0 + β1preço_alimentos + β2preço_outros_bens + β3renda + ΓZ + ΛW + u (2) 36 
Z ≡ vetor com características da família, entre elas número de membros, idade dos membros, nível 37 
educacional, etc. W ≡ vetor com características biofísicas e climáticas das localidades habitadas pelas 38 
famílias da amostra, entre as quais temperatura anual média, nível de precipitação (chuvas), altitude (medida 39 
em relação ao nível do mar), disponibilidade hídrica, qualidade do solo, etc. 40 
Os resultados obtidos indicam um R2 ordinário (não ajustado) maior para o segundo modelo, mas, porém, 41 
um R2 ajustado (ܴଶതതതത) maior para o primeiro modelo. Porque esta inconsistência entre as duas medidas do 42 
coeficiente de determinação não pode ser vista como contraditória? Isto é, porque faz sentido, à luz dos 43 
dados do enunciado, que tal inconsistência se manifeste? Justifique sua resposta com base nas fórmulas do 44 
R2 ordinário e do R2 ajustado e também comparando as equações (1) e (2) deste enunciado. 45 
R: A inconsistência tem como fundamento uma diferença crucial entre as duas medidas do coeficiente de 46 
determinação (poder explicativo do modelo), R2 ordinário e R2 ajustado (ܴଶതതതത). Enquanto a primeira nunca é 47 
reduzida com a inclusão de explicativas adicionais, o mesmo não pode ser dito da segunda, a qual pode cair 48 
com uma expansão da FRP tal como a que se tem ao passar da equação (1) para a equação (2). De fato, a 49 
queda do R2 ajustado ocorre quando a parcela da variação de Y que não é explicada pelas variáveis 50 
independentes, medida pela soma dos quadrados dos resíduos (SQR), é reduzida, em resposta à 51 
incorporação do vetor W, em magnitude não superior à redução no número de graus de liberdade 52 
consumidos pela estimação dos coeficientes de W – coeficientes estes subsumidos a Λ. O cálculo abaixo, em 53 
que são comparados os valores do R2 ajustado dos modelos (1) e (2) permite ver com clareza a relação 54 
3 
 
entre a variação do R2 ajustado e as variações da SQR e dos graus de liberdade (conforme consta na nota 55 
de aula 8. 56 
ܵ൫ܴଶ
ଶതതതത − ܴଵ
ଶതതതത൯ = ܵ ቆ൬ ܴܵܳଵ
ܰ −ܭ − 1൰ − ൬ ܴܵܳଶܰ −ܭ − ܬ − 1൰ቇ	(3) 
Em que S(.) é a função que informa o sinal de seu argumento, K é o número de explicativas do modelo 1 e 57 
K+J o número de explicativas do modelo 2. Assim, pois, os graus de liberdade empregados no cálculo das 58 
SQRs de cada modelo são N-K-1 para o primeiro e N-K-J-1 para o segundo. Mesmo com uma redução da 59 
SQR, o R2 ajustado pode não aumentar e até mesmo cair, dada a redução no número de graus de liberdade 60 
de N-K-1 para N-K-J-1. 61 
Cabe acrescentar que a discrepância dos modelos em termos do R2 ordinário é dada por: 62 
ܵ(ܴଶଶ − ܴଵଶ) = ܵ(ܴܵܳଵ − ܴܵܳଶ)	(4) 
Os resultados apresentados no enunciado são suficientes para concluir que ao passar do modelo (1) para o 63 
modelo (2), há uma redução na SQR, mas, porém, inferior à redução no número de graus de liberdade. Esta 64 
é a única possibilidade consistente com a redução do R2 ajustado e com o aumento do R2 ordinário, 65 
conforme atestam as expressões (3) e (4) acima. 66 
Não há, conclusivamente, contradição entre o fato das duas medidas apontarem para modelos distintos. E 67 
isso pois trata-se de medidas distintas, com apenas uma delas ( o R2 ajustado) penalizando a inclusão de 68 
explicativas que pouco ou nada acrescentam ao poder explicativo do modelo. O que há, de fato, é um 69 
equívoco que consiste em utilizar, como medida do poder explicativo de uma regressão múltipla, o R2 70 
ordinário, pois este não penaliza a inclusão de explicativas que pouco ou nada contribuem para o poder 71 
explicativo do modelo. A postura correta a ser tomada, na análise de regressão múltipla, é a de descartar o 72 
R2 ordinário, considerando apenas o R2 ajustado. 73 
(3) [2,5 pontos] Um pesquisador considera duas maneiras alternativas de mensurar a parcela do diferencial 74 
salarial que se deve à discriminação de gênero pelo mercado de trabalho. 75 
A primeira maneira consiste em estimar, com base na FRP (1), o coeficiente δ da binária d_fem que indica 76 
com valor unitário o gênero feminino. 77 
log(W) = β0 + β1educ + β2exper + β3exper_sq + ΓZ + δd_fem + u (1) 78 
Em que W ≡ salário horário, educ ≡ nível educacional, exper ≡ experiência no mercado de trabalho, 79 
exper_sq ≡ quadrado da experiência e Z ≡ vetor de características socioeconômicas adicionais. 80 
A segunda maneira consiste no procedimento a seguir, proposto originalmente por Ronald Oaxaca: 81 
1. Dividir a amostra em dois subgrupos, (i) o subgrupo de gênero masculino e (ii) o subgrupo de gênero 82 
feminino. Estimar, separadamente,com os dados de cada um dos dois subgrupos, a FRP (2) abaixo: 83 
log(W) = β0 + β1educ + β2exper + β3exper_sq + ΓZ + u (2) 84 
2. Calcular o valor de ܦ = ∑ ቀߚመ௞ெ − ߚመ௞ிቁ ܺ௞തതതெ௄௞ୀଵ , em que o sobrescrito “M” denota o gênero masculino e 85 
o sobrescrito “F” o gênero feminino. D exclui as estimativas pontuais para os interceptos. 86 
4 
 
Porque D, a medida proposta por Oaxaca para a parcela da diferenciação salarial associada à discriminação 87 
de gênero, é mais precisa do que a estimativa pontual de δ a partir da equação 1? 88 
 89 
R: a medida de Oaxaca é mais precisa pois capta diferenças nos retornos das características 90 
socioeconômicas existentes entre os grupos sociais. Ou seja, ela tem, em sua composição, medidas dos 91 
graus em que o retorno da educação, da experiência, da formalização, etc, discrepam entre os grupos 92 
sociais. O coeficiente da binária “d_fem” não incorpora as diferenças de retornos. Apesar de δ estar livre 93 
da influência das explicativas em função das quais estes retornos se definem, este coeficiente não capta em 94 
que medida o mercado remunera distintamente os gêneros masculino e feminino por um ano de educação a 95 
mais ou por um aumento no nível de experiência. 96 
Adicionalmente, cabe colocar que a medida de Oaxaca está livre do componente do diferencial salarial 97 
inter-grupos sociais que reflete diferenças em características socioeconômicas outras que não o 98 
pertencimento a um determinado grupo social. Por exemplo, pessoas do gênero feminino possuem, em 99 
média, considerando os dados da PNAD, maior nível educacional do que pessoas do gênero masculino. Não 100 
é correto, do ponto de vista da teoria ortodoxa, compreender a parcela do diferencial de remuneração 101 
existente entre os dois grupos sociais associada ao diferencial de nível educacional como discriminação de 102 
gênero. De fato, um mercado de trabalho com competição perfeita, mas contudo, sujeito à assimetria 103 
informacional referente à produtividade intrínseca dos trabalhadores, atribuiria salários distintos para 104 
indivíduos com níveis educacionais distintos, pertencendo, tais indivíduos, ao mesmo grupo de gênero ou 105 
não. Esta segunda característica que também contribui para a precisão da medida de Oaxaca não é, 106 
contudo, um diferencial em relação ao coeficiente δ da equação (1), dado que δ = 107 
E[log(W)|X,d_fem=1] - E[log(W)|X,d_fem=0], em que X contém todas as explicativas da equação (1) 108 
exceto d_fem. Deste modo, pois, o coeficiente δ capta o diferencial salarial entre indivíduos do gênero 109 
feminino e masculino que diferem apenas em função desta característica socioeconômica, tendo, pois, níveis 110 
equivalentes de educação, experiência, etc. De modo que é correto sustenta que δ também está livre da 111 
influência de eventuais diferenças inter-pessoais em características socioeconômicas remuneradas pelo 112 
mercado, como a educação. 113 
 114 
 (4) [2,5 pontos] Alguns equívocos foram cometidos ao transcrever a lista de proposições do Modelo 115 
Clássico de Regressão Linear (MCRL) que consta no que segue. Identifique estes equívocos preenchendo a 116 
lacuna ao final do enunciado com os números das proposições incorretas. Não informar os números das 117 
proposições corretas, apenas das incorretas. 118 
Atenção: os equívocos podem passar despercebidos em uma leitura rápida. Leia devagar e com 119 
atenção. 120 
Proposição 1 (teorema de Gauss-Markov): sob a validade das hipóteses do MCRL, o estimador de Mínimos 121 
Quadrados Ordinários (MQO) é o estimador linear de menor variância entre todos os estimadores lineares. 122 
Proposição 2: os estimadores de MQO têm a propriedade de ausência de viés apenas quando é válida a 123 
hipótese de que E[ui|X] = 0, i=1,...,N. 124 
Proposição 3: quanto maior a variabilidade da k-ésima explicativa, medida por ∑ (ݔ௞௜ − ̅ݔ௞)ଶே௜ୀଵ , menor a 125 
variância do estimador para o k-ésimo coeficiente, mesmo com um nível crescente de correlação da k-ésima 126 
explicativa com as demais explicativas. 127 
5 
 
Proposição 4 (teorema de Frisch-Waugh): Seja considerada a FRP abaixo. 128 
Y = β0 + βX + ρz + u 129 
Em que X é um vetor de explicativas e z é uma única explicativa (escalar), não incluída em X. 130 
O coeficiente de z, denotador por “ρ”, pode ser estimado a partir do procedimento de três estágios a seguir. 131 
Primeiro estágio: rodar a regressão de z contra X. Ou seja, estimar o modelo: 132 
z = α0 + α1X + e (1) 133 
Segundo estágio: rodar a regressão de y contra X, estimando: 134 
Y = γ0 + γ1X + ∊ (2) 135 
Terceiro estágio: rodar a regressão do resíduo ∊ො da regressão (2) contra z: 136 
∊ො = γ0 + γ1ݖ + ξ	(3) 137 
Resposta da questão 4 138 
Preencha a lacuna: as proposições incorretas [marcar apenas os números] são: 139 
R: 1,3 e 4 140 
Apenas as proposições incorretas serão comentadas. A proposição 1 está incorreta pois o enunciado do 141 
teorema de Gauss-Markov sustenta que o estimador de MQO para os parâmetros da FRP tem menor 142 
variância na categoria dos estimadores lineares não-viesados. A redação do enunciado dá a entender que a 143 
proposição se estende para toda a categoria de estimadores lineares, sejam eles viesados ou não-viesados, 144 
o que é incorreto. A proposição 3 é equivocada, pois correlação crescente entre a k-ésima explicativa e as 145 
demais significa que a primeira representa conteúdo informacional redundante e, quanto maior esta 146 
redundância, maior a variância do estimador do k-ésimo coeficiente. Uma medida de tal redundância é o 147 
R2k o qual, segundo a fórmula da variância do estimador de k-ésimo coeficiente a seguir, tem influência 148 
positiva sobre a tal variância. 149 
ܸ ቂߚመெொை௞ቚܺቃ = ߪଶ∑ (ݔ௜௞ − ̅ݔ௞)ଶே௜ୀଵ (1 − ܴ௞ଶ) 
A fórmula acima mostra que, mesmo com ∑ (ݔ௜௞ − ̅ݔ௞)ଶே௜ୀଵ crescente, se ܴ௞ଶ é crescente, então não 150 
necessariamente a variância do estimador do k-ésimo coeficiente é cadente. 151 
A proposição 4 está equivocada, pois, no último estágio, é preciso, para obter a estimativa pontual para ρ, 152 
regredir ∊ො contra ݁̂ e não contra z. Veja que o primeiro estágio não teria sentido algum caso fosse 153 
suficiente, para eliminar a influência de X, regredir ∊ො contra z (retomar a nota de aula 7). 154 
Em síntese, as proposições incorretas são as de números 1,3 e 4. 155 
 156