Lista Regressão Múltipla

•
FGV

Beatriz Ripamonti
27/07/2021
Prévia do material em texto
Lista 3 - Regressão Múltipla
Econometria I
Monitoras: Carolina Nour e Isabela I. Gomes
Março, 2021
Questão 1. Considere as seguintes citações:
"Econometricians want too much from the data and hence tend to be disappointed by the
answers, because the data are incomplete and imperfect. In part it is our fault, the appetite
grows with eating. As we get larger samples, we keep adding variables and expanding our
models, until on the margin, we come back to the same insignificance levels." - Griliches,
American Economic Review, 1985
"Controlling for covariates can increase the likelihood that regression estimates have a
causal interpretation. But more control is not always better. Some variables are bad controls
and should not be included in a regression model even when their inclusion might be expected
to change the regression coefficients." - Angrist & Pischke, Mostly Harmless Econometrics,
2009
Os autores alertam para importantes questōes, em especial: a omissão de variáveis relevantes
(subespecificação) e a inclusão de irrelevantes (sobreespecificação).
a) Defina cada conceito. Como você espera que cada problema mencionado afete os esti-
madores de MQO (viés, variância, R2 )? Explique intuitivamente.
Como já mencionado no enunciado, a subespecificação é a omissão de variáveis que são rele-
vantes para o modelo populacional. Nesse caso, ou seja, se omitirmos variáveis, o estimador
de MQO será viesado. Isso pode acontecer pelo fato de que ao omitir uma variável relevante
para o modelo, esta pode estar correlacionada com a sua variável independente de interesse.
1
Esse ponto ficará mais claro no item (c). Com relação à variância temos que neste caso era
será menor. Uma possível intuição para isso seria o fato de ao considerarmos menos fatores
(variáveis) no modelo, teremos menor variação do estimador. A omissão de variáveis faz com
que o R2 seja menor quando comparamos com o caso em que você inclui essas variáveis. Por
propriedade algébrica do R2, ao adicionarmos variáveis no modelo, sendo elas relevantes ou
não, o R2 sempre aumenta ou pelo menos fica o mesmo de antes.
Já no caso de sobreespecificação temos que a inclusão de variáveis irrelevantes1 não geram
nenhum problema de viés. Nesse caso, pela mesma intuição de antes, vamos ter que a var-
iância e o R2 serão maiores.
b) Como você definiria controles ruins? E controles bons? Explique com exemplos.
Podemos dizer que controles ruins são aquelas variáveis que são relevantes para o modelo (ou
seja, se a omitirmos podemos ter algum viés), mas são afetadas pela variável de interesse. No
exemplo clássico de salário e educação, podemos dizer que um controle ruim é a habilidade
que o indivíduo tem após terminar os estudos. Nesse caso, a variável de interesse nível de
educação afeta essa medida de habilidade. Por outro lado, se usarmos uma medida de habil-
idade inata não teremos esse problema. Esse seria um exemplo de um controle bom.
Vamos agora formalizar cada um dos casos.
Caso 1: Suponha que o modelo verdadeiro é Yi = β0 + β1x1i + β2x2i + ui, mas o modelo
estimado é Ŷi = γ̂0 + γ̂1x1i
c) Derive o viés de variável omitida. Discuta em quais casos o viés é positivo, negativo e
nulo.
Sabemos que
γ̂1 =
∑n
i=1 (xi − x̄) yi∑n
i=1 xi (xi − x̄)
=
∑n
i=1 (xi − x̄) (β0 + β1x1i + β2x2i + ui)∑n
i=1 xi (xi − x̄)
(1)
=
∑n
i=1 (xi − x̄) β1x1i +
∑n
i=1 (xi − x̄) β2x2i +
∑n
i=1 (xi − x̄)ui∑n
i=1 xi (xi − x̄)
(2)
= β1 +
∑n
i=1 (xi − x̄) β2x2i +
∑n
i=1 (xi − x̄)ui∑n
i=1 xi (xi − x̄)
(3)
1Aqui não estamos considerando os bad controls
2
Sob a hipótese de exogeneidade, temos que:
E[γ̂1 | X] = β1 + β2
∑n
i=1 (xi − x̄)x2i∑n
i=1 xi (xi − x̄)
(4)
O viés será positivo se: β2 e C(x1i, x2i) forem ambos positivos ou negativos. Se β2 for positivo
e C(x1i, x2i) negativo, o viés será negativo. O oposto também se aplica. Teremos um viés
zero se um dos termos forem zero, ou seja, se x2i não for relevante para o modelo ou se x2i
não for correlacionado com x1i.
d) Mostre que Var (γ̂1 | X) ≤ Var
(
β̂1 | X
)
.
Nós temos que
Var (γ̂1 | X) =
σ2∑n
i=1 (xi − x̄)
2 (5)
E que
Var
(
β̂1 | X
)
=
σ2
(1−R21)
∑n
i=1 (xi − x̄)
2 (6)
Dessa forma, como o denominador da segunda variância condicional é menor que o da
primeira, a variância de Var
(
β̂1 | X
)
é maior. Note que se R21 for igual a zero, quer dizer
que não temos correlação entre x1i e x2i, o que nos faz voltar para a primeira variância.
Caso 2: Suponha que o modelo verdadeiro é Yj = β0 + β1x1i + ui, mas o modelo estimado é
Ŷi = γ̂0 + γ̂1x1i + γ̂2x2i
Sabemos que
γ̂1 =
∑n
i=1 (xi − x̄) yi∑n
i=1 xi (xi − x̄)
=
∑n
i=1 (xi − x̄) (β0 + β1x1i + ui)∑n
i=1 xi (xi − x̄)
(7)
= β1 +
∑n
i=1 (xi − x̄) (ui)∑n
i=1 xi (xi − x̄)
(8)
Sob a hipótese de exogeneidade, temos então que
E[γ̂1 | X] = β1 (9)
Ou seja, o estimador é não viesado.
e) Mostre que Var (γ̂1 | X) ≥ Var
(
β̂1 | X
)
A melhor forma de vizualizar isso é através da
3
prova de que o estimador de MQO é BLUE. Dado que γ̂1 é não viesado, ele se encaixa no
estimador genérico considerado na prova.
Questão 2. Considere o seguinte modelo populacional:
Yi = xiβ + εi
Onde β é o vetor K × 1 de parâmetros de MQO, e xi é o vetor de variáveis explicativas de
dimensão 1×K. Assuma que E [εi | xi] = 0
a) Explique o que é "Heteroscedasticidade" e como você definiria um εi (ou a matriz �,N×1)
heterocedástico. Sob esta condição, o estimador de MQO é viesado?
Heterocedasticidade é o fenômeno estatístico que ocorre quando o modelo de regressão apre-
senta variâncias para Y e X ou (X1, X2, X3, . . . , Xn) não iguais para todas as observações,
contrariando a hipótese de que:
V [εi | X] = σ2 i = 1, 2, · · · , n
Se há mais de um estado na amostra disponível, podemos rodar a regressão incluindo um
conjunto de "dummys" que indicam cada estado da da Federação Dessa forma, estaremos
capturando esse componente de termo de erro comum (em média), para cada um dos estados.
Além disso, sob heterocedasticidade o estimador de MQO não é viesado.
b) Mostre "como" o estimador usual da variância de β̂MQO é prejudicado no caso de het-
erocedasticidade. (Dica: abra as continhas até o passo em que utilizávamos a hipótese de
homoscedasticidade para entender). Vamos escrever a heterocedasticidade da seguinte forma:
E [εε′ | X] = ΩX
4
Onde, ΩX é uma matriz genérica diferente de σIk Vamos abrir a variância do estimador:
Var[β̂ | X] = E
[
(β̂ − β)(β̂ − β)′ | X
]
= E
[
(X ′X)
−1
X ′εε′X (X ′X)
−1 | X
]
= (X ′X)
−1
X ′E [εε′ | X]X (X ′X)−1
= (X ′X)
−1
X ′ΩXX (X
′X)
−1
Perceba que não conseguimos simplificar mais essa variância.
Questão 3. Um estudante faltou na última monitoria de Econometria mas acha que enten-
deu o conceito de R2:
"R2 é tipo assim: mede o grau de acerto do modelo. R2 alto significa que a reta estimada
passa por muitos pontos da amostra. Se a reta estimada passa por todos os pontos, então o
R2 certamente 1. Se houver dois modelos, prefiro o que tiver maior R2. Há dúvida sobre a
inclusão de uma variável? Basta checar se o R2 aumenta ou diminui."
Há vários equívocos na explicação acima.
a) Explique o que de fato R2 representa. R2 s de diferentes modelos são comparáveis?
O R2 de uma regressão (também chamado de coeficiente de determinação) pode ser definido
como razão entre a soma dos quadrados explicados e a soma dos quadrados totais. Ou ainda,
R2 ≡ SSE/SST = 1− SSR/SST (10)
O R2 pode ser interpretado como a proporção da variação amostral em yi que é explicado
pela linha da regressão de OLS. É uma medida de fit (adequação) para modelos de regressão
linear.
No entanto, o R2 pode não dizer muita coisa sobre um modelo, no sentido do modelo ter boas
propriedades ou não (por exemplo, o R2 não diz nada sobre viés). É uma medida que é mais
importante no contexto de previsão, o que será melhor explorado no curso de Econometria
II.
Aqui, se tivermos um modelo com baixo R2, mas com estimadores não viesados e resultados
estatísticamente significantes ainda podemos tirar conclusões sobreos resultados obtidos. Ao
5
mesmo tempo que um alto R2 nem sempre é algo bom. Diante disso, não devemos comparar
R2 entre modelos.
b) Mostre que a inclusão de uma nova variável nunca diminui o R2.
Assuma o modelo populacional de OLS na sua forma matricial:
y = Xβ + u
onde X é uma matriz n×p, β é um vetor de coeficientes obtidos por OLS p×1 e u é um vetor
de resíduos p × 1. Agora vamos adcionar uma variável X0 e estimar uma nova estimativa
usando OLS
y = X0β̂0 +Xβ̂ + v
Já que β, β̂0 e β̂ são estimadores de OLS sabemos que u′X = v′X0 = v′X = 0. Combinando
as duas primeiras equações temos que
Xβ + u = X0β̂0 +Xβ̂ + v
Se multiplicarmos os dois lados da equação acima por u′ temos
u′u = u′X0β̂0 + u
′v
Analogamente, se multiplicarmos a mesma equação só que agora por v′ temos
v′u = v′v
Combinando as duas últimas equações ficamos com
u′X0β̂0 = u
′u− v′v
6
Finalmente
v′v =
(
y −X0β̂0 −Xβ̂
)′ (
y −X0β̂0 −Xβ̂
)
=
(
Xβ + u−X0β̂0 −Xβ̂
)′ (
Xβ + u−X0β̂0 −Xβ̂
)
=
(
X(β − β̂)−X0β̂0 + u
)′ (
X(β − β̂)−X0β̂0 + u
)
=
(
X(β − β̂)−X0β̂0
)′ (
X(β − β̂)−X0β̂0
)
+ 2u′
(
X(β − β̂)−X0β̂0
)
+ u′u
=
(
X(β − β̂)−X0β̂0
)′ (
X(β − β̂)−X0β̂0
)
− 2u′X0β̂0 + u′u
=
(
X(β − β̂)−X0β̂0
)′ (
X(β − β̂)−X0β̂0
)
− 2 (u′u− v′v) + u′u
=
(
X(β − β̂)−X0β̂0
)′ (
X(β − β̂)−X0β̂0
)
− u′u+ 2v′v
u′u =
(
X(β − β̂)−X0β̂0
)′ (
X(β − β̂)−X0β̂0
)
+ v′v
≥ v′v
(11)
Assim nós temos então que a soma dos quadrados dos resíduos do primeiro modelo é sempre
maior ou igual que a do segundo. Como o R2 é inversamente proporcioal ao SQR, nós temos
que o R2 do segundo modelo (com inclusão de variável) é maior ou igual que o do primeiro.
c) Use R2surprise.dta. Regrida Y sobre X. Faça um gráfico e veja que apesar do R2 alto,
a reta estimada não necessariamente passa por um ponto da amostra.
Ver Script
d) Use R2miracle.dta. Regrida W sobre Z. Faça um gráfico e veja que embora a reta estimada
passa próxima a todos os pontos da amostra, R2 ≈ 0. Explique.
Ver Script
Questão 4. No trecho abaixo, Olivier Blanchard aborda outra questão comum em Econome-
tria:
"When students run their first regression, the first problem that they usually encounter is
that of multicollinearity. Many of them conclude that there is something wrong with OLS;
some resort to new and often creative techniques to get around that problem. But, we tell
them, this is wrong. Multicollinearity is God’s will, not a problem with OLS or statistical
techniques in general."
7
a) Explique, com as suas palavras, o que é multicolinearidade.
Multicolinearidade se refere a uma situação em que duas ou mais variáveis explicativas são
altamente linearmente relacionadas.
b) Explique detalhadamente quais as consequências de multicolinearidade.
Intuitivamente, quando temos multicolinearidade entre variáveis fica muito difícil estimar o
efeito marginal de uma delas, dado que as variáveis "andam tão juntas". Ou seja, é muito
difícil ver o efeito de uma variável enquanto as demais estão constantes. Além disso, os erros
padrões dos coeficientes estimados tendem a ser muito grandes. Outro problema que pode
aparecer é que o R2 pode ser bem alto, mesmo que o modelo contenha variáveis insignifi-
cantes.
c) Explique, com as suas palavras, o que é (multi)colinearidade perfeita.
Se uma variável independente é uma combinação linear perfeita de outra, então podemos
dizer que elas são colineares perfeitas. Neste caso, é importante notar que o modelo não
pode ser estimado por MQO.
d) Em notação matricial, vimos que β̂ = (X ′X)−1X ′Y. O que acontece com β̂ quando há
perfeita colinearidade entre os Xs? Como examinar sua existência?
Quando há perfeita colinearidade não conseguimos estimar o β̂ por MQO. Isso acontece
porque a inversa de (X ′X)−1 não existe. Uma forma bem simples de examinar a existência
de colinearidade perfeita é verificar se (X ′X) é singular, ou seja, se o determinante dessa
matriz é igual a zero.
e) Seja a seguinte matriz X que contém as explicativas a serem usadas em uma regressão:

1 0 0
1 7 0
1 0 1

Examine se há perfeita colinearidade.
Podemos verificar colinearidade tentando observar se uma variável pode ser combinação lin-
ear da outra. Podemos ver que, neste caso, não é o que acontece. Dessa forma, não há
colinearidade perfeita.
f) Seja a seguinte matriz X ′X a ser usada em outra regressão:
8

9 0 0 0 0
0 4 0 8 0
2 0 7 0 0
1 3 0 6 0
0 0 0 0 5

Examine se há perfeita colinearidade.
Aqui a melhor forma é calcular o determinante da matriz. É fácil verificar que o determinante
de X ′X é igual a zero.
g) Sob homoscedasticidade, a matriz de variância-covariância é expressa como:
var− cov(β̂) = σ2 (X ′X)−1
Explique o que acontece a esta matriz quando:
(i) há perfeita colinearidade;
(ii) a colinearidade é alta porém não perfeita.
Quando há colinearidade perfeita a matriz de variância-covariância dos estimadores vai para
infinito (explode). E no caso de colinearidade alta essa matriz assume um valor também alto,
o que significa que os erros padrões dos estimadores são altos e isso pode levar a conclusões
falsas sobre significância de coeficientes.
Questão 5. Considere as matrizes
P = X (X′X)−1X′ e M = In −P. Mostre que
1. P e M são simétricas e idempotentes.
Simetria:2
P′ =
(
X (X′X)
−1
X′
)′
= X′
[
(X′X)
−1
]
X = X′ (X′X)
−1
X = P
M′ = (In −P)′ = I ′n −P′ = In −P = M
2Aqui vamos usar as seguintes propriedades: (AB)′ = B′A′ e
(
A−1
)′
= (A′)
−1
9
Idempotência:
PP = X (X′X)
−1
X′X (X′X)
−1
X′ = X (X′X)
−1
X′ = P
MM = (In −P) (In −P) = In − 2InP + PP = In −P = M
2. PM = MP = 0. Dê a intuição.
MP = (In −P)P = P−PP = P−P = 0
A matriz P projeta ortogonalmente no espaço gerado pelas colunas de X. A matriz M,
também conhecida por "residual maker", gera os resíduos da projeção gerada por P. Assim,
quando projetamos a "residual maker" no espaço gerado pelas colunas de X (ou seja, PM),
obtemos um vetor nulo, pois a "residual maker" já é ortogonal ao espaço onde estamos
projetando. De forma análoga, o resíduo da projeção de P no espaço gerado pelas colunas
de X (ou seja, MP) também é zero.
3. Usando as duas matrizes, y pode ser decomposto em duas partes ortogonais. Dê a intuição.
Podemos decompor y da seguinte forma: y = Py + My. Você pode mostrar algebricamente
que Py = ŷ e que My = û, mas aqui vamos focar na intuição de por quê isso vale. A matriz
P projeta ortogonalmente y no espaço gerado pelas colunas de X. Essa projeção é ŷ. Já a
matriz M gera os resíduos da projeção de y no espaço gerado pelas colunas de X e, portanto,
My = û. Como esse resíduo foi gerado de forma a ser ortogonal à projeção temos que û é
ortogonal a ŷ, ou de forma equivalente, My é ortogonal a Py.
Questão 6. Considere um modelo de regressão. Seja X particionada conforme
X
(n×k)
=
 X1 ... X2
(n× k1) (n× k2)

de modo que o primeiro regressor é constante. Particione β e β̂ de acordo:
10
β′ =
 β′1 β′2
(1× k1) (1× k2)

β̂′ =
 β̂′1 β̂′2
(1× k1) (1× k2)

Assim, a regressão pode ser escrita da forma
y = X1β1 +X2β2 + e
Seja H1 = X1 (X ′1X1)
−1X ′1,M1 = I−H1, X̃2 = M1X2 e ỹ = M1y. Observe que ỹ é o vetor de
resíduos da regressão de y em X1, e a j-ésima coluna de X̄2 é o vetor de resíduos da regressão
da j-ésima coluna de X2 em X1. Mostre os seguintes resultados:
Obs: Note que a matriz H1 é a chamada hat matrix que transforma y em ŷ. Já a matriz
M1 representa a residual maker. Dessa forma, a matriz X̃2 = M1X2 representa a variável X2
"limpa" de X1, dado que podemos escrever
X2 = H1X2 +M1X2
Nesse caso, temos que M1X2 captura o resíduo da regressão parcial de X2 em X1. Seguindo
a mesma lógica temos que ỹ é a variável y "limpa" de sua correlação com X1
a) As condições de primeira ordem do problema de MQO são dadas por
X ′1X1β̂1 +X
′
1X2β̂2 = X
′
1y (1)
X ′2X1β̂1 +X
′
2X2β̂2 = X
′
2y (2)
Lembrando que as equações normais de MQO implicam que
(X ′X)β̂ = X ′y
11
como X = [X1X2], temos que
X ′X =
X ′1
X ′2
[X1 X2] =
X ′1X1 X ′1X2X ′2X1 X
′
2X2

assim como
X ′y =
X ′1
X ′2
 y =
X ′1y
X ′2y

Voltando às equações normais então e particionando o vetor β̂, temos que:X ′1X1 X ′1X2
X ′2X1 X
′
2X2
β̂1
β̂2
 =
X ′1y
X ′2y

b) β̂2 =
(
X̃ ′2X̃2
)−1
X̃ ′2ỹ.
Dica: derive X1β1 = −H1X2β2 + H1y a partir de (1). Substitua em (2) de modo a obter
X ′2M1X2β2 = X
′
2M1y. Em seguida utilize o fato de que M1 é simétrica e idempotente.
O objetivo aqui é encontrar o estimador de β̂2 via regressões parciais
Isolando β̂1 em (1) nós temos que:
β̂1 = (X
′
1X1)
−1X ′1y − (X ′1X1)−1X ′1X2β̂2
Multiplicando todos os elementos por por X1 e lembrando que H1 = X1 (X ′1X1)
−1X ′1 nós
ficamos com:
X1β̂1 = H1y −H1X2β̂2
12
Agora vamos substituir a equação acima na equação (2) do item (a):
X ′2X1β̂1 +X
′
2X2β̂2 = X
′
2y
X ′2(H1y −H1X2β̂2) +X ′2X2β̂2 = X ′2y
X ′2(I −H1)X2β̂2 = X ′2(I −H1)y
X ′2M1X2β̂2 = X
′
2M1y
(M1X2)
′(M1X2)β̂2 = (M1X2)
′(M1y)
X̃ ′2X̃2β̂2 = X̃
′
2ỹ
onde, na penúltima linha usamos queM1 = M1M1 = M ′1M1. Desta forma, β̂2 = (X̃ ′2X̃2)−1X̃ ′2ỹ.
Dessa forma nós temos que o meu estimador β̂2 é função de X̃2 e de ỹ ou seja, vem da regressão
ỹ = X̃2β2 + e
ou ainda,
M1y = M1X2 + e
c) O vetor de resíduos da regressão de ỹ em X̃2 equivale numericamente a e, o vetor de
resíduos da regressão de y em X.
Dica: Se e é o vetor de resíduos da regressão de y em X, então temos
y = β̂1X1 + β̂2X2 + e
Pré-multiplicando ambos os lados por M1 e utilizando que M1X1 = 0, obtemos
ỹ − X̂2β̂2 +M1e
Mostre queM1e = e e observe que β̂2 equivale ao coeficiente estimado por MQO da regressão
13
de ỹ em X̂2
Esse exercício remete ao teorema de frisch waugh, que nos diz que tanto faz nós estimarmos
aqui no caso β2 através da regressão múltipla usando X1 e X2 como variáveis explicativas
ou estimar as regressões parciais de X2 em X1 e de y em X1 e obter as versões "limpas" (os
resíduos das parciais) de X2 e y, que aqui são representadas por X̃2 e ỹ. Neste caso, para
que isso seja válido os meus resíduos precisam ser o mesmo nas duas regressões.
Pelas condições de primeira ordem do problema de mínimos quadrados, temos que, para
e o resíduo da regressão de y em X, X ′e = 0, ou seja
X ′e =
X ′1
X ′2
 e =
X ′1e
X ′2e
 =
0
0

Desta forma, X ′1e = 0 e, então
M1e = (I −H1)e = e−X1(X ′1X1)−1(X ′1e) = e
Concluindo que os resíduos da regressão auxiliar de ỹ em X̃2 são iguais aos da regressão
original.
d) β̂2 =
(
X̃ ′2X̃2
)−1
X̃ ′2y. Observe a diferença com o obtido no item (b). O vetor de
resíduos da regressão de y em X̃2 será igual ao vetor de resíduos e? O SSR da regressão de
y em X̃2 será igual ao SSR da regressão de ỹ em X̃2?
Neste exercício queremos deixar claro que para os resíduos serem os mesmos precisamos estar
fazendo na terceira etapa das regressões parciais a regressão de ỹ em X̃2 e não de y em X̃2
Da equação para o β̂2 do item (b) nós temos que
β̂2 = (X̃
′
2X̃2)
−1X̃ ′2ỹ = (X̃
′
2X̃2)
−1X2M1M1y = (X̃
′
2X̃2)
−1X2M1y = (X̃
′
2X̃2)
−1X̃2y
usando o fato de que M1 é idempotente.
Note, contudo que o resíduo da equação de y em X̃2 será dado por
v = y − X̃2β2 =
14
Defina os resíduos desta regressão como v = y−X̃2β̂2 = M̃2y, onde M̃2 = (I−X̃2(X̃ ′2X̃2)−1X̃ ′2).
Temos então que:
M̃2y = M̃2X1β̂1 + M̃2X2β̂2 + M̃2e
Para cada um desses termos, temos que:
M̃2X1 = X1 − X̃2(X̃ ′2X̃2)−1X̃ ′2X1 = X1 − X̃2(X̃ ′2X̃2)−1X ′2M1X1 = X1
M̃2X2 = X2 − X̃2(X̃ ′2X̃2)−1X̃2X2 = X2 − X̃2(X̃ ′2X̃2)−1X̃2X̃2 = X2 − X̃2
M̃2e = e− X̃2(X̃ ′2X̃2)−1X̃2e = e− X̃2(X̃ ′2X̃2)−1X2M1e = e− X̃ ′2(X̃ ′2X̃2)−1X ′2e = e
então
v = M̃2y = X1β̂1 + (X2 − X̃2)β̂2 + e
e a menos que β̂ = 0 ou β̂1 = 0 e (X2 − X̃2) = 0, v 6= e.
Isso quer dizer que os resíduos só serão os mesmos se nenhum dos conjuntos de variáveis
X1 ou X2 tiver efeito em y ou se X1 não tiver efeito y e (X2 = X̃2), sendo que esse último
termo nos diz que X2 não possui correlação com X1
Questão 7. Você está interessado em avaliar a discriminação de gênero no mercado de tra-
balho e para isso tem uma base de dados comn = 526 indivíduos. A base wage1.dta contém
o salário-horário, anos de educação, experiência e uma variável para gênero.
(a) Execute a regressão: wagei = α0 +β0 +femalei +ε1i , como você interpreta os resultados?
(b) Na especificação acima substitua o salário horário (wage) pelo log do salário-horário
(lwage).
Como os resultados mudam? Qual a diferença em relação ao item a.?
(c) Agora inclua os controles, educação, experiência e experiência ao quadrado. Como os
resultados mudam? Compare com o resultado do item (a)? O que você pode inferir sobre as
relaçōes entre gênero e experiência e entre gênero e educação?
wage i = α1 + β1 female i + γ
0
1 educ i + γ
0
2 exper i + γ
0
3 exper
2 + ε2i
15
d) Descreva um teste de hipóteses usando a estatística t. Escreva a hipótese nula. Escreva a
estatística a ser utilizada. Apresente o resultado do teste e sua interpretação.
e) Descreva um teste de hipóteses usando a estatística F. Expresse a hipótese nula através
de restrições lineares na forma matricial. Escreva a estatística a ser utilizada. Apresente o
resultado do teste e sua interpretação. Como esse teste se compara ao do item anterior.
f) Um pesquisador só pode executar regressōes com no máximo 3 regressores. Ele tem a
intenção de usar o modelo completo do item c (4 variáveis) para avaliar a discriminação de
gênero e propõe a seguinte rotina:
1. Executar a regressao wagei = α2 + γ11educi + γ12experi + γ13exper2i + ui
2. Obter os resíduos: ûi = wagei − ŵagei
3. Executar a regressão femalei = α3 + δ1educi + δ2experi + δ3exper2i + vi
4. Obter os resíduos: v̂i = femalei − femalei
5. Executar a regressão: ûi = α4 + β̃1ν̂i + �i
O procedimento funcionará? Isto é, β̃1 = β1? Por quê?
(g) Execute os passos do item f no R. Você obteve algo de diferente em relação ao resultado
em(c). Por quê?
(h) Um colega lhe disse que o tamanho de sua amostra era "muito pequeno", então você de-
cidiu dobrá-la duplicando as observações. Rode o modelo do item acom sua "nova amostra".
O que acontece com os coeficientes estimados? E com os erros-padrão dos estimadores? Esse
procedimento está correto? Por quê?
16