Buscar

Revisão2_Marta

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 69 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 69 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 69 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Econometria
Revisão P2
Marta AreosaMarta Areosa
marta@econ.puc-rio.br
Consistência
 
• O conceito de consistência envolve um experimento 
imaginário sobre o que aconteceria se o tamanho da nossa 
amostra aumentasse. 
 
2
 
• Se obtivermos mais e mais dados, isso nos aproxima do valor 
parâmetro de interesse na população? 
 
• Isso significa que conforme n → ∞, a distribuição do estimador 
colapsa para o valor do parâmetro. 
Distribuição amostral conforme n ↑
n3 n1 < n2 < n3
3
β1
n1
n2
Provando Consistência
• Temos que 
 
 
 
• A lei dos Grandes Números nos diz que 
( )
( )∑
∑
=
=
−
−
+= N
i i
N
i ii
xx
uxx
1
2
11
1 11
11
ˆ ββ
( ) ( )[ ] ( )
4
 
 
 
 
• Pelo teorema de Slutsky 
( ) ( )[ ] ( )
( ) ( )[ ] ( )
( )
( )
( )
( )1
1
12
11
1
11
1
11
1
2
1
2
11
1
1111
1
var
cov
ˆ
var
cov
x
,ux
xx
uxx
xxExx
,uxuxEuxx
n
p
in
iin
xi
n
p
in
ixi
n
p
iin
+→
∑ −
∑ −
+=
=−→∑ −
=−→∑ −
∞→
∞→
∞→
βββ
µ
µ
Pressupostos
 
• Para um estimador ser não viesado, nós assumimos que: 
 
E(u|x1, x2,…,xk) = 0 
 
5
 
• Para consistência, podemos usar um pressuposto mais fraco de 
média zero e correlação zero: 
 
E(u) = 0 e Cov(xj,u) = 0, para j = 1, 2, …, k 
 
Coeficientes com variáveis
padronizadas
 
• Se tivermos um modelo original dado por: 
 
 
 
iikiii uxkβxβxββy +++++= ...21 210
6
 
• Podemos tirar a média de cada variável e subtrair essa média de 
cada observação: 
ikikii uxxkβxxβyy +−++−=− )(...)(1 11
Coeficientes com variáveis
padronizadas
 
• Seja σy o desvio padrão amostral de y e σ1 o desvio padrão 
amostral de x1, σ2 o desvio padrão amostral de x2, ... 
 
• Podemos padronizar as variáveis da regressão de forma que: 
7
• Podemos padronizar as variáveis da regressão de forma que: 
 
 
 
 
)/(]/)()[/(
...]/)[(1)/(/)( 1111
yikkikyk
iyyi
uxxkβ
xxβyy
σσσσ
σσσσ
+−+
+−=−
Coeficientes com variáveis
padronizadas
 
• Podemos re-escrever o modelo como: 
 
 
 
ikiiiiy
zkbzbzbz ξ++++= ...21 21
8
 
• Onde agora o novo coeficiente bj = (σj/ σy) βj para j=1, ..., k 
 
• Este coeficiente é chamado de coeficiente padronizado ou 
coeficiente beta. 
 
 
 
 
Coeficientes com variáveis
padronizadas
 
• Como interpretamos este novo coeficiente? 
 
• Um aumento de x1 de um desvio padrão está associado com um 
aumento de y em b1 desvios padrões. 
9
aumento de y em b1 desvios padrões. 
 
• Este modelo faz com que a escala dos regressores seja 
irrelevante. Agora podemos comparar os coeficientes de cada 
regressor e determinar qual é o “mais importante” para explicar 
y. 
 
 
 
Regressões Não-Lineares
• Até agora assumimos que os modelos são lineares nas variáveis 
X 
• Mas a aproximação linear não é sempre a melhor 
• Podemos estender o instrumental de regressão múltipla para 
10
• Podemos estender o instrumental de regressão múltipla para 
modelos não-lineares em um ou mais regressores. 
 
O que vamos fazer? 
1. Modelos de regressões não-lineares 
2. Modelos com uma variável 
3. Modelos com duas variáveis e interações 
 
Relação Nota-Renda– não-linear... 
 
11
1. Polinômios em X
Aproximamos a função de regressão populacional através de um 
polinômio: 
 
Yi = β0 + β1Xi + β2 2iX +…+ βr riX + ui 
12
i i
 
• Igual aos nossos modelo de regressão múltipla – exceto que 
os regressores são potências de X! 
 
• Estimação, testes de hipóteses, etc…-- tudo igual 
• Os coeficientes são de difícil interpretação. 
 
Modelo cúbico em X
Suponha que temos um modelo dado por: 
 
Custoi = β0 + β1Qi + β2Qi2 +β2Qi3 +ui 
 
13
• Forma funcional típica para estimar uma função de custo 
total. 
• Neste caso, qual o efeito da variação na quantidade produzida 
sobre o custo? 
 
 
 
 
2
33
ˆ22
ˆ
1
ˆ QQQ
Custo βββ ++≈∆
∆
(a) Interações entre variáveis binárias
Yi = β0 + β1D1i + β2D2i + ui 
 
• Se o efeito de mudar D1 depende de D2, incluímos o seguinte 
termo de interação na regressão D1i×D2i: 
14
termo de interação na regressão D1i×D2i: 
 
Yi = β0 + β1D1i + β2D2i + β3(D1i×D2i) + ui 
 
Exemplo: salário, gênero e raça
 
 Log(sal/hora) = 2.65 – 0.16 Mulher – 0.58Negro 
 (0.025) (0.036) (0.033) 
 + 0.046 (Mulher×Negro) 
 (0.05) 
15
 (0.05) 
 
• “Efeito” de Mulher quando Negro = 0 é – 0.16 
 
• “Efeito” de Mulher quando Negro = 1 é –0.16 + 0.046 = –0.114 
 
• Porém a interação não é estatisticamente significativa: 
t = 0.046/0.05=0.92 
 
 
Exemplo: salário, gênero e raça
(viés de variável omitida)
 
E se a educação média de brancos/negros e homens/mulheres for 
diferente, viés será positivo ou negativo? 
 
 Log(sal/hora) = 1.72 – 0.28 Mulher – 0.30 Negro 
 (0.031) (0.030) (0.029) 
16
 (0.031) (0.030) (0.029) 
 – 0.010 (Mulher×Negro) + 0.11 Esc 
 (0.043) (0.003) 
 
• “Efeito” de Mulher aumenta e efeito de Raça diminui. Por quê? 
 
 
Exemplo: salário, gênero e raça
(viés de variável omitida)
 
 Log(sal/hora) = 1.72 – 0.28 Mulher – 0.30 Negro 
 (0.031) (0.030) (0.029) 
 – 0.010 (Mulher×Negro) + 0.11 Esc 
 (0.043) (0.003) 
 
17
 
 
• Corr(Esc, Sal) > 0 e Corr(Esc, Negro) < 0 => Viés negativo 
(estamos estimando um efeito mais negativo do que o correto) 
 
• Corr(Esc, Sal) > 0 e Corr(Esc, Mulher) > 0 => Viés positivo 
(estamos estimando um efeito menos negativo do que correto) 
 
 
(b) Interações entre variáveis
contínuas e binarias
 
Yi = β0 + β1Di + β2Xi + ui 
 
• Di é binária, X é contínua 
18
• Di é binária, X é contínua 
• O efeito de X em Y (mantendo D constante) = β2, que não 
depende de D 
• Para que o efeito de X dependa de D, incluímos o termo Di×Xi 
como regressor: 
 
Yi = β0 + β1Di + β2Xi + β3(Di×Xi) + ui 
 
Interações entre variáveis contínuas e 
binarias
Yi = β0 + β1Di + β2Xi + β3(Di×Xi) + ui 
 
Observações com Di= 0 (o grupo “D = 0”): 
 
19
Yi = β0 + β2Xi + ui (linha de regressão D=0) 
 
Observações com Di= 1 (o grupo “D = 1”) 
 
Yi = β0 + β1 + β2Xi + β3Xi + ui 
 = (β0+β1) + (β2+β3)Xi + ui (linha de regressão D=1) 
 
Interações contínuas e binárias
20
(c) Interações entre duas variáveis
contínuas
Yi = β0 + β1X1i + β2X2i + ui 
 
• X1, X2 são contínuas 
• Neste modelo, o efeito de X1 não depende de X2 
21
• Neste modelo, o efeito de X1 não depende de X2 
• O efeito de X2 não depende de X1 
 
• Para que haja dependência entre efeitos, adicionamos um termo 
de interação X1i×X2i como regressor: 
 
Yi = β0 + β1X1i + β2X2i + β3(X1i×X2i) + ui 
 
Exemplo: modelo com interações
• Algumas vezes, os efeitos marginais ou elasticidades dependem 
da magnitude de outra variável do modelo. 
 
preçoi = β0 + β1tami + β2quartos +β3tam*quartos +ui 
22
i 0 1 i 2 3 i 
 
 
 
• Se β3>0, um quarto adicional na casa aumenta mais o preço 
quando a casa é grande do que quando ela é pequena. 
• Geralmente, vamos avaliar os efeitos na média ou percentis da 
variável tamanho. 
tamquartos
preço
3
ˆ
2
ˆ ββ +=∆
∆
Estimadores que incorporam
heterocedasticidade
• Já vimos que os estimadores de MQO deixam de ser eficientes 
quando temos heterocedasticidade. Podemos modificá-los? 
 
• Vamos estudar o caso em que 
 [ ] ( )XhXuV 2| σ=
23
 
 
sendo uma função conhecida. 
 
• Podemos, então, obter as constantes tais que 
[ ] ( )XhXuV 2| σ=
( ) 0>Xh
[ ] ii hXuV 2| σ=
{ }nhhh ,...,, 21
Estimadores que incorporam
heterocedasticidade
• Comotemos que 
[ ] ( ) 221|1| σσ ===








i
i
i
ii
i h
h
XuV
h
X
h
uV
24
temos que 
 
 
 
é um modelo com erros homocedásticos! 
 
Portanto... 
i
i
i
ki
k
i
i
ii
i
h
u
h
X
h
X
hh
Y
++++= βββ ...1 110
Estimadores que incorporam
heterocedasticidade
• Podemos definir 
 
 
 
e estimar 
i
ki
ki
i
i
i
i
i
i
i
i h
XX
h
XX
h
X
h
YY ≡≡≡≡ *1*1
*
0
* ;...;;
1
;
25
e estimar 
 
 
• é BLUE!!! 
 
• Estes são os estimadores de Mínimos Quadrados Ponderados. 
 
****
1
*
1
*
1
*
0
*
... ikikiii uXXXY ++++= βββ
{ }**1*0 ,...,, kβββ
Regressões com variáveis
instrumentais
Três ameaças à validade interna de um estudo são: 
• Viés de variável omitida de uma variável que é correlacionada 
com X, mas é não observável e não pode ser incluída na 
regressão; 
26
• Viés da causalidade simultânea (X causa Y, Y causa X); 
• Viés por erro nas variáveis (X é medido com erro) 
 
Todos estes casos geram o mesmo tipo de problema: cov(u,X) ≠ 0 
Lembrar: cov(u,X) ≠ 0 ⇒ E(u|X) ≠ constante (0,em particular) 
 
Um regressor e um instrumento
• Regressão com variáveis instrumentais pode eliminar o viés 
quando E(u|X) ≠ 0 
 
Yi = β0 + β1Xi + ui 
27
Yi = β0 + β1Xi + ui 
 
• Regressão com VI quebra X em duas partes: a parte que pode 
estar correlacionada com u, e a parte que não está. Isolando a 
parte que não está correlacionada com u, podemos estimar β1 
sem viés. 
 
Condições para uma variável
instrumental válida
Yi = β0 + β1Xi + ui 
 
Para que uma variável instrumental (um “instrumento”) Z seja 
válida, tem que satisfazer duas condições: 
 
28
 
1. corr(Zi,Xi) ≠ 0 
2. corr(Zi,ui) = 0 
 
Suponha por agora que você tem este Zi (discutiremos em breve 
como achar tal variável instrumental). 
Estimador de VI, um X e um Z
Explicação 1: Mínimos Quadrados em Dois Estágios (MQDE) 
Temos dois estágios ou duas regressões: 
 
(1) Primeira isola a parte de X que é não correlacionada com u: 
regredimos X em Z usando MQO 
29
Xi = pi0 + pi1Zi + vi (1)
 
• Como Zi é não correlacionada com ui, pi0 + pi1Zi será não 
correlacionada com ui. Não sabemos pi0 ou pi1 mas iremos 
estimar. Então… 
• Calculamos o valor predito de Xi, que será ˆ iX . Onde ˆ iX = 
0ˆ + 1ˆ Zi, i = 1,…,n. 
 
Estimador de VI, um X e um Z
Explicação 2: um pouco de algebra… 
 
Yi = β0 + β1Xi + ui 
logo, 
 cov(Yi, Zi) = cov(β0 + β1Xi + ui, Zi) 
= cov(β , Z ) + cov(β X , Z ) + cov(u , Z ) 
30
= cov(β0, Zi) + cov(β1Xi, Zi) + cov(ui, Zi) 
= 0 + cov(β1Xi, Zi) + 0 
= β1cov(Xi, Zi) 
 
onde cov(ui, Zi) = 0 (exogeneidade do instrumento); logo 
 
 β1 = cov( , )
cov( , )
i i
i i
Y Z
X Z
 
 
Estimador de VI, um X e um Z
β1 = cov( , )
cov( , )
i i
i i
Y Z
X Z
 
 
O estimador de VI substitui as covariâncias populacionais pelas 
amostrais: 
31
amostrais: 
 
1
ˆTSLSβ = YZ
XZ
s
s
, 
 
sYZ e sXZ são as covariâncias amostrais. Este é o mesmo 
estimador de MQDE – somente uma maneira alternativa de 
derivá-lo. 
 
Consistência do estimador de MQDE 
1
ˆTSLSβ = YZ
XZ
s
s
 
 
As covariâncias amostrais são estimadores consistentes das 
populacionais: s 
p
→ cov(Y,Z) and s 
p
→ cov(X,Z). Logo, 
32
populacionais: sYZ → cov(Y,Z) and sXZ → cov(X,Z). Logo, 
 
1
ˆTSLSβ = YZ
XZ
s
s
 
p
→ 
cov( , )
cov( , )
Y Z
X Z
 = β1 
 
• A condição de relevância de VI assegura que, cov(X,Z) ≠ 0, 
ou seja que não estamos dividindo por zero. 
 
Exemplo 1: Oferta e demanda por
manteiga
Regressões com VI foram originalmente desenvolvidas para 
estimar as elasticidades de demanda por produtos agrícolas. Por 
exemplo, manteiga: 
 
ln( butteriQ ) = β0 + β1ln( butteriP ) + ui 
33
ln( iQ ) = β0 + β1ln( iP ) + ui 
 
• β1 = elasticidade preço de manteiga (especificação log-log) 
 
• Dados: observações de preço e quantidade de manteiga em 
diferentes anos. 
• Se fizermos uma estimação de MQO de ln( butteriQ ) em 
ln( butteriP ) teremos viés de causalidade simultânea (por quê?) 
 
Viés de simultaneidade numa estimação de MQO de ln( butteriQ ) 
em ln( butteriP ) surge por que preço e quantidade são determinados 
pela interação entre demanda e oferta 
 
34
Esta interação produz vários pontos de equilíbrio entre demanda 
e oferta … 
 
35Podemos estimar a equação de demanda com estes pontos? 
 
Mas o que aconteceria se conseguíssemos que somente a oferta se 
deslocasse? 
36
Usando MQDE para estimar demanda
• MQDE estima a curva de demanda isolando as variações de 
preço e quantidade que acontecem somente pelo 
deslocamento da oferta. 
 
• Z é a variável de desloca a oferta sem afetar a demanda 
37
• Z é a variável de desloca a oferta sem afetar a demanda 
diretamente. 
 
Usando MQDE para estimar demanda
ln( butteriQ ) = β0 + β1ln( butteriP ) + ui 
 
Z = pluviosidade na região produtora. 
 
Será que Z é um instrumento válido? 
38
Será que Z é um instrumento válido? 
 
(1) Exógeno? corr(chuvai , ui) = 0? 
Plausível: se chuva não deveria afetar a demanda 
 
(2) Relevante? corr(chuvai, ln( butteriP )) ≠ 0? 
Plausível: pouca chuva => pouco pasto => menos 
manteiga 
 
MQDE no exemplo de oferta e 
demanda
ln( butteriQ ) = β0 + β1ln( butteriP ) + ui 
 
Zi = pluvi = pluviosidade na região produtora. 
 
Estágio 1: regredir ln( butteriP ) em pluviosidade, obter ^ ( )buttleriPln
39
Estágio 1: regredir ln( iP ) em pluviosidade, obter 
 
 isola mudanças em log preço que surgem de 
variações de oferta 
 
Estágio 2: regredir ln( butteriQ ) em 
O equivalente a usar as variações de oferta para identificar 
a curva de demanda. 
 
( )iPln
^( )buttleriPln
^( )buttleriPln
Problema: Identificação
• Quando temos um sistema de equações em que as variáveis 
estão relacionadas, dizemos que temos um modelo de 
equações simultâneas (MES). 
 
• Nesse caso, nem sempre conseguimos estimar corretamente 
40
• Nesse caso, nem sempre conseguimos estimar corretamente 
todos os coeficientes das equações. 
 
• Dizemos que ocorre um problema de identificação. 
Problema: Identificação
• Seja o seguinte sistema 
 
 
 
• Econometricamente, temos apenas uma equação... 
iii
iii
vyy
uyy
++=
++=
1102
2101
γγ
ββ
41
• Econometricamente, temos apenas uma equação... 
 
 
 
 
 
• Não há motivo para obtermos 
{ { 321
iw
iii
iii
vyy
uyy
1
0
2
11
0
1
2101
10
1
γ
γ
γγ
γ
ββ
αα
−+−=
++=
ii wue ˆˆˆ
ˆ;ˆˆ 1100 ≠≠≠ αβαβ
Problema: Identificação
• Precisamos de variáveis que sejam determinadas fora do 
sistema para nos ajudar a identificar cada curva 
separadamente. 
• Considere o sistema 
 iii uyy ++= 2101 ββ
42
 
 
• Nesse caso 
iiii
iii
vxyy
uyy
+++=
++=
21102
2101
γγγ
ββ
( )
( ) ( )iiii
iiiii
vuxy
vxuyy
+++++=
+++++=
12211010
2210102
γγβγβγγ
γββγγ
Problema: Identificação
• Ou seja 
 
 
 
 
434214342143421
iw
ii
ii
vu
xy 





−
+
+
−
+





−
+
=
11
1
11
2
11
010
2 111
10
βγ
γ
βγ
γ
βγ
βγγ
αα
43
 
• Chamamos esta equação de forma reduzida. 
 
• Se tivermos , ou seja , 
poderemos utilizar x como instrumento. 
 
• Obtendo , podemos estimar 
( ) 0,cov =ii wx ( ) 0,cov =ii ux
iy2ˆ iii uyy ++= 2101 ˆββ
Problema: Identificação
• Vimos que podemos obter os parâmetros de uma das 
equações utilizando variáveis instrumentais. E quanto a 
outra equação? 
 
• Parece que podemos fazer a mesma coisa obtendo 
44
• Parece que podemos fazer a mesma coisa obtendo 
 
 
 
• Mas, intuitivamente, o procedimento parece estranho. 
Estamos identificando deslocamentos em y1 através de x, 
que é uma variável que desloca a curva de y2! 
01
1
01
21
01
010
1 111 γβ
β
γβ
γβ
γβ
γββ
−
+
+
−
+
−
+
=
ii
ii
uv
xy
Problema: Identificação
• De fato, este procedimento não pode ser feito... Se 
tentássemos estimar 
 
 
não iríamos conseguir. Existe colinearidade perfeita entre 
iiii vxyy +++= 21102 ˆ γγγ
45não iríamos conseguir. Existe colinearidade perfeita entre 
os regressores! 
 
• Dizemos que esta equação não é identificada. 
Problema: Identificação
• Seja o seguinte sistema 
 
 
 
• Podemos estimar a forma reduzida deste sistema como 
iiii
iiii
vxyy
uxyy
+++=
+++=
221102
122101
γγγ
βββ
46
• Podemos estimar a forma reduzida deste sistema como 
 
 
 
 
• Para ter sentido, a matriz acima deve ser inversível. 














+











+










 −
=





−
i
i
i
i
i
i
v
u
x
x
y
y
2
1
2
2
0
0
1
1
1
2
1
0
0
1
1
γ
β
γ
β
γ
β
Problema: Identificação
• Devemos ter os erros não-correlacionados com os 
regressores para estimar sem viés 
 
 
 
+++=
+++=
221102
221101
ααα
pipipi
iiii
iiii
exxy
wxxy
47
 
onde 
 
 











 −
=
















 −
=
















 −
=





+++=
−
−−
2
2
1
1
1
11
21
1
1
1
0
0
1
1
1
0
0
221102
0
0
1
1
1
1
;
1
1
γ
β
γ
β
αα
pipi
γ
β
γ
β
γ
β
α
pi
ααα
i
i
i
i
iiii
v
u
e
w
exxy
Problema: Identificação
• Não podermos ter multicolinearidade perfeita entre 
 
 
para estimarmos 
 



ii
ii
xey
xey
22
11
ˆ
ˆ
iiii
vxyy
uxyy
+++=
+++= 122101
ˆ
ˆ
γγγ
βββ
48
 
• Como, o caso em questão, 
 
 
esta condição nos diz que 
iii
iii
xxy
xxy
221102
221101
ˆˆˆˆ
ˆˆˆˆ
ααα
pipipi
++=
++=
iiii vxyy +++= 221102 ˆ γγγ
( ) { }1,1,0ˆ;0ˆ 2112 −∉≠≠ xxcorreleαpi
Problema: Identificação
• Caso geral: 
 
 
 
 
[ ] [ ]
[ ]
T
niii
T
niii
ii
uuUyyY
UDYCXBY
;; 11 LL ==
+++=
49
 
 
 
• A forma reduzida se torna 
 
[ ] nxnnxknxnxnTkii DCBAxxX ;;;; 11 L=
)(;111 DIAUACXABAY ii −=++= −−−
Problema: Identificação
• Para haver identificação nas equações: 
o A matriz A deve ser inversível. 
o Para estimarmos as formas reduzidas sem viés, U não 
pode ser correlacionado com X; 
o Não pode haver multicolinearidade perfeita entre 
50
o Não pode haver multicolinearidade perfeita entre 
 
 
 para estimarmos 
 
 
ii UYDCXBY +++= ˆ
CXeCXDABDAYD i
11
ˆ
−− +=
O modelo de probabilidade linear
Yi = β0 + β1Xi + ui 
 
Lembremos do pressuposto no. 1: E(ui|Xi) = 0, então 
 
51
E(Yi|Xi) = E(β0 + β1Xi + ui|Xi) = β0 + β1Xi 
 
Quando Y é binário, 
E(Y) = 1×Pr(Y=1) + 0×Pr(Y=0) = Pr(Y=1) 
assim 
E(Y|X) = Pr(Y=1|X) 
 
O modelo de probabilidade linear
Quando Y é binário, o modelo de regressão linear 
Yi = β0 + β1Xi + ui 
É chamado de modelo de probabilidade linear. 
 
• O valor predito é a probabilidade: 
52
• O valor predito é a probabilidade: 
• E(Y|X=x) = Pr(Y=1|X=x) = prob. que Y = 1 dado x 
 
• ˆY = é a probabilidade predita que Yi = 1, dado X 
 
Modelo de probabilidade linear: resumo
• Modelamos Pr(Y=1|X) como uma função linear de X 
• Vantagens: 
• fácil de estimar e interpretar 
• inferência é feita da mesma forma que no modelo de regressão 
múltipla (precisamos calcular erro padrão robusto para 
heterocedasticidade) 
53
heterocedasticidade) 
 
• Desvantagens: 
• Faz sentido que a probabilidade seja linear em X? 
• Probabilidades preditas podem ser <0 ou >1! 
• O modelo é heterocedástivo. Var(Y|X)= p(1-p) 
(onde p=Pr(Y=1|X)) 
• Estas desvantagens podem ser resolvidas usando um modelo de 
probabilidade não-linear: probit e logit 
Regressões com Probit e Logit
O problema do modelo de probabilidade linear é que modela 
a probabilidade de Y=1 como sendo linear: 
 
 Pr(Y = 1|X) = β0 + β1X 
54
 
No lugar deste pressuposto, queremos: 
• 0 ≤ Pr(Y = 1|X) ≤ 1 para todo X 
• Pr(Y = 1|X) seja crescente em X (para β1>0) 
Isso requer uma forma funcional não-linear para a 
probabilidade. E se usássemos uma curva tipo “S”… 
 
55
O modelo probit satisfaz estas condições: 
• 0 ≤ Pr(Y = 1|X) ≤ 1 para todo X 
• Pr(Y = 1|X) é crescente em X (para β1>0) 
 
Exemplo: dados hipotecas
56
Modelo Probit
• Expressa a probabilidade de Y=1 usando a função de 
probabilidade acumulada de uma normal padrão, 
avaliada em z = β0 + β1X. Ou seja: 
 
57
 Pr(Y = 1|X) = Φ(β0 + β1X) = Φ(z) 
 
• Φ é a distribuição normal acumulada. 
• z = β0 + β1X é o “valor-z” ou “índice-z” do modelo 
probit. 
 
Modelo Logit
 Pr(Y = 1|X) = F(β0 + β1X) 
 
onde F(β0 + β1X) = 
0 1( )
1
1 Xe β β− ++
. 
 
58
 
Exemplo: β0 = -3, β1= 2, X = .4, 
 
 β0 + β1X = -3 + 2×.4 = -2.2 
 
Pr(Y = 1|X=.4) = 1/(1+e–(–2.2)) = .0998 
 
Estimação por máxima
verossimilhança
A função de verossimilhança é a densidade condicional de 
Y1,…,Yn dado X1,…,Xn, tratada como uma função dos 
parâmetros desconhecidos β0 and β1. 
 
• O estimador de máxima verossimilhança (EMV) é o valor 
59
• O estimador de máxima verossimilhança (EMV) é o valor 
de (β0, β1) que maximiza a função de verossimilhança. 
 
• o EMV é o valor de (β0, β1) que melhor descreve a 
distribuição completa dos dados. 
 
 
Teste da razão das 
verossimilhanças
• Nestes modelos não-lineares não podemos Calcular a 
estatística F ou construir um teste de ML para testar 
restrições de exclusão. 
• A maximização da função de log Verssimilhança nos 
60
dará um valor de L. Podemos usar estes valores para 
construir testes. 
• Podemos estimar modelos restrito e irrestrito e calcular: 
 
RV = 2(Lir – Lr) ~ X2q 
 
Medidas de ajuste para logit e probit
O R2 e o 2R não fazem sentido aqui. Assim, duas outras 
medidas de ajuste são comumente usadas: 
 
1. A fração corretamente predita = fração de Y’s para os 
quais a probabilidade predita é >50% (se Yi=1) ou é 
61
quais a probabilidade predita é >50% (se Yi=1) ou é 
<50% (se Yi=0). 
 
2. O pseudo-R2 mede o ajuste usando a função de 
verossimilhança: mede a variação no valor da função de 
log verossimilhança, em relação ao modelo sem 
regressores X (1 – Lir/Lr). 
 
Problema: Variáveis não-observáveis
• Algumas variáveis não são passíveis de serem medidas. 
Dizemos que elas são não-observáveis. Ex: Aptidão de uma 
pessoa, comprometimento com o trabalho, etc. 
 
• Nesse caso utilizamos uma variável “proxy”. Isto é 
62
• Nesse caso utilizamos uma variável “proxy”. Isto é 
olhamos para uma variável observável que se relacione 
com a variável desejada. 
 
• Ou seja gostaríamos de estimar 
 
mas, observamos 
ivxx ++= 310
*
3 δδ
iiiii uxxxy ++++= 3322110 ββββ
Problema: Variáveis não-observáveis
• Ou seja, estamos estimando 
 
 
 
• Se 
( ) ( )133132211030
*
3322110
vwxxx
wxxxy
iii
iiii
γδγγγδγγ
γγγγ
++++++=
++++=
63
• Se 
o vi não for correlacionado com x1i ou x2i, 
o ui não for correlacionado com x3i 
 teremos que 
 
 
 
Os estimadores e serão viesados e inconsistentes. 
( )
1
3
313303000300
2211
;
;;
δ
βγδγβδγβγδγγβ
βγβγ
=⇔=−=⇔+=
==
30 ˆˆ γγ
Problema: Variáveis não-observáveis
• Se vi for correlacionado com x1i ou x2i teremos que 
 
 
 
Nesse caso, todos os estimadores serão viesados e 
ivxxxx ++++= 3322110
*
3 δδδδ
64
Nesse caso, todos os estimadores serão viesados e 
inconsistentes. 
( ) ( ) ( )
( )13313
22321131030
*
3322110
vwx
xx
wxxxy
ii
ii
iiii
γδγ
δγγδγγδγγ
γγγγ
+++
+++++=
++++=
Problema: Erro de Medida
• Vamos supor que algumas variáveis são obtidas com erro. 
Devemos coniderar dois casos: 
o O erro ocorre na variável dependente e 
o O erro ocorre em um regressor. 
 
65
 
• No primeiro caso, o parâmetro de interesse (y*) tem erro. 
 
Ou seja, gostaríamos de regredir 
 
O que corresponde a ter 
iii eyy +=
*
( )iiii euxy +++= 110 γγ
iii uxy ++= 110
* γγ
Problema: Erro de Medida
• Se ei não é correlacionado com xi, temos que os 
estimadores de MQO são não-viesados e consistentes. 
 
• O único problema é que 
 
66
 
 
 
• Portanto, os estimadores de MQO terão variâncias maiores. 
• Se ei é correlacionado com xi, temos que os estimadores de 
MQO serão viesados e inconsistentes. 
)var()var()var()var( iiiii ueueu >+=+
Problema: Erro de Medida• No segundo caso, o regressor de interesse (x*) tem erro 
 
 
• Ou seja 
 
iii exx +=
*
iii uxy
*
10 γγ ++=
67
 
 
• Se ei for não-correlacionado com ui, os estimadores serão 
consistente e não- viesados. 
• Teremos 
 
( )iii
iii
eux
uxy
110
10
γγγ
γγ
−++=
++=
)var()var()var()var( 211 iiiii ueueu >+=− γγ
Problema: Erro de Medida
• Se ei for correlacionado com ui, os estimadores serão 
inconsistentes e viesados. 
 
• No caso em questão: 
 )var()var(),cov(),cov( * eeexex −=−=
68
 
 
 
• Ou seja: 
 
)var(),cov(),cov(),cov(
)var()var(),cov(),cov(
111
*
iiiiiiii
iiiiii
eexuxeux
eeexex
γγγ −=−=−
−=−=
( ) ( ) ( ) 




−=−=
−
+=
x
e
x
e
x
euxp iiiii
var
)var(1
var
)var(
var
),cov(
ˆlim 111111 γ
γγγγγ
Problema: Erro de Medida
• Como 
 
• Temos que 
 
 
)var()var()var( * iii exx +=
( ) 




+
=





−= )var()var(
)var(
var
)var(1lim
**
*
11
ii
ex
x
x
ep γγ
69
 
 
• Temos um viés (assintótico) de atenuação. 
• Se var(e*) for pequena, este viés é pequeno. 
 
Num modelo geral, com k regressores, não é tão fácil obter 
uma expessão para o viés. 
 
( )  += −= )var()var(var1lim **11 ii exxp γγ

Outros materiais