Econometria Aula - 22

•

PUC-RIO

Estudante PD

03/06/2012

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 80 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 80 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 80 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Econometria

6.234 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Econometria
Aula 22
Marta AreosaMarta Areosa
marta@econ.puc-rio.br
Regressões com Probit e Logit
O problema do modelo de probabilidade linear é que modela 
a probabilidade de Y=1 como sendo linear: 
 
 Pr(Y = 1|X) = β0 + β1X 
2
 
 
Regressões com Probit e Logit
O problema do modelo de probabilidade linear é que modela 
a probabilidade de Y=1 como sendo linear: 
 
 Pr(Y = 1|X) = β0 + β1X 
3
 
No lugar deste pressuposto, queremos: 
 
Regressões com Probit e Logit
O problema do modelo de probabilidade linear é que modela 
a probabilidade de Y=1 como sendo linear: 
 
 Pr(Y = 1|X) = β0 + β1X 
4
 
No lugar deste pressuposto, queremos: 
• 0 ≤ Pr(Y = 1|X) ≤ 1 para todo X 
 
Regressões com Probit e Logit
O problema do modelo de probabilidade linear é que modela 
a probabilidade de Y=1 como sendo linear: 
 
 Pr(Y = 1|X) = β0 + β1X 
5
 
No lugar deste pressuposto, queremos: 
• 0 ≤ Pr(Y = 1|X) ≤ 1 para todo X 
• Pr(Y = 1|X) seja crescente em X (para β1>0) 
 
Regressões com Probit e Logit
O problema do modelo de probabilidade linear é que modela 
a probabilidade de Y=1 como sendo linear: 
 
 Pr(Y = 1|X) = β0 + β1X 
6
 
No lugar deste pressuposto, queremos: 
• 0 ≤ Pr(Y = 1|X) ≤ 1 para todo X 
• Pr(Y = 1|X) seja crescente em X (para β1>0) 
Isso requer uma forma funcional não-linear para a 
probabilidade. E se usássemos uma curva tipo “S”… 
 
7
O modelo probit satisfaz estas condições: 
• 0 ≤ Pr(Y = 1|X) ≤ 1 para todo X 
• Pr(Y = 1|X) é crescente em X (para β1>0) 
 
Modelo Probit
• Expressa a probabilidade de Y=1 usando a função de 
probabilidade acumulada de uma normal padrão, 
avaliada em z = β0 + β1X. Ou seja: 
 
8
 
 
Modelo Probit
• Expressa a probabilidade de Y=1 usando a função de 
probabilidade acumulada de uma normal padrão, 
avaliada em z = β0 + β1X. Ou seja: 
 
9
 Pr(Y = 1|X) = Φ(β0 + β1X) = Φ(z) 
 
 
Modelo Probit
• Expressa a probabilidade de Y=1 usando a função de 
probabilidade acumulada de uma normal padrão, 
avaliada em z = β0 + β1X. Ou seja: 
 
10
 Pr(Y = 1|X) = Φ(β0 + β1X) = Φ(z) 
 
• Φ é a distribuição normal acumulada. 
• z = β0 + β1X é o “valor-z” ou “índice-z” do modelo 
probit. 
 
Modelo Logit
Regressão Logit modela a probabilidade de Y=1 como uma 
função acumulada logística, avaliada em z = β0 + β1X: 
 
 Pr(Y = 1|X) = F(β0 + β1X) 
11
0 1
 
 
Modelo Logit
Regressão Logit modela a probabilidade de Y=1 como uma 
função acumulada logística, avaliada em z = β0 + β1X: 
 
 Pr(Y = 1|X) = F(β0 + β1X) 
12
0 1
 
Onde F é a função acumulada logística: 
 
 F(β0 + β1X) = 
0 1( )
1
1 Xe β β− ++
 
 
Estimação e inferência com modelos
Probit e Logit
Modelo Probit: 
 Pr(Y = 1|X) = Φ(β0 + β1X) 
 
 
13
Estimação e inferência com modelos
Probit e Logit
Modelo Probit: 
 Pr(Y = 1|X) = Φ(β0 + β1X) 
 
• Como estimamos β0 e β1? 
14
0 1
• Qual e a distribuição amostral dos estimadores? 
• Podemos usar nossos métodos de inferência? 
 
Estimação e inferência com modelos
Probit e Logit
Modelo Probit: 
 Pr(Y = 1|X) = Φ(β0 + β1X) 
 
• Como estimamos β0 e β1? 
15
0 1
• Qual e a distribuição amostral dos estimadores? 
• Podemos usar nossos métodos de inferência? 
• Primeiro iremos motivar usando mínimos quadrados não-
lineares 
 
Estimação e inferência com modelos
Probit e Logit
Modelo Probit: 
 Pr(Y = 1|X) = Φ(β0 + β1X) 
 
• Como estimamos β0 e β1? 
16
• Qual e a distribuição amostral dos estimadores? 
• Podemos usar nossas métodos de inferência? 
• Primeiro iremos motivar usando mínimos quadrados não-
lineares 
• Depois discutiremos estimação por máxima 
verossimilhança (como é feito na prática) 
 
Estimação por máxima 
verossimilhança
A função de verossimilhança é a densidade condicional de 
Y1,…,Yn dado X1,…,Xn, tratada como uma função dos 
parâmetros desconhecidos β0 and β1. 
 
17
Estimação por máxima
verossimilhança
A função de verossimilhança é a densidade condicional de 
Y1,…,Yn dado X1,…,Xn, tratada como uma função dos 
parâmetros desconhecidos β0 and β1. 
 
• O estimador de máxima verossimilhança (EMV) é o valor 
18
• O estimador de máxima verossimilhança (EMV) é o valor 
de (β0, β1) que maximiza a função de verossimilhança. 
 
 
 
Estimação por máxima
verossimilhança
A função de verossimilhança é a densidade condicional de 
Y1,…,Yn dado X1,…,Xn, tratada como uma função dos 
parâmetros desconhecidos β0 and β1. 
 
• O estimador de máxima verossimilhança (EMV) é o valor 
19
• O estimador de máxima verossimilhança (EMV) é o valor 
de (β0, β1) que maximiza a função de verossimilhança. 
 
• o EMV é o valor de (β0, β1) que melhor descreve a 
distribuição completa dos dados. 
 
 
Estimação por máxima
verossimilhança
• Em grandes amostras, o EVM é: 
 
• Consistente 
 
• Distribuído como uma normal 
20
• Distribuído como uma normal 
 
• Eficiente (menor variância entre todos estimadores) 
 
Caso especial: EMV do Probit sem X
Y =1 com probabilidade p 
Y =0 com probabilidade (1-p) 
 (distribuição Bernoulli) 
 
Dados: Y1,…,Yn, i.i.d. 
21
Dados: Y1,…,Yn, i.i.d. 
 
 
Caso especial: EMV do Probit sem X
Y =1 com probabilidade p 
Y =0 com probabilidade (1-p) 
 (distribuição Bernoulli) 
 
Dados: Y1,…,Yn, i.i.d. 
22
Dados: Y1,…,Yn, i.i.d. 
 
A derivação da verossimilhança começa com a densidade de 
Y1: 
 
Pr(Y1 = 1) = p e Pr(Y1 = 0) = 1–p 
 
Caso especial: EMV do Probit sem X
Y =1 com probabilidade p 
Y =0 com probabilidade (1-p) 
 (distribuição Bernoulli) 
 
Dados: Y1,…,Yn, i.i.d. 
23
Dados: Y1,…,Yn, i.i.d. 
 
A derivação da verosemelhança começa com a densidade de 
Y1: 
 
Pr(Y1 = 1) = p e Pr(Y1 = 0) = 1–p 
logo 
Pr(Y1 = y1) = 1 11(1 )y yp p −− 
 
A densidade conjunta de (Y1,Y2): 
 
24
A densidade conjunta de (Y1,Y2): 
Como Y1 e Y2 são independentes, 
 
Pr(Y1 = y1,Y2 = y2) = 
 
25
A densidade conjunta de (Y1,Y2): 
Como Y1 e Y2 são independentes, 
 
Pr(Y1 = y1,Y2 = y2) = Pr(Y1 = y1)× Pr(Y2 = y2) 
 
26
A densidade conjunta de (Y1,Y2): 
Como Y1 e Y2 são independentes, 
 
Pr(Y1 = y1,Y2 = y2) = Pr(Y1 = y1)× Pr(Y2 = y2) 
= [ 1 11(1 )y yp p −− ]×[ 2 21(1 )y yp p −− ] 
 
 
27
A densidade conjunta de (Y1,Y2): 
Como Y1 e Y2 são independentes, 
 
Pr(Y1 = y1,Y2 = y2) = Pr(Y1 = y1)× Pr(Y2 = y2) 
= [ 1 11(1 )y yp p −− ]×[ 2 21(1 )y yp p −− ] 
= 
( ) [ ]1 2 1 22 ( )(1 )y y y yp p+ − +− 
 
 
28
A densidade conjunta de (Y1,Y2): 
Como Y1 e Y2 são independentes, 
 
Pr(Y1 = y1,Y2 = y2) = Pr(Y1 = y1)× Pr(Y2 = y2) 
= [ 1 11(1 )y yp p −− ]×[ 2 21(1 )y yp p −− ] 
= 
( ) [ ]1 2 1 22 ( )(1 )y y y yp p+ − +− 
 
Em termos gerais, a densidade conjunta de (Y1,..,Yn): 
29
Em termos gerais, a densidade conjunta de (Y1,..,Yn): 
 
 
A densidade conjunta de (Y1,Y2): 
Como Y1 e Y2 são independentes, 
 
Pr(Y1 = y1,Y2 = y2) = Pr(Y1 = y1)× Pr(Y2 = y2) 
= [ 1 11(1 )y yp p −− ]×[ 2 21(1 )y yp p −− ] 
= 
( ) [ ]1 2 1 22 ( )(1 )y y y yp p+ − +− 
 
Em termos gerais, a densidade conjunta de (Y1,..,Yn): 
30
Em termos gerais, a densidade conjunta de (Y1,..,Yn): 
 
 Pr(Y1 = y1,Y2 = y2,…,Yn = yn) 
 
A densidade conjunta de (Y1,Y2): 
Como Y1 e Y2 são independentes, 
 
Pr(Y1 = y1,Y2 = y2) = Pr(Y1 = y1)× Pr(Y2 = y2) 
= [ 1 11(1 )y yp p −− ]×[ 2 21(1 )y yp p −− ] 
= 
( ) [ ]1 2 1 22 ( )(1 )y y y yp p+ − +− 
 
Em termos gerais, a densidade conjunta de (Y1,..,Yn): 
31
Em termos gerais, a densidade conjunta de (Y1,..,Yn): 
 
 Pr(Y1 = y1,Y2 = y2,…,Yn = yn) 
 = [ 1 11(1 )y yp p −− ]×[ 2 21(1 )y yp p −− ]×…×[ 1(1 )n ny yp p −− ] 
 
 
A densidade conjunta de (Y1,Y2): 
Como Y1 e Y2 são independentes, 
 
Pr(Y1 = y1,Y2 = y2) = Pr(Y1 = y1)× Pr(Y2 = y2) 
= [ 1 11(1 )y yp p −− ]×[ 2 21(1 )y yp p −− ] 
= 
( ) [ ]1 2 1 22 ( )(1 )y y y yp p+ − +− 
 
Em termos gerais, a densidade conjunta de (Y1,..,Yn): 
32
Em termos gerais, a densidade conjunta de (Y1,..,Yn): 
 
 Pr(Y1 = y1,Y2 = y2,…,Yn = yn) 
 = [ 1 11(1 )y yp p −− ]×[ 221(1 )y yp p −− ]×…×[ 1(1 )n ny yp p −− ] 
 = 
( )11 (1 ) nn ii ii n yyp p == −∑∑ − 
 
Podemos expressar a verossimilhança como a densidade 
conjunta, tratado como uma função dos parâmetros 
desconhecidos (neste caso p): 
 
f(p;Y1,…,Yn) = ( )11 (1 )
nn
ii ii
n YYp p ==
−∑∑
−
 
 
 
33
Podemos expressar a verossimilhança como a densidade 
conjunta, tratado como uma função dos parâmetros 
desconhecidos (neste caso p): 
 
f(p;Y1,…,Yn) = ( )11 (1 )
nn
ii ii
n YYp p ==
−∑∑
− 
 
O EMV (MLE) maximiza a verossimilhança. Mas é sempre 
mais fácil trabalhar com o logaritmo da verossimilhança, 
34
mais fácil trabalhar com o logaritmo da verossimilhança, 
ln[f(p;Y1,…,Yn)]: 
 
 
Podemos expressar a verossimilhança como a densidade 
conjunta, tratado como uma função dos parâmetros 
desconhecidos (neste caso p): 
 
f(p;Y1,…,Yn) = ( )11 (1 )
nn
ii ii
n YYp p ==
−∑∑
− 
 
O EMV (MLE) maximiza a verossimilhança. Mas é sempre 
mais fácil trabalhar com o logaritmo da verossimilhança, 
35
mais fácil trabalhar com o logaritmo da verossimilhança, 
ln[f(p;Y1,…,Yn)]: 
 
ln[f(p;Y1,…,Yn)] = 
 
 
Podemos expressar a verossimilhança como a densidade 
conjunta, tratado como uma função dos parâmetros 
desconhecidos (neste caso p): 
 
f(p;Y1,…,Yn) = ( )11 (1 )
nn
ii ii
n YYp p ==
−∑∑
−
 
 
O EMV (MLE) maximiza a verossimilhança. Mas é sempre 
mais fácil trabalhar com o logaritmo da verossimilhança, 
36
mais fácil trabalhar com o logaritmo da verossimilhança, 
ln[f(p;Y1,…,Yn)]: 
 
ln[f(p;Y1,…,Yn)] = ( ) ( )1 1ln( ) ln(1 )n ni ii iY p n Y p= =+ − −∑ ∑ 
 
 
 
Maximizando a verossimilhança e igualando a derivada a 
zero: 
 
1ln ( ; ,..., )nd f p Y Y
dp
 = ??? 
37
 
Maximizando a verosemelhança e igualando a derivada a 
zero: 
 
1ln ( ; ,..., )nd f p Y Y
dp
 = ( ) ( )1 11 11n ni ii iY n Yp p= =  −+ −  − ∑ ∑ = 0 
38
( ) ( )1 11 1
ˆ ˆ1
n n
i iMLE MLEi i
Y n Y
p p= =
 −
+ −  
− 
∑ ∑ = 0 
ou 
( ) ( )1 11 1
ˆ ˆ1
n n
i iMLE MLEi i
Y n Y
p p= =
= −
−
∑ ∑ 
 
39
( ) ( )1 11 1
ˆ ˆ1
n n
i iMLE MLEi i
Y n Y
p p= =
 −
+ −  
− 
∑ ∑ = 0 
ou 
( ) ( )1 11 1
ˆ ˆ1
n n
i iMLE MLEi i
Y n Y
p p= =
= −
−
∑ ∑ 
ou 
ˆ
MLEY p
= 
40
ˆ
ˆ1 1 MLE
Y p
Y p
=
− −
 
 
( ) ( )1 11 1
ˆ ˆ1
n n
i iMLE MLEi i
Y n Y
p p= =
 −
+ −  
− 
∑ ∑ = 0 
ou 
( ) ( )1 11 1
ˆ ˆ1
n n
i iMLE MLEi i
Y n Y
p p= =
= −
−
∑ ∑ 
ou 
ˆ
MLEY p
= 
41
ˆ
ˆ1 1 MLE
Y p
Y p
=
− −
 
ou 
 
ˆ
MLEp = Y = fração de 1 
 
 
EMV sem regressores
(distribuição Bernoulli)
= Y = fração de 1s 
 
• Para Yi i.i.d. Bernoulli, o EMV é o estimador “natural” de 
p, a fração de 1s, que é Y 
 
EMVpˆ
42
 
 
EMV sem regressores
(distribuição Bernoulli)
= Y = fração de 1s 
 
• Para Yi i.i.d. Bernoulli, o EMV é o estimador “natural” de 
p, a fração de 1s, que é Y 
 
EMVpˆ
43
 
• Já sabemos o essencial para fazer inferência: 
 
• Quando n é grande, a distribuição amostral de = 
Y que é distribuído de forma Normal. 
 
EMVpˆ
EMV sem regressores
(distribuição Bernoulli)
= Y = fração de 1s 
 
• Para Yi i.i.d. Bernoulli, o EMV é o estimador “natural” de 
p, a fração de 1s, que é Y 
 
EMVpˆ
44
 
• Já sabemos o essencial para fazer inferência: 
 
• Quando n é grande, a distribuição amostral de = 
Y que é distribuído de forma Normal. 
 
• Assim a inferência é feita como “sempre”: testamos 
hipóteses usando estatística t, intervalos de confiança 
dados por ± 1.96 EP 
 
EMVpˆ
EMV sem regressores
(distribuição Bernoulli)
• A teoria de estimadores de máxima verossimilhança nos 
diz que é o estimador mais eficientes de p – de 
todos os estimadores possíveis – pelo menos para n 
grande. 
 
EMVpˆ
45
 
 
EMV sem regressores
(distribuição Bernoulli)
• A teoria de estimadores de máxima verossimilhança nos 
diz que é o estimador mais eficientes de p – de 
todos os estimadores possíveis – pelo menos para n 
grande. 
 
EMVpˆ
46
 
• Na prática, para enfatizar a necessidade de n grande, 
alguns softwares chamam o estimador da estatística t de 
estatística z; e no lugar da estatística F, aparece a chi-
quadrado (= q×F). 
 
 
EMV sem regressores
(distribuição Bernoulli)
• A teoria de estimadores de máxima verossimilhança nos 
diz que é o estimador mais eficientes de p – de 
todos os estimadores possíveis – pelo menos para n 
grande. 
 
EMVpˆ
47
 
• Na prática, para enfatizar a necessidade de n grande, 
alguns softwares chamam o estimador da estatística t de 
estatística z; e no lugar da estatística F, aparece a chi-
quadrado (= q×F). 
 
• Agora iremos estender o conceito de EMV para o modelo 
Probit – com a probabilidade de Y condicional em X. 
 
A Verossimilhança Probit com um X
Começamos a derivação com a densidade de Y1, dado X1: 
 
Pr(Y1 = 1|X1) = Φ(β0 + β1X1) 
 
Pr(Y1 = 0|X1) = 1–Φ(β0 + β1X1) 
48
Pr(Y1 = 0|X1) = 1–Φ(β0 + β1X1) 
 
 
 
A Verossimilhança Probit com um X
Começamos a derivação com a densidade de Y1, dado X1: 
 
Pr(Y1 = 1|X1) = Φ(β0 + β1X1) 
 
Pr(Y1 = 0|X1) = 1–Φ(β0 + β1X1) 
49
Pr(Y1 = 0|X1) = 1–Φ(β0 + β1X1) 
 
Logo 
 
Pr(Y1 = y1|X1) = 1 110 1 1 0 1 1( ) [1 ( )]y yX Xβ β β β −Φ + −Φ + 
 
 
A Verossimilhança Probit com um X
A densidade de Y2, dado X2: 
 
Pr(Y2 = 1|X2) = Φ(β0 + β1X2) 
 
Pr(Y2 = 0|X2) = 1–Φ(β0 + β1X2) 
50
Pr(Y2 = 0|X2) = 1–Φ(β0 + β1X2) 
 
 
 
A Verossimilhança Probit com um X
Começamos a derivação com a densidade de Y1, dado X1: 
 
Pr(Y1 = 1|X1) = Φ(β0 + β1X1) 
 
Pr(Y1 = 0|X1) = 1–Φ(β0 + β1X1) 
51
Pr(Y1 = 0|X1) = 1–Φ(β0 + β1X1) 
 
Logo 
 
Pr(Y1 = y1|X1) = 1 110 1 1 0 1 1( ) [1 ( )]y yX Xβ β β β −Φ + −Φ + 
 
 
A Verosimilhança Probit com um X
 
A função de versosimilhança probit é a densidade conjunta de 
Y1,…,Yn dado X1,…,Xn, tratada como uma função de β0, β1: 
 
f(β0,β1; Y1,…,Yn|X1,…,Xn)= 
52
f(β0,β1; Y1,…,Yn|X1,…,Xn)= 
 
A Verosimilhança Probit com um X
 
A função de versosimilhança probit é a densidade conjunta de 
Y1,…,Yn dado X1,…,Xn, tratada como uma função de β0, β1: 
 
f(β0,β1; Y1,…,Yn|X1,…,Xn) 
53
f(β0,β1; Y1,…,Yn|X1,…,Xn) 
 
= { 1 110 1 1 0 1 1( ) [1 ( )]Y YX Xβ β β β −Φ + −Φ + }× 
 
…×{ 10 1 0 1( ) [1 ( )]n nY Yn nX Xβ β β β −Φ + −Φ + } 
 
A Verossimilhança Probit com um X
f(β0,β1; Y1,…,Yn|X1,…,Xn) 
= { 1 110 1 1 0 1 1( ) [1 ( )]Y YX Xβ β β β −Φ + −Φ + }× 
…×{ 10 1 0 1( ) [1 ( )]n nY Yn nX Xβ β β β −Φ + −Φ + } 
 
• Não podemos resolver o máximo de forma explícita. 
54
• Não podemos resolver o máximo de forma explícita. 
 
• Temos que maximizar usando métodos numéricos. 
 
 
 
A Verossimilhança Probit com um X
 
 
 
∑
= +Φ−−
++Φ
=
n
i ii
ii
xy
xy
L
1 10
10
)]}(1log[)1(
)(log
log ββ
ββ
55
=i ii1 10
A Verossimilhança Probit com um X
 
 
 
∑
= +Φ−−
++Φ
=
n
i ii
ii
xy
xy
L
1 10
10
)]}(1log[)1(
)(log
log ββ
ββ
56
i ii1 10
∑ =
−
−
−+=
∂
∂
i
i
i
i
i
i
ii x
F
fy
F
fyL 0])1()1([
log
1β
A Verossimilhança Probit com um X
 
• Como no caso sem X, em amostras grandes temos que: 
 
• 0
ˆMLEβ , 1ˆMLEβ são consistentes 
 
57
 
 
A Verossimilhança Probit com um X
 
• Como no caso sem X, em amostras grandes temos que: 
 
• 0
ˆMLEβ , 1ˆMLEβ são consistentes 
 
58
 
• 0
ˆMLEβ , 1ˆMLEβ são distribuídos normalmente 
 
 
A Verossimilhança Probit com um X
 
• Como no caso sem X, em amostras grandes temos que: 
 
• 0
ˆMLEβ , 1ˆMLEβ são consistentes 
 
59
 
• 0
ˆMLEβ , 1ˆMLEβ são distribuídos normalmente 
 
• 0
ˆMLEβ , 1ˆMLEβ são eficientes asintoticamente 
(assumindo que o modelo probit é o modelo correto) 
 
A Verossimilhança Probit
• Erro padrão de 0ˆ
MLEβ , 1ˆMLEβ são computados como 
sempre… 
 
• Testes e intervalos de confiança também. Porém, alguns 
60
• Testes e intervalos de confiança também. Porém, alguns 
testes agora serão feitos com a função de 
verossimilhança. 
A Verossimilhança Logit com um X
• A única diferença entreprobit e logit é a forma funcional 
usada para a probabilidade: no lugar de Φ teremos a 
função logit acumulada. 
 
 
61
 
A Verossimilhança Logit com um X
• A única diferença entre probit e logit é a forma funcional 
usada para a probabilidade: no lugar de Φ teremos a 
função logit acumulada. 
 
• Como no probit, 
62
• Como no probit, 
 
• 0
ˆMLEβ , 1ˆMLEβ são consistentes 
• 0
ˆMLEβ , 1ˆMLEβ são normalmente distribuídos 
• Erro padrão, testes e intervalos de confiança são 
calculados da mesma forma. 
Teste da razão das 
verossimilhanças
• Nestes modelos não-lineares não podemos Calcular a 
estatística F ou construir um teste de ML para testar 
restrições de exclusão. 
 
63
Teste da razão das 
verossimilhanças
• Nestes modelos não-lineares não podemos Calcular a 
estatística F ou construir um teste de ML para testar 
restrições de exclusão. 
• A maximização da função de log Verssimilhança nos 
64
dará um valor de L. Podemos usar estes valores para 
construir testes. 
 
Teste da razão das 
verossimilhanças
• Nestes modelos não-lineares não podemos Calcular a 
estatística F ou construir um teste de ML para testar 
restrições de exclusão. 
• A maximização da função de log Verssimilhança nos 
65
dará um valor de L. Podemos usar estes valores para 
construir testes. 
• Podemos estimar modelos restrito e irrestrito e calcular: 
 
 
Teste da razão das 
verossimilhanças
• Nestes modelos não-lineares não podemos Calcular a 
estatística F ou construir um teste de ML para testar 
restrições de exclusão. 
• A maximização da função de log Verssimilhança nos 
66
dará um valor de L. Podemos usar estes valores para 
construir testes. 
• Podemos estimar modelos restrito e irrestrito e calcular: 
 
RV = 2(Lir – Lr) ~ X2q 
 
Medidas de ajuste para logit e probit
O R2 e o 2R não fazem sentido aqui. Assim, duas outras 
medidas de ajuste são comumente usadas: 
 
67
Medidas de ajuste para logit e probit
O R2 e o 2R não fazem sentido aqui. Assim, duas outras 
medidas de ajuste são comumente usadas: 
 
1. A fração corretamente predita = fração de Y’s para os 
quais a probabilidade predita é >50% (se Yi=1) ou é 
68
quais a probabilidade predita é >50% (se Yi=1) ou é 
<50% (se Yi=0). 
 
 
Medidas de ajuste para logit e probit
O R2 e o 2R não fazem sentido aqui. Assim, duas outras 
medidas de ajuste são comumente usadas: 
 
1. A fração corretamente predita = fração de Y’s para os 
quais a probabilidade predita é >50% (se Yi=1) ou é 
69
quais a probabilidade predita é >50% (se Yi=1) ou é 
<50% (se Yi=0). 
 
2. O pseudo-R2 mede o ajuste usando a função de 
verossimilhança: mede a variação no valor da função de 
log verossimilhança, em relação ao modelo sem 
regressores X (1 – Lir/Lr). 
 
Resumo
• Quando Yi é binário, E(Y| X) = Pr(Y=1|X) 
 
70
Resumo
• Quando Yi é binário, E(Y| X) = Pr(Y=1|X) 
 
• Três modelos: 
 
• Modelo de probabilidade linear (regressão múltipla) 
71
• Modelo de probabilidade linear (regressão múltipla) 
• Probit (distribuição normal acumulada) 
• Logit (distribuição logística acumulada) 
 
Resumo
• Quando Yi é binário, E(Y| X) = Pr(Y=1|X) 
 
• Três modelos: 
 
• Modelo de probabilidade linear (regressão múltipla) 
72
• Modelo de probabilidade linear (regressão múltipla) 
• Probit (distribuição normal acumulada) 
• Logit (distribuição logística acumulada) 
 
• MPL, Probit, Logit produzem probabilidades estimadas. 
 
Resumo
• Efeito de ∆X é a variácão na probabilidade condicional de 
que Y=1. Para Logit e Probit, isto depende dos valores 
iniciais de X 
 
 
73
Resumo
• Efeito de ∆X é a variácão na probabilidade condicional de 
que Y=1. Para Logit e Probit, isto depende dos valores 
iniciais de X 
 
• Estimamos Probit e Logit usando máxima verossimilhança 
74
• Estimamos Probit e Logit usando máxima verossimilhança 
 
 
Resumo
• Efeito de ∆X é a variácão na probabilidade condicional de 
que Y=1. Para Logit e Probit, isto depende dos valores 
iniciais de X 
 
• Estimamos Probit e Logit usando máxima verossimilhança 
75
• Estimamos Probit e Logit usando máxima verossimilhança 
 
• Coeficientes são distribuídos como normal para n grande. 
 
• Para n-grande, testes de hipótese, int. confiança são 
construídos da forma usual. 
 
. reg inlf nwifeinc educ exper expersq age kidslt6 kidsge6, ro 
 
Linear regression Number of obs = 753 
 F( 7, 745) = 62.48 
 Prob > F = 0.0000 
 R-squared = 0.2642 
 Root MSE = .42713 
 
------------------------------------------------------------------------------ 
 | Robust 
 inlf | Coef. Std. Err. t P>|t| [95% Conf. Interval] 
-------------+---------------------------------------------------------------- 
 nwifeinc | -.0034052 .0015249 -2.23 0.026 -.0063988 -.0004115 
 educ | .0379953 .007266 5.23 0.000 .023731 .0522596 
76
 educ | .0379953 .007266 5.23 0.000 .023731 .0522596 
 exper | .0394924 .00581 6.80 0.000 .0280864 .0508983 
 expersq | -.0005963 .00019 -3.14 0.002 -.0009693 -.0002233 
 age | -.0160908 .002399 -6.71 0.000 -.0208004 -.0113812 
 kidslt6 | -.2618105 .0317832 -8.24 0.000 -.3242058 -.1994152 
 kidsge6 | .0130122 .0135329 0.96 0.337 -.013555 .0395795 
 _cons | .5855192 .1522599 3.85 0.000 .2866098 .8844287 
------------------------------------------------------------------------------ 
. probit inlf nwifeinc educ exper expersq age kidslt6 kidsge6 
 
Iteration 0: log likelihood = -514.8732 
Iteration 1: log likelihood = -405.78215 
Iteration 2: log likelihood = -401.32924 
Iteration 3: log likelihood = -401.30219 
Iteration 4: log likelihood = -401.30219 
 
Probit regression Number of obs = 753 
 LR chi2(7) = 227.14 
 Prob > chi2 = 0.0000 
Log likelihood = -401.30219 Pseudo R2 = 0.2206 
 
------------------------------------------------------------------------------ 
77
------------------------------------------------------------------------------ 
 inlf | Coef. Std. Err. z P>|z| [95% Conf. Interval] 
-------------+---------------------------------------------------------------- 
 nwifeinc | -.0120237 .0048398 -2.48 0.013 -.0215096 -.0025378 
 educ | .1309047 .0252542 5.18 0.000 .0814074 .180402 
 exper | .1233476 .0187164 6.59 0.000 .0866641 .1600311 
 expersq | -.0018871 .0006 -3.15 0.002 -.003063 -.0007111 
 age | -.0528527 .0084772 -6.23 0.000 -.0694678 -.0362376 
 kidslt6 | -.8683285 .1185223 -7.33 0.000 -1.100628 -.636029 
 kidsge6 | .036005 .0434768 0.83 0.408 -.049208 .1212179 
 _cons | .2700768 .508593 0.53 0.595 -.7267472 1.266901 
------------------------------------------------------------------------------ 
 
Marginal effects after probit 
 y = Pr(inlf) (predict) 
 = .58154201 
------------------------------------------------------------------------------ 
variable | dy/dx Std. Err. z P>|z| [ 95% C.I. ] X 
---------+-------------------------------------------------------------------- 
nwifeinc | -.0046962 .00208 -2.26 0.024 -.008766 -.000626 20.129 
 educ | .0511287 .01011 5.06 0.000 .031308 .0709512.2869 
 exper | .0481771 .00739 6.52 0.000 .033694 .06266 10.6308 
 expersq | -.0007371 .00024 -3.14 0.002 -.001198 -.000276 178.039 
 age | -.0206432 .00327 -6.31 0.000 -.027056 -.014231 42.5378 
 kidslt6 | -.3391514 .04565 -7.43 0.000 -.428628 -.249675 .237716 
 kidsge6 | .0140628 .01769 0.80 0.427 -.020603 .048729 1.35325 
------------------------------------------------------------------------------ 
78
------------------------------------------------------------------------------ 
. logit inlf nwifeinc educ exper expersq age kidslt6 kidsge6 
 
Iteration 0: log likelihood = -514.8732 
Iteration 1: log likelihood = -406.94123 
Iteration 2: log likelihood = -401.85151 
Iteration 3: log likelihood = -401.76519 
Iteration 4: log likelihood = -401.76515 
 
Logistic regression Number of obs = 753 
 LR chi2(7) = 226.22 
 Prob > chi2 = 0.0000 
Log likelihood = -401.76515 Pseudo R2 = 0.2197 
 
------------------------------------------------------------------------------ 
79
------------------------------------------------------------------------------ 
 inlf | Coef. Std. Err. z P>|z| [95% Conf. Interval] 
-------------+---------------------------------------------------------------- 
 nwifeinc | -.0213452 .0084214 -2.53 0.011 -.0378509 -.0048394 
 educ | .2211704 .0434396 5.09 0.000 .1360303 .3063105 
 exper | .2058695 .0320569 6.42 0.000 .1430391 .2686999 
 expersq | -.0031541 .0010161 -3.10 0.002 -.0051456 -.0011626 
 age | -.0880244 .014573 -6.04 0.000 -.116587 -.0594618 
 kidslt6 | -1.443354 .2035849 -7.09 0.000 -1.842373 -1.044335 
 kidsge6 | .0601122 .0747897 0.80 0.422 -.086473 .2066974 
 _cons | .4254524 .8603696 0.49 0.621 -1.260841 2.111746 
------------------------------------------------------------------------------ 
Marginal effects after logit 
 y = Pr(inlf) (predict) 
 = .58277201 
------------------------------------------------------------------------------ 
variable | dy/dx Std. Err. z P>|z| [ 95% C.I. ] X 
---------+-------------------------------------------------------------------- 
nwifeinc | -.0051901 .00221 -2.35 0.019 -.009523 -.000857 20.129 
 educ | .0537773 .01086 4.95 0.000 .032498 .075057 12.2869 
 exper | .0500569 .00788 6.35 0.000 .034604 .06551 10.6308 
 expersq | -.0007669 .00025 -3.11 0.002 -.001251 -.000283 178.039 
 age | -.021403 .00353 -6.07 0.000 -.028317 -.014489 42.5378 
 kidslt6 | -.3509498 .04988 -7.04 0.000 -.448718 -.253182 .237716 
 kidsge6 | .0146162 .01941 0.75 0.451 -.023428 .05266 1.35325 
------------------------------------------------------------------------------ 
80
------------------------------------------------------------------------------