Tópico 16

•

UFJF

Isadora Lupchinski

06.12.2017

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 24 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 24 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 24 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Econometria II

446 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Tópico 17 – Modelos de 
Resposta Binária
Bibliografia:
STOCK, James H. e WATSON, Mark W. Econometria. 1ª. Edição. Prentice Hall, 2004 (capítulo
9).
WOOLDRIDGE, J.M. Introdução à Econometria: uma abordagem moderna. 4ª
ed. São Paulo: Pioneira Thomson Learning, 22015. (capítulo 17).
Modelos de Escolha Qualitativa
Também chamados de Modelos de Escolha Discreta, Modelos
com Variável Dependente Limitada (VDL), ou Modelos de
Resposta Binária.
Nesses modelos a variável 𝑌 é qualitativa, ou assume apenas
valores discretos.
O objetivo do modelo será encontrar a probabilidade de que
algo ocorra.
Para esse curso, veremos apenas o caso em que a variável
dependete é binária, ou seja, pode assumir apenas dois valores:
−> 𝑆𝑒 𝑜 𝑒𝑣𝑒𝑛𝑡𝑜 𝑜𝑐𝑜𝑟𝑟𝑒
−> 𝑆𝑒 𝑜 𝑒𝑣𝑒𝑛𝑡𝑜 𝑛ã𝑜 𝑜𝑐𝑜𝑟𝑟𝑒
𝑌 = ቊ
1
0
Modelos de Escolha Qualitativa
Exemplos:
Participar da força de trabalho: 
Usar transporte público: 
Possuir educação superior:
−> 𝑆𝑒 𝑝𝑎𝑟𝑡𝑖𝑐𝑖𝑝𝑎 𝑑𝑎 𝑓𝑜𝑟ç𝑎 𝑑𝑒 𝑡𝑟𝑎𝑏𝑎𝑙ℎ𝑜
−> 𝑆𝑒 𝑛ã𝑜 𝑝𝑎𝑟𝑡𝑖𝑐𝑖𝑝𝑎
𝑌 = ቊ
1
0
−> 𝑆𝑒 𝑢𝑡𝑖𝑙𝑖𝑧𝑎 𝑡𝑟𝑎𝑛𝑠𝑝𝑜𝑟𝑡𝑒 𝑝ú𝑏𝑙𝑖𝑐𝑜
−> 𝑆𝑒 𝑛ã𝑜 𝑢𝑡𝑖𝑙𝑖𝑧𝑎
𝑌 = ቊ
1
0
−> 𝑆𝑒 𝑝𝑜𝑠𝑠𝑢𝑖 𝑑𝑖𝑝𝑙𝑜𝑛𝑎 𝑠𝑢𝑝𝑒𝑖𝑜𝑟
−> 𝑆𝑒 𝑛ã𝑜 𝑝𝑜𝑠𝑠𝑢𝑖
𝑌 = ቊ
1
0
O Modelo de Probabilidade Linear
Vejamos o seguinte modelo:
𝑌𝑖 = 𝛽1 + 𝛽2𝑋𝑖 + 𝑢𝑖
Em que 𝑌𝑖 é uma variável binária, ou dicotômica.
Se a probabilidade de que 𝑌𝑖 = 1 for chamada de 𝑃𝑖, então
temos:
Ou seja, a variável 𝑌𝑖 possui distribuição de probabilidade
Bernoulli.
𝒀𝒊 Probabilidade
1 𝑃𝑖
0 1 − 𝑃𝑖
Total 1
O Modelo de Probabilidade Linear
Sabemos que:
𝐸 𝑌𝑖 𝑋𝑖 = 𝛽1 + 𝛽2𝑋𝑖
Usando as probabilidades:
𝐸 𝑌𝑖 = 0 1 − 𝑃𝑖 + 1 𝑃𝑖 = 𝑃𝑖
Ou seja:
𝐸 𝑌𝑖 𝑋𝑖 = 𝛽1 + 𝛽2𝑋𝑖 = 𝑃𝑖
Ou seja, a expectativa condicional de que 𝑌𝑖 ocorra dado 𝑋𝑖,
pode ser interpretada como a probabilidade condicional de que
o evento 𝑌𝑖 = 1 ocorra.
O Modelo de Probabilidade Linear
Principais problemas:
As probabilidades calculadas podem ser maiores que um ou
menores que zero. Ou seja, não é possível satisfazer a condição:
0 ≤ 𝐸 𝑌𝑖 𝑋 ≤ 1
Os incrementos marginais são constantes, estamos assumindo que
a probabilidade aumenta linearmente com os valores de 𝑋𝑖.
Poderíamos usar MQO para estimar o modelo?
O Modelo de Probabilidade Linear
Em um modelo de resposta binária, o interesse reside,
principalmente, na probabilidade de resposta:
𝑃 𝑦 = 1 𝑥 = 𝑃 𝑦 = 1 𝑥1, 𝑥2, … , 𝑥𝑘
Em que usamos 𝑥 para representar o conjunto completo de
variáveis explicativas.
Exemplo: quando 𝑦 for um indicador de emprego, 𝑥 poderá
conter várias características individuais, como educação, idade,
estado civil e outros fatores que afetem a situação de emprego.
Alternativas ao modelo de probabilidade linear 
As regressões probit e logit são modelos não-lineares
projetados especificamente para variáveis dependentes binárias.
 Como uma regressão com uma variável dependente binária 𝑦
modela a probabilidade de que 𝑦 = 1, faz sentido adotar uma
formulação não-linear que obrigue os valores previstos a se
situarem entre zero e um.
Como as funções de probabilidade acumulada (f.d.a) produzem
probabilidades entre zero e um, elas são utilizadas na regressão
logit e probit.
A regressão probit utiliza a f.d.a normal padrão.
A regressão logit utiliza uma f.d.a “logística”.
Alternativas ao modelo de probabilidade linear 
Precisamos e um modelo com duas caracteísticas básicas:
Forneça probabilidades entre 0 e 1;
A relação entre 𝑌 e as variáveis explicativas, X, seja não linear. Ou seja,
a medida de 𝑋 aumenta, 𝑃𝑖 = 𝐸(𝑌 = 1|𝑋) aumenta a taxas decrescentes.
A função que cumpre esses requisitos é uma função cumulativa de
probabilidade. As funções mais utilizadas são a logística (modelo
logit) e a normal (modelo probit):
Modelos de Resposta Binária
No modelo de probabilidade linerar (MPL) assumimos que a
probabilidade de resposta é linerar em um conjunto de
parâmetros 𝛽𝑗 (ver equação 7.27). Considere uma classe de
modelos de resposta binária da forma:
𝑃(𝑦 = 1|𝑥) = G 𝛽0 + 𝛽1𝑥1 +⋯+ 𝛽𝑘𝑥𝑘 = 𝐺(𝛽0 + 𝒙𝜷)
Onde: 𝐺 é uma função assumindo valores estritamente entre 
zero e um :0 < 𝐺 𝑧 < 1 probabilidade estimadas de resposta 
entre 0 e 1 ∀ números reais 𝑧.
Várias funções não lineares têm sido sugerida para a função 𝐺
para garantir que as probabilidades esteja entre zero e um.
Modelos Logit e Probit
No modelo logit, a função de densidade de probabilidade
utlizada é a logística, cuja função de desnsidade de
propobabilidade acumulada assume a forma:
𝐺 𝑍𝑖 = 𝑃𝑖 =
1
1 − 𝑒−𝑍𝑖
=
𝑒𝑍𝑖
1 − 𝑒𝑍𝑖
No modelo probit, a função de densidade de probabilidade
utlizada é a normal, cuja função de densidade de probabilidade
acumulada assume a forma:
𝐺 𝑍𝑖 = 𝑃𝑖 =
1
2𝜋
න
−∞
𝑍𝑖
𝑒−𝑍𝑖
2/2 𝑑𝑍𝑖
Efeito marginal
Os betas (𝛽′𝑠) não possuem uma análise direta como no
modelo de regressão linear.
O que se deve utilizar para análise é o efeito marginal.
O efeito marginal de 𝑥 mede a inclinação da curva no ponto
considerado, ou seja, é a derivada da variável dependente em
relação à variável explicativa.
Efeito marginal é o cálculo da variação da probabilidade.
O efeito marginal de 𝑥𝑖será :
𝑥𝑖 =
𝜕𝐸(𝑦𝑖)
𝜕𝑥𝑖
Exemplo: participação das mulheres casadas na 
força de trabalho
Variável dependente: Variável binária indicando participação na
força de trabalho de uma mulher casada (inlf).
Ou seja, se mulher informou ter trabalhado com remuneração fora de
casa em algum período do ano, "inlf" é igual a 1
Variáveis independentes:
Outras fontes de renda em milhares de dólares (nwifeinc);
Anos de estudo (educ);
Experiência anterior no mercado de trabalho (exper);
Experiência ao quadrado (expersq);
Idade (age);
Número de filhos menores de seis anos (kidslt6);
Número de filhos entre 6 e 18 anos (kidsge6).
Modelos Logit e Probit
Estimação:
Em ambos os casos o modelo de MQO não será ideal para
estimação, devido a natura não linear da relação da 𝐸(𝑌|𝑋).
Os modelos logit e probit são estimados por Máxima
Verosimilhaça.
A interpretação dos coeficientes não é direta, mas podemos
calcular as inclinações usando os efeitos marginais.
Qual modelo utilizar?
Não existe uma resposta exata para essas questão.
Na maioria das aplicações os resultados são semelhantes, as
diferenças estão em valores próximos a probabilidade 0 e 1.
O modelo logit é o mais utilizado, principalmente por ser mais
simples matematicamente.
Exemplo
Participação das mulheres casadas na força de trabalho.
P(Inlf=1|x) = Φ(β0 + β1renda_mar + β2educ + β3exper + β4exper
2+ 
β5age + β6kidslt6 + β7kids6_18) + u
Comparar Logit (MLE) com Probit (MLE).
• Pelo 𝑃𝑠𝑒𝑢𝑑𝑜 𝑅2 cerca de 21% da variação na variável dependente pode ser atribuída às
variáveis explicativas.
 
 _cons .4254524 .8603697 0.49 0.621 -1.260841 2.111746
 kidsge6 .0601122 .0747897 0.80 0.422 -.086473 .2066974
 kidslt6 -1.443354 .2035849 -7.09 0.000 -1.842373 -1.044335
 age -.0880244 .014573 -6.04 0.000 -.116587 -.0594618
 expersq -.0031541 .0010161 -3.10 0.002 -.0051456 -.0011626
 exper .2058695 .0320569 6.42 0.000 .1430391 .2686999
 educ .2211704 .0434396 5.09 0.000 .1360303 .3063105
 nwifeinc -.0213452 .0084214 -2.53 0.011 -.0378509 -.0048394inlf Coef. Std. Err. z P>|z| [95% Conf. Interval]
 
Log likelihood = -401.76515 Pseudo R2 = 0.2197
 Prob > chi2 = 0.0000
 LR chi2(7) = 226.22
Logistic regression Number of obs = 753
Iteration 4: log likelihood = -401.76515 
Iteration 3: log likelihood = -401.76515 
Iteration 2: log likelihood = -401.76569 
Iteration 1: log likelihood = -402.38502 
Iteration 0: log likelihood = -514.8732 
. logit inlf nwifeinc educ exper expersq age kidslt6 kidsge6
 
 _cons .4254524 .8603697 0.49 0.621 -1.260841 2.111746
 kidsge6 .0601122 .0747897 0.80 0.422 -.086473 .2066974
 kidslt6 -1.443354 .2035849 -7.09 0.000 -1.842373 -1.044335
 age -.0880244 .014573 -6.04 0.000 -.116587 -.0594618
 expersq -.0031541 .0010161 -3.10 0.002 -.0051456 -.0011626
 exper .2058695 .0320569 6.42 0.000 .1430391 .2686999
 educ .2211704 .0434396 5.09 0.000 .1360303 .3063105
 nwifeinc -.0213452 .0084214 -2.53 0.011 -.0378509 -.0048394
 
 inlf Coef. Std. Err. z P>|z| [95% Conf. Interval]
 
Log likelihood = -401.76515 Pseudo R2 = 0.2197
 Prob > chi2 = 0.0000
 LR chi2(7) = 226.22
Logistic regression Number of obs = 753
Iteration 4: log likelihood = -401.76515 
Iteration 3: log likelihood = -401.76515 
Iteration 2: log likelihood = -401.76569 
Iteration 1: log likelihood = -402.38502 
Iteration 0: log likelihood = -514.8732 
. logit inlf nwifeinc educ exper expersq age kidslt6 kidsge6
• Probabilidade da mulher estar no mercado de trabalho no ponto médio da
amostra: 58%
 
 kidsge6 .0146162 .01819 0.80 0.422 -.021032 .050265 1.35325
 kidslt6 -.3509498 .04964 -7.07 0.000 -.448241 -.253658 .237716
 age -.021403 .00354 -6.05 0.000 -.028341 -.014465 42.5378
 expersq -.0007669 .00025 -3.10 0.002 -.001252 -.000281 178.039
 exper .0500569 .00782 6.40 0.000 .034721 .065393 10.6308
 educ .0537773 .01056 5.09 0.000 .033078 .074476 12.2869
nwifeinc -.0051901 .00205 -2.53 0.011 -.009204 -.001176 20.129
 
variable dy/dx Std. Err. z P>|z| [ 95% C.I. ] X
 
 = .58277201
 y = Pr(inlf) (predict)
Marginal effects after logit
. mfx 
 
 _cons .2700768 .508593 0.53 0.595 -.7267472 1.266901
 kidsge6 .036005 .0434768 0.83 0.408 -.049208 .1212179
 kidslt6 -.8683285 .1185223 -7.33 0.000 -1.100628 -.636029
 age -.0528527 .0084772 -6.23 0.000 -.0694678 -.0362376
 expersq -.0018871 .0006 -3.15 0.002 -.003063 -.0007111
 exper .1233476 .0187164 6.59 0.000 .0866641 .1600311
 educ .1309047 .0252542 5.18 0.000 .0814074 .180402
 nwifeinc -.0120237 .0048398 -2.48 0.013 -.0215096 -.0025378
 
 inlf Coef. Std. Err. z P>|z| [95% Conf. Interval]
 
Log likelihood = -401.30219 Pseudo R2 = 0.2206
 Prob > chi2 = 0.0000
 LR chi2(7) = 227.14
Probit regression Number of obs = 753
Iteration 4: log likelihood = -401.30219 
Iteration 3: log likelihood = -401.30219 
Iteration 2: log likelihood = -401.30273 
Iteration 1: log likelihood = -402.06651 
Iteration 0: log likelihood = -514.8732 
. probit inlf nwifeinc educ exper expersq age kidslt6 kidsge6
 
 _cons .2700768 .508593 0.53 0.595 -.7267472 1.266901
 kidsge6 .036005 .0434768 0.83 0.408 -.049208 .1212179
 kidslt6 -.8683285 .1185223 -7.33 0.000 -1.100628 -.636029
 age -.0528527 .0084772 -6.23 0.000 -.0694678 -.0362376
 expersq -.0018871 .0006 -3.15 0.002 -.003063 -.0007111
 exper .1233476 .0187164 6.59 0.000 .0866641 .1600311
 educ .1309047 .0252542 5.18 0.000 .0814074 .180402
 nwifeinc -.0120237 .0048398 -2.48 0.013 -.0215096 -.0025378
 
 inlf Coef. Std. Err. z P>|z| [95% Conf. Interval]
 
Log likelihood = -401.30219 Pseudo R2 = 0.2206
 Prob > chi2 = 0.0000
 LR chi2(7) = 227.14
Probit regression Number of obs = 753
Iteration 4: log likelihood = -401.30219 
Iteration 3: log likelihood = -401.30219 
Iteration 2: log likelihood = -401.30273 
Iteration 1: log likelihood = -402.06651 
Iteration 0: log likelihood = -514.8732 
. probit inlf nwifeinc educ exper expersq age kidslt6 kidsge6
• Pelo 𝑃𝑠𝑒𝑢𝑑𝑜 𝑅2 cerca de 22% da variação na variável dependente pode ser atribuída às
variáveis explicativas.
 
 kidsge6 .0140628 .01699 0.83 0.408 -.019228 .047353 1.35325
 kidslt6 -.3391514 .04636 -7.32 0.000 -.430012 -.248291 .237716
 age -.0206432 .00331 -6.24 0.000 -.027127 -.01416 42.5378
 expersq -.0007371 .00023 -3.14 0.002 -.001197 -.000277 178.039
 exper .0481771 .00733 6.57 0.000 .033815 .062539 10.6308
 educ .0511287 .00986 5.19 0.000 .031805 .070452 12.2869
nwifeinc -.0046962 .00189 -2.48 0.013 -.008401 -.000991 20.129
 
variable dy/dx Std. Err. z P>|z| [ 95% C.I. ] X
 
 = .58154201
 y = Pr(inlf) (predict)
Marginal effects after probit
. mfx 
• Probabilidade da mulher estar no mercado de trabalho no ponto médio da
amostra: 58%
Medidas de ajuste
O 𝑝𝑠𝑒𝑢𝑑𝑜 − 𝑅2 mede o ajuste do modelo utilizando a função de
verossimilhança.Como a estimação de verossimilhança maximiza essa função, a
inclusão de outro regressor em um modelo logit ou probit aumenta o
valor da verossimilhança maximizada, assim como a inclusão de um
regressor necessariamente reduz a SQR na regressão linear por
MQO.
Isso sugere a medição de qualidade do ajuste do modelo probit pela
comparação do valor da função de verossimilhança maximizada,
incluindo todos os regressores com o valor da verossimilhança sem
nenhum regressor.
Vantagem da medida de ajuste: fácil de entender.
Desvantagem: não reflete a qualidade de previsão: se 𝑌𝑖 = 1, a
observação é tratada como corretamente prevista quando a
probabilidade prevista for de 51 ou 90%.
Modelo Tobit para soluções de canto
Como proceder quando a variável dependente assume o valor 0 para
uma parte da população, mas é continuamente distribuída para os
valores positivos?
Ex: consumo de álcool pelas pessoas com idade acima de 18 anos 
parte é zero.
O modelo Tobit é uma extensão do modelo probit.
É utilizado quando a variável dependente é censurada:
Não existe a informação da variável dependente.
Mas a informação correspondente para a variável explicativa é
conhecida.
Modelo Tobit
Tipicamente, o modelo Tobit expressa a resposta observada, y, em
termos de uma base subjacente de variável latente. A formulação
geral desse modelo pode ser representada pela seguinte relação:
𝑦∗ = 𝛽0 + 𝑥𝛽 + 𝑢
Onde 𝑦∗ é uma variável latente não observada, 𝑥 é um vetor 𝑘 × 1 de
variáveis condicionais. Neste caso, os erros são assumidos i.i.d, ou
seja:
𝑢|𝑥~𝑁𝑜𝑟𝑚𝑎𝑙 (0, 𝜎2)
O termo 𝑢 tem variância constante (𝜎2),o u seja, a variável latente
segue uma distribuição normal homocedástica.
Modelo Tobit
Como a variável latente 𝑦𝑖
∗, não é observada em todo o seu
domínio, define-se uma nova variável 𝑦, que será:
O modelo Tobit se baseia na variância homocedástica do termo
de erro. Se 𝑢~𝑁(0, 𝜎2) – normal homocedástico – então o
estimador መ𝛽 é consistente e eficiente. Caso contrário, መ𝛽 é
inconsistente.
* *
*
0
0 0
y quando y
y
quando y
 
 

Modelo Tobit
Resultados do modelo Tobit para os gastos com medicamentos –
Brasil, 2003
Log (gasto total) 1.49 *** 1.53 *** 1.60 *** 1.19 *** 1.22 *** 1.20 ***
(0.07) (0.08) (0.09) (0.06) (0.06) (0.06)
Idade chefe 0.02 -0.03 -0.04 0.08 ** 0.01 0.04 *
(0.06) (0.07) (0.08) (0.04) (0.03) (0.02)
Idade chefe^2 0.00 0.00 0.00 0.00 ** 0.00 0.00 **
(0.00) (0.00) (0.00) (0.00) (0.00) (0.00)
Escolaridade chefe 0.01 0.01 0.01 0.00 0.01 0.01
(0.00) (0.01) (0.01) (0.00) (0.00) (0.00)
Dummy 1.48 *** 1.08 *** 0.44 ** 1.23 *** 1.20 *** 2.18 ***
(0.26) (0.31) (0.35) (0.23) (0.23) (0.24)
Nordeste -1.09 *** -0.97 *** -0.98 ** -0.74 *** -0.9 *** -0.78 ***
(0.26) (0.31) (0.35) (0.23) (0.23) (0.24)
Sudeste -0.78 *** -0.75 *** -0.82 *** -0.67 *** -0.69 *** -0.70 ***
(0.16) (0.19) (0.20) (0.13) (0.14) (0.14)
Sul -0.65 *** -0.58 *** -0.51 ** -0.50 *** -0.51 *** -0.57 ***
(0.17) (0.19) (0.21) (0.13) (0.15) (0.15)
Centro-Oeste -1.20 *** -1.38 *** -1.38 *** -1.00 *** -1.03 *** -1.00 ***
(0.23) (0.27) (0.29) (0.19) (0.20) (0.20)
Nº de observações 5903 4602 4180 3944 3544 3448
Pseudo R2 0.02 0.02 0.02 0.04 0.04 0.04
*** p<0.01, ** p<0.05, * p<0.1
Regressores
2 adultos (15-49) 1 criança 2 Adultos (15-49) e 1 adulto/idoso
 0-4 5-9 10-14 50-59 60-69 70+