Econometria - Modelos escolha qualitativa

•

IFCE

2

0

2

0

Roberto Alcântara

15.10.2015

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 46 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 6, do total de 46 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 9, do total de 46 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Econometria

6.215 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

ECONOMETRIA
Prof. Patricia Maria Bortolon, D. Sc.
Modelos de Escolha Qualitativa
Fonte: GUJARATI; D. N. Econometria Básica: 4ª Edição. 
Rio de Janeiro. Elsevier- Campus, 2006
Modelos de escolha qualitativa
• Variável dependente: binária
• Variável independente: métricas ou binárias
• Exemplos:
– Probabilidade de falência
– Probabilidade de sinistro
– Probabilidade de aderir a segmento diferenciado de 
governança corporativa
– Probabilidade de abrir capital
Modelos de escolha qualitativa
• Quando Y é quantitativo, através dos modelos de 
regressão linear estimamos o valor esperado ou 
valor médio, dados os valores das variáveis 
independentes
• Quando Y é qualitativo, o objetivo é encontrar a 
probabilidade de que algo aconteça
• Modelos de Probabilidade
),...,,( 21 kiiii XXXYE
O que vamos estudar:
• Como estimar modelos de escolha qualitativa? 
Podemos usar MQO?
• Há problemas especiais de inferência?
• Como medir a qualidade do ajustamento? 
Podemos usar o R2?
• Como interpretar os coeficientes do modelo?
O que não vamos estudar...
• ... mas são extensões do assunto:
– Dados contáveis ou eventos raros como variável dependente = 
processos de probabilidade de Poisson. ex.: no. de artigos 
publicados por um docente, no. de patentes registradas por uma 
empresa, etc...
– Modelos logit e probit ordinais. Ex.: quando a variável dependente 
é nível de escolaridade, ou variáveis em termos de escala do tipo 
Likert (“concordo totalmente” a “discordo totalmente”)
– Modelos logit e probit multinomiais: quando a variável de resposta 
tem mais de duas categorias mas não são ordenadas ou 
hierarquizadas.
– Modelos de duração: ex.: o que determina a duração de uma 
lâmpada; a sobrevivência de micro-empresas. Esses casos são 
tratados em Análise de Sobrevivência.
Modelos de Escolha Qualitativa
• Há três abordagens para formular um modelo 
probabilístico para uma variável de escolha 
binária:
– O modelo de probabilidade linear
– O modelo logit
– O modelo probit
Modelo de Probabilidade Linear
iii uXY  21 
1 = tem casa própria
0 = c. c.
Renda familiar
É um modelo linear de probabilidade porque:
   iiii XYXYE |1Pr 
Modelo de Probabilidade Linear
• Supondo E(ui)=0, para obter estimadores não 
tendenciosos. A variância de Yi tem a seguinte distribuição 
de probabilidade:
Yi Prob.
0 1 – Pi
1 Pi
Total 1
Se Pi = probabilidade de que Yi = 1
Dist. de Probabilidade Binomial
(np ; np(1-p))
1)|(0  ii XYE
Podemos usar MQO?
Modelo de probabilidade linear
Problemas na utilização de MQO
1. Ausência de normalidade dos termos de erro ui. Porque 
assim como Yi, ui também assumem dois valores:
Yi ui Prob.
Qdo. Yi = 1 1 – β1 – β2Xi Pi
Qdo. Yi = 0 – β1 – β2Xi 1 - Pi
iii XYu 21  
Também segue distribuição binomial
=> ui não se distribuem normalmente
Modelo de probabilidade linear
Problemas na utilização de MQO
• Entretanto, lembre que a medida que o tamanho 
da amostra aumenta a distribuição binomial 
converge para a Normal.
• Portanto, no caso de grandes amostras, a 
inferência estatística dos modelos de 
probabilidade linear segue os procedimentos 
habituais de MQO sob premissa de normalidade.
Modelo de probabilidade linear
Problemas na utilização de MQO
2. Variâncias heterocedásticas dos termos de erro.
• Como ui segue distribuição binomial com média Pi e variância 
igual a Pi(1-Pi), vemos que a variância depende da média
• A variância de ui depende, em última instância, dos valores de X e, 
portanto, não é homocedástica.
• Estimadores de MQO não tendenciosos, porém não são 
eficientes.
• Solução: mínimos quadrados ponderados (MQP)
iiii
iii
XXYEP
PPu
21)|(
)1()var(
 

   iiii
i
i
i
i
ii
i
PXXw
w
u
w
X
ww
Y


1P )|E(Y1)|E(Y onde iii
21 
Modelo de probabilidade linear
Problemas na utilização de MQO
3. Impossibilildade de satisfazer 0 ≤ E(Yi | Xi) ≤ 1
• Problema real da estimativa por MQO!!!
• Não há como garantir que se situe entre 0 e 1.
• Duas formas de agir:
• Calcular os e os que forem < 0 considerar = 0 e 
os que forem > 1 considerar = 1
• Usar técnica que garanta que as probabilidades 
condicionais de Yi se situem entre 0 e 1 (logit e 
probit)
iYˆ
iYˆ
Modelo de probabilidade linear
Problemas na utilização de MQO
4. O valor de R2 como medida da qualidade do 
ajustamento é questionável
X
Yest.
1
R2 estará muito abaixo de 1
(em geral entre 0,2 e 0,6)
Do ponto de vista lógico o Modelo de Probabilidade Linear pressupõe que
Pi = E(Y = 1| X) aumenta linearmente com X, isto é, o efeito marginal ou 
incremental de X permanece constante.
Modelo de probabilidade linear
Problemas na utilização de MQO
• No exemplo da amostra de 40 famílias e os dados de 
renda e casa própria (Gujarati, Cap. 15) temos:
• Quando X aumenta uma unidade (US$ 1.000) a prob. de 
ter casa própria aumenta sempre na mesma quantia de 
0,10.
• Independe da renda ser US$8.000, US$10.000 ou 
US$22.000
• O que seria esperado?
– Que a níveis muito baixos ou muito altos a probabilidade de ter 
casa própria não fosse tão afetada.
ii XY 1021,09457,0
ˆ 
Modelo de probabilidade linear
Problemas na utilização de MQO
• Precisamos de um modelo de probabilidade que 
tenha duas características:
1. A medida que Xi aumenta Pi = E(Yi = 1| Xi) aumenta 
mas nunca sai da faixa 0 – 1
2. A relação entre Pi e Xi é não linear, se aproxima de 
zero a taxas cada vez menores à medida que Xi se 
reduz, e se aproxima de 1 a taxas cada vez menores 
à medida que Xi aumenta muito.
Modelo de probabilidade linear
Problemas na utilização de MQO
• Precisamos de uma curva sigmóide, ou em S, 
semelhante a FDA de uma v.a.:
• Em geral são escolhidos os modelos (1) logístico 
e (2) normal, o primeiro dando origem ao modelo 
logit e o sengundo ao probit (ou normit).
X0
1 FDA
Modelo Logit
• O modelo de probabilidade linear no caso da casa 
própria era:
• A Função de Distribuição Logística
iiii XXYEP 21)|1(  
)( 211
1
)|1(
iXiii e
XYEP  

Modelo Logit
• Resumindo e chamando Zi = β1 + β2Xi teremos:
• Problema: Pi é não linear em X e em β => não podemos 
usar MQO
• Solução: linearizar
10
1
1
1
1
 quando
0
1
1
 quando
11
1














i
ii
ii
Z
Z
Zi
P
e
PZ
e
PZ
e
e
e
P
Modelo Logit
i
i
i
i
Z
Z
Z
Z
i
i e
e
e
e
P
P




1
1
1
1
iZi
Z
Z
i
e
P
e
e
P




1
1
1
1
11
A razão de chances a favor da
posse da casa própria.
Pi = 0,8 => há 4 chances contra 1
a favor de a família possuir casa
própria.
i
i
i
i
i
i
i
i
X
P
P
L
Z
P
P
L
21
1
ln
1
ln
 















Tirando o logaritmo:
Denominado Logit
Modelo Logit - Características
1. Quando passa de 0 a 1 (isto é, quando Z varia de -∞ a 
+∞), o logit L varia de -∞ a +∞. As probabilidades são 
limitadas entre 0 e 1, os logits não.
2. Embora L seja linear em X as probabilidades não o são.
3. Podemos incluir quantos regressores forem necessários.
4. O coeficiente angular mede a variação de L em resposta 
a uma unidade de variação em X, isto é, nos diz o 
quanto o logaritmo das chances favoráveis ao evento de 
interesse variam em resposta a uma unidade de variação 
na variável independente.
5. O intercepto dáas chances favoráveis quando a variável 
independente é igual a zero. Como na regressão linear 
pode não ter sentido prático.
Modelo Logit - Características
6. Se quisermos não as chances favoráveis ao 
evento de interesse mas a própria probabilidade 
do evento isso pode ser feito pela expressão:
7. A relação linear não é entre Pi e Xi, e sim entre o 
logaritmo da razão de chances e Xi.
Z
Z
Zi e
e
e
P




 11
1
Modelo Logit - Estimação
1. Dados em nível individual
– A estimativa por MQO é inviável
– Imagine Pi = 1 se a família tem casa própria
Pi = 0 c.c.
– Ao calcular os logits para estimar o modelo
• Ao invés de MQO usar Máxima Verossimilhança para 
estimar os parâmetros
ii
i
i
i uX
P
P
L 






 21
1
ln 
c.c. 
1
0
ln
própria casa temfamília a se 
0
1
ln














i
i
L
L
Expressões não 
fazem sentido
Modelo Logit – Dados Agrupados - Estimação
1. Dados agrupados ou replicados
• Com os Pi é possível obter os logits estimados
• Podemos usar MQO?
• Não!!
X
US$ mil
Ni ni
6 40 8
8 50 12
10 60 18
... ... ...
relativa frequência a é ˆ
i
i
i
N
n
P 
Modelo Logit – Dados Agrupados - Estimação
• É possível demonstrar que, se Ni for 
suficientemente grande e cada observação em 
uma dada classe de renda Xi se distribui 
independentemente como uma variável binomial, 
então:
• Usar MQP
• Estimativa da variância:






 )1(
1
,0~
iii
i
PPN
Nu
)ˆ1(ˆ
1
ˆ 2
iii PPN 

Modelo Logit – Dados Agrupados - Estimação
• Etapas para estimação da regressão logit:
1. Para cada nível de renda:
2. Para cada nível de renda obter o logit:
i
i
N
n
P ˆ








i
i
i
P
P
L
ˆ1
ˆ
lnˆ
Modelo Logit – Dados Agrupados - Estimação
• Etapas para estimação da regressão logit:
3. Transformamos:
ado transformerro de termo
ado transform
ado transform
)ˆ1(ˆ
:onde
em
1
ln
*
*
*
21
*
21
21














i
ii
ii
iiii
iiii
iiiiiii
ii
i
i
i
v
XX
LL
PPNw
vXwL
uwXwwLw
uX
P
P
L



Modelo Logit – Dados Agrupados - Estimação
• Etapas para estimação da regressão logit:
4. Estimamos por MQO sem intercepto.
5. Avaliar coeficiente pelos métodos tradicionais de 
intervalo de confiança ou teste de hipóteses. 
Lembrando que as conclusões serão válidas se as 
amostras forem grandes.
Exemplo da casa própria com dados agrupados na pag. 
485 do Gujarati.
Modelo Logit – Dados Agrupados - Interpretação
• Interpretação do logit: para uma unidade (US$1000) de aumento na 
renda o logaritmo ponderado das chances favoráveis à posse da casa 
própria aumenta em 0,08 unidade.
• Interpretação das chances: tomando o antilogaritmo do logit estimado, 
obtemos Pi / (1 – Pi), isto é, a razão de chances.
9642,0
)56675,14()43619,14(
)00539,0()11046,0(
07862,059474,1
2
**




R
t
ep
XwL iii
*
*
07862,059474,1
07862,059474,1
ˆ1
ˆ
ii
ii
Xw
Xw
i
i
ee
e
P
P





Modelo Logit – Dados Agrupados - Interpretação
• e0,07862 = 1,0817
• Para cada unidade de aumento da renda ponderada, as chances 
ponderadas favoráveis a posse da casa própria aumentam em cerca 
de 8,17%.
*
*
07862,059474,1
07862,059474,1
ˆ1
ˆ
ii
ii
Xw
Xw
i
i
ee
e
P
P





Se tomarmos o anti-logaritmo do j-ésimo coeficiente angular, subtraímos 1 dele
e multiplicamos o resultado por 100, obtemos a variação percentual das chances
em favor de um aumento de uma unidade no j-ésimo regressor.
Modelo Logit – Dados Agrupados - Interpretação
• Cálculo das probabilidades: no nosso exemplo, se 
quisermos calcular a probabilidade de ter casa própria 
se a renda é X = 20 (US$20.000).
02226,0
09311,0
6506,8307862,01825,459474,1
6506,83
1825,4
07862,059474,1
*
*
*
*
**






i
i
i
i
i
i
i
iii
w
L
L
L
L
X
w
XwL
Modelo Logit – Dados Agrupados - Interpretação
• Cálculo das probabilidades: no nosso exemplo, se 
quisermos calcular a probabilidade de ter casa própria 
se a renda é X = 20 (US$20.000).
4944,0
1
ˆ
0225,1
ˆ1
ˆ
Portanto,
ˆ1
ˆ
ln02226,0
02226,0
02226,0
02226,0
02226,0
*



















e
e
P
e
P
P
P
P
w
L
L
i
i
i
i
i
i
i
i
Dada a renda de US$20.000, a 
probabilidade de que a família tenha
uma casa própria é de cerca de 49%.
Modelo Logit – Dados Agrupados - Interpretação
• Cálculo da variação da probabilidade: envolve não 
apenas β2, mas também o nível de probabilidade em 
relação ao qual a variação é medida.
• Para o nível de renda de US$20.000 teremos dP/dX = 
0,01965
)1(2 ii
i
PP
dX
dP
 
Modelo Logit – Dados Não Agrupados
• Como Yi = 1 ou 0, nestes casos, teremos que 
recorrer a procedimentos de estimação não 
lineares usando o método da máxima 
verossimilhança.
• É um método para grandes amostras, e os erros-
padrão estimados são assintóticos
• Ao invés da estatística t usamos a estatística z.
• O R2 não é adequado como medida de 
ajustamento.
– O Eviews apresenta o R2 de McFadden que também 
varia entre 0 e 1.
– Outra medida de ajustamento é o Count R2.
Modelo Logit – Dados Não Agrupados
• Fávero et. al. apresentam outras medidas de 
ajustamento:
– Pseudo R2
– Cox & Snell R2
– Nagelkerke R2
– Teste qui-quadrado: para avaliar se há diferenças 
significativas entre o esperado e o observado
– Hosmer – Lemeshow Goodness of fit Test: outra 
medida do poder preditivo do modelo
Modelo Logit – Dados Não Agrupados
• Para testar a significância do modelo como um 
todo o equivalente ao teste F da regressão 
múltipla é a estatística da razão de 
verossimilhança. Esta estatística segue a 
distribuição qui-quadrado com g.l. igual ao no. de 
variáveis explanatórias (o intercepto não conta).
Modelo Logit – Dados Não Agrupados -
Interpretação
• Gujarati usa um exemplo sobre previsão de notas de 
alunos, com Y =1 se a nota é A e Y = 0 c.c.
• GPA = pontuação média; TUCE = pontuação no início do 
curso; PSI = 1 se utilizado novo método de ensino.
• O modelo e os resultados foram:
40419,15)3(3740,0
0255,05014,00252,00082,0
3786,20951,08261,20213,13
1
2
4321











dfcLRstatistiMcFaddenR
valuesp
PSITUCEGPAL
uPSITUCEGPA
P
P
L
iiii
iiii
i
i
i 
Modelo Logit – Dados Não Agrupados -
Interpretação
• Os regressores em conjunto tem impacto positivo sobre a nota final 
pois LR = 15,40 cujo valor p é de cerca de 0,0015, muito pequeno.
• As três variáveis têm efeito positivo sobre o logit embora TUCE seja 
não significativo.
• O coeficiente 2,8261 de GPA signfica que para cada aumento de 1 na 
nota média o logit estimado aumenta, em média cerca de 2,83 un.
• A interpretação em relação às chances faz-se tomando o 
antilogaritmo dos coeficientes. Ex.: o antilog. de PSI é 10,7897 
(e2,3786). Estudantes submetidos ao novo método de ensino têm cerca 
de dez vezes mais chances de tirar uma nota A.
40419,15)3(3740,0
0255,05014,00252,00082,0
3786,20951,08261,20213,13
1
2
4321










dfcLRstatistiMcFaddenR
valuesp
PSITUCEGPAL
uPSITUCEGPA
P
P
L
iiii
iiii
i
i
i 
Modelo Logit – Dados Não Agrupados -
Interpretação
• Para obter a probabilidade de um estudante ter nota A, observa-se os 
dados deste estudante (GPA, TUCE e PSI) e calcula-se Li, ou seja, o 
logit estimado. Ex.: logit estimado igual a 0,8178
• Para obter a probabilidade usa-se a expressão:
40419,15)3(3740,0
0255,05014,00252,00082,0
3786,20951,08261,20213,13
1
2
4321











dfcLRstatistiMcFaddenR
valuesp
PSITUCEGPAL
uPSITUCEGPA
P
P
L
iiii
iiii
i
i
i 
6937,0
1
1
11
1
8178,0









e
P
e
e
e
P
i
Z
Z
Zi
A probabilidade estimada do estudante tirar 
nota A é aproximadamente 69%.
Como o observado foi Y = 1 para este estudante
podemos assumir que a previsão está próxima.
Modelo Probit
• Utiliza ao invés da função logística acumulada a 
função de distribuição acumulada (FDA) da 
normal.
• Para o exemplo da casa própria:
 



0 2
2
2
)(
22
1
)(
X
X
eXF 


)()()|1( 2121 iiii XFXZPXYPP  
Modelo Probit – Dados Agrupados -
Interpretação
• Resultados do modelo probit para o exemplo da casa 
própria: β1 = -1,0166 e β2 = 0,04846
• Para conhecer o efeito de uma variação unitária em X 
sobre a probabilidade de Y = 1, isto é, ter casa própria 
derivamos a equação anterior e:
• Onde é a função de densidade de 
probabilidade normal padrão em 
• Portanto, essa avaliação dependerá do valor de X
221 )(  i
i
i Xf
dX
dP

)( 21 iXf  
iX21  
Modelo Probit – Dados Agrupados -
Interpretação
• Resultados do modelo probit para o exemplo da casa 
própria: β1 = -1,0166 e β2 = 0,04846
• Para X = 6 teremos na função de densidade normal 
f[-1,0166+0,04846(6)] = f(-0,72548). 
• Para Z = -0,72548 a densidade normal é de cerca de 
0,3066, que multiplicado por β2 , dará 0,01485.
• Ou seja, partindo de um nível de renda de US$6.000, 
quando a renda aumenta US$1.000 a probabilidade de 
uma família ter casa própria aumenta em 1,4%.
Efeito marginal de uma variação unitária de um 
regressor nos vários modelos de regressão
Modelo de Regressão 
Linear
O coeficiente angular mede a variação do valor 
médio do regressando para uma variação unitária no 
valor de um regressor, mantidas constantes as 
demais variáveis.
Modelo de Probabilidade 
Linear
O coeficiente angular mede diretamente a variação 
da probabilidade de ocorrência de um evento em 
consequência de uma variação unitária no valor de 
um regressor, tudo o mais constante.
Modelo Logit O coeficiente angular nos dá a variação no logaritmo 
das chances dada uma variação unitária de um 
regressor. Entretanto, a taxa de variação na 
probabilidade de ocorrência do evento é dada por 
βjPi(1-Pi), onde βj é o coeficiente do j-ésimo regressor 
e a avaliação de Pi leva em conta todas as variáveis 
do modelo.
Modelo Probit A taxa de variação da probabilidade é mais 
complicada. Dada por βjf(Zi), onde f(Zi) é a função de 
densidade da normal padrão e Zi = β1+β2X2i+...+βkXki, 
ou seja, o modelo de regressão usado na análise.
Entre os modelos logit e probit, qual é o 
preferível?
• Na maioria das aplicações são bastante parecidos
• A distribuição logística tem caudas mais gordas 
=> a prob. condicional Pi aproxima-se de 0 ou 1 
mais lentamente
• Logit é mais simples para interpretar!!
• Os coeficientes dos dois modelos não podem ser 
comparados diretamente. Embora a distribuição 
logística padrão e a normal padrão tenham ambas 
média zero, suas variâncias são diferentes.
Modelo Tobit
• No exemplo da casa própria, se estivéssemos 
interessados não na probabilidade da família ter 
casa própria, mas sim na relação entre o 
montante gasto para adquiri-la em relação a 
variáveis sócio-econômicas.
• Dilema: se a família não tem casa própria não há 
dados sobre o montante gasto!!
• Amostra censurada: quando em parte da 
amostra só temos informações sobre os 
regressores, mas não sobre o regressando.
• Também denominados modelos de regressão 
com variável dependente limitada
Modelo Tobit - Estimação
• Podemos estimar a regressão usando apenas a 
parte da amostra para a qual temos dados da 
variável dependente?
• Não! Os estimadores seriam tendenciosos e 
inconsistentes.
• Solução: método da máxima verossimilhança
• Exemplo: pag. 498 Gujarati – modelo dos casos 
extraconjugais de Ray Fair
c. c. 0 
0 LD se 21

 iii uXY 