Buscar

1 Variáveis Dependentes Binárias

Prévia do material em texto

Econometria 1
1. Variáveis Dependentes Binárias 
Prof. Gustavo B. Araujo
∙ Modelo de Probabilidade Linear
→ algumas vezes nossa variável dependente de interesse não é
quantitativa, comportando-se como uma variável qualitativa. E, como já vimos,
variáveis qualitativas em geral são representadas por variáveis binárias nos
modelos de regressão linear.
- candidato foi eleito x não foi eleito;
- equipe venceu a partida x não venceu a partida;
- banco concedeu crédito x não concedeu crédito.
∙ Consideremos o modelo:
onde: , se o candidato se elegeu e , se o candidato não se
elegeu; indica os gastos de campanha desse candidato; é um vetor de
variáveis de controle; e é o termo de erro aleatório.
→ neste caso, E(yi|xi) é a probabilidade condicional de um candidato se
eleger, dado o valor de gastos de campanha desse candidato: P(yi = 1|xi).
- Justificativa:
yi Probab.
1-Pi = probabilidade de que yi = 0 0 1-Pi
E(yi) = 0.(1-Pi) + 1.(Pi) = Pi
Pi = probabilidade de que yi = 1 1 Pi
- E(yi|xi) = Pi =
→ : probabilidade de yi = 1, dado xi = 0.
No exemplo: probabilidade de eleição de um candidato com gastos de
campanha iguais a zero e variáveis de controle com valor de zero, também.
→ : para uma mudança de 1 unidade em x, em média a
probabilidade de yi = 1 aumenta em . 100%, tudo o mais constante.
No exemplo: para um aumento de 1 unidade nos gastos de campanha,
a probabilidade do candidato se eleger aumenta .100%, tudo o mais
constante.
- Problemas da Estimativa do Modelo de Probabilidade Linear:
. Não satisfação de 0 ≤ E(yi|xi) ≤ 1
→ como E(yi|xi) mede a probabilidade condicional de o evento y
ocorrer, dado x, ela deveria necessariamente se situar entre 0 e 1.
→ não há garantia de que , os valores estimados de E(yi|xi) vão
necessariamente obedecer esta restrição.
- Problemas da Estimativa do Modelo de Probabilidade Linear:
. Variâncias heteroscedásticas das perturbações ui, pois var(ui) = Pi.(1-Pi) e
Pi = E(yi|xi) = ou seja, depende de
→ como já visto, a heteroscedasticidade não torna os estimadores de
Mínimos Quadrados Ordinários enviesados, mas eles não são mais eficientes
(não têm mais a menor variância possível, o que afeta os testes de hipótese
realizados, por exemplo).
→ é possível corrigir este problema com a utilização dos Mínimos
Quadrados Ponderados.
- Problemas da Estimativa do Modelo de Probabilidade Linear:
. Não-normalidade dos resíduos,
→ assim como yi, ui só assume duas formas gerais:
→ distribuição binomial (em amostras pequenas ui não se distribui
normalmente).
→ não é tão grave: a estimativa pontual continua não-enviesada, o problema
está na questão da inferência estatística (os testes de hipótese realizados não seriam
válidos, por exemplo). Mas se a amostra aumenta indefinidamente, os estimadores de
MQO tendem a se distribuir normalmente (pois a distribuição binomial tende à
distribuição normal, quando a amostra aumenta indefinidamente).
- Problemas da Estimativa do Modelo de Probabilidade Linear:
. Valor questionável do R2 como medida do grau de ajuste
→ a natureza dos dados faz com que o grau de ajuste não seja muito bom.
. Modelo Logit
→ no Logit: Pi = E(yi = 1|xi) =
→ trata-se da função de distribuição logística acumulada
→ quando x varia de -∞ a ∞, varia de ∞ a -∞ e Pi varia de 0 a 1.
→ Pi não se relaciona linearmente com xi.
→No exemplo, Pi é a probabilidade do candidato ter sido eleito e 1 - Pi
é a probabilidade do candidato não ter sido eleito.
=> é a razão de probabilidade em favor do candidato ter sido
eleito (a razão entre a probabilidade de ter sido eleito e a probabilidade de não
ter sido).
→ Ex.: se Pi = 0,8, isto significa que as chances são de 4 para 1 em favor
do candidato ter sido eleito.
=> Logit: =
→ ou seja, Li, o logaritmo natural da razão de probabilidades, é linear
em xi e também nos parâmetros.
- Características:
→ conforme varia de -∞ a ∞, Pi vai de 0 a 1 e o Logit, Li, vai
de -∞ a ∞. Ou seja, embora as probabilidades se situem entre 0 e 1, o Logit não
se restringe a esses limites.
=> embora Li seja linear em xi, as probabilidades não são.
- Interpretação:
→ mede a variação em Li para uma mudança unitária em xi, ou seja, diz
como o logaritmo natural da razão de chance de ser eleito, no exemplo, varia
conforme os gastos de campanha aumentam em 1 unidade.
→ é o valor esperado do logaritmo natural da razão de chance de ser
eleito, no exemplo, quando os gastos de campanha forem iguais a zero.
→ dado um certo nível de gastos de campanha (digamos, xi*) se na
verdade quisermos estimar não a razão de chance em favor do candidato ser eleito,
mas sim a probabilidade do candidato ser eleito, isto pode ser feito diretamente
calculando Pi = E(yi = 1|xi) = e substituindo pelo valor de xi*.
→ enquanto o Modelo de Probabilidade Linear supõe que Pi se
relaciona linearmente com xi, o Modelo Logit supõe que o logaritmo natural da
razão de probabilidade se relaciona linearmente com xi.
- Estimação:
→ =
→ no banco de dados, como a variável dependente é binária, ou yi = 1,
ou yi = 0. Assim, para cada caso, substituindo no Logit:
se o candidato se elegeu;
se o candidato não se elegeu.
→ a estimação deve ser feita por máxima verossimilhança:
para cada nível de gastos de campanha podemos calcular a frequência
relativa de candidatos que se elegeram: . 
. 
,
obtendo, assim, = , que será uma estimativa
razoavelmente boa do Logit Li (se as quantidades nas classes forem
razoavelmente grandes).
=> como no caso do Modelo de Probabilidade Linear, o termo de erro
aleatório do Modelo Logit é heteroscedástico.
→ assim, ao invés de usar MQO devemos usar Mínimos Quadrados
Ponderados.
- Passos da estimação:
1) para cada nível da variável xi (gastos de campanha, no exemplo), calcule
a probabilidade estimada de yi = 1 (do candidato ter sido eleito);
2) para cada xi obtenha o Logit como ;
3) para resolver o problema da heteroscedasticidade, faça:
em que os pesos , sendo que refere-se à quantidade
de observações em cada categoria de xi considerada.
4) estime a equação do passo 3 por Mínimos Quadrados Ponderados (que é
MQO sobre os dados transformados).
5) realize os testes de hipótese usuais, tendo em mente que as conclusões
serão válidas se a amostra for razoavelmente grande.
=> para poder interpretar devemos fazer a exponencial do coeficiente.
Ex.: ∗ ∗
→ para um aumento de 1 unidade nos gastos de campanha ponderados, o
logaritmo natural ponderado da razão de chance em favor de ter sido eleito
aumenta cerca de 0,08.
→ pegando a exponencial de 0,078 temos aproximadamente 1,08, que
significa que, para um aumento de 1 unidade em ∗, a razão de chance ponderada
de ter sido eleito aumenta em 1,08 ou cerca de 8%.
. Modelo Probit
→ podemos pensar o Modelo Probit da mesma maneira que pensamos
o Modelo Logit, substituindo, no entanto, a função distribuição logística
acumulada pela função distribuição normal acumulada.
=> no Probit:
( ) /
- Estimação
1) a partir dos dados agrupados em classes de valores de xi, estimamos
como no caso do Modelo Logit: . çõ 
. çõ 
.
2) dado o , obtemos o valor de da Função Distribuição Acumulada
da Normal Padrão.
3) usamos obtido no passo 2 como a variável dependente na
regressão .
4) o termo de erro aleatório acima é heteroscedástico. É recomendável
proceder ao processo de correção (como feito no Modelo Logit).
5) podemos realizar testes de hipótese da maneira usual, tendo em
mente que as conclusões serão válidas para amostras grandes.
6) o R2 continua sendo uma medida questionável do grau de ajuste do
modelo.

Continue navegando