Baixe o app para aproveitar ainda mais
Prévia do material em texto
ADC : Modelos Probit1 Caso particular de GLM (“Generalized Linear Models”) onde os três componentes são: - componente aleatório : variável resposta Y, com observações 𝑌𝑖 independentes para os resultados de sucesso/falha; P(Y = 1) = 𝜋(x); P(Y = 0) = 1-𝜋(x); E(Y) = 𝜋(x) - componente sistemático: constante e variáveis explicativas fatores e/ou covariáveis: 𝛼 + 𝛽1𝑥1 + ⋯ + 𝛽𝑛𝑥𝑛 , combinados linearmente, formando o preditor linear (valores de x tratados como fixos e não como V.A., sendo α também denominado β0.) - função de ligação: função que relaciona o valor esperado de Y (µ) ao preditor linear; no caso dos modelos probit, o valor do escore da normal padrão Z para o qual a probabilidade da cauda esquerda é igual a 𝜋(x). Por exemplo, probit (0,05) = -1,645, já que 5% da normal padrão ficam abaixo de -1,645. Assim, probit (0,50) = 0 , probit (0,95) = 1,645 e probit (0,975) = 1,96. Exemplo: 𝑝𝑟𝑜𝑏𝑖𝑡 𝜋 𝑥 = 𝛼 + 𝛽𝑥 para uma covariável x, ou então, generalizando para um vetor de covariáveis 𝑃 𝑌𝑖 = 1 𝑿 = Φ(𝐗i𝛃), onde Φ é a função de distribuição normal padrão e β é o vetor dos parâmetros. Qualquer função de distribuição poderia ser usada como função de ligação, sendo aquela que transforma probabilidades em escores Z o que diferencia o modelos probit, por exemplo, do modelo de regressão logística. Vamos ver agora um exemplo de dados que podem ser ajustados por um modelo deste tipo: Uma pesquisa nos EUA constatou que aproximadamente 50% da população adulta com 25 anos ou mais leram um livro no ano passado. As probabilidades variam com a escolaridade, renda e gênero, dentre outros. Se os indivíduos observados na pesquisa são indexados por i = 1, ... , n, a variável resposta Yi é definida como 1 se o indivíduo observado leu pelo menos 1 livro no ano passado e 0 caso contrário. O vetor que representa as variáveis aleatórias para cada indivíduo i é Xi = [1, ESCi, RENi, GENi] ESCi corresponde à covariável número de anos estudados pelo individuo i RENi é a covariável renda anual do indivíduo i em US$ GENi é o fator, sendo igual a 1 se o indivíduo i é do sexo masculino e 0 se do sexo feminino O vetor de parâmetros é de dimensão 4 X 1. Dada a matriz de covariáveis X, os valores de Yi são independentes, com 𝑃 𝑌𝑖 = 1 = Φ(𝐗i𝛃). Se soubermos que β1= -0,35, β2 = 0,02, β3 = 1/100.000, e β4 = -0,1. Um homem com 12 anos de educação formal e renda anual de 40.000 dólares terá para 𝐗i𝛃 : -0,35 + 12 × 0,02 + 40.000 × 1/ 100.000 - 0,1 × 1 = 0,19. Logo, a probabilidade que ele leu um livro no ano passado é igual a Φ 0,19 = 0,58. Já uma mulher na mesma situação terá para 𝐗i𝛃 : -0,35 + 12 × 0,02 + 40.000 × 1/ 100.000 – 0,1 × 0 = 0,29. Então a probabilidade que ela tenha lido um livro no ano 1 Baseado em Freedman, D.A. 2006. Statistical Models – theory and practice. Cambridge University Press. passado é igual a Φ 0,29 = 0,61. Esta probabilidade, um pouco maior, já era esperada, visto que o coeficiente da variável Gênero é negativo. No caso de β desconhecido, o mesmo é estimado a partir dos dados por MV. A função de verossimilhança é um produto, com um fator correspondente a cada indivíduo (já que assumimos o pressuposto de independência) Por exemplo, um indivíduo do sexo masculino, com 18 anos de estudo e salário anual de 60.000 dólares e que não leu um livro no ano passado, será representado na função de verossimilhança por 1 − Φ(𝛽0 + 18𝛽2 + 60.000𝛽3 + 𝛽4). Lembre-se que o indivíduo não lê, daí termos 1 − Φ. Já uma mulher com 16 anos de estudo e 45.000 de salário anual e que leu pelo menos 1 livro no ano passado terá um fator no produtório igual a : Φ(𝛽0 + 16𝛽2 + 45.000𝛽3). Lembre-se que temos Φ pelo fato dela ter lido pelo menos 1 livro no ano passado e que não temos β4 pelo fato dela ser mulher (GEN = 0). A função de log-verossimilhança é, portanto, uma soma, com um termo para cada um dos n indivíduos observados. 𝐿𝑛 𝛽 = 𝑌𝑖 log[𝑃 𝑌𝑖 = 1 𝑋𝑖)] + (1 − 𝑌𝑖)log[1 − 𝑛 𝑖=1 𝑃 𝑌𝑖 = 1 𝑋𝑖)] Então, 𝐿𝑛 𝛽 = 𝑌𝑖 log[Φ(𝐗i𝛃)] + (1 − 𝑌𝑖)log[1 − 𝑛 𝑖=1 Φ(𝐗i𝛃)] Observe que, no exemplo, os leitores contribuem com logΦ, já que o log 1 − Φ é anulado, uma vez que Yi =1 no caso do indivíduo ser leitor. O contrário ocorre para os não-leitores: Yi =0 e logΦ é anulado e o log 1 − Φ permanece. Dado X, Yi são independentes , mas não são idênticamente distribuídos: 𝑃 𝑌𝑖 = 1 𝑿 = Φ(𝐗i𝛃) difere para cada i. β é estimado ao maximizarmos 𝐿𝑛 𝛽 . A matriz de covariância assintótica é dada por [−𝐿𝑛 ′′ 𝛽 ]−1: os dados observados são utilizados visto que não é viável computar a matriz de informação de Fisher analíticamente. Os EP correspondem à raiz quadrada dos elementos da diagonal. Modelos de regressão e erro O modelo de regressão probit é análogo ao modelo de regressão para o caso particular onde a variável resposta é binária (assim como o modelo logit). O erro pode ser inserido no modelo da seguinte forma: no exemplo, cada indivíduo tem uma variável latente Ui, que são todas IID N (0,1) para todos os indivíduos, independentemente das covariáveis. Então, um indivíduo i lê um livro se 𝐗i𝛃 + 𝐔𝐢 > 0. No caso de 𝐗i𝛃 + 𝐔𝐢 < 0 o indivíduo i é não-leitor. Se 𝐗i𝛃 + 𝐔𝐢 = 0, então temos um evento com probabilidade 0. Dada a matriz de covariáveis X, a probabilidade do indivíduo i ter lido um livro no ano passado é dada por: 𝑃(𝑿𝑖𝜷 + 𝑼𝒊) > 0 = 𝑃 𝑈𝑖 > −𝑿𝑖𝜷 = 𝑃 −𝑈𝑖 < 𝑿𝑖𝜷 . Uma vez que Ui é simétrica, temos P −𝑈𝑖 < 𝐗i𝛃 = P 𝑈𝑖 < 𝐗i𝛃 = Φ(𝐗i𝛃) Logo: : 𝑃(𝑿𝑖𝜷 + 𝑼𝒊) > 0 = 𝛷(𝑿𝑖𝜷). Esta nova formulação com variáveis latentes fornece as probabilidades corretas. Esta variável latente é análoga ao erro, mas não se pode estimar variáveis latentes. O que os dados nos fornecem é 𝐗i𝛃 e também o sinal de 𝐗i𝛃 + 𝐔𝐢, o que não é suficiente para determinar Ui. Já os erros em um modelo de regressão clássico podem ser aproximados pelos resíduos. O que é interessante na formulação com variáveis latentes é que os pressupostos ficam mais claros: - o modelo probit requer independência de Ui para Xi, sendo IID em todos os indivíduos observados. - os Ui têm distribuição normal. - a resposta para o indivíduo i depende apenas das covariáveis (veja as fórmulas!) O que deve sempre ser questionado é o seguinte: o modelo é realista para o fenômeno estudado? Por que os coeficientes são os mesmos, por exemplo, para ambos os sexos? Por que o efeito da renda é idêntico para qualquer escolaridade? Existem outras variáveis? Exercícios: 1) Se Z ~N(0,1) com função densidade 𝜙 e função de distribuição Φ dizer se é falso ou verdadeiro, explicando: a) a inclinação de Φ no número real x é 𝜙(𝑥) b) a área à esquerda de x sob 𝜙 é Φ(𝑥) c) P (Z = x) = 𝜙(𝑥) d) P (Z < x) = Φ(𝑥) e) P (Z ≤ x) = Φ(𝑥) f) P (x < Z < X + h) = 𝜙(𝑥)h se h é pequeno e positivo 2) Resumindo o exemplo de leitura: o indivíduo leu pelo menos um livro no ano passado se (𝐗i𝛃 + 𝐔𝐢) > 0 a) o que são Xi e β ? b) Ui é uma variável ........ (covariável, aleatória, latente, dummy, observável – escolher as corretas) c) Quais os pressupostos para Ui ? d) A função de verossimilhança é um(a) .............. (somatório, produtório, quociente, matriz, termo ) para cada ....... (observação, fator, variável) e) como já visto, supor que β1= -0,35, β2 = 0,02, β3 = 1/100.000, e β4 = -0,1 para o exemplo de leitura. João tem 12 anos de escolaridade e salário anual de 40.000. Seu irmão tem o mesmo tempo de escolaridade, mas um salário anual de 50.000. Falso ou Verdadeiro?(Justifique). “De acordo com o modelo, a probabilidade de que o irmão de João tenha lido um livro no ano passado é 0,1 mais que a probabilidade de João. Se falso, calcular a real diferença.
Compartilhar