Baixe o app para aproveitar ainda mais
Prévia do material em texto
Modelos Lineares Generalizados 1 ' & $ % Introdução aos Modelos Lineares Generalizados Clarice G. B. Demétrio Departamento de Ciências Exatas ESALQ/USP, Piracicaba, SP email: Clarice@carpa.ciagri.usp.br http: //ce.esalq.usp.br/ Modelos Lineares Generalizados 2 ' & $ % Sumário • Introdução • Exemplos de aplicação • Modelos lineares generalizados • Modelos para Superdispersão • Modelos para contagens com zeros em excesso Modelos Lineares Generalizados 3 ' & $ % Introdução • A área de Experimentação Agronômica é muito rica na produção de dados, em quantidade e tipos diferentes. • A análise de dados é uma arte: um modelo adequado aos dados leva a conclusões confiáveis. • Os modelos são abstratos, representações simplificadas da realidade, freqüentemente, usados em ciência e tecnologia. • A seleção de modelos é uma parte importante de toda pesquisa, envolve a procura de um modelo o mais simples posśıvel, razoável, que descreva bem os dados observados. • Todo modelo envolve: – um componente sistemático - regressão, ANOVA, ANCOVA; – componente aleatório - distribuições. Modelos Lineares Generalizados 4 ' & $ % Exemplos de Aplicação Organogênese do melão Eldorado AF-522 Repetições 0,0 0,1 0,5 1,0 0,0 0,1 0,5 1,0 1 0 0 7 8 0 0 4 7 2 0 2 8 8 0 2 7 8 3 0 0 8 8 0 0 7 8 4 0 1 5 8 0 1 8 8 5 0 0 7 5 0 1 8 7 Considerações • Variável resposta: Y – número de explantes (cortes de cotilédones) regenerados em amostras de tamanho m = 8. • Distribuição: Binomial. • Parte sistemática: fatorial 2× 4 (2 variedades, 4 concentrações de BAP), completamente casualizado. Modelos Lineares Generalizados 5 ' & $ % Cultura de meristemas de cravos 0,0 0,1 0,3 0,5 1,0 2,0 b c v b c v b c v b c v b c v b c v 1 2,5 0 3 5,5 1 5 4,8 1 9 2,8 0 10 2,0 1 12 1,7 1 2 2,5 0 2 4,3 1 5 3,0 1 10 2,3 1 8 2,3 1 15 2,5 1 1 3,0 0 6 3,3 0 4 2,7 0 8 2,7 1 12 2,0 1 15 2,3 1 2 2,5 1 3 4,3 0 4 3,1 1 11 3,2 0 13 1,0 1 12 1,5 1 1 4,0 0 4 5,4 0 5 2,9 0 8 2,9 1 14 2,8 1 13 1,7 1 1 4,0 0 3 3,8 1 6 3,3 1 8 1,5 1 14 2,0 1 16 2,0 1 2 3,0 0 3 4,3 1 6 2,1 1 8 2,5 0 14 2,7 1 17 1,7 1 1 3,0 0 4 6,0 1 5 3,7 1 8 2,8 0 9 1,8 1 15 2,0 1 1 5,0 0 3 5,0 1 4 3,8 1 8 1,8 1 13 1,8 1 17 2,0 1 1 4,0 0 2 5,0 0 5 3,8 1 11 2,0 0 9 2,1 1 14 2,3 1 1 2,0 1 3 4,5 0 6 3,3 0 9 2,7 1 15 1,3 1 16 2,5 1 1 4,0 0 3 4,0 1 6 2,6 1 12 1,8 1 15 1,2 1 21 1,3 1 2 3,0 0 4 3,3 0 5 2,3 0 12 2,3 1 16 1,2 1 18 1,3 1 2 3,5 1 3 4,3 1 4 3,6 1 10 1,5 1 9 1,0 1 16 1,8 1 1 3,0 0 3 4,5 1 3 4,8 1 10 1,5 1 13 1,7 1 18 1,0 1 2 3,0 0 2 3,8 0 4 2,0 0 7 1,0 1 14 1,7 1 20 1,3 1 2 5,5 0 3 4,7 1 6 1,7 0 8 3,0 1 16 1,3 1 22 1,5 1 1 3,0 0 4 2,2 0 5 2,5 0 12 2,0 1 13 1,8 1 20 1,3 1 1 2,5 0 2 3,8 1 5 2,0 0 9 3,0 1 1 2,0 0 3 5,0 0 5 2,0 0 Modelos Lineares Generalizados 6 ' & $ % Toxicidade de rotenone Dose (di) mi yi 10,2 50 44 7,7 49 42 5,1 46 24 3,8 48 16 2,6 50 6 0,0 49 0 Considerações • Variável resposta: Yi – número de insetos mortos em amostras de tamanho mi (Martin, 1942). • Distribuição: Binomial. • Parte sistemática: modelo de regressão, completamente casualizado. • Objetivo: cálculo de doses letais. Modelos Lineares Generalizados 7 ' & $ % Germinação de Orobanche O. aegyptiaca 75 O. aegyptiaca 73 Feijão Pepino Feijão Pepino 10/39 5/6 8/16 3/12 23/62 53/74 10/30 22/41 23/81 55/72 8/28 15/30 26/51 32/51 23/45 32/51 17/39 46/79 0/4 3/7 10/13 Considerações • Variável resposta: Y – número de sementes germinadas em amostras de tamanho m (Crowder, 1978). • Distribuição: Binomial. • Parte sistemática: fatorial 2× 2 (2 espécies, 2 extratos), completamente casualizado. • Problema de superdispersão. Modelos Lineares Generalizados 8 ' & $ % Enraizamento de brotos de macieira Fotopeŕıodo (horas) 8 16 BAP (µM) 2,2 4,4 8,8 17,6 2,2 4,4 8,8 17,6 No. de ráızes 0 0 0 0 2 15 16 12 19 1 3 0 0 0 0 2 3 2 2 2 3 1 0 2 1 2 2 3 3 0 2 2 2 1 1 4 4 6 1 4 2 1 2 2 3 5 3 0 4 5 2 1 2 1 6 2 3 4 5 1 2 3 4 7 2 7 4 4 0 0 1 3 8 3 3 7 8 1 1 0 0 9 1 5 5 3 3 0 2 2 10 2 3 4 4 1 3 0 0 11 1 4 1 4 1 0 1 0 12 0 0 2 0 1 1 1 0 >12 13,17 13 14,14 14 No. de brotos 30 30 40 40 30 30 30 40 Média 5,8 7,8 7,5 7,2 3,3 2,7 3,1 2,5 Variância 14,1 7,6 8,5 8,8 16,6 14,8 13,5 8,5 Índice de superdispersão 1,42 -0,03 0,13 0,22 4,06 4,40 3,31 2,47 Modelos Lineares Generalizados 9 ' & $ % Histórico - antecedentes Os desenvolvimentos levando a uma visão geral da modelagem estat́ıstica, conhecida como Modelos Lineares Generalizados, remontam a mais de um século. Um breve histórico (McCullagh & Nelder, 1989, Lindsey, 1997) pode ser traçado: • regressão linear múltipla – distribuição normal, ligação identidade, µi = β′xi (Legendre, Gauss, ińıcio do século XIX); • análise de variância (ANOVA) para experimentos planejados – distribuição normal, ligação identidade, µi = β′xi (Fisher, 1920 a 1935); • função de verossimilhança – um procedimento geral para inferência a respeito de qualquer modelo estat́ıstico (Fisher, 1922); • ensaios de diluição – distribuição binomial com ligação complemento log-log, log[− log(1− µi/mi)] = β′xi (Fisher, 1922); Modelos Lineares Generalizados 10 ' & $ % • faḿılia exponencial – uma classe de distribuições com estat́ıstica suficiente para os parâmetros (Fisher, 1934); • análise probit – distribuição binomial com ligação probit, Φ−1(µi/mi) = β′xi (Bliss, 1935); • logit para proporções – distribuição binomial com ligação logit, log µimi−µi = β ′xi (Berkson, 1944, Dyke & Patterson, 1952); • análise de ı́ndices – distribuição Bernoulli com ligação logit, log µi1−µi = β ′xi (Rasch, 1960); • modelos log-lineares para contagens – distribuição Poisson com ligação logaŕıtmica, log µi = β′xi (Birch, 1963); • modelos de regressão para dados de sobrevivência – distribuição exponencial com ligação rećıproca ou logaŕıtmica, 1µi = β ′xi ou log µi = β′xi (Feigl & Zelen, 1965, Zippin & Armitage, 1966, Gasser, 1967); • polinômios inversos – distribuição gama com ligação rećıproca, 1µi = β ′xi (Nelder, 1966). Modelos Lineares Generalizados 11 ' & $ % Modelos lineares generalizados (MLG) • Teoria unificadora da modelagem estat́ıstica. • A maioria dos problemas estat́ısticos podem ser formulados, de uma maneira unificada, como modelos de regressão. • Aplicações em: agricultura, demografia, ecologia, economia, geografia, geologia, história, medicina, ciência poĺıtica, psicologia, sociologia, zootecnia etc. • Introduzidos por Nelder & Wedderburn (1972) como uma extensão dos modelos lineares clássicos. • Envolvem: – uma variável resposta univariada Y ; – variáveis explicativas x1, x2, . . . , xp (x1 ≡ 1); – uma amostra aleatória: n observações (yi,xi), onde xi = (x1i, x2i, . . . , xpi)T . Modelos Lineares Generalizados 12 ' & $ % Para maiores detalhes: • McCullagh & Nelder (1989) – teoria, aplicações. • Dobson (1990) – uma introdução simples. • Cordeiro (1986) – teoria, aplicações. • Aitkin et al. (1989) – aplicações dos MLG’s usando o GLIM. • Collett (1991) – dados binomiais. • Morgan (1992) – dados binomiais. • Francis et al. (1993) – manual do GLIM. • Demétrio (1993) – teoria, aplicações em experimentação agronômica. • Fahrmeir & Tutz (1994) – dados longitudinais e medidas repetidas. • Lindsey (1997) – teoria, aplicações. Modelos Lineares Generalizados 13 ' & $ % Definição do MLG Os MLG’s são definidos por três componentes: • variáveis aleatórias independentes Yi, i = 1, . . . , n, com distribuição pertencente à faḿılia exponencial linear com médias µi e parâmetro de escala constante φ, f(y) = exp { yθ − b(θ) a(φ) + c(y, φ) } sendo µ = E[Y ] = b′(θ) e Var(Y ) = a(φ)b′′(θ) = a(φ)V (µ). • um vetor de preditores lineares η dado por η = Xβ sendo que β é um vetor de p parâmetros e X = [x1,x2, . . . ,xn]T é uma matriz de delineamento de dimensões n× p; • uma funçãode ligação g(·) que relaciona a média ao preditor linear, i.e. g(µi) = ηi = xTi β. Modelos Lineares Generalizados 14 ' & $ % Modelos de regressão binomial Yi contagens de sucessos em amostras de tamanhos mi, i = 1, . . . , n. Escrevendo E[Yi] = µi = miπi, um MLG modela as proporções esperadas πi em termos das variáveis explicativas xi g(πi) = β′xi. Para Yi ∼ Bin(mi, πi), a função de variância é Var(Yi) = miπi(1− πi). A função de ligação canônica é a logit g(µi) = logit ( µi mi − µi ) = logit ( πi 1− πi ) = ηi Outras escolhas comuns são: • probit: g(µi) = Φ−1(µi/mi) = Φ−1(πi) • complemento log-log (CLL): g(µi) = log{− log(1− πi)}. Modelos Lineares Generalizados 15 ' & $ % Modelos de regressão Poisson Se Yi, i = 1, . . . , n, são contagens com médias µi, o modelo padrão de Poisson assume que Yi ∼ Pois(µi) com função de variância Var(Yi) = µi. A função de ligação canônica é a logaŕıtmica g(µi) = log(µi) = ηi. Para peŕıodos diferentes de observação: Yi ∼ Pois(tiλi) Tomando um modelo log-linear para as taxas, i.e., log(λi) = xTi β resulta no seguinte modelo log-linear para as médias da Poisson: log(µi) = log(tiλi) = log(ti) + xTi β, onde o log(ti) é inclúıdo como um termo fixo, ou offset, no modelo. Modelos Lineares Generalizados 16 ' & $ % Ajuste dos modelos • Estimação por máxima verossimilhança. • Algoritmo de estimação: ḿınimos quadrados ponderados iterativos, XT WXβ = XT WXz onde X = [x1,x2, . . . ,xn] T é uma matriz de delineamento, de dimensões n× p, W é uma matriz de pesos, que depende da distribuição e da função de ligação, β é um vetor de p parâmetros e z é um vetor, chamado variável dependente ajustada. Modelos Lineares Generalizados 17 ' & $ % Aspectos inferenciais Para testar a adequabilidade de modelos, Nelder & Wedderburn (1972) propuseram as estat́ısticas deviance S = D φ = −2[log L(µ̂,y)− log L(y,y)] onde L(µ̂,y) e L(y,y) são os valores da função de verossimilhança avaliada, respectivamente, para o modelo sob hipótese e o saturado, e X2 de Pearson generalizada, X2 = ∑ (yi − µ̂i)2 V (µ̂i) • No geral, as comparações envolvem modelos encaixados e diferenças de deviances. • No caso de modelos não encaixados (modelos com funções de ligação diferentes) podem ser usados o Critério de Informação de Akaike (AIC) ou o Critério de Informação de Bayes (BIC) para a seleção de modelos. AIC = −2 log L + 2 (no. de parâmetros ajustados) BIC = −2 log L + log n (no. de parâmetros ajustados) Modelos Lineares Generalizados 18 ' & $ % Superdispersão nos MLG’s Para um modelo bem ajustado: Deviance Residual ≈ G.L. do Reśıduo. O que fazer se Deviance Residual À G.L. do Reśıduo? (i) Modelo mal ajustado • termos/variáveis omitidos(as); • relação incorreta (ligação); • ”outliers”. (ii) Variação maior do que a predita pelo modelo: =⇒ Superdispersão • dados de contagem: Var(Y ) > µ • dados de proporções: Var(Y ) > nπ(1− π) Ver Hinde & Demétrio (1996, 1998a, 1998b). Modelos Lineares Generalizados 19 ' & $ % Causas da Superdispersão (i) Médias aleatórias • variabilidade do material experimental; • correlação entre respostas de indiv́ıduos; • amostragem em conglomerados; • dados agregados; • variáveis não observadas (omitidas). (ii) Zeros em excesso (zeros estruturais e amostrais). Conseqüências • erros padrões incorretos; • seleção de modelos mais complexos. Modelos Lineares Generalizados 20 ' & $ % Modelos para superdispersão Duas categorias: • Assumir alguma forma mais geral para a função de variância, possivelmente com parâmetros adicionais. Estimação: métodos dos momentos, quase-verossimilhança, quase-verossimilhança estendida, pseudo-verossimilhança, . . . • Assumir um modelo em dois estágios para a resposta com o parâmetro do modelo da resposta seguindo alguma distribuição. Estimação: Máxima verossimilhança (modelos com distribuição conjugada) ou métodos aproximados (por exemplo, usando os dois primeiros momentos, como acima), métodos Bayesianos (modelo hierárquico completo). Modelos Lineares Generalizados 21 ' & $ % Modelos de Média-variância Dados de proporções com superdispersão Yi sucessos em mi ensaios, i = 1, . . . , n. Modelar as proporções esperadas πi da mesma forma já vista com função de ligação g(.) e g(πi) = β′xi • Superdispersão constante Var(Yi) = φmiπi(1− πi) • Uma função de variância geral Superdispersão dependendo de ambos mi e πi. Var(Yi) = miπi(1− πi)×[ 1 + φ(mi − 1)δ1{πi(1− πi)}δ2 ] Modelos Lineares Generalizados 22 ' & $ % Dados de contagem com superdispersão Variáveis aleatórias Yi representam contagens com médias µi. • Superdispersão constante Var(Yi) = φµi que pode aparecer através de um processo composto simples. Suponha que N ∼ Pois(µN ) e T = ∑N i=1 Xi, Xi são variáveis aleatórias i.i.d. E[T ] = µT = EN (E[T |N ]) = µNµX Var(T ) = EN [Var(T |N)] + VarN (E[T |N ]) = µT ( σ2X µX + µX ) = µT E[X2] E[X] • Uma função de variância geral Var(Yi) = µi { 1 + φµδi } Modelos Lineares Generalizados 23 ' & $ % Modelos de dois estágios Proporções Beta-Binomial Yi|Pi ∼ Bin(mi, Pi) E(Pi) = πi e Var(Pi) = φπi(1− πi). Incondicionalmente, E(Yi) = miπi e Var(Yi) = miπi(1− πi)[1 + (mi − 1)φ]. Tomando Pi ∼ Beta(αi, βi), com αi + βi fixos, resulta a distribuição beta-binomial para Yi com a mesma função de variância. Modelos Lineares Generalizados 24 ' & $ % A mesma função de variância resulta quando se assume que respostas individuais binárias não são independentes, mas têm uma correlação constante. Escrevendo Yi = ∑mi j=1 Rij , onde Rij são variáveis aleatórias Bernoulli com E[Rij ] = πi e Var(Rij) = πi(1− πi) então, assumindo uma correlação constante ρ entre os Rij ’s para j 6= k, tem-se Cov(Rij , Rik) = ρπi(1− πi) e E[Yi] = miπi Var(Yi) = mi∑ j=1 Var(Rij) + mi∑ j=1 ∑ k 6=j Cov(Rij , Rik) = miπi(1− πi) + mi(mi − 1)[ρπi(1− πi)] = miπi(1− πi)[1 + ρ(mi − 1)]. Modelos Lineares Generalizados 25 ' & $ % Loǵıstico-normal e modelos correlatos Efeitos aleatórios no preditor linear ηi = β′xi + σzi, • assumir Zi ∼ N(0, 1), – modelo Probit-normal – McCulloch(1994) dá uma interpretação conveniente como um modelo ”threshold” para uma variável latente com distribuição normal; – loǵıstico-normal – usando o algoritmo EM com quadratura Gaussiana; procedimento aproximado usando um modelo de Williams tipo III com Var(Yi) = miπi(1− πi)[1 + φ(mi − 1)πi(1− πi)]; • não fazer suposição espećıfica de distribuição para Z - estimar uma distribuição discreta mista por máxima verossimilhança não paramétrica (NPML). Modelos Lineares Generalizados 26 ' & $ % Considerado como um modelo de dois estágios, o logit(Pi) tem uma distribuição normal com variância σ2, i.e. logit(Pi) ∼ N(xTi β, σ2). Escrevendo Ui = logit(Pi) = log Pi (1− Pi) ⇒ Pi = eUi (1 + eUi) e usando expansão em série de Taylor para Pi, em torno de Ui = E[Ui] = x T i β, tem-se Pi = ex T i β (1 + ex T i β) + ex T i β (1 + ex T i β)2 (Ui−xTi β)+o(Ui−xTi β). Então, E(Pi) ≈ e xTi β (1 + ex T i β) := πi e Var(Pi) ≈ [ ex T i β (1 + ex T i β)2 ]2 Var(Ui) = σ 2π2i (1− πi)2. Conseqüentemente, a função de variância para o modelo loǵıstico-normal pode ser aproximada por Var(Yi) ≈ miπi(1− πi)[1 + σ2(mi − 1)πi(1− πi)] que Williams(1982) refere-se como função de variância tipo III. Modelos Lineares Generalizados 27 ' & $ % Modelos de dois estágios – Contagens Variância tipo Binomial Negativa • Variação no parâmetro (taxa) da Poisson: Yi|θi ∼ Pois(θi), θi ∼ Γ(k, λi) resulta na distribuição binomial negativa com E[Yi] = µi = k/λi e Var(Yi) = µi + µ2i k . Para k conhecido, pertence à faḿılia exponencial com um parâmetro, portanto, ainda no contexto dos MLG’s. • Suposições diferentes para a distribuição-Γ resultaem parametrizações diferentes com funções de variâncias superdispersas diferentes, por exemplo, θi ∼ Γ(ki, λ) resulta Var(Yi) = µi ( 1 + 1λ ) = φµi. Modelos Lineares Generalizados 28 ' & $ % Poisson-normal e modelos correlatos Efeito aleatório individual no preditor linear ηi = β′xi + σzi, • assume Zi ∼ N(0, 1), tal que Yi ∼ Pois(λi) com log λi = xTi β + σzi onde Zi ∼ N(0, 1), resulta em E[Yi] = EZi (E[Yi|Zi]) = EZi [ex T i β+σZi ] = ex T i β+ 1 2 σ2 := µi Var(Yi) = EZi [Var(Yi|Zi)] + VarZi(E[Yi|Zi]) = ex T i β+ 1 2 σ2 + VarZi(e xTi β+σZi) = ex T i β+ 1 2 σ2 + e2x T i β+σ 2 (eσ 2 − 1), i.e., uma função de variância da forma Var(Yi) = µi + k′µ2i ; • não fazer suposição espećıfica de distribuição para Z - estimar uma distribuição discreta mista por máxima verossimilhança não paramétrica (NPML). Modelos Lineares Generalizados 29 ' & $ % Testando Superdispersão • Teste para adequabilidade de modelos para superdispersão é problemático – parâmetros de superdispersão agem de alguma forma como parâmetros de escala – efetivamente estimados da deviance residual – deviance e X2 de Pearson ficam aproximadamente iguais ao número de G.L. • Teste da superdispersão pela comparação em relação ao modelo padrão ajustado. – Para um modelo de dois estágios, testar superdispersão, freqüentemente, reduz-se a testar um parâmetro adicional. – Testar a distribuição binomial negativa contra a Poisson corresponde a testar θ = θ̂ contra θ →∞. Isto envolve testar um valor no limite do espaço paramétrico - teoria assintótica usual não se aplica. Distribuição assintótica adequada para esta estat́ıstica sob a hipótese de nulidade tem uma probabilidade de massa de 1 2 para 0 e uma distribuição 1 2 χ2(1) acima de 0. Modelos Lineares Generalizados 30 ' & $ % Testes escores Dean(1992) apresenta testes escores para vários modelos de superdispersão. Dados binomiais Para testar a distribuição binomial vs • Beta-binomial ∑ {[p̂i(1− p̂i]−1[(yi −mip̂i)2 + p̂i(yi −mip̂i)− yi(1− p̂i)]} {2 ∑ mi(mi − 1)}1/2 • Loǵıstico-Normal ∑ {(yi −mip̂i)2 −mip̂i(1− p̂i)} V̂ Modelos Lineares Generalizados 31 ' & $ % Dados de contagem Para testar a distribuição Poisson vs • Superdispersão constante 1√ 2n ∑ { (yi − µ̂i)2 − yi µ̂i } • Binomial Negativa ∑{(yi − µ̂i)2 − yi} {2 ∑ µ̂2i }1/2 • Poisson-lognormal ∑{(yi − µ̂i)2 − µ̂i} {2 ∑ µ̂2i }1/2 Apresenta, também, versões com correções que levam em conta a estimação da média necessária para o cálculo dessas estat́ısticas. Modelos Lineares Generalizados 32 ' & $ % ”Half-normal plots” com envelopes de simulação • Ajustar um modelo e calcular d(i), os valores absolutos ordenados de algum diagnóstico (Demétrio & Hinde, 1997). • Simular 19 amostras para a variável resposta usando o modelo ajustado e os mesmos valores para as variáveis explicativas. • Ajustar o mesmo modelo para cada amostra e calcular oa valores absolutos ordenados do diagnóstico de interesse, d∗j(i), j = 1, . . . , 19, i = 1, . . . , n. • Para cada i, calcular média, ḿınimo e máximo dos d∗j(i). • Plotar estes valores e os observados d(i) contra as estat́ısticas de ordem ”half-normal”. Modelos Lineares Generalizados 33 ' & $ % Outros modelos de superdispersão • Modelos de efeitos aleatórios (Nelder & Pregibon, 1987) • Faḿılia exponencial dupla (Efron, 1986) • Modelos lineares generalizados mistos (Breslow & Clayton, 1993, Diggle, Liang & Zeger, 1994) • Modelos lineares generalizados hierárquicos (Lee & Nelder, 1996) Modelos Lineares Generalizados 34 ' & $ % Modelos quando há zeros em excesso • Mistura de distribuições (tipos beta-binomial e binomial negativa) • Distribuições inflacionadas de zeros • Modelos de barreiras (Hurdle models) ou de duas partes (Two-part models) • Modelos de barreiras semi-paramétricos • Modelos de processo de nascimento (Birth process models) • Modelos threshold Ver Ridout, Demétrio & Hinde (1998); Vieira, Hinde & Demétrio (1998). Modelos Lineares Generalizados 35 ' & $ % Distribuições inflacionadas de zeros Suponha que uma proporção ω de explantes não está apta a enraizar, e que os demais enraizam de acordo com uma distribuição Poisson com parâmetro constante λ. Então, Y tem uma distribuição Poisson inflacionada de zeros (ZIP), dada por Pr(Y = y) = ω + (1− ω)e−λ y = 0 (1− ω)e −λλy y! y > 0 com E(Y ) = (1− ω)λ = µ, Var(Y ) = µ + ω 1− ω µ2. Modelos Lineares Generalizados 36 ' & $ % Lambert (1992) considerou modelos em que log(λ) = Xβ and log ( ω 1− ω ) = Zγ onde X e Z são matrizes de covariáveis e β e γ são vetores de parâmetros. Os dois conjuntos de covariáveis podem coincidir ou não. Quando eles coincidem, modelos mais parcimoniosos podem ser usados, por exemplo, o modelo ZIP(τ), onde log(λ) = Xβ e log ( ω 1− ω ) = τXβ e τ é um parâmetro de escala. Modelos semelhantes podem ser obtidos para as distribuições binomial negativa (ZINB), binomial e beta-binomial. Modelos Lineares Generalizados 37 ' & $ % Modelos de barreiras Experimentos de propagação, freqüentemente, são analisados considerando-se, separadamente, • a proporção de explantes que enraizaram; • o número médio de ráızes por explante enraizado. Para modelos nesta estrutura precisa-se de: (a) π0, a probabilidade de que um explante não enraize; (b) uma distribuição (no conjunto dos inteiros positivos) para o número de ráızes dado que o explante enraiza ⇒ Distribuição truncada em zero. Em econometria, este modelo é chamado modelo de barreiras (”hurdle model”) (Mullahy, 1986), ou modelo de duas partes (Heilbron, 1994). π+ = 1− π0 é a probabilidade de passar a barreira (”hurdle”) e gerar uma contagem não nula. Modelos Lineares Generalizados 38 ' & $ % Se a distribuição Poisson truncada for usada, então, Pr(Y = y) = π0 y = 0 (1− π0)e−λλy (1− e−λ) y! y > 0 Quando as mesmas covariáveis afetam π0 e λ, um modelo útil envolve: • a ligação complemento-log-log para π+ e • a ligação logaŕıtmica para λ, isto é, log(λ) = Xβ e log[− log(1− π+)] = Xγ. Reduz-se ao modelo Poisson padrão quando β = γ. De forma análoga para o modelo ZIP(τ) de Lambert, deve-se considerar um modelo Poisson de barreiras com log(λ) = Xβ e log[− log(1− π+)] = τXβ . Modelos Lineares Generalizados 39 ' & $ % Ajuste dos modelos • Estimação por máxima verossimilhança – posśıvel para a maior parte dos modelos. • Modelos inflacionados de zeros são misturas simples – algoritmo EM pode ser facilmente usado com variável indicadora binária W para o tipo de zero como observação perdida, – β estimado pelo ajuste de uma distribuição padrão, ponderada, – γ estimado pelo ajuste de um modelo de regressão binária para a estimativa de W , – W é estimado pela esperança condicional, dados Y e as estimativas de β e γ. • Modelos de barreiras – análises separadas de: – proporção de contagens não nulas – regressão loǵıstica, – contagens positivas – ajuste de distribuições truncadas. • Modelos ”threshold” – modelos de regressão multinomial para dados ordenados. Modelos Lineares Generalizados 40 ' & $ % Aspectos inferenciais • Testes escore, potenciamente úteis para testar a adequabilidade de modelos mais complexos sem ajustá-los – Poisson vs ZIP, ω constante (Van den Broek, 1995) – ZIP vs ZINB, (Ridout et al, 1999). Resultados podem ser pobres – verossimilhanças não quadráticas, necessidade de correção. • Muitas comparações interessantes envolvem modelos não encaixados. • Uso do Critério de Informação de Akaike (AIC) ou do Critério de Informação de Bayes (BIC) para a seleção de modelos. AIC = −2 log L + 2 (no. de parâmetros ajustados) BIC = −2 log L + log n (no. de parâmetros ajustados) Modelos Lineares Generalizados 41 ' & $ % Referências bibliográficas Aitkin, M., Anderson, D.A., Francis,B.J., Hinde, J.P. (1989). Statistical Modelling in GLIM, Oxford University Press, Oxford. Berkson,J. (1944). Application of the logistic function to bio-assay. Journal of the American Statistical Association, 39, 357–365. Birk, M.W. (1963). Maximum likelihood in three-way contingency tables. Journal of the Royal Statistical Society, B 25, 220–233. Bliss, C.I. (1935). The calculation of the dosage-mortality curve. Annals of Applied Biology, 22, 134-167. Breslow, N. and Clayton, D. (1993). Approximate inference in generalized linear mixed models. Journal of the American Statistical Association, 88, 9–25. Collett, D. (1991). Modelling binary data, Chapman and Hall, London. Cordeiro, G.M. (1986). Modelos Lineares Generalizados. VII SINAPE, Campinas. Crowder, M.J. (1978). Beta-binomial anova for Modelos Lineares Generalizados 42 ' & $ % proportions. Applied Statistics, 27, 34–37. Dean, C.B. (1992). Testing overdispersion in Poisson and binomial regression models. Journal of the American Statistical Association, 87, 451–457. Demétrio, C.G.B. (1993). Modelos Lineares Generalizados na Experimentação Agronômica. UFRG, Porto Alegre. Demétrio, C.G.B. and Hinde, J. (1997). Half-normal plots and overdispersion. GLIM Newsletter, 27, 19–26. Diggle, P., Liang, K.-Y., and Zeger, S.L. (1994). Longitudinal Data Analysis. Oxford University Press, Oxford. Dobson, A.J. (1990). An Introduction to Generalized Linear Models, Chapman & Hall, London. Dyke, G.V., Patterson, H.D. (1952). Analysis of factorial arrangements when the data are proportions. Biometrics, 8, 1–12. Efron, B.E. (1986). Double exponential families and their use in generalized linear regression. Journal of the American Statistical Association, 81, 709–721. Modelos Lineares Generalizados 43 ' & $ % Fahrmeir, L. and Tutz, G. (1994). Multivariate Statistical Modelling based on Generalized Linear Models, Springer-Verlag, New York. Feigl, P., Zellen, M. (1965). Estimation of exponential survival probabilities with concomitant information. Biometrics, 21, 826–838. Fisher, R.A. (1922). On the mathematical foundations of theoretical statistics. Philosophical Transactions of the Royal Society, 222, 309–368. Fisher, R.A. (1934). Two new properties of mathematical likelihood. Proceedings of the Royal Society, A 144, 285–307. Francis, B.J., Green, M., Payne, C. (1993). The GLIM System. Release 4 Manual, Oxford University Press, Oxford. Gasser, M. (1967). Exponential survival with covariance. Journal of the American Statistical Association, 62, 561–568. Heilbron, D.C. (1994). Zero-altered and other regression models for count data with added zeros. Biometrical Journal, 36, 531–547. Modelos Lineares Generalizados 44 ' & $ % Hinde, J. and Demétrio, C.G.B. (1996). Modelling with Overdispersion. The 11th International Workshop on Statistical Modelling, Orvieto, 200–207. Hinde, J. and Demétrio, C.G.B. (1998a). Overdispersion: models and estimation. Computational Statistics and Data Analysis, 27, 151–170. Hinde, J. and Demétrio, C.G.B. (1998b). Overdispersion: models and estimation. São Paulo: ABE. Lambert, D. (1992). Zero-inflated Poisson regression, with an application to defects in manufacturing. Technometrics, 34, 1–14. Lee, Y. and Nelder, J.A. (1996). Hierarchical generalized linear models (with discussion). Journal of the Royal Statistical Society, B, 58, 619–678. Lindsey, J.K. (1997). Applying Generalized Linear Models. Springer-Verlag, New York. Martin, J.T. (1942). The problem of evaluation of rotenone-containing plants. VI: The toxicity of l-elliptone and of poisons applied jointly, with further observations on the rotenone equivalent Modelos Lineares Generalizados 45 ' & $ % method of assessing the toxicity of derris root. Annals of Applied Biology, 29, 69–81. McCullagh, P. and Nelder, J.A. (1989). Generalized Linear Models, 2ed., Chapman and Hall, London. McCulloch, C.E. (1994). Maximum likelihood variance components estimation for binary data. Journal of the American Statistical Association, 89, 330–335. Morgan, B.J.T. (1992). Analysis of quantal response data. Chapman & Hall, London. Mullahy, J. (1986). Specification and testing of some modified count data models. Journal of Econometrics, 33, 341–365. Nelder, J.A. (1966). Inverse polynomials, a useful group of multi-factor response functions. Biometrics, 22 128–141. Nelder, J.A. and Pregibon, D.(1987). An extended quasi-likelihood function. Biometrika, 74, 221–232. Nelder, J.A. and Wedderburn, R.W.M. (1972). Generalized linear models, Journal of the Royal Statistical Society, A, 135 370–384. Modelos Lineares Generalizados 46 ' & $ % Rasch, G. (1960). Probabilistic Models for Some Intelligence and Attainment Tests. Danmarks Paedogogiske Institut, Copenhagen. Ridout, M.S., Demétrio, C.G.B. and Hinde, J. (1998). Models for count data with many zeros. Invited papers, Cape Town, 179–192. Ridout, M.S., Demétrio, C.G.B. and Hinde, J. (1999). Score test for zero-inflated Poisson regression model versus zero-inflated negative binomial model. Biometrics. Em andamento. Van den Broek, J. (1995). A score test for zero inflation in a Poisson distribution. Biometrics, 51, 738–743. Vieira, A.M.C., Hinde, J. and Demétrio, C.G.B. (1998). Zero-inflated proportion data models applied to a biological control assay. Journal of Applied Statistics. Submetido. Williams, D.A. (1982). Extra-binomial variation in logistic linear models. Applied Statistics, 31, 144–148. Zippin, C., Armitage, P. (1966). Use of concomitant variables and incomplete survival information in the estimation of an exponential survival parameter. Biometrics, 22, 665–672.
Compartilhar