Buscar

Resumo de Modelos Lineares Generalizados

Prévia do material em texto

Modelos Lineares Generalizados 1
'
&
$
%
Introdução aos Modelos
Lineares Generalizados
Clarice G. B. Demétrio
Departamento de Ciências Exatas
ESALQ/USP, Piracicaba, SP
email: Clarice@carpa.ciagri.usp.br
http: //ce.esalq.usp.br/
Modelos Lineares Generalizados 2
'
&
$
%
Sumário
• Introdução
• Exemplos de aplicação
• Modelos lineares generalizados
• Modelos para Superdispersão
• Modelos para contagens com zeros em
excesso
Modelos Lineares Generalizados 3
'
&
$
%
Introdução
• A área de Experimentação Agronômica é
muito rica na produção de dados, em
quantidade e tipos diferentes.
• A análise de dados é uma arte: um modelo
adequado aos dados leva a conclusões
confiáveis.
• Os modelos são abstratos, representações
simplificadas da realidade, freqüentemente,
usados em ciência e tecnologia.
• A seleção de modelos é uma parte importante
de toda pesquisa, envolve a procura de um
modelo o mais simples posśıvel, razoável, que
descreva bem os dados observados.
• Todo modelo envolve:
– um componente sistemático - regressão,
ANOVA, ANCOVA;
– componente aleatório - distribuições.
Modelos Lineares Generalizados 4
'
&
$
%
Exemplos de Aplicação
Organogênese do melão
Eldorado AF-522
Repetições 0,0 0,1 0,5 1,0 0,0 0,1 0,5 1,0
1 0 0 7 8 0 0 4 7
2 0 2 8 8 0 2 7 8
3 0 0 8 8 0 0 7 8
4 0 1 5 8 0 1 8 8
5 0 0 7 5 0 1 8 7
Considerações
• Variável resposta: Y – número de explantes (cortes de
cotilédones) regenerados em amostras de tamanho m = 8.
• Distribuição: Binomial.
• Parte sistemática: fatorial 2× 4 (2 variedades, 4
concentrações de BAP), completamente casualizado.
Modelos Lineares Generalizados 5
'
&
$
%
Cultura de meristemas de cravos
0,0 0,1 0,3 0,5 1,0 2,0
b c v b c v b c v b c v b c v b c v
1 2,5 0 3 5,5 1 5 4,8 1 9 2,8 0 10 2,0 1 12 1,7 1
2 2,5 0 2 4,3 1 5 3,0 1 10 2,3 1 8 2,3 1 15 2,5 1
1 3,0 0 6 3,3 0 4 2,7 0 8 2,7 1 12 2,0 1 15 2,3 1
2 2,5 1 3 4,3 0 4 3,1 1 11 3,2 0 13 1,0 1 12 1,5 1
1 4,0 0 4 5,4 0 5 2,9 0 8 2,9 1 14 2,8 1 13 1,7 1
1 4,0 0 3 3,8 1 6 3,3 1 8 1,5 1 14 2,0 1 16 2,0 1
2 3,0 0 3 4,3 1 6 2,1 1 8 2,5 0 14 2,7 1 17 1,7 1
1 3,0 0 4 6,0 1 5 3,7 1 8 2,8 0 9 1,8 1 15 2,0 1
1 5,0 0 3 5,0 1 4 3,8 1 8 1,8 1 13 1,8 1 17 2,0 1
1 4,0 0 2 5,0 0 5 3,8 1 11 2,0 0 9 2,1 1 14 2,3 1
1 2,0 1 3 4,5 0 6 3,3 0 9 2,7 1 15 1,3 1 16 2,5 1
1 4,0 0 3 4,0 1 6 2,6 1 12 1,8 1 15 1,2 1 21 1,3 1
2 3,0 0 4 3,3 0 5 2,3 0 12 2,3 1 16 1,2 1 18 1,3 1
2 3,5 1 3 4,3 1 4 3,6 1 10 1,5 1 9 1,0 1 16 1,8 1
1 3,0 0 3 4,5 1 3 4,8 1 10 1,5 1 13 1,7 1 18 1,0 1
2 3,0 0 2 3,8 0 4 2,0 0 7 1,0 1 14 1,7 1 20 1,3 1
2 5,5 0 3 4,7 1 6 1,7 0 8 3,0 1 16 1,3 1 22 1,5 1
1 3,0 0 4 2,2 0 5 2,5 0 12 2,0 1 13 1,8 1 20 1,3 1
1 2,5 0 2 3,8 1 5 2,0 0 9 3,0 1
1 2,0 0 3 5,0 0 5 2,0 0
Modelos Lineares Generalizados 6
'
&
$
%
Toxicidade de rotenone
Dose (di) mi yi
10,2 50 44
7,7 49 42
5,1 46 24
3,8 48 16
2,6 50 6
0,0 49 0
Considerações
• Variável resposta: Yi – número de insetos
mortos em amostras de tamanho mi (Martin,
1942).
• Distribuição: Binomial.
• Parte sistemática: modelo de regressão,
completamente casualizado.
• Objetivo: cálculo de doses letais.
Modelos Lineares Generalizados 7
'
&
$
%
Germinação de Orobanche
O. aegyptiaca 75 O. aegyptiaca 73
Feijão Pepino Feijão Pepino
10/39 5/6 8/16 3/12
23/62 53/74 10/30 22/41
23/81 55/72 8/28 15/30
26/51 32/51 23/45 32/51
17/39 46/79 0/4 3/7
10/13
Considerações
• Variável resposta: Y – número de sementes
germinadas em amostras de tamanho m
(Crowder, 1978).
• Distribuição: Binomial.
• Parte sistemática: fatorial 2× 2 (2 espécies,
2 extratos), completamente casualizado.
• Problema de superdispersão.
Modelos Lineares Generalizados 8
'
&
$
%
Enraizamento de brotos de macieira
Fotopeŕıodo (horas)
8 16
BAP (µM) 2,2 4,4 8,8 17,6 2,2 4,4 8,8 17,6
No. de ráızes
0 0 0 0 2 15 16 12 19
1 3 0 0 0 0 2 3 2
2 2 3 1 0 2 1 2 2
3 3 0 2 2 2 1 1 4
4 6 1 4 2 1 2 2 3
5 3 0 4 5 2 1 2 1
6 2 3 4 5 1 2 3 4
7 2 7 4 4 0 0 1 3
8 3 3 7 8 1 1 0 0
9 1 5 5 3 3 0 2 2
10 2 3 4 4 1 3 0 0
11 1 4 1 4 1 0 1 0
12 0 0 2 0 1 1 1 0
>12 13,17 13 14,14 14
No. de brotos 30 30 40 40 30 30 30 40
Média 5,8 7,8 7,5 7,2 3,3 2,7 3,1 2,5
Variância 14,1 7,6 8,5 8,8 16,6 14,8 13,5 8,5
Índice de superdispersão 1,42 -0,03 0,13 0,22 4,06 4,40 3,31 2,47
Modelos Lineares Generalizados 9
'
&
$
%
Histórico - antecedentes
Os desenvolvimentos levando a uma visão geral
da modelagem estat́ıstica, conhecida como
Modelos Lineares Generalizados, remontam a
mais de um século. Um breve histórico
(McCullagh & Nelder, 1989, Lindsey, 1997) pode
ser traçado:
• regressão linear múltipla – distribuição
normal, ligação identidade, µi = β′xi
(Legendre, Gauss, ińıcio do século XIX);
• análise de variância (ANOVA) para
experimentos planejados – distribuição
normal, ligação identidade, µi = β′xi
(Fisher, 1920 a 1935);
• função de verossimilhança – um
procedimento geral para inferência a respeito
de qualquer modelo estat́ıstico (Fisher,
1922);
• ensaios de diluição – distribuição binomial
com ligação complemento log-log,
log[− log(1− µi/mi)] = β′xi (Fisher, 1922);
Modelos Lineares Generalizados 10
'
&
$
%
• faḿılia exponencial – uma classe de
distribuições com estat́ıstica suficiente para
os parâmetros (Fisher, 1934);
• análise probit – distribuição binomial com
ligação probit, Φ−1(µi/mi) = β′xi (Bliss,
1935);
• logit para proporções – distribuição binomial
com ligação logit, log µimi−µi = β
′xi
(Berkson, 1944, Dyke & Patterson, 1952);
• análise de ı́ndices – distribuição Bernoulli com
ligação logit, log µi1−µi = β
′xi (Rasch, 1960);
• modelos log-lineares para contagens –
distribuição Poisson com ligação logaŕıtmica,
log µi = β′xi (Birch, 1963);
• modelos de regressão para dados de
sobrevivência – distribuição exponencial com
ligação rećıproca ou logaŕıtmica, 1µi = β
′xi
ou log µi = β′xi (Feigl & Zelen, 1965,
Zippin & Armitage, 1966, Gasser, 1967);
• polinômios inversos – distribuição gama com
ligação rećıproca, 1µi = β
′xi (Nelder, 1966).
Modelos Lineares Generalizados 11
'
&
$
%
Modelos lineares generalizados (MLG)
• Teoria unificadora da modelagem estat́ıstica.
• A maioria dos problemas estat́ısticos podem
ser formulados, de uma maneira unificada,
como modelos de regressão.
• Aplicações em: agricultura, demografia,
ecologia, economia, geografia, geologia,
história, medicina, ciência poĺıtica, psicologia,
sociologia, zootecnia etc.
• Introduzidos por Nelder &
Wedderburn (1972) como uma extensão dos
modelos lineares clássicos.
• Envolvem:
– uma variável resposta univariada Y ;
– variáveis explicativas x1, x2, . . . , xp
(x1 ≡ 1);
– uma amostra aleatória: n observações
(yi,xi), onde xi = (x1i, x2i, . . . , xpi)T .
Modelos Lineares Generalizados 12
'
&
$
%
Para maiores detalhes:
• McCullagh & Nelder (1989) – teoria,
aplicações.
• Dobson (1990) – uma introdução simples.
• Cordeiro (1986) – teoria, aplicações.
• Aitkin et al. (1989) – aplicações dos MLG’s
usando o GLIM.
• Collett (1991) – dados binomiais.
• Morgan (1992) – dados binomiais.
• Francis et al. (1993) – manual do GLIM.
• Demétrio (1993) – teoria, aplicações em
experimentação agronômica.
• Fahrmeir & Tutz (1994) – dados
longitudinais e medidas repetidas.
• Lindsey (1997) – teoria, aplicações.
Modelos Lineares Generalizados 13
'
&
$
%
Definição do MLG
Os MLG’s são definidos por três componentes:
• variáveis aleatórias independentes Yi,
i = 1, . . . , n, com distribuição pertencente à
faḿılia exponencial linear com médias µi e
parâmetro de escala constante φ,
f(y) = exp
{
yθ − b(θ)
a(φ)
+ c(y, φ)
}
sendo µ = E[Y ] = b′(θ) e
Var(Y ) = a(φ)b′′(θ) = a(φ)V (µ).
• um vetor de preditores lineares η dado por
η = Xβ
sendo que β é um vetor de p parâmetros e
X = [x1,x2, . . . ,xn]T é uma matriz de
delineamento de dimensões n× p;
• uma funçãode ligação g(·) que relaciona a
média ao preditor linear, i.e.
g(µi) = ηi = xTi β.
Modelos Lineares Generalizados 14
'
&
$
%
Modelos de regressão binomial
Yi contagens de sucessos em amostras de
tamanhos mi, i = 1, . . . , n.
Escrevendo
E[Yi] = µi = miπi,
um MLG modela as proporções esperadas πi em
termos das variáveis explicativas xi
g(πi) = β′xi.
Para Yi ∼ Bin(mi, πi), a função de variância é
Var(Yi) = miπi(1− πi).
A função de ligação canônica é a logit
g(µi) = logit
(
µi
mi − µi
)
= logit
(
πi
1− πi
)
= ηi
Outras escolhas comuns são:
• probit: g(µi) = Φ−1(µi/mi) = Φ−1(πi)
• complemento log-log (CLL):
g(µi) = log{− log(1− πi)}.
Modelos Lineares Generalizados 15
'
&
$
%
Modelos de regressão Poisson
Se Yi, i = 1, . . . , n, são contagens com médias
µi, o modelo padrão de Poisson assume que
Yi ∼ Pois(µi) com função de variância
Var(Yi) = µi.
A função de ligação canônica é a logaŕıtmica
g(µi) = log(µi) = ηi.
Para peŕıodos diferentes de observação:
Yi ∼ Pois(tiλi)
Tomando um modelo log-linear para as taxas, i.e.,
log(λi) = xTi β
resulta no seguinte modelo log-linear para as
médias da Poisson:
log(µi) = log(tiλi) = log(ti) + xTi β,
onde o log(ti) é inclúıdo como um termo fixo, ou
offset, no modelo.
Modelos Lineares Generalizados 16
'
&
$
%
Ajuste dos modelos
• Estimação por máxima verossimilhança.
• Algoritmo de estimação: ḿınimos quadrados
ponderados iterativos,
XT WXβ = XT WXz
onde X = [x1,x2, . . . ,xn]
T é uma matriz de
delineamento, de dimensões n× p, W é uma
matriz de pesos, que depende da distribuição e
da função de ligação, β é um vetor de p
parâmetros e z é um vetor, chamado variável
dependente ajustada.
Modelos Lineares Generalizados 17
'
&
$
%
Aspectos inferenciais
Para testar a adequabilidade de modelos, Nelder
& Wedderburn (1972) propuseram as estat́ısticas
deviance
S =
D
φ
= −2[log L(µ̂,y)− log L(y,y)]
onde L(µ̂,y) e L(y,y) são os valores da função
de verossimilhança avaliada, respectivamente,
para o modelo sob hipótese e o saturado,
e X2 de Pearson generalizada,
X2 =
∑ (yi − µ̂i)2
V (µ̂i)
• No geral, as comparações envolvem modelos
encaixados e diferenças de deviances.
• No caso de modelos não encaixados (modelos
com funções de ligação diferentes) podem ser
usados o Critério de Informação de Akaike
(AIC) ou o Critério de Informação de Bayes
(BIC) para a seleção de modelos.
AIC = −2 log L + 2 (no. de parâmetros ajustados)
BIC = −2 log L + log n (no. de parâmetros ajustados)
Modelos Lineares Generalizados 18
'
&
$
%
Superdispersão nos MLG’s
Para um modelo bem ajustado:
Deviance Residual ≈ G.L. do Reśıduo.
O que fazer se Deviance Residual À G.L. do
Reśıduo?
(i) Modelo mal ajustado
• termos/variáveis omitidos(as);
• relação incorreta (ligação);
• ”outliers”.
(ii) Variação maior do que a predita pelo modelo:
=⇒ Superdispersão
• dados de contagem: Var(Y ) > µ
• dados de proporções:
Var(Y ) > nπ(1− π)
Ver Hinde & Demétrio (1996, 1998a, 1998b).
Modelos Lineares Generalizados 19
'
&
$
%
Causas da Superdispersão
(i) Médias aleatórias
• variabilidade do material experimental;
• correlação entre respostas de indiv́ıduos;
• amostragem em conglomerados;
• dados agregados;
• variáveis não observadas (omitidas).
(ii) Zeros em excesso (zeros estruturais e
amostrais).
Conseqüências
• erros padrões incorretos;
• seleção de modelos mais complexos.
Modelos Lineares Generalizados 20
'
&
$
%
Modelos para superdispersão
Duas categorias:
• Assumir alguma forma mais geral para a
função de variância, possivelmente com
parâmetros adicionais.
Estimação: métodos dos momentos,
quase-verossimilhança, quase-verossimilhança
estendida, pseudo-verossimilhança, . . .
• Assumir um modelo em dois estágios para a
resposta com o parâmetro do modelo da
resposta seguindo alguma distribuição.
Estimação: Máxima verossimilhança
(modelos com distribuição conjugada) ou
métodos aproximados (por exemplo, usando
os dois primeiros momentos, como acima),
métodos Bayesianos (modelo hierárquico
completo).
Modelos Lineares Generalizados 21
'
&
$
%
Modelos de Média-variância
Dados de proporções com superdispersão
Yi sucessos em mi ensaios, i = 1, . . . , n.
Modelar as proporções esperadas πi da mesma
forma já vista com função de ligação g(.) e
g(πi) = β′xi
• Superdispersão constante
Var(Yi) = φmiπi(1− πi)
• Uma função de variância geral
Superdispersão dependendo de ambos mi e
πi.
Var(Yi) = miπi(1− πi)×[
1 + φ(mi − 1)δ1{πi(1− πi)}δ2
]
Modelos Lineares Generalizados 22
'
&
$
%
Dados de contagem com superdispersão
Variáveis aleatórias Yi representam contagens
com médias µi.
• Superdispersão constante
Var(Yi) = φµi
que pode aparecer através de um processo
composto simples.
Suponha que N ∼ Pois(µN ) e T =
∑N
i=1 Xi,
Xi são variáveis aleatórias i.i.d.
E[T ] = µT = EN (E[T |N ]) = µNµX
Var(T ) = EN [Var(T |N)] + VarN (E[T |N ])
= µT
(
σ2X
µX
+ µX
)
= µT
E[X2]
E[X]
• Uma função de variância geral
Var(Yi) = µi
{
1 + φµδi
}
Modelos Lineares Generalizados 23
'
&
$
%
Modelos de dois estágios
Proporções
Beta-Binomial
Yi|Pi ∼ Bin(mi, Pi)
E(Pi) = πi e Var(Pi) = φπi(1− πi).
Incondicionalmente, E(Yi) = miπi e
Var(Yi) = miπi(1− πi)[1 + (mi − 1)φ].
Tomando Pi ∼ Beta(αi, βi), com αi + βi fixos,
resulta a distribuição beta-binomial para Yi com a
mesma função de variância.
Modelos Lineares Generalizados 24
'
&
$
%
A mesma função de variância resulta quando se
assume que respostas individuais binárias não são
independentes, mas têm uma correlação
constante.
Escrevendo Yi =
∑mi
j=1 Rij , onde Rij são
variáveis aleatórias Bernoulli com
E[Rij ] = πi e Var(Rij) = πi(1− πi)
então, assumindo uma correlação constante ρ
entre os Rij ’s para j 6= k, tem-se
Cov(Rij , Rik) = ρπi(1− πi)
e
E[Yi] = miπi
Var(Yi) =
mi∑
j=1
Var(Rij) +
mi∑
j=1
∑
k 6=j
Cov(Rij , Rik)
= miπi(1− πi) + mi(mi − 1)[ρπi(1− πi)]
= miπi(1− πi)[1 + ρ(mi − 1)].
Modelos Lineares Generalizados 25
'
&
$
%
Loǵıstico-normal e modelos correlatos
Efeitos aleatórios no preditor linear
ηi = β′xi + σzi,
• assumir Zi ∼ N(0, 1),
– modelo Probit-normal – McCulloch(1994)
dá uma interpretação conveniente como
um modelo ”threshold” para uma variável
latente com distribuição normal;
– loǵıstico-normal – usando o algoritmo EM
com quadratura Gaussiana; procedimento
aproximado usando um modelo de
Williams tipo III com
Var(Yi) = miπi(1− πi)[1 + φ(mi − 1)πi(1− πi)];
• não fazer suposição espećıfica de distribuição
para Z - estimar uma distribuição discreta
mista por máxima verossimilhança não
paramétrica (NPML).
Modelos Lineares Generalizados 26
'
&
$
%
Considerado como um modelo de dois estágios, o
logit(Pi) tem uma distribuição normal com variância
σ2, i.e. logit(Pi) ∼ N(xTi β, σ2). Escrevendo
Ui = logit(Pi) = log
Pi
(1− Pi) ⇒ Pi =
eUi
(1 + eUi)
e usando expansão em série de Taylor para Pi, em
torno de Ui = E[Ui] = x
T
i β, tem-se
Pi =
ex
T
i β
(1 + ex
T
i β)
+
ex
T
i β
(1 + ex
T
i β)2
(Ui−xTi β)+o(Ui−xTi β).
Então,
E(Pi) ≈ e
xTi β
(1 + ex
T
i β)
:= πi
e
Var(Pi) ≈
[
ex
T
i β
(1 + ex
T
i β)2
]2
Var(Ui) = σ
2π2i (1− πi)2.
Conseqüentemente, a função de variância para o
modelo loǵıstico-normal pode ser aproximada por
Var(Yi) ≈ miπi(1− πi)[1 + σ2(mi − 1)πi(1− πi)]
que Williams(1982) refere-se como função de
variância tipo III.
Modelos Lineares Generalizados 27
'
&
$
%
Modelos de dois estágios – Contagens
Variância tipo Binomial Negativa
• Variação no parâmetro (taxa) da Poisson:
Yi|θi ∼ Pois(θi), θi ∼ Γ(k, λi)
resulta na distribuição binomial negativa com
E[Yi] = µi = k/λi
e
Var(Yi) = µi +
µ2i
k .
Para k conhecido, pertence à faḿılia
exponencial com um parâmetro, portanto,
ainda no contexto dos MLG’s.
• Suposições diferentes para a distribuição-Γ
resultaem parametrizações diferentes com
funções de variâncias superdispersas
diferentes, por exemplo, θi ∼ Γ(ki, λ) resulta
Var(Yi) = µi
(
1 + 1λ
)
= φµi.
Modelos Lineares Generalizados 28
'
&
$
%
Poisson-normal e modelos correlatos
Efeito aleatório individual no preditor linear
ηi = β′xi + σzi,
• assume Zi ∼ N(0, 1), tal que
Yi ∼ Pois(λi) com log λi = xTi β + σzi
onde Zi ∼ N(0, 1), resulta em
E[Yi] = EZi (E[Yi|Zi]) = EZi [ex
T
i β+σZi ]
= ex
T
i β+
1
2
σ2 := µi
Var(Yi) = EZi [Var(Yi|Zi)] + VarZi(E[Yi|Zi])
= ex
T
i β+
1
2
σ2 + VarZi(e
xTi β+σZi)
= ex
T
i β+
1
2
σ2 + e2x
T
i β+σ
2
(eσ
2 − 1),
i.e., uma função de variância da forma
Var(Yi) = µi + k′µ2i ;
• não fazer suposição espećıfica de distribuição
para Z - estimar uma distribuição discreta
mista por máxima verossimilhança não
paramétrica (NPML).
Modelos Lineares Generalizados 29
'
&
$
%
Testando Superdispersão
• Teste para adequabilidade de modelos para
superdispersão é problemático
– parâmetros de superdispersão agem de
alguma forma como parâmetros de escala
– efetivamente estimados da deviance residual
– deviance e X2 de Pearson ficam
aproximadamente iguais ao número de G.L.
• Teste da superdispersão pela comparação em
relação ao modelo padrão ajustado.
– Para um modelo de dois estágios, testar
superdispersão, freqüentemente, reduz-se a
testar um parâmetro adicional.
– Testar a distribuição binomial negativa contra
a Poisson corresponde a testar θ = θ̂ contra
θ →∞.
Isto envolve testar um valor no limite do
espaço paramétrico - teoria assintótica usual
não se aplica.
Distribuição assintótica adequada para esta
estat́ıstica sob a hipótese de nulidade tem
uma probabilidade de massa de 1
2
para 0 e
uma distribuição 1
2
χ2(1) acima de 0.
Modelos Lineares Generalizados 30
'
&
$
%
Testes escores
Dean(1992) apresenta testes escores para vários
modelos de superdispersão.
Dados binomiais
Para testar a distribuição binomial vs
• Beta-binomial
∑
{[p̂i(1− p̂i]−1[(yi −mip̂i)2 + p̂i(yi −mip̂i)− yi(1− p̂i)]}
{2 ∑ mi(mi − 1)}1/2
• Loǵıstico-Normal
∑
{(yi −mip̂i)2 −mip̂i(1− p̂i)}
V̂
Modelos Lineares Generalizados 31
'
&
$
%
Dados de contagem
Para testar a distribuição Poisson vs
• Superdispersão constante
1√
2n
∑ { (yi − µ̂i)2 − yi
µ̂i
}
• Binomial Negativa
∑{(yi − µ̂i)2 − yi}
{2 ∑ µ̂2i }1/2
• Poisson-lognormal
∑{(yi − µ̂i)2 − µ̂i}
{2 ∑ µ̂2i }1/2
Apresenta, também, versões com correções que levam
em conta a estimação da média necessária para o
cálculo dessas estat́ısticas.
Modelos Lineares Generalizados 32
'
&
$
%
”Half-normal plots”
com envelopes de simulação
• Ajustar um modelo e calcular d(i), os valores
absolutos ordenados de algum diagnóstico
(Demétrio & Hinde, 1997).
• Simular 19 amostras para a variável resposta
usando o modelo ajustado e os mesmos
valores para as variáveis explicativas.
• Ajustar o mesmo modelo para cada amostra
e calcular oa valores absolutos ordenados do
diagnóstico de interesse, d∗j(i), j = 1, . . . , 19,
i = 1, . . . , n.
• Para cada i, calcular média, ḿınimo e
máximo dos d∗j(i).
• Plotar estes valores e os observados d(i)
contra as estat́ısticas de ordem
”half-normal”.
Modelos Lineares Generalizados 33
'
&
$
%
Outros modelos de superdispersão
• Modelos de efeitos aleatórios (Nelder &
Pregibon, 1987)
• Faḿılia exponencial dupla (Efron, 1986)
• Modelos lineares generalizados mistos
(Breslow & Clayton, 1993, Diggle, Liang &
Zeger, 1994)
• Modelos lineares generalizados hierárquicos
(Lee & Nelder, 1996)
Modelos Lineares Generalizados 34
'
&
$
%
Modelos quando há zeros em excesso
• Mistura de distribuições (tipos beta-binomial
e binomial negativa)
• Distribuições inflacionadas de zeros
• Modelos de barreiras (Hurdle models) ou de
duas partes (Two-part models)
• Modelos de barreiras semi-paramétricos
• Modelos de processo de nascimento (Birth
process models)
• Modelos threshold
Ver Ridout, Demétrio & Hinde (1998); Vieira,
Hinde & Demétrio (1998).
Modelos Lineares Generalizados 35
'
&
$
%
Distribuições inflacionadas de zeros
Suponha que uma proporção ω de explantes não
está apta a enraizar, e que os demais enraizam de
acordo com uma distribuição Poisson com
parâmetro constante λ.
Então, Y tem uma distribuição Poisson
inflacionada de zeros (ZIP), dada por
Pr(Y = y) =



ω + (1− ω)e−λ y = 0
(1− ω)e
−λλy
y!
y > 0
com
E(Y ) = (1− ω)λ = µ,
Var(Y ) = µ +

 ω
1− ω

 µ2.
Modelos Lineares Generalizados 36
'
&
$
%
Lambert (1992) considerou modelos em que
log(λ) = Xβ and log
(
ω
1− ω
)
= Zγ
onde X e Z são matrizes de covariáveis e β e γ
são vetores de parâmetros.
Os dois conjuntos de covariáveis podem coincidir
ou não.
Quando eles coincidem, modelos mais
parcimoniosos podem ser usados, por exemplo, o
modelo ZIP(τ), onde
log(λ) = Xβ e log
(
ω
1− ω
)
= τXβ
e τ é um parâmetro de escala.
Modelos semelhantes podem ser obtidos para as
distribuições binomial negativa (ZINB), binomial
e beta-binomial.
Modelos Lineares Generalizados 37
'
&
$
%
Modelos de barreiras
Experimentos de propagação, freqüentemente,
são analisados considerando-se, separadamente,
• a proporção de explantes que enraizaram;
• o número médio de ráızes por explante
enraizado.
Para modelos nesta estrutura precisa-se de:
(a) π0, a probabilidade de que um explante não
enraize;
(b) uma distribuição (no conjunto dos inteiros
positivos) para o número de ráızes dado que
o explante enraiza
⇒ Distribuição truncada em zero.
Em econometria, este modelo é chamado modelo
de barreiras (”hurdle model”) (Mullahy, 1986),
ou modelo de duas partes (Heilbron, 1994).
π+ = 1− π0
é a probabilidade de passar a barreira (”hurdle”)
e gerar uma contagem não nula.
Modelos Lineares Generalizados 38
'
&
$
%
Se a distribuição Poisson truncada for usada,
então,
Pr(Y = y) =



π0 y = 0
(1− π0)e−λλy
(1− e−λ) y! y > 0
Quando as mesmas covariáveis afetam π0 e λ,
um modelo útil envolve:
• a ligação complemento-log-log para π+ e
• a ligação logaŕıtmica para λ,
isto é,
log(λ) = Xβ e log[− log(1− π+)] = Xγ.
Reduz-se ao modelo Poisson padrão quando
β = γ.
De forma análoga para o modelo ZIP(τ) de
Lambert, deve-se considerar um modelo Poisson
de barreiras com
log(λ) = Xβ e log[− log(1− π+)] = τXβ .
Modelos Lineares Generalizados 39
'
&
$
%
Ajuste dos modelos
• Estimação por máxima verossimilhança –
posśıvel para a maior parte dos modelos.
• Modelos inflacionados de zeros são misturas
simples – algoritmo EM pode ser facilmente
usado com variável indicadora binária W para o
tipo de zero como observação perdida,
– β estimado pelo ajuste de uma distribuição
padrão, ponderada,
– γ estimado pelo ajuste de um modelo de
regressão binária para a estimativa de W ,
– W é estimado pela esperança condicional,
dados Y e as estimativas de β e γ.
• Modelos de barreiras – análises separadas de:
– proporção de contagens não nulas – regressão
loǵıstica,
– contagens positivas – ajuste de distribuições
truncadas.
• Modelos ”threshold” – modelos de regressão
multinomial para dados ordenados.
Modelos Lineares Generalizados 40
'
&
$
%
Aspectos inferenciais
• Testes escore, potenciamente úteis para
testar a adequabilidade de modelos mais
complexos sem ajustá-los
– Poisson vs ZIP, ω constante (Van den
Broek, 1995)
– ZIP vs ZINB, (Ridout et al, 1999).
Resultados podem ser pobres –
verossimilhanças não quadráticas,
necessidade de correção.
• Muitas comparações interessantes envolvem
modelos não encaixados.
• Uso do Critério de Informação de Akaike
(AIC) ou do Critério de Informação de Bayes
(BIC) para a seleção de modelos.
AIC = −2 log L + 2 (no. de parâmetros ajustados)
BIC = −2 log L + log n (no. de parâmetros ajustados)
Modelos Lineares Generalizados 41
'
&
$
%
Referências bibliográficas
Aitkin, M., Anderson, D.A., Francis,B.J., Hinde,
J.P. (1989). Statistical Modelling in GLIM,
Oxford University Press, Oxford.
Berkson,J. (1944). Application of the logistic
function to bio-assay. Journal of the American
Statistical Association, 39, 357–365.
Birk, M.W. (1963). Maximum likelihood in
three-way contingency tables. Journal of the
Royal Statistical Society, B 25, 220–233.
Bliss, C.I. (1935). The calculation of the
dosage-mortality curve. Annals of Applied
Biology, 22, 134-167.
Breslow, N. and Clayton, D. (1993). Approximate
inference in generalized linear mixed models.
Journal of the American Statistical
Association, 88, 9–25.
Collett, D. (1991). Modelling binary data,
Chapman and Hall, London.
Cordeiro, G.M. (1986). Modelos Lineares
Generalizados. VII SINAPE, Campinas.
Crowder, M.J. (1978). Beta-binomial anova for
Modelos Lineares Generalizados 42
'
&
$
%
proportions. Applied Statistics, 27, 34–37.
Dean, C.B. (1992). Testing overdispersion in
Poisson and binomial regression models.
Journal of the American Statistical
Association, 87, 451–457.
Demétrio, C.G.B. (1993). Modelos Lineares
Generalizados na Experimentação Agronômica.
UFRG, Porto Alegre.
Demétrio, C.G.B. and Hinde, J. (1997).
Half-normal plots and overdispersion. GLIM
Newsletter, 27, 19–26.
Diggle, P., Liang, K.-Y., and Zeger, S.L. (1994).
Longitudinal Data Analysis. Oxford University
Press, Oxford.
Dobson, A.J. (1990). An Introduction to
Generalized Linear Models, Chapman & Hall,
London.
Dyke, G.V., Patterson, H.D. (1952). Analysis of
factorial arrangements when the data are
proportions. Biometrics, 8, 1–12.
Efron, B.E. (1986). Double exponential families
and their use in generalized linear regression.
Journal of the American Statistical
Association, 81, 709–721.
Modelos Lineares Generalizados 43
'
&
$
%
Fahrmeir, L. and Tutz, G. (1994). Multivariate
Statistical Modelling based on Generalized
Linear Models, Springer-Verlag, New York.
Feigl, P., Zellen, M. (1965). Estimation of
exponential survival probabilities with
concomitant information. Biometrics, 21,
826–838.
Fisher, R.A. (1922). On the mathematical
foundations of theoretical statistics.
Philosophical Transactions of the Royal
Society, 222, 309–368.
Fisher, R.A. (1934). Two new properties of
mathematical likelihood. Proceedings of the
Royal Society, A 144, 285–307.
Francis, B.J., Green, M., Payne, C. (1993). The
GLIM System. Release 4 Manual, Oxford
University Press, Oxford.
Gasser, M. (1967). Exponential survival with
covariance. Journal of the American Statistical
Association, 62, 561–568.
Heilbron, D.C. (1994). Zero-altered and other
regression models for count data with added
zeros. Biometrical Journal, 36, 531–547.
Modelos Lineares Generalizados 44
'
&
$
%
Hinde, J. and Demétrio, C.G.B. (1996).
Modelling with Overdispersion. The 11th
International Workshop on Statistical
Modelling, Orvieto, 200–207.
Hinde, J. and Demétrio, C.G.B. (1998a).
Overdispersion: models and estimation.
Computational Statistics and Data Analysis,
27, 151–170.
Hinde, J. and Demétrio, C.G.B. (1998b).
Overdispersion: models and estimation. São
Paulo: ABE.
Lambert, D. (1992). Zero-inflated Poisson
regression, with an application to defects in
manufacturing. Technometrics, 34, 1–14.
Lee, Y. and Nelder, J.A. (1996). Hierarchical
generalized linear models (with discussion).
Journal of the Royal Statistical Society, B, 58,
619–678.
Lindsey, J.K. (1997). Applying Generalized Linear
Models. Springer-Verlag, New York.
Martin, J.T. (1942). The problem of evaluation of
rotenone-containing plants. VI: The toxicity of
l-elliptone and of poisons applied jointly, with
further observations on the rotenone equivalent
Modelos Lineares Generalizados 45
'
&
$
%
method of assessing the toxicity of derris root.
Annals of Applied Biology, 29, 69–81.
McCullagh, P. and Nelder, J.A. (1989).
Generalized Linear Models, 2ed., Chapman and
Hall, London.
McCulloch, C.E. (1994). Maximum likelihood
variance components estimation for binary
data. Journal of the American Statistical
Association, 89, 330–335.
Morgan, B.J.T. (1992). Analysis of quantal
response data. Chapman & Hall, London.
Mullahy, J. (1986). Specification and testing of
some modified count data models. Journal of
Econometrics, 33, 341–365.
Nelder, J.A. (1966). Inverse polynomials, a useful
group of multi-factor response functions.
Biometrics, 22 128–141.
Nelder, J.A. and Pregibon, D.(1987). An
extended quasi-likelihood function. Biometrika,
74, 221–232.
Nelder, J.A. and Wedderburn, R.W.M. (1972).
Generalized linear models, Journal of the Royal
Statistical Society, A, 135 370–384.
Modelos Lineares Generalizados 46
'
&
$
%
Rasch, G. (1960). Probabilistic Models for Some
Intelligence and Attainment Tests. Danmarks
Paedogogiske Institut, Copenhagen.
Ridout, M.S., Demétrio, C.G.B. and Hinde, J.
(1998). Models for count data with many
zeros. Invited papers, Cape Town, 179–192.
Ridout, M.S., Demétrio, C.G.B. and Hinde, J.
(1999). Score test for zero-inflated Poisson
regression model versus zero-inflated negative
binomial model. Biometrics. Em andamento.
Van den Broek, J. (1995). A score test for zero
inflation in a Poisson distribution.
Biometrics, 51, 738–743.
Vieira, A.M.C., Hinde, J. and Demétrio, C.G.B.
(1998). Zero-inflated proportion data models
applied to a biological control assay. Journal of
Applied Statistics. Submetido.
Williams, D.A. (1982). Extra-binomial variation
in logistic linear models. Applied Statistics, 31,
144–148.
Zippin, C., Armitage, P. (1966). Use of
concomitant variables and incomplete survival
information in the estimation of an exponential
survival parameter. Biometrics, 22, 665–672.

Continue navegando