Resumo de Modelos Lineares Generalizados

Estatística Aplicada

•
Exatas

Gilvan Teles
09/06/2020
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Estatística Aplicada

24.037 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
Modelos Lineares Generalizados 1
'
&
$
%
Introdução aos Modelos
Lineares Generalizados
Clarice G. B. Demétrio
Departamento de Ciências Exatas
ESALQ/USP, Piracicaba, SP
email: Clarice@carpa.ciagri.usp.br
http: //ce.esalq.usp.br/
Modelos Lineares Generalizados 2
'
&
$
%
Sumário
• Introdução
• Exemplos de aplicação
• Modelos lineares generalizados
• Modelos para Superdispersão
• Modelos para contagens com zeros em
excesso
Modelos Lineares Generalizados 3
'
&
$
%
Introdução
• A área de Experimentação Agronômica é
muito rica na produção de dados, em
quantidade e tipos diferentes.
• A análise de dados é uma arte: um modelo
adequado aos dados leva a conclusões
confiáveis.
• Os modelos são abstratos, representações
simplificadas da realidade, freqüentemente,
usados em ciência e tecnologia.
• A seleção de modelos é uma parte importante
de toda pesquisa, envolve a procura de um
modelo o mais simples posśıvel, razoável, que
descreva bem os dados observados.
• Todo modelo envolve:
– um componente sistemático - regressão,
ANOVA, ANCOVA;
– componente aleatório - distribuições.
Modelos Lineares Generalizados 4
'
&
$
%
Exemplos de Aplicação
Organogênese do melão
Eldorado AF-522
Repetições 0,0 0,1 0,5 1,0 0,0 0,1 0,5 1,0
1 0 0 7 8 0 0 4 7
2 0 2 8 8 0 2 7 8
3 0 0 8 8 0 0 7 8
4 0 1 5 8 0 1 8 8
5 0 0 7 5 0 1 8 7
Considerações
• Variável resposta: Y – número de explantes (cortes de
cotilédones) regenerados em amostras de tamanho m = 8.
• Distribuição: Binomial.
• Parte sistemática: fatorial 2× 4 (2 variedades, 4
concentrações de BAP), completamente casualizado.
Modelos Lineares Generalizados 5
'
&
$
%
Cultura de meristemas de cravos
0,0 0,1 0,3 0,5 1,0 2,0
b c v b c v b c v b c v b c v b c v
1 2,5 0 3 5,5 1 5 4,8 1 9 2,8 0 10 2,0 1 12 1,7 1
2 2,5 0 2 4,3 1 5 3,0 1 10 2,3 1 8 2,3 1 15 2,5 1
1 3,0 0 6 3,3 0 4 2,7 0 8 2,7 1 12 2,0 1 15 2,3 1
2 2,5 1 3 4,3 0 4 3,1 1 11 3,2 0 13 1,0 1 12 1,5 1
1 4,0 0 4 5,4 0 5 2,9 0 8 2,9 1 14 2,8 1 13 1,7 1
1 4,0 0 3 3,8 1 6 3,3 1 8 1,5 1 14 2,0 1 16 2,0 1
2 3,0 0 3 4,3 1 6 2,1 1 8 2,5 0 14 2,7 1 17 1,7 1
1 3,0 0 4 6,0 1 5 3,7 1 8 2,8 0 9 1,8 1 15 2,0 1
1 5,0 0 3 5,0 1 4 3,8 1 8 1,8 1 13 1,8 1 17 2,0 1
1 4,0 0 2 5,0 0 5 3,8 1 11 2,0 0 9 2,1 1 14 2,3 1
1 2,0 1 3 4,5 0 6 3,3 0 9 2,7 1 15 1,3 1 16 2,5 1
1 4,0 0 3 4,0 1 6 2,6 1 12 1,8 1 15 1,2 1 21 1,3 1
2 3,0 0 4 3,3 0 5 2,3 0 12 2,3 1 16 1,2 1 18 1,3 1
2 3,5 1 3 4,3 1 4 3,6 1 10 1,5 1 9 1,0 1 16 1,8 1
1 3,0 0 3 4,5 1 3 4,8 1 10 1,5 1 13 1,7 1 18 1,0 1
2 3,0 0 2 3,8 0 4 2,0 0 7 1,0 1 14 1,7 1 20 1,3 1
2 5,5 0 3 4,7 1 6 1,7 0 8 3,0 1 16 1,3 1 22 1,5 1
1 3,0 0 4 2,2 0 5 2,5 0 12 2,0 1 13 1,8 1 20 1,3 1
1 2,5 0 2 3,8 1 5 2,0 0 9 3,0 1
1 2,0 0 3 5,0 0 5 2,0 0
Modelos Lineares Generalizados 6
'
&
$
%
Toxicidade de rotenone
Dose (di) mi yi
10,2 50 44
7,7 49 42
5,1 46 24
3,8 48 16
2,6 50 6
0,0 49 0
Considerações
• Variável resposta: Yi – número de insetos
mortos em amostras de tamanho mi (Martin,
1942).
• Distribuição: Binomial.
• Parte sistemática: modelo de regressão,
completamente casualizado.
• Objetivo: cálculo de doses letais.
Modelos Lineares Generalizados 7
'
&
$
%
Germinação de Orobanche
O. aegyptiaca 75 O. aegyptiaca 73
Feijão Pepino Feijão Pepino
10/39 5/6 8/16 3/12
23/62 53/74 10/30 22/41
23/81 55/72 8/28 15/30
26/51 32/51 23/45 32/51
17/39 46/79 0/4 3/7
10/13
Considerações
• Variável resposta: Y – número de sementes
germinadas em amostras de tamanho m
(Crowder, 1978).
• Distribuição: Binomial.
• Parte sistemática: fatorial 2× 2 (2 espécies,
2 extratos), completamente casualizado.
• Problema de superdispersão.
Modelos Lineares Generalizados 8
'
&
$
%
Enraizamento de brotos de macieira
Fotopeŕıodo (horas)
8 16
BAP (µM) 2,2 4,4 8,8 17,6 2,2 4,4 8,8 17,6
No. de ráızes
0 0 0 0 2 15 16 12 19
1 3 0 0 0 0 2 3 2
2 2 3 1 0 2 1 2 2
3 3 0 2 2 2 1 1 4
4 6 1 4 2 1 2 2 3
5 3 0 4 5 2 1 2 1
6 2 3 4 5 1 2 3 4
7 2 7 4 4 0 0 1 3
8 3 3 7 8 1 1 0 0
9 1 5 5 3 3 0 2 2
10 2 3 4 4 1 3 0 0
11 1 4 1 4 1 0 1 0
12 0 0 2 0 1 1 1 0
>12 13,17 13 14,14 14
No. de brotos 30 30 40 40 30 30 30 40
Média 5,8 7,8 7,5 7,2 3,3 2,7 3,1 2,5
Variância 14,1 7,6 8,5 8,8 16,6 14,8 13,5 8,5
Índice de superdispersão 1,42 -0,03 0,13 0,22 4,06 4,40 3,31 2,47
Modelos Lineares Generalizados 9
'
&
$
%
Histórico - antecedentes
Os desenvolvimentos levando a uma visão geral
da modelagem estat́ıstica, conhecida como
Modelos Lineares Generalizados, remontam a
mais de um século. Um breve histórico
(McCullagh & Nelder, 1989, Lindsey, 1997) pode
ser traçado:
• regressão linear múltipla – distribuição
normal, ligação identidade, µi = β′xi
(Legendre, Gauss, ińıcio do século XIX);
• análise de variância (ANOVA) para
experimentos planejados – distribuição
normal, ligação identidade, µi = β′xi
(Fisher, 1920 a 1935);
• função de verossimilhança – um
procedimento geral para inferência a respeito
de qualquer modelo estat́ıstico (Fisher,
1922);
• ensaios de diluição – distribuição binomial
com ligação complemento log-log,
log[− log(1− µi/mi)] = β′xi (Fisher, 1922);
Modelos Lineares Generalizados 10
'
&
$
%
• faḿılia exponencial – uma classe de
distribuições com estat́ıstica suficiente para
os parâmetros (Fisher, 1934);
• análise probit – distribuição binomial com
ligação probit, Φ−1(µi/mi) = β′xi (Bliss,
1935);
• logit para proporções – distribuição binomial
com ligação logit, log µimi−µi = β
′xi
(Berkson, 1944, Dyke & Patterson, 1952);
• análise de ı́ndices – distribuição Bernoulli com
ligação logit, log µi1−µi = β
′xi (Rasch, 1960);
• modelos log-lineares para contagens –
distribuição Poisson com ligação logaŕıtmica,
log µi = β′xi (Birch, 1963);
• modelos de regressão para dados de
sobrevivência – distribuição exponencial com
ligação rećıproca ou logaŕıtmica, 1µi = β
′xi
ou log µi = β′xi (Feigl & Zelen, 1965,
Zippin & Armitage, 1966, Gasser, 1967);
• polinômios inversos – distribuição gama com
ligação rećıproca, 1µi = β
′xi (Nelder, 1966).
Modelos Lineares Generalizados 11
'
&
$
%
Modelos lineares generalizados (MLG)
• Teoria unificadora da modelagem estat́ıstica.
• A maioria dos problemas estat́ısticos podem
ser formulados, de uma maneira unificada,
como modelos de regressão.
• Aplicações em: agricultura, demografia,
ecologia, economia, geografia, geologia,
história, medicina, ciência poĺıtica, psicologia,
sociologia, zootecnia etc.
• Introduzidos por Nelder &
Wedderburn (1972) como uma extensão dos
modelos lineares clássicos.
• Envolvem:
– uma variável resposta univariada Y ;
– variáveis explicativas x1, x2, . . . , xp
(x1 ≡ 1);
– uma amostra aleatória: n observações
(yi,xi), onde xi = (x1i, x2i, . . . , xpi)T .
Modelos Lineares Generalizados 12
'
&
$
%
Para maiores detalhes:
• McCullagh & Nelder (1989) – teoria,
aplicações.
• Dobson (1990) – uma introdução simples.
• Cordeiro (1986) – teoria, aplicações.
• Aitkin et al. (1989) – aplicações dos MLG’s
usando o GLIM.
• Collett (1991) – dados binomiais.
• Morgan (1992) – dados binomiais.
• Francis et al. (1993) – manual do GLIM.
• Demétrio (1993) – teoria, aplicações em
experimentação agronômica.
• Fahrmeir & Tutz (1994) – dados
longitudinais e medidas repetidas.
• Lindsey (1997) – teoria, aplicações.
Modelos Lineares Generalizados 13
'
&
$
%
Definição do MLG
Os MLG’s são definidos por três componentes:
• variáveis aleatórias independentes Yi,
i = 1, . . . , n, com distribuição pertencente à
faḿılia exponencial linear com médias µi e
parâmetro de escala constante φ,
f(y) = exp
{
yθ − b(θ)
a(φ)
+ c(y, φ)
}
sendo µ = E[Y ] = b′(θ) e
Var(Y ) = a(φ)b′′(θ) = a(φ)V (µ).
• um vetor de preditores lineares η dado por
η = Xβ
sendo que β é um vetor de p parâmetros e
X = [x1,x2, . . . ,xn]T é uma matriz de
delineamento de dimensões n× p;
• uma funçãode ligação g(·) que relaciona a
média ao preditor linear, i.e.
g(µi) = ηi = xTi β.
Modelos Lineares Generalizados 14
'
&
$
%
Modelos de regressão binomial
Yi contagens de sucessos em amostras de
tamanhos mi, i = 1, . . . , n.
Escrevendo
E[Yi] = µi = miπi,
um MLG modela as proporções esperadas πi em
termos das variáveis explicativas xi
g(πi) = β′xi.
Para Yi ∼ Bin(mi, πi), a função de variância é
Var(Yi) = miπi(1− πi).
A função de ligação canônica é a logit
g(µi) = logit
(
µi
mi − µi
)
= logit
(
πi
1− πi
)
= ηi
Outras escolhas comuns são:
• probit: g(µi) = Φ−1(µi/mi) = Φ−1(πi)
• complemento log-log (CLL):
g(µi) = log{− log(1− πi)}.
Modelos Lineares Generalizados 15
'
&
$
%
Modelos de regressão Poisson
Se Yi, i = 1, . . . , n, são contagens com médias
µi, o modelo padrão de Poisson assume que
Yi ∼ Pois(µi) com função de variância
Var(Yi) = µi.
A função de ligação canônica é a logaŕıtmica
g(µi) = log(µi) = ηi.
Para peŕıodos diferentes de observação:
Yi ∼ Pois(tiλi)
Tomando um modelo log-linear para as taxas, i.e.,
log(λi) = xTi β
resulta no seguinte modelo log-linear para as
médias da Poisson:
log(µi) = log(tiλi) = log(ti) + xTi β,
onde o log(ti) é inclúıdo como um termo fixo, ou
offset, no modelo.
Modelos Lineares Generalizados 16
'
&
$
%
Ajuste dos modelos
• Estimação por máxima verossimilhança.
• Algoritmo de estimação: ḿınimos quadrados
ponderados iterativos,
XT WXβ = XT WXz
onde X = [x1,x2, . . . ,xn]
T é uma matriz de
delineamento, de dimensões n× p, W é uma
matriz de pesos, que depende da distribuição e
da função de ligação, β é um vetor de p
parâmetros e z é um vetor, chamado variável
dependente ajustada.
Modelos Lineares Generalizados 17
'
&
$
%
Aspectos inferenciais
Para testar a adequabilidade de modelos, Nelder
& Wedderburn (1972) propuseram as estat́ısticas
deviance
S =
D
φ
= −2[log L(µ̂,y)− log L(y,y)]
onde L(µ̂,y) e L(y,y) são os valores da função
de verossimilhança avaliada, respectivamente,
para o modelo sob hipótese e o saturado,
e X2 de Pearson generalizada,
X2 =
∑ (yi − µ̂i)2
V (µ̂i)
• No geral, as comparações envolvem modelos
encaixados e diferenças de deviances.
• No caso de modelos não encaixados (modelos
com funções de ligação diferentes) podem ser
usados o Critério de Informação de Akaike
(AIC) ou o Critério de Informação de Bayes
(BIC) para a seleção de modelos.
AIC = −2 log L + 2 (no. de parâmetros ajustados)
BIC = −2 log L + log n (no. de parâmetros ajustados)
Modelos Lineares Generalizados 18
'
&
$
%
Superdispersão nos MLG’s
Para um modelo bem ajustado:
Deviance Residual ≈ G.L. do Reśıduo.
O que fazer se Deviance Residual À G.L. do
Reśıduo?
(i) Modelo mal ajustado
• termos/variáveis omitidos(as);
• relação incorreta (ligação);
• ”outliers”.
(ii) Variação maior do que a predita pelo modelo:
=⇒ Superdispersão
• dados de contagem: Var(Y ) > µ
• dados de proporções:
Var(Y ) > nπ(1− π)
Ver Hinde & Demétrio (1996, 1998a, 1998b).
Modelos Lineares Generalizados 19
'
&
$
%
Causas da Superdispersão
(i) Médias aleatórias
• variabilidade do material experimental;
• correlação entre respostas de indiv́ıduos;
• amostragem em conglomerados;
• dados agregados;
• variáveis não observadas (omitidas).
(ii) Zeros em excesso (zeros estruturais e
amostrais).
Conseqüências
• erros padrões incorretos;
• seleção de modelos mais complexos.
Modelos Lineares Generalizados 20
'
&
$
%
Modelos para superdispersão
Duas categorias:
• Assumir alguma forma mais geral para a
função de variância, possivelmente com
parâmetros adicionais.
Estimação: métodos dos momentos,
quase-verossimilhança, quase-verossimilhança
estendida, pseudo-verossimilhança, . . .
• Assumir um modelo em dois estágios para a
resposta com o parâmetro do modelo da
resposta seguindo alguma distribuição.
Estimação: Máxima verossimilhança
(modelos com distribuição conjugada) ou
métodos aproximados (por exemplo, usando
os dois primeiros momentos, como acima),
métodos Bayesianos (modelo hierárquico
completo).
Modelos Lineares Generalizados 21
'
&
$
%
Modelos de Média-variância
Dados de proporções com superdispersão
Yi sucessos em mi ensaios, i = 1, . . . , n.
Modelar as proporções esperadas πi da mesma
forma já vista com função de ligação g(.) e
g(πi) = β′xi
• Superdispersão constante
Var(Yi) = φmiπi(1− πi)
• Uma função de variância geral
Superdispersão dependendo de ambos mi e
πi.
Var(Yi) = miπi(1− πi)×[
1 + φ(mi − 1)δ1{πi(1− πi)}δ2
]
Modelos Lineares Generalizados 22
'
&
$
%
Dados de contagem com superdispersão
Variáveis aleatórias Yi representam contagens
com médias µi.
• Superdispersão constante
Var(Yi) = φµi
que pode aparecer através de um processo
composto simples.
Suponha que N ∼ Pois(µN ) e T =
∑N
i=1 Xi,
Xi são variáveis aleatórias i.i.d.
E[T ] = µT = EN (E[T |N ]) = µNµX
Var(T ) = EN [Var(T |N)] + VarN (E[T |N ])
= µT
(
σ2X
µX
+ µX
)
= µT
E[X2]
E[X]
• Uma função de variância geral
Var(Yi) = µi
{
1 + φµδi
}
Modelos Lineares Generalizados 23
'
&
$
%
Modelos de dois estágios
Proporções
Beta-Binomial
Yi|Pi ∼ Bin(mi, Pi)
E(Pi) = πi e Var(Pi) = φπi(1− πi).
Incondicionalmente, E(Yi) = miπi e
Var(Yi) = miπi(1− πi)[1 + (mi − 1)φ].
Tomando Pi ∼ Beta(αi, βi), com αi + βi fixos,
resulta a distribuição beta-binomial para Yi com a
mesma função de variância.
Modelos Lineares Generalizados 24
'
&
$
%
A mesma função de variância resulta quando se
assume que respostas individuais binárias não são
independentes, mas têm uma correlação
constante.
Escrevendo Yi =
∑mi
j=1 Rij , onde Rij são
variáveis aleatórias Bernoulli com
E[Rij ] = πi e Var(Rij) = πi(1− πi)
então, assumindo uma correlação constante ρ
entre os Rij ’s para j 6= k, tem-se
Cov(Rij , Rik) = ρπi(1− πi)
e
E[Yi] = miπi
Var(Yi) =
mi∑
j=1
Var(Rij) +
mi∑
j=1
∑
k 6=j
Cov(Rij , Rik)
= miπi(1− πi) + mi(mi − 1)[ρπi(1− πi)]
= miπi(1− πi)[1 + ρ(mi − 1)].
Modelos Lineares Generalizados 25
'
&
$
%
Loǵıstico-normal e modelos correlatos
Efeitos aleatórios no preditor linear
ηi = β′xi + σzi,
• assumir Zi ∼ N(0, 1),
– modelo Probit-normal – McCulloch(1994)
dá uma interpretação conveniente como
um modelo ”threshold” para uma variável
latente com distribuição normal;
– loǵıstico-normal – usando o algoritmo EM
com quadratura Gaussiana; procedimento
aproximado usando um modelo de
Williams tipo III com
Var(Yi) = miπi(1− πi)[1 + φ(mi − 1)πi(1− πi)];
• não fazer suposição espećıfica de distribuição
para Z - estimar uma distribuição discreta
mista por máxima verossimilhança não
paramétrica (NPML).
Modelos Lineares Generalizados 26
'
&
$
%
Considerado como um modelo de dois estágios, o
logit(Pi) tem uma distribuição normal com variância
σ2, i.e. logit(Pi) ∼ N(xTi β, σ2). Escrevendo
Ui = logit(Pi) = log
Pi
(1− Pi) ⇒ Pi =
eUi
(1 + eUi)
e usando expansão em série de Taylor para Pi, em
torno de Ui = E[Ui] = x
T
i β, tem-se
Pi =
ex
T
i β
(1 + ex
T
i β)
+
ex
T
i β
(1 + ex
T
i β)2
(Ui−xTi β)+o(Ui−xTi β).
Então,
E(Pi) ≈ e
xTi β
(1 + ex
T
i β)
:= πi
e
Var(Pi) ≈
[
ex
T
i β
(1 + ex
T
i β)2
]2
Var(Ui) = σ
2π2i (1− πi)2.
Conseqüentemente, a função de variância para o
modelo loǵıstico-normal pode ser aproximada por
Var(Yi) ≈ miπi(1− πi)[1 + σ2(mi − 1)πi(1− πi)]
que Williams(1982) refere-se como função de
variância tipo III.
Modelos Lineares Generalizados 27
'
&
$
%
Modelos de dois estágios – Contagens
Variância tipo Binomial Negativa
• Variação no parâmetro (taxa) da Poisson:
Yi|θi ∼ Pois(θi), θi ∼ Γ(k, λi)
resulta na distribuição binomial negativa com
E[Yi] = µi = k/λi
e
Var(Yi) = µi +
µ2i
k .
Para k conhecido, pertence à faḿılia
exponencial com um parâmetro, portanto,
ainda no contexto dos MLG’s.
• Suposições diferentes para a distribuição-Γ
resultaem parametrizações diferentes com
funções de variâncias superdispersas
diferentes, por exemplo, θi ∼ Γ(ki, λ) resulta
Var(Yi) = µi
(
1 + 1λ
)
= φµi.
Modelos Lineares Generalizados 28
'
&
$
%
Poisson-normal e modelos correlatos
Efeito aleatório individual no preditor linear
ηi = β′xi + σzi,
• assume Zi ∼ N(0, 1), tal que
Yi ∼ Pois(λi) com log λi = xTi β + σzi
onde Zi ∼ N(0, 1), resulta em
E[Yi] = EZi (E[Yi|Zi]) = EZi [ex
T
i β+σZi ]
= ex
T
i β+
1
2
σ2 := µi
Var(Yi) = EZi [Var(Yi|Zi)] + VarZi(E[Yi|Zi])
= ex
T
i β+
1
2
σ2 + VarZi(e
xTi β+σZi)
= ex
T
i β+
1
2
σ2 + e2x
T
i β+σ
2
(eσ
2 − 1),
i.e., uma função de variância da forma
Var(Yi) = µi + k′µ2i ;
• não fazer suposição espećıfica de distribuição
para Z - estimar uma distribuição discreta
mista por máxima verossimilhança não
paramétrica (NPML).
Modelos Lineares Generalizados 29
'
&
$
%
Testando Superdispersão
• Teste para adequabilidade de modelos para
superdispersão é problemático
– parâmetros de superdispersão agem de
alguma forma como parâmetros de escala
– efetivamente estimados da deviance residual
– deviance e X2 de Pearson ficam
aproximadamente iguais ao número de G.L.
• Teste da superdispersão pela comparação em
relação ao modelo padrão ajustado.
– Para um modelo de dois estágios, testar
superdispersão, freqüentemente, reduz-se a
testar um parâmetro adicional.
– Testar a distribuição binomial negativa contra
a Poisson corresponde a testar θ = θ̂ contra
θ →∞.
Isto envolve testar um valor no limite do
espaço paramétrico - teoria assintótica usual
não se aplica.
Distribuição assintótica adequada para esta
estat́ıstica sob a hipótese de nulidade tem
uma probabilidade de massa de 1
2
para 0 e
uma distribuição 1
2
χ2(1) acima de 0.
Modelos Lineares Generalizados 30
'
&
$
%
Testes escores
Dean(1992) apresenta testes escores para vários
modelos de superdispersão.
Dados binomiais
Para testar a distribuição binomial vs
• Beta-binomial
∑
{[p̂i(1− p̂i]−1[(yi −mip̂i)2 + p̂i(yi −mip̂i)− yi(1− p̂i)]}
{2 ∑ mi(mi − 1)}1/2
• Loǵıstico-Normal
∑
{(yi −mip̂i)2 −mip̂i(1− p̂i)}
V̂
Modelos Lineares Generalizados 31
'
&
$
%
Dados de contagem
Para testar a distribuição Poisson vs
• Superdispersão constante
1√
2n
∑ { (yi − µ̂i)2 − yi
µ̂i
}
• Binomial Negativa
∑{(yi − µ̂i)2 − yi}
{2 ∑ µ̂2i }1/2
• Poisson-lognormal
∑{(yi − µ̂i)2 − µ̂i}
{2 ∑ µ̂2i }1/2
Apresenta, também, versões com correções que levam
em conta a estimação da média necessária para o
cálculo dessas estat́ısticas.
Modelos Lineares Generalizados 32
'
&
$
%
”Half-normal plots”
com envelopes de simulação
• Ajustar um modelo e calcular d(i), os valores
absolutos ordenados de algum diagnóstico
(Demétrio & Hinde, 1997).
• Simular 19 amostras para a variável resposta
usando o modelo ajustado e os mesmos
valores para as variáveis explicativas.
• Ajustar o mesmo modelo para cada amostra
e calcular oa valores absolutos ordenados do
diagnóstico de interesse, d∗j(i), j = 1, . . . , 19,
i = 1, . . . , n.
• Para cada i, calcular média, ḿınimo e
máximo dos d∗j(i).
• Plotar estes valores e os observados d(i)
contra as estat́ısticas de ordem
”half-normal”.
Modelos Lineares Generalizados 33
'
&
$
%
Outros modelos de superdispersão
• Modelos de efeitos aleatórios (Nelder &
Pregibon, 1987)
• Faḿılia exponencial dupla (Efron, 1986)
• Modelos lineares generalizados mistos
(Breslow & Clayton, 1993, Diggle, Liang &
Zeger, 1994)
• Modelos lineares generalizados hierárquicos
(Lee & Nelder, 1996)
Modelos Lineares Generalizados 34
'
&
$
%
Modelos quando há zeros em excesso
• Mistura de distribuições (tipos beta-binomial
e binomial negativa)
• Distribuições inflacionadas de zeros
• Modelos de barreiras (Hurdle models) ou de
duas partes (Two-part models)
• Modelos de barreiras semi-paramétricos
• Modelos de processo de nascimento (Birth
process models)
• Modelos threshold
Ver Ridout, Demétrio & Hinde (1998); Vieira,
Hinde & Demétrio (1998).
Modelos Lineares Generalizados 35
'
&
$
%
Distribuições inflacionadas de zeros
Suponha que uma proporção ω de explantes não
está apta a enraizar, e que os demais enraizam de
acordo com uma distribuição Poisson com
parâmetro constante λ.
Então, Y tem uma distribuição Poisson
inflacionada de zeros (ZIP), dada por
Pr(Y = y) =



ω + (1− ω)e−λ y = 0
(1− ω)e
−λλy
y!
y > 0
com
E(Y ) = (1− ω)λ = µ,
Var(Y ) = µ +

 ω
1− ω

 µ2.
Modelos Lineares Generalizados 36
'
&
$
%
Lambert (1992) considerou modelos em que
log(λ) = Xβ and log
(
ω
1− ω
)
= Zγ
onde X e Z são matrizes de covariáveis e β e γ
são vetores de parâmetros.
Os dois conjuntos de covariáveis podem coincidir
ou não.
Quando eles coincidem, modelos mais
parcimoniosos podem ser usados, por exemplo, o
modelo ZIP(τ), onde
log(λ) = Xβ e log
(
ω
1− ω
)
= τXβ
e τ é um parâmetro de escala.
Modelos semelhantes podem ser obtidos para as
distribuições binomial negativa (ZINB), binomial
e beta-binomial.
Modelos Lineares Generalizados 37
'
&
$
%
Modelos de barreiras
Experimentos de propagação, freqüentemente,
são analisados considerando-se, separadamente,
• a proporção de explantes que enraizaram;
• o número médio de ráızes por explante
enraizado.
Para modelos nesta estrutura precisa-se de:
(a) π0, a probabilidade de que um explante não
enraize;
(b) uma distribuição (no conjunto dos inteiros
positivos) para o número de ráızes dado que
o explante enraiza
⇒ Distribuição truncada em zero.
Em econometria, este modelo é chamado modelo
de barreiras (”hurdle model”) (Mullahy, 1986),
ou modelo de duas partes (Heilbron, 1994).
π+ = 1− π0
é a probabilidade de passar a barreira (”hurdle”)
e gerar uma contagem não nula.
Modelos Lineares Generalizados 38
'
&
$
%
Se a distribuição Poisson truncada for usada,
então,
Pr(Y = y) =



π0 y = 0
(1− π0)e−λλy
(1− e−λ) y! y > 0
Quando as mesmas covariáveis afetam π0 e λ,
um modelo útil envolve:
• a ligação complemento-log-log para π+ e
• a ligação logaŕıtmica para λ,
isto é,
log(λ) = Xβ e log[− log(1− π+)] = Xγ.
Reduz-se ao modelo Poisson padrão quando
β = γ.
De forma análoga para o modelo ZIP(τ) de
Lambert, deve-se considerar um modelo Poisson
de barreiras com
log(λ) = Xβ e log[− log(1− π+)] = τXβ .
Modelos Lineares Generalizados 39
'
&
$
%
Ajuste dos modelos
• Estimação por máxima verossimilhança –
posśıvel para a maior parte dos modelos.
• Modelos inflacionados de zeros são misturas
simples – algoritmo EM pode ser facilmente
usado com variável indicadora binária W para o
tipo de zero como observação perdida,
– β estimado pelo ajuste de uma distribuição
padrão, ponderada,
– γ estimado pelo ajuste de um modelo de
regressão binária para a estimativa de W ,
– W é estimado pela esperança condicional,
dados Y e as estimativas de β e γ.
• Modelos de barreiras – análises separadas de:
– proporção de contagens não nulas – regressão
loǵıstica,
– contagens positivas – ajuste de distribuições
truncadas.
• Modelos ”threshold” – modelos de regressão
multinomial para dados ordenados.
Modelos Lineares Generalizados 40
'
&
$
%
Aspectos inferenciais
• Testes escore, potenciamente úteis para
testar a adequabilidade de modelos mais
complexos sem ajustá-los
– Poisson vs ZIP, ω constante (Van den
Broek, 1995)
– ZIP vs ZINB, (Ridout et al, 1999).
Resultados podem ser pobres –
verossimilhanças não quadráticas,
necessidade de correção.
• Muitas comparações interessantes envolvem
modelos não encaixados.
• Uso do Critério de Informação de Akaike
(AIC) ou do Critério de Informação de Bayes
(BIC) para a seleção de modelos.
AIC = −2 log L + 2 (no. de parâmetros ajustados)
BIC = −2 log L + log n (no. de parâmetros ajustados)
Modelos Lineares Generalizados 41
'
&
$
%
Referências bibliográficas
Aitkin, M., Anderson, D.A., Francis,B.J., Hinde,
J.P. (1989). Statistical Modelling in GLIM,
Oxford University Press, Oxford.
Berkson,J. (1944). Application of the logistic
function to bio-assay. Journal of the American
Statistical Association, 39, 357–365.
Birk, M.W. (1963). Maximum likelihood in
three-way contingency tables. Journal of the
Royal Statistical Society, B 25, 220–233.
Bliss, C.I. (1935). The calculation of the
dosage-mortality curve. Annals of Applied
Biology, 22, 134-167.
Breslow, N. and Clayton, D. (1993). Approximate
inference in generalized linear mixed models.
Journal of the American Statistical
Association, 88, 9–25.
Collett, D. (1991). Modelling binary data,
Chapman and Hall, London.
Cordeiro, G.M. (1986). Modelos Lineares
Generalizados. VII SINAPE, Campinas.
Crowder, M.J. (1978). Beta-binomial anova for
Modelos Lineares Generalizados 42
'
&
$
%
proportions. Applied Statistics, 27, 34–37.
Dean, C.B. (1992). Testing overdispersion in
Poisson and binomial regression models.
Journal of the American Statistical
Association, 87, 451–457.
Demétrio, C.G.B. (1993). Modelos Lineares
Generalizados na Experimentação Agronômica.
UFRG, Porto Alegre.
Demétrio, C.G.B. and Hinde, J. (1997).
Half-normal plots and overdispersion. GLIM
Newsletter, 27, 19–26.
Diggle, P., Liang, K.-Y., and Zeger, S.L. (1994).
Longitudinal Data Analysis. Oxford University
Press, Oxford.
Dobson, A.J. (1990). An Introduction to
Generalized Linear Models, Chapman & Hall,
London.
Dyke, G.V., Patterson, H.D. (1952). Analysis of
factorial arrangements when the data are
proportions. Biometrics, 8, 1–12.
Efron, B.E. (1986). Double exponential families
and their use in generalized linear regression.
Journal of the American Statistical
Association, 81, 709–721.
Modelos Lineares Generalizados 43
'
&
$
%
Fahrmeir, L. and Tutz, G. (1994). Multivariate
Statistical Modelling based on Generalized
Linear Models, Springer-Verlag, New York.
Feigl, P., Zellen, M. (1965). Estimation of
exponential survival probabilities with
concomitant information. Biometrics, 21,
826–838.
Fisher, R.A. (1922). On the mathematical
foundations of theoretical statistics.
Philosophical Transactions of the Royal
Society, 222, 309–368.
Fisher, R.A. (1934). Two new properties of
mathematical likelihood. Proceedings of the
Royal Society, A 144, 285–307.
Francis, B.J., Green, M., Payne, C. (1993). The
GLIM System. Release 4 Manual, Oxford
University Press, Oxford.
Gasser, M. (1967). Exponential survival with
covariance. Journal of the American Statistical
Association, 62, 561–568.
Heilbron, D.C. (1994). Zero-altered and other
regression models for count data with added
zeros. Biometrical Journal, 36, 531–547.
Modelos Lineares Generalizados 44
'
&
$
%
Hinde, J. and Demétrio, C.G.B. (1996).
Modelling with Overdispersion. The 11th
International Workshop on Statistical
Modelling, Orvieto, 200–207.
Hinde, J. and Demétrio, C.G.B. (1998a).
Overdispersion: models and estimation.
Computational Statistics and Data Analysis,
27, 151–170.
Hinde, J. and Demétrio, C.G.B. (1998b).
Overdispersion: models and estimation. São
Paulo: ABE.
Lambert, D. (1992). Zero-inflated Poisson
regression, with an application to defects in
manufacturing. Technometrics, 34, 1–14.
Lee, Y. and Nelder, J.A. (1996). Hierarchical
generalized linear models (with discussion).
Journal of the Royal Statistical Society, B, 58,
619–678.
Lindsey, J.K. (1997). Applying Generalized Linear
Models. Springer-Verlag, New York.
Martin, J.T. (1942). The problem of evaluation of
rotenone-containing plants. VI: The toxicity of
l-elliptone and of poisons applied jointly, with
further observations on the rotenone equivalent
Modelos Lineares Generalizados 45
'
&
$
%
method of assessing the toxicity of derris root.
Annals of Applied Biology, 29, 69–81.
McCullagh, P. and Nelder, J.A. (1989).
Generalized Linear Models, 2ed., Chapman and
Hall, London.
McCulloch, C.E. (1994). Maximum likelihood
variance components estimation for binary
data. Journal of the American Statistical
Association, 89, 330–335.
Morgan, B.J.T. (1992). Analysis of quantal
response data. Chapman & Hall, London.
Mullahy, J. (1986). Specification and testing of
some modified count data models. Journal of
Econometrics, 33, 341–365.
Nelder, J.A. (1966). Inverse polynomials, a useful
group of multi-factor response functions.
Biometrics, 22 128–141.
Nelder, J.A. and Pregibon, D.(1987). An
extended quasi-likelihood function. Biometrika,
74, 221–232.
Nelder, J.A. and Wedderburn, R.W.M. (1972).
Generalized linear models, Journal of the Royal
Statistical Society, A, 135 370–384.
Modelos Lineares Generalizados 46
'
&
$
%
Rasch, G. (1960). Probabilistic Models for Some
Intelligence and Attainment Tests. Danmarks
Paedogogiske Institut, Copenhagen.
Ridout, M.S., Demétrio, C.G.B. and Hinde, J.
(1998). Models for count data with many
zeros. Invited papers, Cape Town, 179–192.
Ridout, M.S., Demétrio, C.G.B. and Hinde, J.
(1999). Score test for zero-inflated Poisson
regression model versus zero-inflated negative
binomial model. Biometrics. Em andamento.
Van den Broek, J. (1995). A score test for zero
inflation in a Poisson distribution.
Biometrics, 51, 738–743.
Vieira, A.M.C., Hinde, J. and Demétrio, C.G.B.
(1998). Zero-inflated proportion data models
applied to a biological control assay. Journal of
Applied Statistics. Submetido.
Williams, D.A. (1982). Extra-binomial variation
in logistic linear models. Applied Statistics, 31,
144–148.
Zippin, C., Armitage, P. (1966). Use of
concomitant variables and incomplete survival
information in the estimation of an exponential
survival parameter. Biometrics, 22, 665–672.