Buscar

A5-Josm-Emil

Prévia do material em texto

INFERÊNCIAS PARA O MÁXIMO DA FUNÇÃO DE RISCO DA
DISTRIBUIÇÃO LOG-LOGÍSTICA
Josmar MAZUCHELI1
Emı́lio Augusto COELHO-BARROS2
Jorge Alberto ACHCAR3
RESUMO: Em aplicações de métodos estat́ısticos envolvendo dados de sobrevivência,
muitas vezes, na presença de riscos unimodais, existe o interesse em se realizar
inferência a respeito do parâmetro que caracteriza a mudança de direção da função
de risco – o máximo ou o ponto de mudança da função de risco. Ajustado um
modelo paramétrico, a partir da propriedade de invariância dos estimadores de máxima
verossimilhança, este parâmetro é facilmente estimado. Testes de hipótese e intervalos de
confiança são constrúıdos a partir da normalidade assintótica dos estimadores de máxima
verossimilhança. Neste artigo, considerando a distribuição Log-Loǵıstica com parâmetro
de forma β > 1 – caracterizando funções de riscos unimodais – são apresentadas
duas alternativas ao intervalo de confiança assintótico para construção de intervalos de
confiança para o máximo da função de risco. Essas alternativas são baseadas no método
de simulação Bootstrap. Em três exemplos numéricos as performances dos diferentes
procedimentos são apresentadas e discutidas.
PALAVRAS-CHAVE: Análise de sobrevivência; distribuição log-loǵıstica; função de
risco; intervalos de confiança Bootstrap.
1 Introdução
Apesar da distribuição Weibull ser largamente utilizada na análise de dados
de sobrevivência e confiabilidade, apresenta a limitação de sua função de risco ser
1Departamento de Estat́ıstica, Universidade Estadual de Maringá – UEM, CEP: 87020-900,
Maringá, PR, Brasil, E-mail: jmazucheli@uem.br
2Departamento de Medicina Social, Faculdade de Medicina de Ribeirão Preto, Universidade de São
Paulo – USP, CEP: 14049-900, Ribeirão Preto, SP, Brasil, E-mail: eacbarros@hotmail.com
3Departamento de Estat́ıstica, Universidade Federal de São Carlos – UFSCar, CEP: 13565-905, São
Carlos, SP, Brasil, E-mail: achcar@fmrp.usp.br
Rev. Mat. Estat., São Paulo, v.24, n.4, p.73-87, 2006 73
monótona (crescente para β > 1, decrescente para β < 1 e constante para β = 1;
em que β é o parâmetro que caracteriza a forma da distribuição dos tempos de
sobrevivência) (Collett, 1994). Entretanto, não é incomum situações reais em que
a função de risco muda de direção após algum valor máximo, denotado por Tmax,
ser atingido, Tmax desconhecido. Como exemplo, após um transplante de órgão, o
risco de morte do paciente aumenta durante o peŕıodo de adaptação do organismo
ao novo órgão. Após esse peŕıodo, o risco pode decrescer assintoticamente para zero
a medida que t →∞. Nesta situação, para descrever o comportamento da variável
que representa o tempo até a morte do paciente ou algum outro evento de interesse,
é importante utilizar distribuições que acomodem funções de riscos unimodais. Um
outro exemplo em que o risco pode ser unimodal é o tempo até que ex-detentos, em
liberdade, reincidam em algum delito. Logo após o indiv́ıduo ser posto em liberdade
o risco de reincidência pode ser crescente, após a fase de readaptação à sociedade o
mesmo tende a decrescer a medida que o tempo em liberdade aumenta.
Muitas distribuições de probabilidade acomodam funções de riscos não
monótonas com risco unimodal e dentre elas cita-se: a distribuição Log-Loǵıstica
(Bennett, 1983); a distribuição Log-Normal (Klein e Moeschberger, 1997); a
distribuição Weibull Exponenciada (Mudholkar et al., 1995; Mudholkar e Hutson,
1996); a distribuição Weibull Inversa (Jiang et al., 2001) entre outras.
Na presença de funções de riscos unimodais, um particular parâmetro de
interesse é o tempo em que a função de risco muda de direção. Geralmente,
inferências a respeito deste parâmetro são conduzidas com base em argumentos
assintóticos (normalidade assintótica dos estimadores de máxima verossimilhança).
Neste artigo, considerando a distribuição Log-Loǵıstica com parâmetro de
forma β > 1, são conduzidas inferências a respeito do parâmetro que identifica
a mudança de direção da função de risco (o máximo, a moda ou ponto de mudança
da função de risco). Na Seção 2 algumas caracteŕısticas associadas à distribuição
Log-Loǵıstica são apresentadas. A Seção 3, dado um conjunto de tempos de
sobrevivência, apresenta a função de verossimilhança como também a forma de
construção de intervalos de confiança baseados no método Delta. A Seção 4 discute
duas formas alternativas de construção de intervalos de confiança para o parâmetro
que identifica a mudança de direção da função de risco. Estas alternativas aos
intervalos de confiança assintóticos são baseadas em simulação Bootstrap. Três
exemplos numéricos utilizados para comparar as formas de obtenção dos intervalos
de confiança são apresentados na Seção 5. O artigo é finalizado com algumas
conclusões.
2 Distribuição Log-Loǵıstica
Seja t uma variável aleatória com distribuição Log-Loǵıstica e função de risco
parametrizada na forma
h (t) =
eµβtβ−1
1 + eµtβ
, (1)
74 Rev. Mat. Estat., São Paulo, v.24, n.4, p.73-87, 2006
em que t > 0; β > 0 e −∞ < µ < +∞ são os parâmetros de forma e escala
respectivamente.
A partir das relações fundamentais S (t) = exp
[
− ∫ t
0
h (u) du
]
e f (t) =
− ddtS (t), (Lawless, 1982), as funções de sobrevivência e densidade, respectivamente,
são escritas como
S (t) = 1
1+eµtβ
e f (t) = e
µβtβ−1
[1+eµtβ ]2
. (2)
Para qualquer valor de µ, a função de risco definida em (1) decresce
monotonicamente para β ≤ 1 com máximo em t = 0. Para β > 1, h (t) inicialmente
cresce até Tmax = [e−µ (β − 1)]1/β e então tende a zero para t −→∞. A Figura (1)
apresenta, para µ = 0 e β = (3.0, 1.5, 1.0), algumas formas da função de densidade
e de risco.
0.0 0.5 1.0 1.5 2.0 2.5 3.0
0.
0
0.
2
0.
4
0.
6
0.
8
1.
0
t
f(t
)
(a)
0.0 0.5 1.0 1.5 2.0 2.5 3.0
0.
0
0.
2
0.
4
0.
6
0.
8
1.
0
t
h(
t)
(b)
Figura 1 - (——): β = 3.0, (− − −): β = 1.5, (· · · · · · ): β = 1.0. (a) Função de
densidade. (b) Função de risco.
3 A função de verossimilhança
Suponha que (t1, . . . , tn) é uma amostra aleatória de tempos de sobrevivência
provenientes de uma distribuição Log-Loǵıstica com parâmetros µ e β e que
associado a cada ti exista uma variável indicadora (δi = 1) se ti é exatamente
observado ou (δi = 0) se ti é censurado a direita, (i = 1, . . . , n). Considerando que o
Rev. Mat. Estat., São Paulo, v.24, n.4, p.73-87, 2006 75
esquema de censura é não informativo (Lawless, 1982), a função de verossimilhança
é escrita na forma
L (µ, β | t) =
n∏
i=1
(
eµβtβ−1
1 + eµtβ
)δi (
1 + eµtβ
)−1
. (3)
Aplicando logaritmo em (3), a função log-verossimilhança é escrita como
l (µ, β | t) =
n∑
i=1
δi log
(
eµβtβ−1
1 + eµtβ
)
−
n∑
i=1
log
(
1 + eµtβ
)
. (4)
Os estimadores de máxima verossimilhança de µ e β, µ̂ e β̂ respectivamente,
são obtidos resolvendo numericamente o seguinte sistema de equações não-lineares



∂
∂µ l (µ, β | t) =
n∑
i=1
δiS (ti)− βeµ
n∑
i=1
ti (1 + eµti)
−1 = 0
∂
∂β l (µ, β | t) = 1β
n∑
i=1
δi
[
S (ti)
−1 + β log (ti)
]
S (ti)−
n∑
i=1
log (1 + eµti) = 0,
(5)
em que S (ti) é a função de sobrevivência definida em (2).
Para β > 1 e definindo µ̂ e β̂ como os estimadores de máxima verossimilhança
de µ e β, respectivamente, pela propriedade da invariância, o estimador de máxima
verossimilhança de Tmax, denotado por θ̂, é estimado explicitamente por
θ̂ =
[(
β̂ − 1
)
e−µ̂
] 1
β̂
, (6)
enquanto que intervalos de confiança 100×(1− α)% para Tmax, (0 < α < 1) podem
ser obtidos diretamente a partir da normalidade assintótica dos estimadores de
máxima verossimilhança
IC (Tmax; 100× (1− α) %) = θ̂ ± zα/2
√
V ar(θ̂), (7)
em que zα/2 é o α/2-ésimo percentil da distribuição normal padrão e V ar(θ̂) é
calculado a partir da aplicação do método Delta.O método Delta (Rao e Toutenburg, 1999) calcula V ar(θ̂) a partir da matriz
de variâncias-covariâncias de µ e β, estimada pela inversa da matriz de segundas
derivadas da função log-verossimilhança (a matriz hessiana calculada localmente em
µ̂ e β̂).
Seja θ̂ = g(µ̂,β̂). O método Delta estima a variância de θ̂ a partir da expressão
V ar
[
g(µ̂,β̂)
]
=
[
∂
∂µ
g
(
µ̂,β̂
)]2
V ar (µ̂) +
[
∂
∂β
g
(
µ̂,β̂
)]2
V ar(β̂) +
2
[
∂
∂µ
g
(
µ̂,β̂
)] [ ∂
∂β
g
(
µ̂,β̂
)]
Cov(µ̂, β̂). (8)
76 Rev. Mat. Estat., São Paulo, v.24, n.4, p.73-87, 2006
em que g(µ̂,β̂) =
[(
β̂ − 1
)
e−µ̂
] 1
β̂ e
∂
∂µg
(
µ̂,β̂
)
= − 1β Tmax
∣∣∣
µ=µ̂,β=β̂
,
∂
∂β g
(
µ̂,β̂
)
= − Tmax{[log(β−1)−µ](β−1)−β}β2(β−1)
∣∣∣
µ=µ̂,β=β̂
.
(9)
Os valores de V ar (µ̂), V ar(β̂) e Cov(µ̂, β̂) são obtidos da inversa da matriz
de informação dada por
[
∂2
∂µ∂µ l (µ, β | t) ∂
2
∂µ∂β l (µ, β | t)
∂2
∂β∂µ l (µ, β | t) ∂
2
∂β∂β l (µ, β | t)
]−1
µ=µ̂,β=β̂
=
[
V ar (µ̂) Cov(µ̂, β̂)
Cov(µ̂, β̂) V ar(β̂)
]
. (10)
Em situações em que não existe interesse em inferências a respeito de µ, para
β > 1, Tmax pode ser estimado diretamente a partir da maximização da função
Log-Verossimilhança considerando a reparametrização µ = log (β − 1) − log (θ) β.
Nesta parametrização, V ar(Tmax) é estimada diretamente a partir da inversa da
matriz Hessiana de Tmax e β, localmente em θ̂ e β̂.
Vale lembrar que a partir do método Delta é posśıvel estimar V ar [g (µ,β)]
para outras funções de µ e β, como a moda e a mediana da distribuição dos tempos
de sobrevivência definidas, respectivamente, por
τ =
(
β−1
β+1e
−µ
) 1
β
e κ = e−
µ
β . (11)
Reparametrizando a função de verossimilhança, ou log-verossimilhança, com
µ = log
(
β−1
β+1
)
− β log (τ) ou µ = −β log (κ), V ar(τ) ou V ar(κ) são estimadas
diretamente pela inversa da matriz de informação de Fisher.
Alternativamente aos intervalos de confiança assintóticos, definido em (7),
intervalos de confiança para Tmax podem ser obtidos via simulação Bootstrap
paramétrico gerando-se valores de f (t) com µ = µ̂ (ou µ̂ = log(β̂ − 1) − log(θ̂)β̂)
e β = β̂. Não parametricamente, amostras Bootstrap são obtidas reamostrando,
com reposição, diretamente dos dados dispońıveis (t1, δ1) , . . . , (tn, δn) (Efron e
Tibshirani, 1993; Diciccio e Efron, 1996).
Para a implementação do Bootstrap paramétrico, valores pseudo-aleatórios da
distribuição Log-Loǵıstica são facilmente gerados a partir da expressão
t =
(
U
1− U e
−µ̂
)1/β̂
, (12)
em que U é a distribuição uniforme definida no intervalo (0, 1) (Ripley, 1987;
Devroye, 1986).
Ainda, como alternativa aos intervalos de confiança assintóticos e Bootstrap,
pode-se, do ponto de vista Bayesiano, construir intervalos de credibilidade (Box e
Tiao, 1973). Este procedimento não é discutido neste artigo.
Rev. Mat. Estat., São Paulo, v.24, n.4, p.73-87, 2006 77
4 Intervalos de confiança Bootstrap para Tmax
Nesta seção são apresentados os passos utilizados na obtenção de intervalos
de confiança Bootstrap para o parâmetro Tmax, o máximo da função de risco da
distribuição Log-Loǵıstica. Inicialmente é apresentado o intervalo de confiança,
proposto por Efron (1982), baseado nos percentis da distribuição Bootstrap de
Tmax, p-Bootstrap. Posteriormente, são apresentados os passos utilizados para a
obtenção do intervalo de confiança t-Bootstrap, sugerido por Hall (1988). Do ponto
de vista assintótico, Hall (1988) mostrou que os intervalos de confiança t-Bootstrap
são melhores que os intervalos de confiança baseados na distribuição emṕırica do
parâmetro de interesse. O termo “melhor” indica que a probabilidade de cobertura
dos intervalos de confiança t-Bootstrap é aproximadamente igual ao coeficiente de
confiança nominal 100×(1− α)% (Efron e Tibshirani, 1993). Uma recente discussão
a respeito dos intervalos de confiança obtidos via simulação Bootstrap é apresentada
em Carpenter e Bithell (2000).
Seja U = (t, δ), em que t = (t1, . . . , tn) é o vetor de tempos de sobrevivência
dispońıveis para análise e δ = (δ1, . . . , δn) com (δi = 1) para os tempos exatamente
observados e (δi = 0) para os tempos censurados à direita.
Intervalos p-Bootstrap
[1] Amostrar, com reposição, de U uma amostra Bootstrap (t∗1, δ
∗
1) , . . . , (t
∗
n, δ
∗
n).
[2] Da amostra Bootstrap (t∗1, δ
∗
1) , . . . , (t
∗
n, δ
∗
n) obter o estimador de máxima
verossimilhança de Tmax, representado por θ̂∗.
[3] Repetir os passos [1] e [2] um número B grande de vezes.
[4] De θ̂∗ =
(
θ̂∗(1),≤, θ̂∗(2),≤, · · · ,≤, θ̂∗(B)
)
, para algum valor de α, (0 < α < 1), o
intervalo de confiança p-Bootstrap 100× (1− α)% é dado por
(
θ̂∗(q1); θ̂
∗
(q2)
)
, (13)
em que q1 = [B × (α/2)] e q2 = B − q1 e [ ] indica o menor número inteiro
maior ou igual ao argumento.
Como exemplo, em [4], para (α = 0, 05 e B = 1.000) ⇒ (q1 = 25 e q2 = 975),
logo o intervalo de confiança p-Bootstrap de 95% é dado por
(
θ̂∗(25); θ̂
∗
(975)
)
. Os
intervalos de confiança para quaisquer outros parâmetros de interesse são obtidos
de maneira similar.
Para a obtenção do intervalo de confiança t-Bootstrap, redefinir o passo [4] na
forma:
78 Rev. Mat. Estat., São Paulo, v.24, n.4, p.73-87, 2006
Intervalo t-Bootstrap
[4
′
] A partir de θ̂∗, gerado no passo [3], obter T∗ =
(
T ∗(1), . . . , T
∗
(B)
)
, T ∗(i) ≤ T ∗(j)
para (i, j = 1, . . . , B; i 6= j) em que:
T ∗i =
(
θ̂∗i − θ̂
)
σ̂∗i
, (14)
θ̂ é o estimador de máxima verossimilhança de Tmax e σ̂∗i é o erro padrão
de θ̂∗i . Uma vez que σ̂
∗
i , (i = 1, . . . , B), pode ser calculado diretamente da
inversa da matriz de informação (Efron e Tibshirani, 1993; Carpenter e Bithell,
2000), não é necessário obter suas estimativas via Double Bootstrap. Este fato
não ocorre, por exemplo, quando se tem interesse em construir intervalos
de confiança t-Bootstrap para o máximo da função de risco da distribuição
Weibull Exponenciada (Mudholkar et al., 1995). Na distribuição Weibull
Exponenciada Tmax é calculado a partir de algum método numérico, o método
de Newton-Raphson por exemplo.
[5
′
] Usando T∗, para algum valor de α, (0 < α < 1), o intervalo de confiança t-
Bootstrap 100× (1− α)% é dado por
(
θ̂ − σ̂T∗(q2); θ̂ − σ̂T∗(q1)
)
, (15)
em que q1 e q2 estão definidos em [4] e σ̂ =
√
V ar(θ̂), (θ̂ e σ̂ são os estimadores
de máxima verossimilhança calculados a partir dos tempos de sobrevivência
originais).
Outras alternativas aos intervalos de confiança p-Bootstrap e t-Bootstrap,
apresentadas nesta seção, são discutidas, por exemplo, em Efron e Tibshirani (1993),
Davison e Hinkley (1997) e Carpenter e Bithell (2000).
5 Exemplos
5.1 Exemplo 1: Ausência de censura
Nesta seção é apresentado um exemplo considerando um conjunto de dados
gerados a partir da distribuição Log-Loǵıstica com parâmetros µ = −5.0 e β = 2.0
tal que o máximo da função de risco ocorre em Tmax = 12.1825. Nosso objetivo
é avaliar as três formas de construção do intervalo de confiança para Tmax. Um
total de n = 50 observações foram simuladas a partir da equação (12) considerando
(δi = 1, i = 1, . . . , 50), (ver Tabela 1).
Os estimadores de máxima verossimilhança de Tmax e β com seus respectivos
erros padrão assintóticos são apresentados na Tabela 2. A Tabela 3 mostra
os intervalos de confiança p-Bootstrap e t-Bootstrap considerando B = 100.000
Rev. Mat. Estat., São Paulo, v.24, n.4, p.73-87, 2006 79
Tabela 1 - Conjunto de tempos simulados com µ = −5.0 e β = 2.0
2.09 7.06 10.14 13.12 20.67
2.64 7.26 10.16 13.74 22.58
2.81 7.30 10.22 14.27 25.55
2.98 7.89 10.91 14.84 26.49
3.62 8.30 11.57 17.40 27.12
4.08 8.30 11.58 18.51 47.01
4.32 8.53 11.67 19.45 55.62
6.12 8.55 11.99 20.26 80.35
6.25 8.93 12.40 20.42 104.09
6.52 8.98 13.04 20.46 115.36
reamostras do conjunto de dados originais gerados. O número de reamostras
Bootstrap sugerido na literatura parece crescer com o avanço computacional, seja
em ńıvelde hardware e/ou de software. Efron e Tibshirani (1993) comentam que
“B = ∞” é o número ideal para se estimar erros padrão. Naturalmente, na prática,
B deve ser um número finito restrito ao poder computacional dispońıvel.
A Figura 2(a) apresenta a distribuição emṕırica de Tmax baseada nas B =
100.000 reamostras Bootstrap. A função de risco estimada é apresentada na Figura
2(b). A amplitude (R) e a forma (F ) para os três tipos de intervalo de confiança
são apresentados na Tabela 4. Essas medidas são importantes para se comparar os
três procedimentos de construção dos intervalos de confiança.
Sejam θ̂LS e θ̂LI os limites superior e inferior do intervalo de confiança
para Tmax. A forma para o intervalo de confiança de Tmax, calculada por
F =
(
θ̂LS − θ̂
)
/
(
θ̂ − θ̂LI
)
, mede a assimetria do intervalo em torno de θ̂;
F > 1 indica maior distância entre
(
θ̂LS − θ̂
)
e
(
θ̂ − θ̂LI
)
. Como os intervalos
de confiança assintóticos são simétricos, implica que F = 1 (Efron e Tibshirani,
1993). Da Tabela 4 pode-se observar, para ambos os parâmetros, que os intervalos
de confiança Bootstrap são bem mais precisos que os intervalos de confiança
assintóticos. Os intervalos de confiança assintóticos impõem a condição de simetria.
Essa condição parece não ser razoável se for observada a distribuição Bootstrap de
Tmax (ver Figura 2-(a)).
Tabela 2 - Estimativas de máxima verossimilhança e intervalos de confiança
assintóticos
Parâmetro EMV Erro-padrão Intervalo de confiança 95%
Tmax 12.2239 1.8575 (8.5833; 15.8645)
β 2.1106 0.2534 (1.6140; 2.6072)
80 Rev. Mat. Estat., São Paulo, v.24, n.4, p.73-87, 2006
Tabela 3 - Estimativas Bootstrap e intervalos de confiança p-Bootstrap e t-Bootstrap
Parâmetro EMV∗ Erro-padrão∗
p-Intervalo de
confiança 95%
t-Intervalo de
confiança 95%
Tmax 12.2750 1.3083 (9.8980; 15.0066) (9.9241; 14.0735)
β 2.1464 0.2247 (1.7914; 2.6649) (1.7624; 2.4106)
∗ Baseado nas B = 100000 reamostras Bootstrap.
Tabela 4 - Amplitude (R) e forma (F ) para os intervalos de confiança 95% para
Tmax e β
Parâmetro
Tmax β
Intervalo R F R F
Assintótico 7.2811 1.0000 0.9932 1.0000
p-Bootstrap 5.1086 1.1964 0.8734 1.7362
t-Bootstrap 4.1493 0.8042 0.6483 0.8614
8 10 12 14 16 18
0.
00
0.
05
0.
10
0.
15
0.
20
0.
25
0.
30
(a)
0.
02
0.
04
0.
06
0.
08
t
h(
t)
40 60 80 100θ̂ = 12.2239
(b)
Figura 2 - (a) Distribuição emṕırica de Tmax. (b) Função de risco estimada.
(—): Intervalo de confiança assintótico; (−−): Intervalo de confiança
p-Bootstrap; (· · · ): Intervalo de confiança t-Bootstrap.
5.2 Exemplo 2: Presença de censura
Considere os tempos de sobrevivência simulados no Exemplo 1, apresentados
na Tabela 1. A t́ıtulo de ilustração e a fim de avaliar a influência da presença
Rev. Mat. Estat., São Paulo, v.24, n.4, p.73-87, 2006 81
de observações censuradas nos intervalos de confiança, nesta seção considera-se
(δi = 1, i ≤ 40) e (δi = 0, i > 40) ou seja, os dez maiores tempos simulados são
censurados. Novamente, B = 100.000 reamostras Bootstrap foram retiradas do
conjunto de dados originais. Um intensivo estudo dessa natureza é apresentado em
Shuen-Lin e Meeker (2001).
Vale lembrar que se o número de observações censuradas é grande, se
comparado com o número de observações não censuradas, a reamostragem não-
paramétrica pode levar a estimativas de β ≤ 1; o que não caracterizam funções
de riscos unimodais. Nesse caso, na presença de censuras, é recomendável a
reamostragem paramétrica. Maiores detalhes estão dispońıveis em Davison e
Hinkley (1997) ou Veraverbeke (1997). No exemplo apresentado nesta seção, apesar
de ter sido estipulado 20% censura, não foi estimado β ≤ 1 em nenhuma das
B = 100.000 reamostras. Os intervalos de confiança assintóticos e obtidos via
Bootstrap não-paramétrico são apresentados nas Tabelas 5 e 6, respectivamente.
Como esperado, em todos os casos, ocorre um aumento na amplitude dos intervalos
de Tmax e β entretanto, os intervalos de confiança Bootstrap ainda são mais precisos
que os intervalos assintóticos.
Tabela 5 - Estimativas de máxima verossimilhança e intervalos de confiança
assintótico na presença de observações censuradas
Parâmetro EMV Erro-padrão Intervalo de confiança 95%
Tmax 10.2305 2.4372 (5.4537; 15.0073)
β 1.7353 0.2428 (1.2728; 2.1979)
Tabela 6 - Estimativas Bootstrap e intervalos de confiança p-Bootstrap e t-Bootstrap
na presença de observações censuradas
Parâmetro EMV∗ Erro-padrão∗ p-Intervalo deconfiança 95%
t-Intervalo de
confiança 95%
Tmax 10.1632 1.7387 (6.6225; 13.4748) (6.9704; 12.5813)
β 1.7696 0.2490 (1.3746; 2.3398) (1.3635; 2.0809)
∗ Baseado nas B = 100.000 reamostras Bootstrap.
5.3 Exemplo 3: Dados reais
Considere os tempos de vida de 96 pacientes com câncer de pulmão; dados
estes apresentados em Prentice (1973). Dos 96 pacientes no estudo, 5 deles tiveram
seus tempos de vida censurados aleatoriamente. As Tabelas 7 e 8 trazem, para Tmax
e β, os intervalos de confiança de 95%, assintóticos e Bootstrap. As distribuições
Bootstrap de Tmax e β são apresentadas, respectivamente, nas Figuras 3(a) e 3(b). A
fim de avaliar graficamente a suposição de normalidade das distribuições emṕıricas
de Tmax e β, são apresentados nas Figuras 3-(c) e 3-(d) os gráficos quantil-quantil.
82 Rev. Mat. Estat., São Paulo, v.24, n.4, p.73-87, 2006
A partir dessas figuras, a suposição de normalidade parece ser bastante questionável
o que justifica a construção de intervalos de confiança via simulação Bootstrap. A
Tabela 9 mostra que os intervalos de confiança obtidos via simulação Bootstrap são
bem mais precisos que os intervalos assintóticos, mesmo na presença de uma amostra
relativamente grande, n = 96 e com poucas observações censuradas, # (δ) = 5.
Tabela 7 - Estimativas de máxima verossimilhança e intervalos de confiança
assintóticos, (Prentice, 1973)
Parâmetro EMV Erro-padrão Intervalo de confiança 95%
Tmax 35.3470 11.0213 (13.7455; 56.9484)
β 1.3903 0.1208 (1.1535; 1.6270)
Tabela 8 - Estimativas Bootstrap e intervalos de confiança p-Bootstrap e t-
Bootstrap, (Prentice, 1973)
Parâmetro EMV∗ Erro-padrão∗ p-Intervalo deconfiança 95%
t-Intervalo de
confiança 95%
Tmax 36.1959 8.8233 (21.3680; 55.7140) (20.5732; 48.1286)
β 1.4009 0.0875 (1.2516; 1.5925) (1.2502; 1.5122)
∗ Baseado nas B = 100.000 reamostras.
Tabela 9 - Amplitude (R) e forma (F ) para os intervalos de confiança 95% para θ
e β
Parâmetro
Tmax β
Intervalo R F R F
Assintótico 43.2029 1.0000 0.4736 1.0000
p-Bootstrap 34.3460 1.4570 0.3408 1.4585
t-Bootstrap 27.5554 0.8652 0.2620 0.8712
A partir da estimativa de Tmax observa-se que o risco máximo de morte ocorre
aproximadamente na 35a semana. A incerteza associada a esta estimativa é bem
maior considerando o intervalo de confiança assintótico (ver Tabela 9).
A função de risco estimada é apresentada na Figura 4(a). A fim de avaliar
a plausibilidade em se adotar o modelo log-loǵıstico no ajuste dos dados (Collett,
1994), a Figura 4(b) mostra o gráfico de log(t) versus log((1 − Ŝ)/Ŝ), em que Ŝ é
a função de sobrevivência estimada via Kaplan-Meier (Kaplan e Meier, 1958). A
partir dessa figura observa-se um satisfatório ajuste do modelo log-loǵıstico.
Rev. Mat. Estat., São Paulo, v.24, n.4, p.73-87, 2006 83
20 40 60 80
0.
00
0.
01
0.
02
0.
03
0.
04
(a)
1.2 1.4 1.6 1.8
0
1
2
3
4
(b)
−4 −2 0 2 4
20
40
60
80
 
Theoretical Quantiles
Sa
m
pl
e 
Q
ua
nt
ile
s
(c)
−4 −2 0 2 4
1.
2
1.
4
1.
6
1.
8
 
Theoretical Quantiles
Sa
m
pl
e 
Q
ua
nt
ile
s
(d)
Figura 3 - (a) Distribuição emṕırica de Tmax. (b) Distribuição emṕırica de β. (c)
Gráfico quantil-quantil para Tmax. (d) Gráfico quantil-quantil para β.
(—): Intervalo de confiança assintótico; (−−): Intervalo de confiança
p-Bootstrap; (· · · ): Intervalo de confiança t-Bootstrap.
84 Rev. Mat. Estat., São Paulo, v.24, n.4, p.73-87, 20060.
00
2
0.
00
4
0.
00
6
0.
00
8
0.
01
0
t
h(
t)
100 200 300 400 500 600θ̂ = 35.347
(a)
0 1 2 3 4 5 6
−4
−2
0
2
4
log(tempo)
lo
g−
lo
g(
od
ds
)
(b)
Figura 4 - (a) Função de risco estimada. (b) Verificação da qualidade do ajuste.
Conclusões
Na análise paramétrica de tempos de sobrevivência, geralmente as inferências
a respeito dos parâmetros de interesse ou suas funções são conduzidas com base
na normalidade assintótica dos estimadores de máxima verossimilhança. Em
situações de amostras pequenas ou muitas observações censuradas, em comparação
as exatamente observadas, as inferência a respeitos dos parâmetros podem ser
altamente imprecisas. Neste artigo, considerando a distribuição Log-Loǵıstica com
parâmetro de forma β > 1, foram apresentadas duas alternativas aos intervalos
de confiança assintóticos, baseadas em simulação Bootstrap, para a construção
de intervalos de confiança para o parâmetro que identifica o tempo em que a
função de risco muda de direção. Nos exemplos apresentados as duas alternativas
diminúıram em muito a incerteza a respeito do verdadeiro valor do parâmetro de
interesse. Apesar da construção dos intervalos de confiança via simulação Bootstrap
ser computacionalmente intensiva ela pode ser facilmente implementada na maioria
dos softwares estat́ısticos ou em qualquer linguagem de programação. Todos os
resultados numéricos apresentados na Seção 5 foram obtidos no software SAS 9.1.3
(SAS, 2003).
Rev. Mat. Estat., São Paulo, v.24, n.4, p.73-87, 2006 85
Agradecimentos
Os autores agradecem os pareceristas por seus valiosos comentários e sugestões.
Emı́lio Augusto Coelho Barros recebe aux́ılio financeiro da Fundação de Apoio ao
Ensino, Pesquisa e Assistência (FAEPA) do Hospital das Cĺınicas da FMRP/USP.
Josmar Mazucheli e Jorge A. Achcar agradecem ao CNPq pelo apoio financeiro
(Processo no 474121/2006-6).
MAZUCHELI, J.; COELHO-BARROS, E. A.; ACHCAR, J. A. Inference for the
Mode of the Log-Logistic Hazard Function. Rev. Mat. Estat., São Paulo, v.24, n.4,
p.73-87, 2006.
ABSTRACT: In many applications of lifetime data analysis, it is important to perform
inferences about the mode of the hazard function in situations of lifetime data modeling
with unimodal hazard functions. For lifetime distributions where the mode of the
hazard function can be analytically calculated, its maximum likelihood estimator is easily
obtained from the invariance properties of the maximum likelihood estimators. From
the asymptotical normality of the maximum likelihood estimators, confidence intervals
can be obtained. However, these results might not be very accurate for small sample
sizes and/or large proportion of censored observations. Considering the log-logistic
distribution for the lifetime data with shape parameter β > 1, we present and compare
the accuracy of asymptotical confidence intervals with two confidence intervals based on
bootstrap simulation. The alternative methodology of confidence intervals for the mode
of the log-logistic hazard function is illustrated in three numerical examples.
KEYWORDS: Survival analysis; log-logistic distribution; hazard function; Bootstrap
confidence intervals.
Referências
BENNETT, S. Log-logistic regression models for survival data. J. R. Stat. Soc. Ser.
C: Appl. Stat., London, v.32, p.165-171, 1983.
BOX, G. E. P.; TIÃO, G. C. Bayesian inference in statistical analysis. Reading:
Addison-Wesley, 1973. 608p.
CARPENTER, J.; BITHELL, J. Bootstrap confidence intervals: when, which,
what? A practical guide for medical statistician. Stat. Med., Chichester, v.19,
p.1141-1164, 2000.
COLLETT, D. Modelling survival data in medical research. New York: Chapman
and Hall, 1994. 408p.
DAVISON, A. C.; HINKLEY, D. V. Bootstrap methods and their application.
Cambridge: Cambridge University Press, 1997. 592p.
DEVROYE, L. Nonuniform random variate generation. New York: Springer-Verlag,
1986. 843p.
86 Rev. Mat. Estat., São Paulo, v.24, n.4, p.73-87, 2006
DICICCIO, T. J.; EFRON, B. Bootstrap confidence intervals. Stat. Sci., Hayward,
v.11, n.3, p.189-228, 1996.
EFRON, B. The jackknife, the bootstrap and other resampling plans. Philadelphia:
SIAM, 1982. 92p. (Conference series in applied Mathematics, v.38.)
EFRON, B.; TIBSHIRANI, R. J. An introduction to the bootstrap. New York:
Chapman and Hall, 1993. 436p. (Monographs on Statistics and Applied Probability,
v.57.)
HALL, P. Theoretical comparison of bootstrap confidence intervals. Ann. Stat.,
Washington, v.16, n.3, p.927-985, 1988.
JIANG, R.; MURTHY, D. N. P.; JI, P. Models involving two inverse Weibull
distributions. Reliab. Eng. Syst. Saf., Barking, v.73, p.73-81, 2001.
KAPLAN, E. L.; MEIER, P. Nonparametric estimation from incomplete
observations. J. Am. Stat.. Assoc., New York; v.53, p.457-481, 1958.
KLEIN, J. P.; MOESCHBERGER, M. L. Survival analysis: techniques for censored
and truncated data. New York: Springer-Verlag, 1997. 502p.
LAWLESS, J. F. Statistical models and methods for lifetime data. New York: John
Wiley and Sons, 1982. 664p.
MUDHOLKAR, G. S.; SRIVASTAVA, D. K.; FRAIMER, M. The exponentiated
Weibull family: a reanalysis of the bus-motor-failure data. Technometrics,
Washington, v.37, p.436-445, 1995.
MUDHOLKAR, G. S.; HUTSON, A. D. The exponentiated Weibull family: some
properties and a flood data application. Commun. Stat. Theory Methods, New York,
v.25, n.12, p.3059–3083, 1996.
PRENTICE, R. L. Exponential survivals with censoring and explanatory variables.
Biometrika, London, v.60, p.279-288, 1973.
RAO, C. R.; TOUTENBURG, H. Linear models. 2.ed. New York: Springer-Verlag,
1999. 443p.
RIPLEY, B. D. Stochastic simulation. New York: John Wiley, 1987. 256p.
SHUEN-LIN, J.; MEEKER, W. Q. Parametric simultaneous confidence bands for
cumulative distributions from censored data. Technometrics, Washington, v.43, n.4,
p.450-461, 2001.
SAS INSTITUTE. SAS/STAT R© user’s guide, version 9. Cary, 2003. 200p.
VERAVERBEKE, N. Bootstrapping in survival analysis. S. Afr. Stat. J., Cape
Town, v.31, n.2, 217-258, 1997.
Recebido em 30.10.2006.
Aprovado após revisão em 30.01.2007.
Rev. Mat. Estat., São Paulo, v.24, n.4, p.73-87, 2006 87

Continue navegando

Outros materiais