Baixe o app para aproveitar ainda mais
Prévia do material em texto
INFERÊNCIAS PARA O MÁXIMO DA FUNÇÃO DE RISCO DA DISTRIBUIÇÃO LOG-LOGÍSTICA Josmar MAZUCHELI1 Emı́lio Augusto COELHO-BARROS2 Jorge Alberto ACHCAR3 RESUMO: Em aplicações de métodos estat́ısticos envolvendo dados de sobrevivência, muitas vezes, na presença de riscos unimodais, existe o interesse em se realizar inferência a respeito do parâmetro que caracteriza a mudança de direção da função de risco – o máximo ou o ponto de mudança da função de risco. Ajustado um modelo paramétrico, a partir da propriedade de invariância dos estimadores de máxima verossimilhança, este parâmetro é facilmente estimado. Testes de hipótese e intervalos de confiança são constrúıdos a partir da normalidade assintótica dos estimadores de máxima verossimilhança. Neste artigo, considerando a distribuição Log-Loǵıstica com parâmetro de forma β > 1 – caracterizando funções de riscos unimodais – são apresentadas duas alternativas ao intervalo de confiança assintótico para construção de intervalos de confiança para o máximo da função de risco. Essas alternativas são baseadas no método de simulação Bootstrap. Em três exemplos numéricos as performances dos diferentes procedimentos são apresentadas e discutidas. PALAVRAS-CHAVE: Análise de sobrevivência; distribuição log-loǵıstica; função de risco; intervalos de confiança Bootstrap. 1 Introdução Apesar da distribuição Weibull ser largamente utilizada na análise de dados de sobrevivência e confiabilidade, apresenta a limitação de sua função de risco ser 1Departamento de Estat́ıstica, Universidade Estadual de Maringá – UEM, CEP: 87020-900, Maringá, PR, Brasil, E-mail: jmazucheli@uem.br 2Departamento de Medicina Social, Faculdade de Medicina de Ribeirão Preto, Universidade de São Paulo – USP, CEP: 14049-900, Ribeirão Preto, SP, Brasil, E-mail: eacbarros@hotmail.com 3Departamento de Estat́ıstica, Universidade Federal de São Carlos – UFSCar, CEP: 13565-905, São Carlos, SP, Brasil, E-mail: achcar@fmrp.usp.br Rev. Mat. Estat., São Paulo, v.24, n.4, p.73-87, 2006 73 monótona (crescente para β > 1, decrescente para β < 1 e constante para β = 1; em que β é o parâmetro que caracteriza a forma da distribuição dos tempos de sobrevivência) (Collett, 1994). Entretanto, não é incomum situações reais em que a função de risco muda de direção após algum valor máximo, denotado por Tmax, ser atingido, Tmax desconhecido. Como exemplo, após um transplante de órgão, o risco de morte do paciente aumenta durante o peŕıodo de adaptação do organismo ao novo órgão. Após esse peŕıodo, o risco pode decrescer assintoticamente para zero a medida que t →∞. Nesta situação, para descrever o comportamento da variável que representa o tempo até a morte do paciente ou algum outro evento de interesse, é importante utilizar distribuições que acomodem funções de riscos unimodais. Um outro exemplo em que o risco pode ser unimodal é o tempo até que ex-detentos, em liberdade, reincidam em algum delito. Logo após o indiv́ıduo ser posto em liberdade o risco de reincidência pode ser crescente, após a fase de readaptação à sociedade o mesmo tende a decrescer a medida que o tempo em liberdade aumenta. Muitas distribuições de probabilidade acomodam funções de riscos não monótonas com risco unimodal e dentre elas cita-se: a distribuição Log-Loǵıstica (Bennett, 1983); a distribuição Log-Normal (Klein e Moeschberger, 1997); a distribuição Weibull Exponenciada (Mudholkar et al., 1995; Mudholkar e Hutson, 1996); a distribuição Weibull Inversa (Jiang et al., 2001) entre outras. Na presença de funções de riscos unimodais, um particular parâmetro de interesse é o tempo em que a função de risco muda de direção. Geralmente, inferências a respeito deste parâmetro são conduzidas com base em argumentos assintóticos (normalidade assintótica dos estimadores de máxima verossimilhança). Neste artigo, considerando a distribuição Log-Loǵıstica com parâmetro de forma β > 1, são conduzidas inferências a respeito do parâmetro que identifica a mudança de direção da função de risco (o máximo, a moda ou ponto de mudança da função de risco). Na Seção 2 algumas caracteŕısticas associadas à distribuição Log-Loǵıstica são apresentadas. A Seção 3, dado um conjunto de tempos de sobrevivência, apresenta a função de verossimilhança como também a forma de construção de intervalos de confiança baseados no método Delta. A Seção 4 discute duas formas alternativas de construção de intervalos de confiança para o parâmetro que identifica a mudança de direção da função de risco. Estas alternativas aos intervalos de confiança assintóticos são baseadas em simulação Bootstrap. Três exemplos numéricos utilizados para comparar as formas de obtenção dos intervalos de confiança são apresentados na Seção 5. O artigo é finalizado com algumas conclusões. 2 Distribuição Log-Loǵıstica Seja t uma variável aleatória com distribuição Log-Loǵıstica e função de risco parametrizada na forma h (t) = eµβtβ−1 1 + eµtβ , (1) 74 Rev. Mat. Estat., São Paulo, v.24, n.4, p.73-87, 2006 em que t > 0; β > 0 e −∞ < µ < +∞ são os parâmetros de forma e escala respectivamente. A partir das relações fundamentais S (t) = exp [ − ∫ t 0 h (u) du ] e f (t) = − ddtS (t), (Lawless, 1982), as funções de sobrevivência e densidade, respectivamente, são escritas como S (t) = 1 1+eµtβ e f (t) = e µβtβ−1 [1+eµtβ ]2 . (2) Para qualquer valor de µ, a função de risco definida em (1) decresce monotonicamente para β ≤ 1 com máximo em t = 0. Para β > 1, h (t) inicialmente cresce até Tmax = [e−µ (β − 1)]1/β e então tende a zero para t −→∞. A Figura (1) apresenta, para µ = 0 e β = (3.0, 1.5, 1.0), algumas formas da função de densidade e de risco. 0.0 0.5 1.0 1.5 2.0 2.5 3.0 0. 0 0. 2 0. 4 0. 6 0. 8 1. 0 t f(t ) (a) 0.0 0.5 1.0 1.5 2.0 2.5 3.0 0. 0 0. 2 0. 4 0. 6 0. 8 1. 0 t h( t) (b) Figura 1 - (——): β = 3.0, (− − −): β = 1.5, (· · · · · · ): β = 1.0. (a) Função de densidade. (b) Função de risco. 3 A função de verossimilhança Suponha que (t1, . . . , tn) é uma amostra aleatória de tempos de sobrevivência provenientes de uma distribuição Log-Loǵıstica com parâmetros µ e β e que associado a cada ti exista uma variável indicadora (δi = 1) se ti é exatamente observado ou (δi = 0) se ti é censurado a direita, (i = 1, . . . , n). Considerando que o Rev. Mat. Estat., São Paulo, v.24, n.4, p.73-87, 2006 75 esquema de censura é não informativo (Lawless, 1982), a função de verossimilhança é escrita na forma L (µ, β | t) = n∏ i=1 ( eµβtβ−1 1 + eµtβ )δi ( 1 + eµtβ )−1 . (3) Aplicando logaritmo em (3), a função log-verossimilhança é escrita como l (µ, β | t) = n∑ i=1 δi log ( eµβtβ−1 1 + eµtβ ) − n∑ i=1 log ( 1 + eµtβ ) . (4) Os estimadores de máxima verossimilhança de µ e β, µ̂ e β̂ respectivamente, são obtidos resolvendo numericamente o seguinte sistema de equações não-lineares ∂ ∂µ l (µ, β | t) = n∑ i=1 δiS (ti)− βeµ n∑ i=1 ti (1 + eµti) −1 = 0 ∂ ∂β l (µ, β | t) = 1β n∑ i=1 δi [ S (ti) −1 + β log (ti) ] S (ti)− n∑ i=1 log (1 + eµti) = 0, (5) em que S (ti) é a função de sobrevivência definida em (2). Para β > 1 e definindo µ̂ e β̂ como os estimadores de máxima verossimilhança de µ e β, respectivamente, pela propriedade da invariância, o estimador de máxima verossimilhança de Tmax, denotado por θ̂, é estimado explicitamente por θ̂ = [( β̂ − 1 ) e−µ̂ ] 1 β̂ , (6) enquanto que intervalos de confiança 100×(1− α)% para Tmax, (0 < α < 1) podem ser obtidos diretamente a partir da normalidade assintótica dos estimadores de máxima verossimilhança IC (Tmax; 100× (1− α) %) = θ̂ ± zα/2 √ V ar(θ̂), (7) em que zα/2 é o α/2-ésimo percentil da distribuição normal padrão e V ar(θ̂) é calculado a partir da aplicação do método Delta.O método Delta (Rao e Toutenburg, 1999) calcula V ar(θ̂) a partir da matriz de variâncias-covariâncias de µ e β, estimada pela inversa da matriz de segundas derivadas da função log-verossimilhança (a matriz hessiana calculada localmente em µ̂ e β̂). Seja θ̂ = g(µ̂,β̂). O método Delta estima a variância de θ̂ a partir da expressão V ar [ g(µ̂,β̂) ] = [ ∂ ∂µ g ( µ̂,β̂ )]2 V ar (µ̂) + [ ∂ ∂β g ( µ̂,β̂ )]2 V ar(β̂) + 2 [ ∂ ∂µ g ( µ̂,β̂ )] [ ∂ ∂β g ( µ̂,β̂ )] Cov(µ̂, β̂). (8) 76 Rev. Mat. Estat., São Paulo, v.24, n.4, p.73-87, 2006 em que g(µ̂,β̂) = [( β̂ − 1 ) e−µ̂ ] 1 β̂ e ∂ ∂µg ( µ̂,β̂ ) = − 1β Tmax ∣∣∣ µ=µ̂,β=β̂ , ∂ ∂β g ( µ̂,β̂ ) = − Tmax{[log(β−1)−µ](β−1)−β}β2(β−1) ∣∣∣ µ=µ̂,β=β̂ . (9) Os valores de V ar (µ̂), V ar(β̂) e Cov(µ̂, β̂) são obtidos da inversa da matriz de informação dada por [ ∂2 ∂µ∂µ l (µ, β | t) ∂ 2 ∂µ∂β l (µ, β | t) ∂2 ∂β∂µ l (µ, β | t) ∂ 2 ∂β∂β l (µ, β | t) ]−1 µ=µ̂,β=β̂ = [ V ar (µ̂) Cov(µ̂, β̂) Cov(µ̂, β̂) V ar(β̂) ] . (10) Em situações em que não existe interesse em inferências a respeito de µ, para β > 1, Tmax pode ser estimado diretamente a partir da maximização da função Log-Verossimilhança considerando a reparametrização µ = log (β − 1) − log (θ) β. Nesta parametrização, V ar(Tmax) é estimada diretamente a partir da inversa da matriz Hessiana de Tmax e β, localmente em θ̂ e β̂. Vale lembrar que a partir do método Delta é posśıvel estimar V ar [g (µ,β)] para outras funções de µ e β, como a moda e a mediana da distribuição dos tempos de sobrevivência definidas, respectivamente, por τ = ( β−1 β+1e −µ ) 1 β e κ = e− µ β . (11) Reparametrizando a função de verossimilhança, ou log-verossimilhança, com µ = log ( β−1 β+1 ) − β log (τ) ou µ = −β log (κ), V ar(τ) ou V ar(κ) são estimadas diretamente pela inversa da matriz de informação de Fisher. Alternativamente aos intervalos de confiança assintóticos, definido em (7), intervalos de confiança para Tmax podem ser obtidos via simulação Bootstrap paramétrico gerando-se valores de f (t) com µ = µ̂ (ou µ̂ = log(β̂ − 1) − log(θ̂)β̂) e β = β̂. Não parametricamente, amostras Bootstrap são obtidas reamostrando, com reposição, diretamente dos dados dispońıveis (t1, δ1) , . . . , (tn, δn) (Efron e Tibshirani, 1993; Diciccio e Efron, 1996). Para a implementação do Bootstrap paramétrico, valores pseudo-aleatórios da distribuição Log-Loǵıstica são facilmente gerados a partir da expressão t = ( U 1− U e −µ̂ )1/β̂ , (12) em que U é a distribuição uniforme definida no intervalo (0, 1) (Ripley, 1987; Devroye, 1986). Ainda, como alternativa aos intervalos de confiança assintóticos e Bootstrap, pode-se, do ponto de vista Bayesiano, construir intervalos de credibilidade (Box e Tiao, 1973). Este procedimento não é discutido neste artigo. Rev. Mat. Estat., São Paulo, v.24, n.4, p.73-87, 2006 77 4 Intervalos de confiança Bootstrap para Tmax Nesta seção são apresentados os passos utilizados na obtenção de intervalos de confiança Bootstrap para o parâmetro Tmax, o máximo da função de risco da distribuição Log-Loǵıstica. Inicialmente é apresentado o intervalo de confiança, proposto por Efron (1982), baseado nos percentis da distribuição Bootstrap de Tmax, p-Bootstrap. Posteriormente, são apresentados os passos utilizados para a obtenção do intervalo de confiança t-Bootstrap, sugerido por Hall (1988). Do ponto de vista assintótico, Hall (1988) mostrou que os intervalos de confiança t-Bootstrap são melhores que os intervalos de confiança baseados na distribuição emṕırica do parâmetro de interesse. O termo “melhor” indica que a probabilidade de cobertura dos intervalos de confiança t-Bootstrap é aproximadamente igual ao coeficiente de confiança nominal 100×(1− α)% (Efron e Tibshirani, 1993). Uma recente discussão a respeito dos intervalos de confiança obtidos via simulação Bootstrap é apresentada em Carpenter e Bithell (2000). Seja U = (t, δ), em que t = (t1, . . . , tn) é o vetor de tempos de sobrevivência dispońıveis para análise e δ = (δ1, . . . , δn) com (δi = 1) para os tempos exatamente observados e (δi = 0) para os tempos censurados à direita. Intervalos p-Bootstrap [1] Amostrar, com reposição, de U uma amostra Bootstrap (t∗1, δ ∗ 1) , . . . , (t ∗ n, δ ∗ n). [2] Da amostra Bootstrap (t∗1, δ ∗ 1) , . . . , (t ∗ n, δ ∗ n) obter o estimador de máxima verossimilhança de Tmax, representado por θ̂∗. [3] Repetir os passos [1] e [2] um número B grande de vezes. [4] De θ̂∗ = ( θ̂∗(1),≤, θ̂∗(2),≤, · · · ,≤, θ̂∗(B) ) , para algum valor de α, (0 < α < 1), o intervalo de confiança p-Bootstrap 100× (1− α)% é dado por ( θ̂∗(q1); θ̂ ∗ (q2) ) , (13) em que q1 = [B × (α/2)] e q2 = B − q1 e [ ] indica o menor número inteiro maior ou igual ao argumento. Como exemplo, em [4], para (α = 0, 05 e B = 1.000) ⇒ (q1 = 25 e q2 = 975), logo o intervalo de confiança p-Bootstrap de 95% é dado por ( θ̂∗(25); θ̂ ∗ (975) ) . Os intervalos de confiança para quaisquer outros parâmetros de interesse são obtidos de maneira similar. Para a obtenção do intervalo de confiança t-Bootstrap, redefinir o passo [4] na forma: 78 Rev. Mat. Estat., São Paulo, v.24, n.4, p.73-87, 2006 Intervalo t-Bootstrap [4 ′ ] A partir de θ̂∗, gerado no passo [3], obter T∗ = ( T ∗(1), . . . , T ∗ (B) ) , T ∗(i) ≤ T ∗(j) para (i, j = 1, . . . , B; i 6= j) em que: T ∗i = ( θ̂∗i − θ̂ ) σ̂∗i , (14) θ̂ é o estimador de máxima verossimilhança de Tmax e σ̂∗i é o erro padrão de θ̂∗i . Uma vez que σ̂ ∗ i , (i = 1, . . . , B), pode ser calculado diretamente da inversa da matriz de informação (Efron e Tibshirani, 1993; Carpenter e Bithell, 2000), não é necessário obter suas estimativas via Double Bootstrap. Este fato não ocorre, por exemplo, quando se tem interesse em construir intervalos de confiança t-Bootstrap para o máximo da função de risco da distribuição Weibull Exponenciada (Mudholkar et al., 1995). Na distribuição Weibull Exponenciada Tmax é calculado a partir de algum método numérico, o método de Newton-Raphson por exemplo. [5 ′ ] Usando T∗, para algum valor de α, (0 < α < 1), o intervalo de confiança t- Bootstrap 100× (1− α)% é dado por ( θ̂ − σ̂T∗(q2); θ̂ − σ̂T∗(q1) ) , (15) em que q1 e q2 estão definidos em [4] e σ̂ = √ V ar(θ̂), (θ̂ e σ̂ são os estimadores de máxima verossimilhança calculados a partir dos tempos de sobrevivência originais). Outras alternativas aos intervalos de confiança p-Bootstrap e t-Bootstrap, apresentadas nesta seção, são discutidas, por exemplo, em Efron e Tibshirani (1993), Davison e Hinkley (1997) e Carpenter e Bithell (2000). 5 Exemplos 5.1 Exemplo 1: Ausência de censura Nesta seção é apresentado um exemplo considerando um conjunto de dados gerados a partir da distribuição Log-Loǵıstica com parâmetros µ = −5.0 e β = 2.0 tal que o máximo da função de risco ocorre em Tmax = 12.1825. Nosso objetivo é avaliar as três formas de construção do intervalo de confiança para Tmax. Um total de n = 50 observações foram simuladas a partir da equação (12) considerando (δi = 1, i = 1, . . . , 50), (ver Tabela 1). Os estimadores de máxima verossimilhança de Tmax e β com seus respectivos erros padrão assintóticos são apresentados na Tabela 2. A Tabela 3 mostra os intervalos de confiança p-Bootstrap e t-Bootstrap considerando B = 100.000 Rev. Mat. Estat., São Paulo, v.24, n.4, p.73-87, 2006 79 Tabela 1 - Conjunto de tempos simulados com µ = −5.0 e β = 2.0 2.09 7.06 10.14 13.12 20.67 2.64 7.26 10.16 13.74 22.58 2.81 7.30 10.22 14.27 25.55 2.98 7.89 10.91 14.84 26.49 3.62 8.30 11.57 17.40 27.12 4.08 8.30 11.58 18.51 47.01 4.32 8.53 11.67 19.45 55.62 6.12 8.55 11.99 20.26 80.35 6.25 8.93 12.40 20.42 104.09 6.52 8.98 13.04 20.46 115.36 reamostras do conjunto de dados originais gerados. O número de reamostras Bootstrap sugerido na literatura parece crescer com o avanço computacional, seja em ńıvelde hardware e/ou de software. Efron e Tibshirani (1993) comentam que “B = ∞” é o número ideal para se estimar erros padrão. Naturalmente, na prática, B deve ser um número finito restrito ao poder computacional dispońıvel. A Figura 2(a) apresenta a distribuição emṕırica de Tmax baseada nas B = 100.000 reamostras Bootstrap. A função de risco estimada é apresentada na Figura 2(b). A amplitude (R) e a forma (F ) para os três tipos de intervalo de confiança são apresentados na Tabela 4. Essas medidas são importantes para se comparar os três procedimentos de construção dos intervalos de confiança. Sejam θ̂LS e θ̂LI os limites superior e inferior do intervalo de confiança para Tmax. A forma para o intervalo de confiança de Tmax, calculada por F = ( θ̂LS − θ̂ ) / ( θ̂ − θ̂LI ) , mede a assimetria do intervalo em torno de θ̂; F > 1 indica maior distância entre ( θ̂LS − θ̂ ) e ( θ̂ − θ̂LI ) . Como os intervalos de confiança assintóticos são simétricos, implica que F = 1 (Efron e Tibshirani, 1993). Da Tabela 4 pode-se observar, para ambos os parâmetros, que os intervalos de confiança Bootstrap são bem mais precisos que os intervalos de confiança assintóticos. Os intervalos de confiança assintóticos impõem a condição de simetria. Essa condição parece não ser razoável se for observada a distribuição Bootstrap de Tmax (ver Figura 2-(a)). Tabela 2 - Estimativas de máxima verossimilhança e intervalos de confiança assintóticos Parâmetro EMV Erro-padrão Intervalo de confiança 95% Tmax 12.2239 1.8575 (8.5833; 15.8645) β 2.1106 0.2534 (1.6140; 2.6072) 80 Rev. Mat. Estat., São Paulo, v.24, n.4, p.73-87, 2006 Tabela 3 - Estimativas Bootstrap e intervalos de confiança p-Bootstrap e t-Bootstrap Parâmetro EMV∗ Erro-padrão∗ p-Intervalo de confiança 95% t-Intervalo de confiança 95% Tmax 12.2750 1.3083 (9.8980; 15.0066) (9.9241; 14.0735) β 2.1464 0.2247 (1.7914; 2.6649) (1.7624; 2.4106) ∗ Baseado nas B = 100000 reamostras Bootstrap. Tabela 4 - Amplitude (R) e forma (F ) para os intervalos de confiança 95% para Tmax e β Parâmetro Tmax β Intervalo R F R F Assintótico 7.2811 1.0000 0.9932 1.0000 p-Bootstrap 5.1086 1.1964 0.8734 1.7362 t-Bootstrap 4.1493 0.8042 0.6483 0.8614 8 10 12 14 16 18 0. 00 0. 05 0. 10 0. 15 0. 20 0. 25 0. 30 (a) 0. 02 0. 04 0. 06 0. 08 t h( t) 40 60 80 100θ̂ = 12.2239 (b) Figura 2 - (a) Distribuição emṕırica de Tmax. (b) Função de risco estimada. (—): Intervalo de confiança assintótico; (−−): Intervalo de confiança p-Bootstrap; (· · · ): Intervalo de confiança t-Bootstrap. 5.2 Exemplo 2: Presença de censura Considere os tempos de sobrevivência simulados no Exemplo 1, apresentados na Tabela 1. A t́ıtulo de ilustração e a fim de avaliar a influência da presença Rev. Mat. Estat., São Paulo, v.24, n.4, p.73-87, 2006 81 de observações censuradas nos intervalos de confiança, nesta seção considera-se (δi = 1, i ≤ 40) e (δi = 0, i > 40) ou seja, os dez maiores tempos simulados são censurados. Novamente, B = 100.000 reamostras Bootstrap foram retiradas do conjunto de dados originais. Um intensivo estudo dessa natureza é apresentado em Shuen-Lin e Meeker (2001). Vale lembrar que se o número de observações censuradas é grande, se comparado com o número de observações não censuradas, a reamostragem não- paramétrica pode levar a estimativas de β ≤ 1; o que não caracterizam funções de riscos unimodais. Nesse caso, na presença de censuras, é recomendável a reamostragem paramétrica. Maiores detalhes estão dispońıveis em Davison e Hinkley (1997) ou Veraverbeke (1997). No exemplo apresentado nesta seção, apesar de ter sido estipulado 20% censura, não foi estimado β ≤ 1 em nenhuma das B = 100.000 reamostras. Os intervalos de confiança assintóticos e obtidos via Bootstrap não-paramétrico são apresentados nas Tabelas 5 e 6, respectivamente. Como esperado, em todos os casos, ocorre um aumento na amplitude dos intervalos de Tmax e β entretanto, os intervalos de confiança Bootstrap ainda são mais precisos que os intervalos assintóticos. Tabela 5 - Estimativas de máxima verossimilhança e intervalos de confiança assintótico na presença de observações censuradas Parâmetro EMV Erro-padrão Intervalo de confiança 95% Tmax 10.2305 2.4372 (5.4537; 15.0073) β 1.7353 0.2428 (1.2728; 2.1979) Tabela 6 - Estimativas Bootstrap e intervalos de confiança p-Bootstrap e t-Bootstrap na presença de observações censuradas Parâmetro EMV∗ Erro-padrão∗ p-Intervalo deconfiança 95% t-Intervalo de confiança 95% Tmax 10.1632 1.7387 (6.6225; 13.4748) (6.9704; 12.5813) β 1.7696 0.2490 (1.3746; 2.3398) (1.3635; 2.0809) ∗ Baseado nas B = 100.000 reamostras Bootstrap. 5.3 Exemplo 3: Dados reais Considere os tempos de vida de 96 pacientes com câncer de pulmão; dados estes apresentados em Prentice (1973). Dos 96 pacientes no estudo, 5 deles tiveram seus tempos de vida censurados aleatoriamente. As Tabelas 7 e 8 trazem, para Tmax e β, os intervalos de confiança de 95%, assintóticos e Bootstrap. As distribuições Bootstrap de Tmax e β são apresentadas, respectivamente, nas Figuras 3(a) e 3(b). A fim de avaliar graficamente a suposição de normalidade das distribuições emṕıricas de Tmax e β, são apresentados nas Figuras 3-(c) e 3-(d) os gráficos quantil-quantil. 82 Rev. Mat. Estat., São Paulo, v.24, n.4, p.73-87, 2006 A partir dessas figuras, a suposição de normalidade parece ser bastante questionável o que justifica a construção de intervalos de confiança via simulação Bootstrap. A Tabela 9 mostra que os intervalos de confiança obtidos via simulação Bootstrap são bem mais precisos que os intervalos assintóticos, mesmo na presença de uma amostra relativamente grande, n = 96 e com poucas observações censuradas, # (δ) = 5. Tabela 7 - Estimativas de máxima verossimilhança e intervalos de confiança assintóticos, (Prentice, 1973) Parâmetro EMV Erro-padrão Intervalo de confiança 95% Tmax 35.3470 11.0213 (13.7455; 56.9484) β 1.3903 0.1208 (1.1535; 1.6270) Tabela 8 - Estimativas Bootstrap e intervalos de confiança p-Bootstrap e t- Bootstrap, (Prentice, 1973) Parâmetro EMV∗ Erro-padrão∗ p-Intervalo deconfiança 95% t-Intervalo de confiança 95% Tmax 36.1959 8.8233 (21.3680; 55.7140) (20.5732; 48.1286) β 1.4009 0.0875 (1.2516; 1.5925) (1.2502; 1.5122) ∗ Baseado nas B = 100.000 reamostras. Tabela 9 - Amplitude (R) e forma (F ) para os intervalos de confiança 95% para θ e β Parâmetro Tmax β Intervalo R F R F Assintótico 43.2029 1.0000 0.4736 1.0000 p-Bootstrap 34.3460 1.4570 0.3408 1.4585 t-Bootstrap 27.5554 0.8652 0.2620 0.8712 A partir da estimativa de Tmax observa-se que o risco máximo de morte ocorre aproximadamente na 35a semana. A incerteza associada a esta estimativa é bem maior considerando o intervalo de confiança assintótico (ver Tabela 9). A função de risco estimada é apresentada na Figura 4(a). A fim de avaliar a plausibilidade em se adotar o modelo log-loǵıstico no ajuste dos dados (Collett, 1994), a Figura 4(b) mostra o gráfico de log(t) versus log((1 − Ŝ)/Ŝ), em que Ŝ é a função de sobrevivência estimada via Kaplan-Meier (Kaplan e Meier, 1958). A partir dessa figura observa-se um satisfatório ajuste do modelo log-loǵıstico. Rev. Mat. Estat., São Paulo, v.24, n.4, p.73-87, 2006 83 20 40 60 80 0. 00 0. 01 0. 02 0. 03 0. 04 (a) 1.2 1.4 1.6 1.8 0 1 2 3 4 (b) −4 −2 0 2 4 20 40 60 80 Theoretical Quantiles Sa m pl e Q ua nt ile s (c) −4 −2 0 2 4 1. 2 1. 4 1. 6 1. 8 Theoretical Quantiles Sa m pl e Q ua nt ile s (d) Figura 3 - (a) Distribuição emṕırica de Tmax. (b) Distribuição emṕırica de β. (c) Gráfico quantil-quantil para Tmax. (d) Gráfico quantil-quantil para β. (—): Intervalo de confiança assintótico; (−−): Intervalo de confiança p-Bootstrap; (· · · ): Intervalo de confiança t-Bootstrap. 84 Rev. Mat. Estat., São Paulo, v.24, n.4, p.73-87, 20060. 00 2 0. 00 4 0. 00 6 0. 00 8 0. 01 0 t h( t) 100 200 300 400 500 600θ̂ = 35.347 (a) 0 1 2 3 4 5 6 −4 −2 0 2 4 log(tempo) lo g− lo g( od ds ) (b) Figura 4 - (a) Função de risco estimada. (b) Verificação da qualidade do ajuste. Conclusões Na análise paramétrica de tempos de sobrevivência, geralmente as inferências a respeito dos parâmetros de interesse ou suas funções são conduzidas com base na normalidade assintótica dos estimadores de máxima verossimilhança. Em situações de amostras pequenas ou muitas observações censuradas, em comparação as exatamente observadas, as inferência a respeitos dos parâmetros podem ser altamente imprecisas. Neste artigo, considerando a distribuição Log-Loǵıstica com parâmetro de forma β > 1, foram apresentadas duas alternativas aos intervalos de confiança assintóticos, baseadas em simulação Bootstrap, para a construção de intervalos de confiança para o parâmetro que identifica o tempo em que a função de risco muda de direção. Nos exemplos apresentados as duas alternativas diminúıram em muito a incerteza a respeito do verdadeiro valor do parâmetro de interesse. Apesar da construção dos intervalos de confiança via simulação Bootstrap ser computacionalmente intensiva ela pode ser facilmente implementada na maioria dos softwares estat́ısticos ou em qualquer linguagem de programação. Todos os resultados numéricos apresentados na Seção 5 foram obtidos no software SAS 9.1.3 (SAS, 2003). Rev. Mat. Estat., São Paulo, v.24, n.4, p.73-87, 2006 85 Agradecimentos Os autores agradecem os pareceristas por seus valiosos comentários e sugestões. Emı́lio Augusto Coelho Barros recebe aux́ılio financeiro da Fundação de Apoio ao Ensino, Pesquisa e Assistência (FAEPA) do Hospital das Cĺınicas da FMRP/USP. Josmar Mazucheli e Jorge A. Achcar agradecem ao CNPq pelo apoio financeiro (Processo no 474121/2006-6). MAZUCHELI, J.; COELHO-BARROS, E. A.; ACHCAR, J. A. Inference for the Mode of the Log-Logistic Hazard Function. Rev. Mat. Estat., São Paulo, v.24, n.4, p.73-87, 2006. ABSTRACT: In many applications of lifetime data analysis, it is important to perform inferences about the mode of the hazard function in situations of lifetime data modeling with unimodal hazard functions. For lifetime distributions where the mode of the hazard function can be analytically calculated, its maximum likelihood estimator is easily obtained from the invariance properties of the maximum likelihood estimators. From the asymptotical normality of the maximum likelihood estimators, confidence intervals can be obtained. However, these results might not be very accurate for small sample sizes and/or large proportion of censored observations. Considering the log-logistic distribution for the lifetime data with shape parameter β > 1, we present and compare the accuracy of asymptotical confidence intervals with two confidence intervals based on bootstrap simulation. The alternative methodology of confidence intervals for the mode of the log-logistic hazard function is illustrated in three numerical examples. KEYWORDS: Survival analysis; log-logistic distribution; hazard function; Bootstrap confidence intervals. Referências BENNETT, S. Log-logistic regression models for survival data. J. R. Stat. Soc. Ser. C: Appl. Stat., London, v.32, p.165-171, 1983. BOX, G. E. P.; TIÃO, G. C. Bayesian inference in statistical analysis. Reading: Addison-Wesley, 1973. 608p. CARPENTER, J.; BITHELL, J. Bootstrap confidence intervals: when, which, what? A practical guide for medical statistician. Stat. Med., Chichester, v.19, p.1141-1164, 2000. COLLETT, D. Modelling survival data in medical research. New York: Chapman and Hall, 1994. 408p. DAVISON, A. C.; HINKLEY, D. V. Bootstrap methods and their application. Cambridge: Cambridge University Press, 1997. 592p. DEVROYE, L. Nonuniform random variate generation. New York: Springer-Verlag, 1986. 843p. 86 Rev. Mat. Estat., São Paulo, v.24, n.4, p.73-87, 2006 DICICCIO, T. J.; EFRON, B. Bootstrap confidence intervals. Stat. Sci., Hayward, v.11, n.3, p.189-228, 1996. EFRON, B. The jackknife, the bootstrap and other resampling plans. Philadelphia: SIAM, 1982. 92p. (Conference series in applied Mathematics, v.38.) EFRON, B.; TIBSHIRANI, R. J. An introduction to the bootstrap. New York: Chapman and Hall, 1993. 436p. (Monographs on Statistics and Applied Probability, v.57.) HALL, P. Theoretical comparison of bootstrap confidence intervals. Ann. Stat., Washington, v.16, n.3, p.927-985, 1988. JIANG, R.; MURTHY, D. N. P.; JI, P. Models involving two inverse Weibull distributions. Reliab. Eng. Syst. Saf., Barking, v.73, p.73-81, 2001. KAPLAN, E. L.; MEIER, P. Nonparametric estimation from incomplete observations. J. Am. Stat.. Assoc., New York; v.53, p.457-481, 1958. KLEIN, J. P.; MOESCHBERGER, M. L. Survival analysis: techniques for censored and truncated data. New York: Springer-Verlag, 1997. 502p. LAWLESS, J. F. Statistical models and methods for lifetime data. New York: John Wiley and Sons, 1982. 664p. MUDHOLKAR, G. S.; SRIVASTAVA, D. K.; FRAIMER, M. The exponentiated Weibull family: a reanalysis of the bus-motor-failure data. Technometrics, Washington, v.37, p.436-445, 1995. MUDHOLKAR, G. S.; HUTSON, A. D. The exponentiated Weibull family: some properties and a flood data application. Commun. Stat. Theory Methods, New York, v.25, n.12, p.3059–3083, 1996. PRENTICE, R. L. Exponential survivals with censoring and explanatory variables. Biometrika, London, v.60, p.279-288, 1973. RAO, C. R.; TOUTENBURG, H. Linear models. 2.ed. New York: Springer-Verlag, 1999. 443p. RIPLEY, B. D. Stochastic simulation. New York: John Wiley, 1987. 256p. SHUEN-LIN, J.; MEEKER, W. Q. Parametric simultaneous confidence bands for cumulative distributions from censored data. Technometrics, Washington, v.43, n.4, p.450-461, 2001. SAS INSTITUTE. SAS/STAT R© user’s guide, version 9. Cary, 2003. 200p. VERAVERBEKE, N. Bootstrapping in survival analysis. S. Afr. Stat. J., Cape Town, v.31, n.2, 217-258, 1997. Recebido em 30.10.2006. Aprovado após revisão em 30.01.2007. Rev. Mat. Estat., São Paulo, v.24, n.4, p.73-87, 2006 87
Compartilhar