Buscar

Provas bioestatística 2

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Bioestatística
 O objetivo deste exercício é especificar um modelo de regressão linear múltipla para os pesos de recém-nascidos no município do Rio de Janeiro, utilizando uma amostra aleatória com n = 350 nascimentos extraídos do registro de todos os nascimentos em 2002. Os dados desta amostra estão armazenados no arquivo “sinasc2002.csv” em anexo. As variáveis disponíveis neste arquivo de dados estão descritas no dicionário de dados do SINASC.
(i) Ajuste um modelo de regressão linear múltipla para cada variável categórica e verifique quais os fatores mais importantes do ponto de vista estatístico. Ajuste também um modelo de regressão linear múltipla para a variável idade categorizada, considerando as seguintes faixas etárias: <20, 20-24, 25-29, 30-34, 35-39, 40 ou mais.
(ii) Utilizando como critério inicial apenas a significância estatística do fator (conjunto de variáveis indicadoras) obtida no item (i), ajuste um modelo de regressão múltipla com vários fatores. Defina critérios de inclusão de fatores, a partir de significância estatística e plausibilidade biológica/epidemiológica.
(iii) Uma alternativa aos modelos ajustados nos itens (i) e (ii) seria utilizar a data de nascimento da criança como variável explicativa, em uma tentativa de avaliar se peso ao nascer teria algum efeito sazonal relacionada com o período de gestação. Para verificar esta hipótese, crie a variável mês de nascimento a partir da data de nascimento da criança e ajuste um modelo de regressão linear múltipla considerando os meses de nascimento como variáveis independentes (use janeiro como referência).
(iv) Ajuste um modelo de regressão múltipla geral considerando além dos fatores selecionados no item (i) os meses do ano.
(v) Realize os diagnósticos do modelo para avaliar a qualidade do ajuste.
(vi) Interprete todos os resultados, utilizando representações gráficas para auxiliar este exercício.
Considere um estudo coorte, no qual o desfecho de saúde de interesse é binário. Dentre vários modelos viáveis, dois modelos da família de modelos lineares generalizados são usualmente ajustados neste tipo de estudo, a saber: (i) modelo de regressão logística; (ii) modelo log-binomial. Os modelos estão representados de uma forma geral abaixo:
Na prática, uma amostra de indivíduos é selecionada e os valores da variável desfecho bem como das covariadas (variáveis de confusão e de exposição) são aferidas. Do ponto de vista estatístico, o objetivo então torna-se estimar os parâmetros do modelo, supostamente fixos e desconhecidos, denotados por b.
1. Como interpretar os valores dos parâmetros em cada modelo?
2. Que método de estimação é usado para estimar os valores de b em cada caso? Quais são as propriedades mais importantes dos estimadores resultantes?
3. Que tipo de problema pode ocorrer no ajuste do segundo modelo? Por que este tipo de problema não ocorre no primeiro modelo?
Suponha que os números de gols marcados por um clube carioca de futebol durante o campeonato brasileiro sigam uma distribuição de Poisson cuja taxa de gols por jogo, depende se o time joga em casa, ou fora de casa, e se o time joga completo, ou desfalcado. A tabela abaixo reporta os números de gols marcados nas 38 partidas do clube no campeonato em 2013.
Tabela A1: Número de gols marcados por um clube carioca no campeonato brasileiro de 2013.
0 0 0 0 1 2 0 0 1 2 0 0 1 1 0 0 0 0 0
0 1 1 1 0 0 0 1 2 0 0 0 0 1 0 0 0 1 2
O quadro abaixo mostra os resultados do ajuste de um modelo de regressão de Poisson, considerando as covariáveis binárias x1 = jogo em casa (1=sim; 0=não) e x2 = time completo (1=sim; 0=não). Com base neste quadro, responda as seguintes perguntas: 
1. Interprete os coeficientes de regressão b1 e b2, respectivamente, das covariáveis x1 e x2. Em seguida, interprete o coeficiente de regressão b0;
2. Há alguma evidência de sobre dispersão nos dados com relação ao pressuposto de distribuição de Poisson? Por quê?
3. Independente da sua resposta no item anterior, o que você faria como forma alternativa de modelagem se houvesse sobre dispersão?
4. Que outros pressupostos devem ser verificados nesta análise de dados?
Resultado do ajuste de um modelo de Poisson aos números de gols marcados por um clube carioca no campeonato brasileiro de 2013.
Em estudo sobre o efeito de longo prazo da poluição do ar na incidência de agravos cardiovasculares, um modelo de hazards proporcionais de Cox foi aplicado. Os efeitos foram relatados em termos de um acréscimo na amplitude interquartílica (Q3 – Q1) da distribuição do poluente atmosférico em questão. O tamanho da amostra foi de aproximadamente 830.000 indivíduos, entre 40 e 89, registrados em 205 clínicas britânicas em 2003. O tempo de seguimento foi de 5 anos. 
Tabela de resultados: Razões de hazards (IC 95%) para um acréscimo igual a amplitude interquartílica de cada poluente.
Com base nos resultados mostrados na tabela acima, responda as seguintes perguntas:
1. Interprete o valor da razão de hazards, por exemplo, de 1,11 (IC 95%: 1,06 – 1,17) para o efeito de PM10 em insuficiência cardíaca;
2. Analisando o quadro geral, qual o poluente cujos efeitos adversos são maiores e mais significativos?
3. Descreva em uma fórmula sucinta os modelos de Cox que foram ajustados para obter as razões de hazards reportadas na tabela acima e explique que pressupostos foram tomados neste modelo
Em modelos de regressão logística a função que faz a ligação entre a probabilidade do evento, i.e. o valor esperado da variável de Bernoulli, e o preditor linear é denominada logito, ou seja, é o logaritmo natural da razão entre a probabilidade do evento e seu complementar (log-odds). Neste contexto, como deve ser interpretado o valor fixo do coeficiente de uma variável explicativa:
(i) binária;
(ii) discreta;
(iii) contínua.
Alternativamente, considere a função de ligação logarítmica, ou seja, suponha o modelo no qual o logaritmo da probabilidade do evento seja igual ao preditor linear. Como deve ser interpretado o valor fixo do coeficiente nos casos (i), (ii) e (iii), como descritos acima.
Ilustre as respectivas interpretações, nas duas situações, descrevendo a variável dependente de interesse e as variáveis de exposição de interesse (não
há necessidade de considerar outras covariáveis).
Quando o desfecho de interesse no estudo é uma contagem (valores inteiros não negativos) há algumas distribuições de probabilidade que podem ser assumidas na análise estatística. Se a distribuição for conhecida o método da verossimilhança pode ser utilizado no processo de estimação dos parâmetros do modelo. Uma característica importante dos dados que auxilia na escolha da distribuição mais apropriada é a relação que existe entre a média e a variância das contagens, tudo isso condicionado em um preditor linear específico. Assim, qual deve ser a escolha de distribuição quando,
condicionado no preditor linear:
(i) média e variância do desfecho são aproximadamente iguais;
(ii) variância é maior do que a média da variável dependente;
(iii) variância é menor do que a média da variável dependente.
Existe uma alternativa para a estimação dos parâmetros, em (ii) e (iii), que modifica e corrige o procedimento de estimação dos parâmetros sob a escolha equivocada da distribuição do desfecho. Que problemas ocorreriam na estimação se a distribuição do desfecho fosse equivocada? Como é denominado o método alternativo? Qual o seu princípio básico? 
Finalmente, descreva como devem ser interpretados os coeficientes do modelo de regressão de Poisson, primeiro para uma variável explicativa binária, e depois para uma contínua.
O método de cálculo de probabilidades de sobrevida (e.g. em um ensaio clínico) utiliza as propriedades de probabilidades condicionais, a saber a regra da cadeia de probabilidades. As probabilidades estimadas pelo método da cadeia podem ser representadas graficamente, posteriormente, ao longo do tempo. Esta técnica é conhecida como método de Kaplan-Meyer. Supondo os tempos de ocorrências de eventos e censurascomo mostrado no estudo fictício abaixo, calcule as respectivas probabilidades de sobrevida.
Tamanho da amostra: 32
Tempo de duração do estudo: 24 meses (todos os participantes iniciaram no
mesmo momento de tempo).
Tempos de ocorrência de eventos: 2, 4, 4, 5, 5, 5, 8, 10, 10, 10, 15, 18, 20, 22,
22, 22.
Tempos de ocorrência de censuras: 3, 3, 3, 6, 9, 10, 12, 18, 21, 24, 24, 24, 24,
24, 24, 24.
A Tabela 1 resume os principais achados de um artigo sobre o efeito do acumulo de posições socioeconômicas adversas no curso da vida e o risco de Infarto no Miocárdio. O estudo foi estratificado para homens e mulheres, porém aqui apenas os resultados relativos as mulheres são apresentados.
Tabela 1: ORs de Infarto no Miocárdio (com 95% IC) e exposição a posição socioeconômica adversa ao longo da vida, em mulheres, “Stockholm Heart Epidemiology Program (SHEEP), 1992-1994.
Bruto = ajustado por idade e área de residência
Comportamental = ajustado por consumo de álcool, atividade física, tabagismo, idade e área de residência
Social = ajustado por coabitação, escolaridade, renda familiar, situação no mercado de trabalho, idade e área de residência
Psicossocial = ajustado por rede social, controle (na vida), desgaste (no trabalho), idade e área de residência
Biológico = ajustado por IMC, diabetes, hipertensão, idade e área de residência
Trajetórias = ajustado por trajetórias de mobilidade social, idade e área de residência
SHEEP é um estudo de caso e controle não pareado de Infarto no Miocárdio, realizado em Estocolmo, Suécia. O número de controles foi ligeiramente maior do que o de casos. O tamanho da amostra de mulheres empregado neste estudo específico foi 752, distribuídas de acordo com a exposição da seguinte maneira: 205 (nunca), 198 (0-33%), 167 (34%-66%), 109 (66%-99%), e 73 (sempre).
· Como os ORs devem ser interpretados na Tabela 1?
· O que pode ser concluído de cada um dos modelos (linhas da tabela)?
· A categoria de exposição “sempre” foi significante em vários modelos, enquanto a categoria (0-33%) não foi significativa em nenhum dos modelos. Estes resultados, por exemplo, devem ser considerados apenas com relação à significância estatística nas conclusões do estudo? Elabore os motivos da sua resposta.
Quais são os principais diagnósticos de modelos que devem ser realizados em regressão linear múltipla? Primeiro fale sobre as medidas de qualidade de ajuste. Depois, sobre os procedimentos para avaliar se os pressupostos do modelo não foram violados na análise. Em cada caso, explique o que deve ocorrer para que o modelo seja considerado satisfatório.
O modelo de regressão de Poisson é o mais utilizado para variáveis dependentes em forma de contagem. Existem diversas aplicações deste modelo, por exemplo, em epidemiologia ambiental e epidemiologia das doenças infecciosas. Considere um estudo no qual as unidades de análise são regiões geográficas e a variável dependente é o número de ocorrências de um evento de saúde. Obviamente, diferentes regiões geográficas terão populações expostas distintas. Qual o procedimento que deve ser utilizado no modelo de regressão de Poisson para levar em consideração este aspecto dos dados? Explique com auxílio de equações, se assim desejado, e proponha uma ilustração desta questão.
Em análise de dados de sobrevida para comparar dois grupos, seja em estudos experimentais ou observacionais, um procedimento estatístico de grande valia é o teste de log-rank. Explique o passo a passo da construção do teste, desde a especificação das
hipóteses nulas e alternativa, passando pela forma de cálculo da estatística do teste, até a regra para definir se a hipótese nula do teste deve ou não ser rejeitada. Na última parte da sua resposta, indique a razão intuitiva que explica a regra de rejeição. Finalmente, indique o que teria que ser modificado se três ou mais grupos fossem comparados.
(Análise de Sobrevida) O artigo de Brandon et al (2014), publicado em “J Nucl Cardiol, 21(4): 686–694” faz uma introdução aos principais conceitos e métodos para análise de dados de sobrevida, por meio da seguinte ilustração. 
“A fictitious study enrolled a selected cohort of 200 patients with New York Heart Association (NYHA) Class II-III diastolic heart failure who were followed over time. Suppose that 100 of these patients have diabetes mellitus (DM), while the other 100 patients are non-diabetic (non-DM). Let the goal of the study be the comparison of cardiovascular-related mortality between diabetics and non-diabetics who all have NYHA Class II-III diastolic heart failure. Data on time to death for both groups were artificially generated through simulation based on the mathematical model that generated the survival curves in Figure 1a, which are Weibull survival functions. Censoring was also artificially generated by assuming a maximum length of follow-up
of 10 years and allowing for dropouts and loss to follow-up.”
OBS: Em todos as figuras assuma que pontilhado=non-DM e sólido = DM.
Como resultado do ajuste de um modelo de Cox de hazards proporcionais aos dados simulados, o coeficiente da variável DM foi 0,809 (non-DM é o grupo de referência). Portanto a razão de hazards foi igual a 2,24 (IC 95%: 1,3 – 3,8). A figura abaixo foi usada na ilustração para avaliação do pressuposto de “proportional hazards”.
(i) Discuta a diferença entre os modelos paramétricos e semi-paramétricos de Cox (hazards proporcionais) para análise de dados de sobrevida;
(ii) Interprete a razão de hazards igual a 2,24 e seu respectivo IC de 95%;
(iii) Na figura acima (a última), estão plotadas as variáveis (log(-log(S(t))) versus log(t). Se o pressuposto de hazards proporcionais for válido, qual o padrão esperado neste gráfico? Como você avalia este pressuposto neste caso?
(Regressão Linear) Quais são os principais pressupostos do modelo de regressão linear? Explique cada um deles e indique qual o tipo de diagnóstico que deve ser realizado para verificar possíveis violações, bem como as consequências em termos de inferência ao ignorar tais violações. Ilustre suas respostas com diagramas, fórmulas ou qualquer outro recurso gráfico.
(Modelos Lineares Generalizados) Quais são os três componentes centrais da teoria de Modelos Lineares Generalizados (MLG)? Qual o papel da função de ligação em MLG? Quais são as funções de ligação canônicas dos modelos cobertos no curso (Regressões para Resposta Contínua, para Resposta Binária, para Resposta de Contagem)? Com relação aos ajustes de MLGs para respostas binárias e de contagem, o fenômeno da sobredispersão ocorre com frequência na prática. Para um dado modelo, como se deve avaliar a presença deste fenômeno? Se confirmada a presença de sobredispersão discuta as consequências em termos de inferências (no caso de insistir no MLG proposto inicialmente) e que mudanças podem ser consideradas a fim de corrigir o problema.

Continue navegando