Buscar

Bioestatística 2 - REGRESSÃO (Poisson, Logística, Binomial, Linear)

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 12 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 12 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 12 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Rstudio
“family” no help diz qual a função de ligação 
family(object, ...)
binomial(link = "logit")
gaussian(link = "identity")
Gamma(link = "inverse")
inverse.gaussian(link = "1/mu^2")
poisson(link = "log")
quasi(link = "identity", variance = "constant")
quase binomial(link = "logit")
quasi poisson(link = "log")
Regressão linear 
Modelo Linear: A regressão linear assume que a relação entre as variáveis independentes e a variável dependente é linear. Isso significa que as mudanças nas variáveis independentes estão relacionadas a mudanças proporcionais na variável dependente.
Assunções/Pressupostos da Regressão Linear:
Independência dos Erros: Os erros (ou resíduos) da regressão devem ser independentes uns dos outros, o que significa que a observação de um erro não deve fornecer informações sobre os outros.
Normalidade dos Erros: A distribuição dos erros deve ser aproximadamente normal. Isso é importante para inferência estatística e estimativas de parâmetros.
Homocedasticidade: Isso significa que a variância dos erros é constante em todas as combinações de valores das variáveis independentes.
Linearidade: A relação entre as variáveis independentes e dependentes deve ser aproximadamente linear. Se essa suposição for violada, transformações podem ser aplicadas às variáveis.
Independência das Variáveis Independentes: As variáveis independentes não devem ser altamente correlacionadas umas com as outras (multicolinearidade). Isso tornaria difícil discernir seus efeitos separadamente na variável dependente.
Tipos de Variáveis:
Variável Dependente (Y): Também conhecida como variável de resposta ou variável predita, é a variável que está sendo prevista ou explicada.
Variáveis Independentes (X): Também conhecidas como variáveis explicativas, são as variáveis que são usadas para prever ou explicar a variável dependente.
Variável Categórica (ou Qualitativa): Uma variável que representa categorias ou grupos (por exemplo, sexo, raça) e não possui uma ordem específica.
Variável Contínua: Uma variável que possui um intervalo infinito de valores (por exemplo, idade, renda).
Outros Princípios Importantes:
Coeficientes de Regressão: Os coeficientes na equação de regressão linear representam a relação entre as variáveis independentes e a variável dependente.
R² (Coeficiente de Determinação): O R² indica a proporção da variabilidade na variável dependente que é explicada pelas variáveis independentes no modelo.
Interpretação dos Resultados: É fundamental interpretar os resultados com base nos coeficientes, significância estatística e validade das suposições.
A violação das suposições da regressão linear pode afetar a precisão das estimativas e a validade das inferências. 
Regressão Linear Simples:
B0 (Intercepto): O coeficiente B0 representa o valor médio da variável dependente (Y) quando a variável independente (X) é igual a zero. Em outras palavras, é o valor estimado de Y quando X não tem efeito.
B1 (Coeficiente da Variável Independente): O coeficiente B1 representa a mudança média na variável dependente (Y) associada a uma unidade de mudança na variável independente (X). Isso significa que, para cada aumento de uma unidade em X, espera-se um aumento médio de B1 em Y.
Regressão Linear Múltipla:
B0 (Intercepto): O coeficiente B0 representa o valor médio da variável dependente (Y) quando todas as outras variáveis independentes no modelo são iguais a zero.
B1, B2, B3, ... (Coeficientes das Variáveis Independentes): Cada coeficiente B representa a mudança média na variável dependente (Y) associada a uma unidade de mudança na variável independente correspondente (X), mantendo todas as outras variáveis independentes constantes. Portanto, B1 representa a mudança média em Y quando X1 muda uma unidade, mantendo X2, X3, etc., constantes.
Poisson
A regressão de Poisson é uma técnica estatística usada quando o resultado de interesse é uma contagem (por exemplo, o número de eventos que ocorrem em um determinado período). Esta técnica é especialmente útil quando se trabalha com dados de contagem, como o número de acidentes de trânsito, o número de vendas de produtos, o número de infecções, entre outros. Aqui estão os principais domínios, pressupostos, tipos de variáveis e outros princípios relacionados à regressão de Poisson:
Domínio da Regressão de Poisson:
Variável de Contagem: A regressão de Poisson é adequada para modelar variáveis de contagem, que representam o número de eventos ou ocorrências em um determinado período ou espaço.
Assunções/Pressupostos da Regressão de Poisson:
Independência: As observações devem ser independentes umas das outras, o que significa que o resultado de uma observação não deve afetar o resultado de outras observações.
Homogeneidade da Taxa: A taxa de ocorrência dos eventos (a média das contagens) deve ser constante ao longo do tempo ou do espaço. Isso implica que a média e a variância das contagens são iguais.
Tipo de Variáveis:
Variável Dependente: A variável dependente é a variável de contagem que está sendo modelada.
Variáveis Independentes (Explicativas): São as variáveis que você acredita que influenciam a variável de contagem. Essas variáveis podem ser categóricas ou contínuas.
Outros Princípios Importantes:
Modelo de Poisson: O modelo de Poisson assume que a variável de contagem segue uma distribuição de Poisson, o que significa que a variância é igual à média. O modelo de Poisson é apropriado quando as contagens não são excessivamente dispersas.
Superdispersão: Em alguns casos, os dados de contagem podem ser super dispersos, ou seja, a variância é maior que a média. Nesses casos, a regressão de Poisson tradicional pode não ser apropriada, e técnicas como a regressão Poisson inflacionada zero ou a regressão de Poisson negativa podem ser usadas para lidar com a superdispersão.
Interpretação dos Coeficientes: Os coeficientes na regressão de Poisson representam a mudança percentual na contagem esperada para um aumento de uma unidade na variável independente, mantendo todas as outras variáveis constantes.
Ajuste do Modelo: É importante avaliar o ajuste do modelo de Poisson aos dados usando estatísticas de ajuste, como o teste qui-quadrado de Pearson ou o teste de deviance, e avaliar a significância dos coeficientes.
Regressão de Poisson:
B0 (Intercepto): O coeficiente B0 na regressão de Poisson é o logaritmo da taxa média de ocorrência do evento (a variável de contagem) quando todas as variáveis independentes são iguais a zero. Em outras palavras, B0 é o logaritmo da taxa de ocorrência do evento quando todas as outras variáveis independentes não têm efeito.
B1 (Coeficiente da Variável Independente): O coeficiente B1 representa a mudança percentual na taxa de ocorrência do evento associada a um aumento de uma unidade na variável independente (X). Isso significa que, para cada aumento de uma unidade em X, a taxa de ocorrência do evento aumenta em média em (exp(B1) - 1) * 100% (onde "exp" denota a função exponencial).
Regressão logística
A regressão logística é uma técnica estatística usada quando a variável dependente é categórica (por exemplo, sim/não, sucesso/fracasso, classe 1/classe 0) e a análise tem como objetivo modelar a probabilidade de ocorrência de um evento. 
Variável Dependente Categórica: A regressão logística é usada quando a variável dependente é categórica e binária (duas categorias) ou multinomial (mais de duas categorias). Ela é adequada para modelar eventos com dois possíveis resultados, como sim/não, aprovado/reprovado, ou para classificação em múltiplas categorias.
Assunções/Pressupostos da Regressão Logística:
Independência das Observações: As observações devem ser independentes uma das outras. Isso significa que as respostas de um indivíduo não devem ser afetadas pelas respostas de outros indivíduos no conjunto de dados.
Linearidade no Logito: A regressão logística assume que o logito (o logaritmo das chances) é uma combinação linear das variáveis independentes. Isso significa que a relação entre as variáveisindependentes e o logito deve ser aproximadamente linear.
Tipos de Variáveis:
Variável Dependente: Uma variável categórica que representa a classe de interesse. É comumente representada como "0" e "1" (binária) ou com múltiplas categorias (multinomial).
Variáveis Independentes: Variáveis que são usadas para prever a probabilidade da ocorrência da classe de interesse. Podem ser variáveis categóricas ou contínuas.
Outros Princípios Importantes:
Coeficientes da Regressão Logística: Os coeficientes da regressão logística representam a relação entre as variáveis independentes e a probabilidade de pertencer à categoria de interesse.
Odds e Odds Ratio (OR): Os coeficientes da regressão logística são expressos em termos de odds, que são a razão da probabilidade de sucesso (1) para a probabilidade de falha (0). O Odds Ratio (OR) é frequentemente usado para interpretar a força da associação entre uma variável independente e a categoria de interesse.
Interpretação dos Resultados: A interpretação dos resultados da regressão logística envolve analisar os coeficientes, o OR, a significância estatística e a adequação do modelo.
Métricas de Avaliação: A avaliação da qualidade do modelo de regressão logística inclui o uso de métricas como a AUC-ROC, a matriz de confusão, a precisão, a sensibilidade e a especificidade, dependendo do contexto da análise de classificação.
Regularização: Em alguns casos, a regularização, como a regressão logística L1 ou L2, pode ser aplicada para evitar overfitting e melhorar a generalização do modelo.
O "logito" é um termo usado em estatística e na análise de regressão logística. Refere-se ao logaritmo natural (ou logaritmo neperiano) da razão das probabilidades de um evento ocorrer, em oposição à probabilidade real do evento.
Em uma regressão logística, o objetivo é modelar a relação entre uma variável dependente categórica (como "sim" ou "não", "1" ou "0") e uma ou mais variáveis independentes (explicativas). O logito é uma maneira de expressar essa relação linearmente.
A fórmula para o logito (log-odds) é a seguinte:
logito = ln(p / (1 - p))
onde:
logito é o logaritmo natural da razão das probabilidades do evento ocorrer.
ln representa o logaritmo natural.
p é a probabilidade de o evento ocorrer.
O logito transforma a escala de probabilidades em uma escala linear, permitindo que a relação entre as variáveis independentes e a variável dependente seja modelada linearmente. Esse é um dos pressupostos da regressão logística, que assume que o logito é uma função linear das variáveis independentes.
Por exemplo, se estivermos modelando a probabilidade de um paciente desenvolver uma doença (evento) com base em sua idade (variável independente), o logito nos permitiria expressar a relação entre a idade e a probabilidade de desenvolver a doença de forma linear. A interpretação dos coeficientes na regressão logística está relacionada a como as mudanças nas variáveis independentes afetam o logito e, consequentemente, as probabilidades do evento ocorrer.
Portanto, o logito é uma ferramenta fundamental na análise de regressão logística, ajudando a entender e quantificar a relação entre variáveis independentes e uma variável dependente categórica.
Interpretação dos coeficientes
Regressão Logística:
B0 (Intercepto): No contexto da regressão logística, o coeficiente B0 representa o logito (logaritmo das chances) da categoria de referência da variável dependente quando todas as variáveis independentes são iguais a zero. Isso é o logaritmo natural das chances de pertencer à categoria de referência.
B1, B2, B3, ... (Coeficientes das Variáveis Independentes): Cada coeficiente B representa a mudança no logito (logaritmo das chances) da categoria de interesse (em oposição à categoria de referência) associada a uma unidade de mudança na variável independente correspondente, mantendo todas as outras variáveis independentes constantes.
Regressão logística
A regressão logística é uma técnica estatística usada quando a variável dependente é categórica (por exemplo, sim/não, sucesso/fracasso, classe 1/classe 0) e a análise tem como objetivo modelar a probabilidade de ocorrência de um evento. 
No modelo de regressão logística simples, o objetivo é descrever a probabilidade da ocorrência de um evento como uma função linear de uma única variável explicativa, com base em uma amostra aleatória de tamanho n.
Domínio da Regressão Logística:
Variável Dependente Categórica: A regressão logística é usada quando a variável dependente é categórica e binária (duas categorias) ou multinomial (mais de duas categorias). Ela é adequada para modelar eventos com dois possíveis resultados, como sim/não, aprovado/reprovado, ou para classificação em múltiplas categorias.
Assunções/Pressupostos da Regressão Logística:
Independência das Observações: As observações devem ser independentes uma das outras. Isso significa que as respostas de um indivíduo não devem ser afetadas pelas respostas de outros indivíduos no conjunto de dados.
Linearidade no Logito: A regressão logística assume que o logito (o logaritmo das chances) é uma combinação linear das variáveis independentes. Isso significa que a relação entre as variáveis independentes e o logito deve ser aproximadamente linear.
Tipos de Variáveis:
Variável Dependente: Uma variável categórica que representa a classe de interesse. É comumente representada como "0" e "1" (binária) ou com múltiplas categorias (multinomial).
Variáveis Independentes: Variáveis que são usadas para prever a probabilidade da ocorrência da classe de interesse. Podem ser variáveis categóricas ou contínuas.
Outros Princípios Importantes:
Coeficientes da Regressão Logística: Os coeficientes da regressão logística representam a relação entre as variáveis independentes e a probabilidade de pertencer à categoria de interesse.
Odds e Odds Ratio (OR): Os coeficientes da regressão logística são expressos em termos de odds, que são a razão da probabilidade de sucesso (1) para a probabilidade de falha (0). O Odds Ratio (OR) é frequentemente usado para interpretar a força da associação entre uma variável independente e a categoria de interesse.
Interpretação dos Resultados: A interpretação dos resultados da regressão logística envolve analisar os coeficientes, o OR, a significância estatística e a adequação do modelo.
Métricas de Avaliação: A avaliação da qualidade do modelo de regressão logística inclui o uso de métricas como a AUC-ROC, a matriz de confusão, a precisão, a sensibilidade e a especificidade, dependendo do contexto da análise de classificação.
Regularização: Em alguns casos, a regularização, como a regressão logística L1 ou L2, pode ser aplicada para evitar overfitting e melhorar a generalização do modelo.
O "logito" é um termo usado em estatística e na análise de regressão logística. Refere-se ao logaritmo natural (ou logaritmo neperiano) da razão das probabilidades de um evento ocorrer, em oposição à probabilidade real do evento.
Em uma regressão logística, o objetivo é modelar a relação entre uma variável dependente categórica (como "sim" ou "não", "1" ou "0") e uma ou mais variáveis independentes (explicativas). O logito é uma maneira de expressar essa relação linearmente.
A fórmula para o logito (log-odds) é a seguinte:
logito = ln(p / (1 - p))
onde:
logito é o logaritmo natural da razão das probabilidades do evento ocorrer.
ln representa o logaritmo natural.
p é a probabilidade de o evento ocorrer.
O logito transforma a escala de probabilidades em uma escala linear, permitindo que a relação entre as variáveis independentes e a variável dependente seja modelada linearmente. Esse é um dos pressupostos da regressão logística, que assume que o logito é uma função linear das variáveis independentes.
Por exemplo, se estivermos modelando a probabilidade de um paciente desenvolver uma doença (evento) com base em sua idade (variável independente), o logito nos permitiria expressar a relação entre a idade e a probabilidade de desenvolver a doença de formalinear. A interpretação dos coeficientes na regressão logística está relacionada a como as mudanças nas variáveis independentes afetam o logito e, consequentemente, as probabilidades do evento ocorrer.
Portanto, o logito é uma ferramenta fundamental na análise de regressão logística, ajudando a entender e quantificar a relação entre variáveis independentes e uma variável dependente categórica.
Interpretação dos coeficientes
Regressão Logística:
B0 (Intercepto): No contexto da regressão logística, o coeficiente B0 representa o logito (logaritmo das chances) da categoria de referência da variável dependente quando todas as variáveis independentes são iguais a zero. Isso é o logaritmo natural das chances de pertencer à categoria de referência.
B1, B2, B3, ... (Coeficientes das Variáveis Independentes): Cada coeficiente B representa a mudança no logito (logaritmo das chances) da categoria de interesse (em oposição à categoria de referência) associada a uma unidade de mudança na variável independente correspondente, mantendo todas as outras variáveis independentes constantes.
Conceitos Básicos:
Variável Dependente Binária: A regressão logística é frequentemente usada quando a variável de resposta é binária, representando duas categorias, como "sim" ou "não", "1" ou "0". No entanto, também pode ser aplicada a variáveis dependentes com mais categorias.
Logito (Logaritmo das Chances): A regressão logística utiliza o logito para modelar a probabilidade de pertencer a uma categoria. O logito é o logaritmo natural (ln) da razão das chances do evento ocorrer.
Coeficientes de Regressão: Os coeficientes na regressão logística representam o efeito das variáveis independentes na log-verossimilhança (log-odds) do evento de interesse.
Modelo de Regressão Logística:
Equação da Regressão Logística: A equação da regressão logística é da forma:
logit(p) = B0 + B1X1 + B2X2 + ... + Bk*Xk
#quando x=0
logit(p) = exp(B0) 
#quando x=1
logit(p)= exp(B0+B1) = exp(B0)*exp(B1)
OR =(Px =1/ 1 - Px=1) / (Px=0/ 1 - Px=0) = exp(B1)
Onde:
logit(p) é o logito da probabilidade de pertencer à categoria de interesse.
B0 é o intercepto.
B1, B2, ... Bk são os coeficientes das variáveis independentes X1, X2, ... Xk.
Interpretação dos Coeficientes: Os coeficientes na regressão logística representam a mudança no logito da probabilidade (log-odds) associada a uma unidade de mudança nas variáveis independentes, mantendo as outras constantes. Essa interpretação pode variar dependendo do contexto do problema.
Ajuste do Modelo:
Máxima Verossimilhança: O método de máxima verossimilhança é usado para estimar os coeficientes do modelo, ajustando o modelo aos dados.
Testes de Significância: Testes estatísticos, como o teste Wald, podem ser usados para avaliar a significância dos coeficientes.
Avaliação do Modelo:
AUC-ROC: A Curva ROC (Receiver Operating Characteristic) é usada para avaliar o poder discriminatório do modelo.
Matriz de Confusão: A matriz de confusão é usada para avaliar o desempenho do modelo em termos de verdadeiros positivos, verdadeiros negativos, falsos positivos e falsos negativos.
Validação Cruzada: A validação cruzada é usada para avaliar o desempenho do modelo em dados não vistos e evitar o overfitting.
Modelos Especiais:
Regressão Logística Multinomial: Usada quando a variável dependente tem mais de duas categorias.
Regressão Logística Ordinal: Usada quando a variável dependente é ordinal, ou seja, as categorias têm uma ordem.
Tópicos Avançados:
Regularização: Técnicas de regularização, como L1 e L2, podem ser aplicadas para evitar o overfitting.
Lidar com Desequilíbrio de Classes: Em casos de classes desequilibradas, podem ser necessárias estratégias de reamostragem ou ajuste de pesos de classe.
Seleção de Variáveis: Métodos de seleção de variáveis, como AIC ou BIC, podem ser usados para escolher as variáveis mais relevantes.
Interpretação de Interações: Interações entre variáveis independentes podem ser modeladas e interpretadas.
Binomial
A regressão binomial é uma técnica estatística usada quando a variável de resposta (ou variável dependente) é binária, ou seja, tem apenas dois possíveis resultados, como "sim" ou "não", "1" ou "0", "sucesso" ou "fracasso". Ela é frequentemente usada para modelar a probabilidade de ocorrência de um evento em um contexto de escolha dicotômica. 
Domínio da Regressão Binomial:
Variável de Resposta Binária: A regressão binomial é apropriada para modelar situações em que a variável de resposta é binária, ou seja, tem apenas dois resultados possíveis. Exemplos incluem sim/não, aprovado/reprovado, sucesso/fracasso, doente/ não doente.
Assunções/Pressupostos da Regressão Binomial:
Independência das Observações: As observações devem ser independentes umas das outras, o que significa que a resposta de um indivíduo não deve afetar a resposta de outros indivíduos.
Tipos de Variáveis:
Variável Dependente Binária: A variável dependente ou de resposta é binária e representa a categoria de interesse.
Variáveis Independentes (Explicativas): São as variáveis que você acredita que influenciam a variável de resposta binária. Essas variáveis podem ser categóricas ou contínuas.
Outros Princípios Importantes:
Modelo Binomial: O modelo binomial assume que a variável de resposta segue uma distribuição binomial, que é uma distribuição de probabilidade discreta para variáveis binárias. O modelo binomial é usado para modelar a probabilidade de ocorrência do evento de interesse.
Logit: O modelo de regressão binomial utiliza o logit (logaritmo das chances) para expressar a relação entre as variáveis independentes e a probabilidade da categoria de interesse. A equação de regressão binomial é frequentemente escrita na forma logística.
Interpretação dos Coeficientes: Os coeficientes na regressão binomial representam a mudança na log-odds da ocorrência do evento de interesse para um aumento unitário nas variáveis independentes, mantendo todas as outras variáveis constantes.
Teste de Significância: A análise da significância estatística dos coeficientes é importante para avaliar a influência das variáveis independentes na probabilidade da categoria de interesse.
Ajuste do Modelo: É fundamental avaliar o ajuste do modelo à realidade dos dados, o que pode ser feito por meio de estatísticas de ajuste, como o teste de deviance.
A regressão binomial é especialmente útil para modelar relações entre variáveis independentes e uma variável de resposta binária. A interpretação dos resultados envolve a análise dos coeficientes, da significância estatística e do ajuste do modelo, e é amplamente utilizada em áreas como epidemiologia, pesquisa médica, marketing e ciências sociais para entender a probabilidade de ocorrência de eventos dicotômicos.
Regressão Binomial:
B0 (Intercepto): O coeficiente B0 representa o logaritmo das chances (log-odds) da categoria de referência da variável dependente quando todas as variáveis independentes são iguais a zero. Em outras palavras, B0 é o log-odds da categoria de referência quando todas as outras variáveis independentes não têm efeito.
B1 (Coeficiente da Variável Independente): O coeficiente B1 representa a mudança no log-odds da categoria de interesse (em oposição à categoria de referência) associada a uma unidade de mudança na variável independente (X). Isso significa que, para cada aumento de uma unidade na variável independente X, o log-odds de pertencer à categoria de interesse aumenta em média B1 unidades.

Continue navegando