Prévia do material em texto
<p>Regessão logística usando SPSS</p><p>Aulas de apoio: Estatística, Cálculo I e Matemática financeira</p><p>Análise estatística: Trabalhos acadêmicos e profissionais</p><p>Professor: José Alberto Dulluca</p><p>+55(11) 97525.3343 whatsapp</p><p>e-mail: dulluca@gmail.com</p><p>canal youtube: SOS Estatística</p><p>Skype: sosestatistica</p><p>Regressão logística</p><p>1 INTRODUÇÃO</p><p>Um grande número de variáveis nas ciências sociais são dicotômicas - masculino x</p><p>feminino, empregado x desempregado, casado x solteiro, etc. É Natural então, que se</p><p>deseje estimar modelos de regressão em que a variável dependente é binomial. Entre-</p><p>tanto, muitos pesquisadores erram quando usam Regressão Linear Ordinária para este</p><p>tipo de situação.</p><p>A Regressão logística distingue-se essencialmente da Regressão Linear, pelo fato</p><p>da variável resposta ser categórica (em geral binomial).</p><p>Enquanto método de predição para variáveis categóricas, a regressão logística é</p><p>comparável às técnicas supervisionadas propostas em aprendizagem automática (árvo-</p><p>res de decisão, redes neuronais, etc.), ou ainda a análise discriminante preditiva em</p><p>estatística exploratória. É possível de as colocar em concorrência para escolha do mo-</p><p>delo mais adaptado para um certo problema preditivo a resolver.</p><p>Trata-se de um modelo de regressão para variáveis dependentes binomialmente dis-</p><p>tribuídas, e as variáveis independentes podem ser tanto quantitativa como categoricas.</p><p>É útil para modelar a probabilidade de um evento ocorrer como função de outros facto-</p><p>res. É um modelo linear generalizado que usa como função de ligação a função logit.</p><p>A regressão logística é amplamente usada em ciências médicas e sociais, e tem ou-</p><p>tras denominações, como modelo logístico, modelo logito, etc. A regressão logística é</p><p>utilizada em áreas como as seguintes:</p><p>Em medicina, permite por exemplo determinar os fatores que caracterizam um</p><p>grupo de indivíduos doentes em relação a indivíduos sãos.</p><p>No domínio dos seguros, permite encontrar frações da clientela que sejam sensíveis</p><p>a determinada política securitária em relação a um dado risco particular.</p><p>Em instituições financeiras, pode detetar os grupos de risco para a subscrição de</p><p>um crédito.</p><p>Em econometria, permite explicar uma variável discreta, como por exemplo as in-</p><p>tenções de voto em eleições.</p><p>2 Suposições</p><p>A regressão logística não tem tantas hipóteses como a regressão linear, mas ainda car-</p><p>rega alguns, tais como:</p><p>1. Independência dos erros.</p><p>José Alberto Dulluca dulluca@gmail.com (11) 97525.3343</p><p>Regressão logística</p><p>2. Uma relação linear entre as variáveis independentes contínuas e a transformação</p><p>logit da variável dependente.</p><p>3. Sem multicolinearidade.</p><p>4. Sem pontos influentes significativos.</p><p>5. Categorias mutuamente exclusivas e exaustivas.</p><p>De um modo geral, nem todos os pressupostos são tão fáceis para testar como na</p><p>regressão linear e algumas não estão incluídos no âmbito do processo de regressão lo-</p><p>gística.</p><p>3 O tamanho da amostra</p><p>Tal como acontece com outras técnicas multivariadas, como regressão múltipla, há uma</p><p>série de recomendações relativas à dimensão mínima da amostra. Um mínimo deve ser</p><p>de 15 casos por variável independente, embora alguns recomendem 50 casos por variá-</p><p>vel independente. A regressão logística conta com estimativa da probabilidade máxima</p><p>(MLE) e a confiabilidade das estimativas declina significativamente para combinações</p><p>de poucos casos.</p><p>4 Chances e Razão de Chances</p><p>Para interpretar o modelo logito, é fundamental o entendimento de Chances e Razão</p><p>de Chances. É natural associarmos 0 (zero) significando que o evento que certamente</p><p>não ocorrerá e 1 significando que o evento certamente ocorrerá. Porém existem outras</p><p>formas de representar as chances de um evento, uma delas é - a Odds Ration</p><p>A Odds Ration de um evento ocorrer é a razão entre o número esperado de vezes</p><p>que o evento ocorrerá pelo número esperado de vezes que não ocorrerá. Uma odds</p><p>de 4 significa que nós esperamos 4 vezes a ocorrência, contra 1 não-ocorrência. Uma</p><p>odds de 1/5 significa que nós espramos apenas 1 ocorrência para 5 não ocorrências. A</p><p>odds é as vezes expressa como, 5 para 2, o que quer dizer odds=5/2.</p><p>Existe uma relação entre probabilidade e odds. Se p é a probabilidade do evento e</p><p>O a odds do evento, então</p><p>O =</p><p>p</p><p>1− p</p><p>=</p><p>probabilidade do envento</p><p>probabilidade do nao evento</p><p>=⇒ p =</p><p>O</p><p>1+O</p><p>Por que precisamos da odds? Porque ela é uma escala mais sensível para compa-</p><p>rações multiplicativas. Se o candidato A tem uma probabilidade de 0,30 de votos na</p><p>próxima eleição e a probabilidade de votação do candidato B é 0,60, é razoável con-</p><p>cordar que a probabilidade de B é o dobro. Porém se a probabilidade de A é 0,60, é</p><p>José Alberto Dulluca dulluca@gmail.com (11) 97525.3343</p><p>Regressão logística</p><p>impossível a probabilidade de B ser o dobro. Não há problema se você estiver traba-</p><p>lhando com odds. Uma probabilidade de 0,60 corresponde a uma odds de 1.5, ou seja,</p><p>3 para 2 (50% maior).</p><p>5 Regressão Logística Simples</p><p>5.1 O Modelo Estatístico</p><p>Um modelo de regressão logística simples é usado para o caso de regressão com uma</p><p>variável explicativa. Suponha uma amostra de n observações independentes da terna</p><p>(xi,mi,yi), i = 1,2, . . . ,n, sendo que:</p><p>xi : é o valor da variável explicativa;</p><p>mi : é a quantidade de itens verificados na amostra (número de ensaios);</p><p>yi : número de ocorrência de um evento (exp: qtd de peças não conformes) em mi</p><p>ensaios; e</p><p>n é o tamanho da amostra.</p><p>Com isso, assumimos que a variável resposta tem distribuição de probabilidade</p><p>binomial (Yi ∼ B(mi,πi)), tal que</p><p>P[Yi = yi] =</p><p>(</p><p>mi</p><p>yi</p><p>)</p><p>π</p><p>yi</p><p>i (1−πi)</p><p>mi−yi .</p><p>Para adequarmos a resposta média ao modelo linear usamos a função de ligação</p><p>π(xi) =</p><p>eβ0+β1xi</p><p>1+ eβ0+β1xi</p><p>, i = 1, . . . ,n,</p><p>que pode ser escrita como</p><p>ln</p><p>(</p><p>πi</p><p>1−πi</p><p>)</p><p>= β0 +β1DDimeroi +β2ttabacoi +β3PCRi +β4DVAi +β5IMCi.</p><p>ln</p><p>(</p><p>πi</p><p>1−πi</p><p>)</p><p>= β0 +β1DDimeroi.</p><p>ln</p><p>(</p><p>πi</p><p>1−πi</p><p>)</p><p>= β0 +β1IMCi.</p><p>5.2 Estimação dos Parâmetros do modelo</p><p>Para ajustar um modelo de regressão devemos estimar os parâmetros β0 e β1 do modelo.</p><p>Os estimadores de máxima verossimilhança para os parâmetros β0 e β1 são os valores</p><p>de β̂0 e β̂1 que maximizam o logaritmo da função de verossimilhança. A função de</p><p>José Alberto Dulluca dulluca@gmail.com (11) 97525.3343</p><p>5.2 Estimação dos Parâmetros do modelo Regressão logística</p><p>verossimilhança tem máximo, pois 0</p><p>do modelo Regressão logística</p><p>=</p><p>n</p><p>∑</p><p>i=1</p><p>mi</p><p>eβ0+β1xi</p><p>(1+ eβ0+β1xi)2</p><p>n</p><p>∑</p><p>i=1</p><p>mixi</p><p>eβ0+β1xi</p><p>(1+ eβ0+β1xi)2</p><p>n</p><p>∑</p><p>i=1</p><p>mixi</p><p>eβ0+β1xi</p><p>(1+ eβ0+β1xi)2</p><p>n</p><p>∑</p><p>i=1</p><p>mix2</p><p>i</p><p>eβ0+β1xi</p><p>(1+ eβ0+β1xi)2 (3.2.3)</p><p>Após obter as estimativas dos parâmetros do modelo é possível calcular as probabili-</p><p>dades estimadas</p><p>π̂i =</p><p>eβ̂0+β̂1xi</p><p>1+ eβ̂0+β̂1xi</p><p>(3.2.4)</p><p>5.3 Interpretação dos parâmetros do modelo</p><p>A interpretação dos parâmetros de um modelo de regressão logística é obtida compa-</p><p>rando a probabilidade de sucesso com a probabilidade de fracasso, usando a função</p><p>odds ratio - OR (razão de chances). Essa função é obtida a partir da função odds.</p><p>g(x) =</p><p>π(x)</p><p>[1−π(x)]</p><p>=</p><p>eβ0+β1xi</p><p>1+ eβ0+β1xi</p><p>1− eβ0+β1xi</p><p>1+ eβ0+β1xi</p><p>=</p><p>eβ0+β1xi</p><p>1+ eβ0+β1xi</p><p>1</p><p>1+ eβ0+β1xi</p><p>= eβ0+β1xi .</p><p>Assim, ao tomarmos dois valores distintos da variável explicativa, x j e x j+1, obtemos</p><p>OR =</p><p>g(x j+1)</p><p>g(x j)</p><p>=</p><p>eβ0+β1 x j+1</p><p>eβ0+β1 x j</p><p>. (3.3.1)</p><p>Temos ainda que:</p><p>ln(OR) = ln</p><p>[</p><p>g(x j+1)</p><p>g(x j+1)</p><p>]</p><p>= ln</p><p>[</p><p>g(x j+1)</p><p>]</p><p>− ln [g(x j)]</p><p>= β0 +β1x j+1 −β0 −β1x j = β1(x j+1 − x j).</p><p>Fazendo x j+1 − x j = 1 unidade, então</p><p>ln(OR) = ln(eβ1) = β1.</p><p>Assim, temos o quão provável o resultado ocorrerá entre os indivíduos x j+1 em relação</p><p>aos indivíduos x j, fazendo, portanto, algumas análises:</p><p>β1 > 0 ⇒ OR > 1 ⇒ π(x j+1) > π(x j)</p><p>β1 |Wj|), sendo que Z denota a variável aleatória</p><p>da distribuição normal padrão.</p><p>Hauck e Donner (1977) examinaram o desempenho do teste de Wald e descobriram</p><p>que ele se comporta de maneira estranha, em determinadas situações; frequentemente</p><p>não rejeitando a hipótese nula quando o coeficiente é significativo. Eles recomendam</p><p>a utilização do teste da razão de verossimilhança para testar se realmente o coeficiente</p><p>não é significativo quando o teste de Wald não rejeita a hipótese nula.</p><p>Exemplo 4.1.3.1.1</p><p>José Alberto Dulluca dulluca@gmail.com (11) 97525.3343</p><p>6.2 Teste da Razão de Verossimilhança Regressão logística</p><p>Vamos agora testar se os parâmetros do Exemplo 4.2.1.1 é significativo para o mo-</p><p>delo. Para isso, precisamos dos valores dos desvios padrão calculados no Exemplo</p><p>4.1.2.2.1.</p><p>Os valores da estatística do teste de Wald, para as hipóteses H0 : β j = 0 e H1 : β j ̸=</p><p>0, j = 0,1, são:</p><p>W0 =</p><p>β̂0</p><p>D̂P(β̂0)</p><p>=</p><p>−2,0065</p><p>0,149772</p><p>=−13,397</p><p>W1 =</p><p>β̂1</p><p>D̂P(β̂1)</p><p>=</p><p>−0,0663</p><p>0,009092</p><p>=−7,291</p><p>Para estas hipóteses, os valores de p são:</p><p>Para β̂0 = P(|Z|> 13,396) = 0,000. Para β̂1 = P(|Z|> 7,29) = 0,000.</p><p>Como o p-valor é menor que o nível de significância α = 0,05 em ambos os casos,</p><p>concluimos que os parâmetros β0 e β1 são significativos no modelo.</p><p>6.2 Teste da Razão de Verossimilhança</p><p>Na regressão linear o interesse está no valor da SQR. Um valor alto da SQR sugere que</p><p>a variável independente é importante, caso contrário, a variável independente não é útil</p><p>na predição da variável resposta.</p><p>Na regressão logística a ideia é a mesma: comparar os valores observados da va-</p><p>riável resposta com os valores preditos obtidos dos modelos com e sem a variável em</p><p>questão. A comparação dos observados com os valores preditos é baseado no log da</p><p>verossimilhança. Para entender melhor essa comparação, é útil pensar em um valor</p><p>observado da variável resposta também como sendo um valor predito resultante de um</p><p>modelo saturado. Um modelo saturado é aquele que contém tantos parâmetros quanto</p><p>observações.</p><p>A comparação dos observados com os valores preditos usando a função de verossi-</p><p>milhança é baseada na seguinte expressão:</p><p>D =−2ln</p><p>[</p><p>(verossimilhana do modelo a justado)</p><p>(verossimilhana do modelo saturado)</p><p>]</p><p>.</p><p>Com o propósito de assegurar a significância de uma variável independente, compara-</p><p>mos o valor da D com e sem a variável na equação. A mudança em D devido a inclusão</p><p>da variável no modelo é obtida da seguinte maneira:</p><p>G = D(modelo sem a varivel)−D(modelo com a varivel).</p><p>Podemos então escrever a estatística G como:</p><p>G =−2ln</p><p>[</p><p>(verossimilhana sem a varivel)</p><p>(verossimilhana com a varivel)</p><p>]</p><p>.</p><p>ou ainda:</p><p>José Alberto Dulluca dulluca@gmail.com (11) 97525.3343</p><p>6.3 Teste Score Regressão logística</p><p>G =−2ln(Ls)+2ln(Lc),</p><p>em que Ls é a verossimilhança do modelo sem a covariável e Lc é a verossimilhança do</p><p>modelo com a covariável.</p><p>Queremos testar: {</p><p>H0 : β1 = 0</p><p>H1 : β1 ̸= 0</p><p>Sob a hipótese nula, a estatística G tem distribuição chi-quadrado com 1 grau de</p><p>liberdade.</p><p>Exemplo 4.1.3.2.1</p><p>Vamos considerar o Exemplo 4.1.2.1 para verificar se a variável "horas de treina-</p><p>mento"é significativa para explicar o erro na montagem, através do teste da razão de</p><p>verossimilhança (TRV).</p><p>O valor do log da verossimilhança do modelo apenas com o intercepto (Ls) é -</p><p>1064,183 e do modelo com a variável (Lc) é -1035,089.</p><p>Assim, o valor da estatística teste é:</p><p>G =−2(−1064,183)− (−2(−1035,089)) = 58,188.</p><p>O p-valor P(χ2</p><p>1 > G = 58,188) |ST |), sendo que Z denota a variável aleatória da</p><p>distribuição normal padrão.</p><p>José Alberto Dulluca dulluca@gmail.com (11) 97525.3343</p><p>Regressão logística</p><p>7 Intervalos de Confiança</p><p>7.1 Intervalo de Confiança para os parâmetros</p><p>A base da construção das estimativas do intervalo de confiança para os parâmetros é</p><p>a mesma teoria estatística que usamos para os testes de significância do modelo. Em</p><p>particular, um intervalo de confiança para a inclinação e intercepto são baseados em</p><p>seus respectivos testes de Wald. O intervalo de confiança de 100(1−α)</p><p>IC(β1,1−α) = [β̂1 − z1−α/2DP(β̂1); β̂1 + z1−α/2DP(β̂1)].</p><p>E para o intercepto:</p><p>IC(β0,1−α) = [β̂0 − z1−α/2DP(β̂0); β̂0 + z1−α/2DP(β̂0)],</p><p>em que z1−α/2 é o ponto da normal padrão correspondente a 100(1−α/2)</p><p>7.2 Intervalo de Confiança para Logito</p><p>A logito é a parte linear do modelo de regressão logística. O estimador para logito é:</p><p>ĝ(x) = β̂0 + β̂1x.</p><p>O estimador</p><p>da variância do estimador da logito requer a obtenção da variância da</p><p>soma. No caso é:</p><p>ˆVar[ĝ(x)] = ˆVar(β̂0)+ x2 ˆVar(β̂1)+2x ˆCov(β̂0, β̂1). (4.1.4.2.1)</p><p>O intervalo de confiança para a logito é:</p><p>IC(g(x),1−α) = [ĝ(x)− z1−α/2DP(ĝ(x)); ĝ(x)+ z1−α/2DP(ĝ(x))],</p><p>em que DP(ĝ(x)) é a raiz quadrada de 4.1.4.2.1 e z1−α/2 é o ponto da normal padrão.</p><p>7.3 Intervalo de Confiança para os valores ajustados</p><p>O estimador do logito e seu intervalo de confiança fornece o estimador dos valores</p><p>ajustados. O intervalo de confiança dos valores ajustados é dado por:</p><p>IC(π,1−α) =</p><p>[</p><p>eĝ(x)−z1−α/2DP(ĝ(x))</p><p>1+ eĝ(x)−z1−α/2DP(ĝ(x))</p><p>;</p><p>eĝ(x)+z1−α/2DP(ĝ(x))</p><p>1+ eĝ(x)+z1−α/2DP(ĝ(x))</p><p>]</p><p>. (4.1.4.2.2)</p><p>4.1.4.4 Intervalo de Confiança para a Odds Ratio</p><p>Sejam os limites do intervalo de confiança para β1:</p><p>βI = β̂1 − z1−α/2DP(β̂1) e βS = β̂1 + z1−α/2DP(β̂1).</p><p>O intervalo de confiança para a Odds Ratio é:</p><p>José Alberto Dulluca dulluca@gmail.com (11) 97525.3343</p><p>7.3 Intervalo de Confiança para os valores ajustados Regressão logística</p><p>IC(Odds Ratio,1−α) = [eβI ; eβS ]. (4.1.4.2.3)</p><p>Exemplo 4.1.4.1</p><p>Vamos construir intervalo de confiança de Wald para β0 e β1 considerando as esti-</p><p>mativas dos parâmetros e dos seus desvios padrão já calculados nos exemplos 4.1.2.1</p><p>e 4.1.2.2.1.</p><p>IC para β0</p><p>IC(β0,0,95) = [−2,0066−1,96∗0,1498; −2,0066+1,96∗0,1498],</p><p>IC(β0,0,95) = [−2,0066−0,2936; −2,0066+0,2936],</p><p>IC(β0,0,95) = [−2,3002; −1,713].</p><p>IC para β1</p><p>IC(β1,0,95) = [−0,0663−1,96∗0,0091; −0,0663+1,96∗0,0091].</p><p>IC(β1,0,95) = [−0,0663−0,01783; −0,0663+0,01783].</p><p>IC(β1,0,95) = [−0,08413; −0,04847].</p><p>Exemplo 4.1.4.2</p><p>Vamos construir intervalo de 95% de confiança para a logito.</p><p>Consideramos a primeira observação, com X (horas de treinamento)=30. O esti-</p><p>mador para a logito é:</p><p>ĝ(x = 30) =−2,0066−0,0663∗30 =−3,9956.</p><p>O estimador da variância é:</p><p>ˆVar[ĝ(x = 30)] = 0,022432+900∗0,000083+60∗ (−0,001232)</p><p>ˆVar[ĝ(x = 30)] = 0,022432+0,0747−0,07392</p><p>ˆVar[ĝ(x = 30)] = 0,022432+0,0747−0,07392</p><p>ˆVar[ĝ(x = 30)] = 0,0232</p><p>Assim, o intervalo de 95% de confiança para logito para x=30 é:</p><p>IC(g(x = 30),0,95) = [−3,9956−1,96∗0,1523; −3,9956+1,96∗0,1523],</p><p>IC(g(x = 30),0,95) = [−3,9956−0,2985; −3,9956+0,2985],</p><p>IC(g(x = 30),0,95) = [−4,2941; −3,6971],</p><p>José Alberto Dulluca dulluca@gmail.com (11) 97525.3343</p><p>Regressão logística</p><p>8 Exemplo Completo no SPSS</p><p>Antes de começarmos a análise propriamente dita, precisamos atentar para alguns pon-</p><p>tos:</p><p>Para executar uma regressão logística, é necessário o seguinte:</p><p>Um ou mais variáveis independentes que podem ser contínua ou categórica (por</p><p>exemplo, a altura, o desempenho do exame, sexo, etc.).</p><p>Uma variável dependente que é dicotômica (por exemplo, a presença de doença</p><p>cardíaca (sim / não), gênero (masculino / feminino)).</p><p>ATENÇÃO: Se você tiver uma variável independente ordinal, você precisa tratar</p><p>isso como uma variável contínua ou nominal.</p><p>8.1 O exemplo</p><p>Um pesquisador de saúde quer verificar se a incidência da doença cardíaca pode ser</p><p>prevista com base na idade, peso, sexo e capacidade máxima aeróbia (VO2max - um</p><p>indicador da aptidão e saúde). Para este fim, o pesquisador recrutou 100 participantes</p><p>para realizar um teste máximo VO2max, registrando sua idade, peso e sexo. Os parti-</p><p>cipantes também foram avaliados quanto à presença de doença cardíaca. A regressão</p><p>logística foi então executado para determinar se a presença de doença cardíaca pode</p><p>ser prevista a partir da sua VO2max, idade, peso e sexo.</p><p>Descrição das variáveis:</p><p>• Variável resposta (Qualitativa Binária) - Portador de doença cardiaca, codificada</p><p>como: Não=0, Sim=1;</p><p>• Variável explicativa 1 (Numérica contínua) - Idade tomada em anos;</p><p>• Variável explicativa 2 (Numérica contínua) - Peso em quilogramas;</p><p>• Variável explicativa 3 (Qualitativa nominal) - Gênero, codificada como: Mu-</p><p>lher=0, Homem=1;</p><p>• Variável explicativa 4 (Numérica contínua) - Capacidade aeróbica (indicador de</p><p>aptidão e saúde).</p><p>Na regressão logística a variável resposta deve codificada como " f racasso = 0"e</p><p>"sucesso = 1". Onde sucesso é o que você tem interesse.</p><p>José Alberto Dulluca dulluca@gmail.com (11) 97525.3343</p><p>8.2 O procedimento Regressão logística Regressão logística</p><p>Figura 1: database SPSS</p><p>8.2 O procedimento Regressão logística</p><p>Para executar uma regressão logística, você precisa usar a caixa de diálogo de regressão</p><p>logística. As instruções a seguir irá mostrar como construir o modelo de regressão em</p><p>SPSS e quais as opções para testar as hipóteses do modelo de regressão.</p><p>Figura 2: Regressão logística - caixa de dialogo</p><p>Nota: Para uma regressão logística padrão que você deve ignorar os botões Previous</p><p>e Next, os mesmos são para regressão logística (hierárquica) sequencial. A opção</p><p>Metodo precisa ser mantida no valor padrão, que é "Enter". Se, por qualquer razão,</p><p>José Alberto Dulluca dulluca@gmail.com (11) 97525.3343</p><p>8.2 O procedimento Regressão logística Regressão logística</p><p>"Enter"não for selecionada, você precisa mudar Método: de volta à "Enter". O método</p><p>"Enter"é o nome dado pela SPSS para análise de regressão padrão.</p><p>Figura 3: Regressão logística - seleção de variáveis</p><p>Figura 4: Regressão logística - definindo variável categórica</p><p>Nota: Escolher primeiro ou ultimo vai depender de como você configurou seus</p><p>dados. Neste exemplo, os homens são para ser comparado com mulheres, então as mu-</p><p>lheres agem como categoria de referência (que foram codificados como "0"). Portanto,</p><p>primeiro é escolhido.</p><p>José Alberto Dulluca dulluca@gmail.com (11) 97525.3343</p><p>8.3 Interpretando as saídas Regressão logística</p><p>Figura 5: Regressão logística - opções</p><p>8.3 Interpretando as saídas</p><p>As primeiros tabelas descrevem alguns aspectos da configuração das variáveis utiliza-</p><p>das na análise e proporcionam uma oportunidade para se certificar de que a análise está</p><p>definida da maneira que você pretende.</p><p>As três próximas tabelas sob o título principal, "Bloco 0: Bloco inicial", mostram a</p><p>situação em que nenhuma das variáveis independentes foram adicionados e o modelo</p><p>apenas inclui a constante. O interesse nesta informação é apenas como uma compara-</p><p>ção com o modelo com todas as variáveis independentes acrescentadas.</p><p>A "Tabela de Classificação", mostra que, sem quaisquer variáveis independentes, o</p><p>"melhor palpite"é simplesmente assumir que todos os participantes não tinham doença</p><p>cardíaca. Se você assumir isso, irá classificar corretamente 65% dos casos, como mos-</p><p>trado.</p><p>A tabela "variáveis na equação", simplesmente mostra que apenas a constante foi in-</p><p>cluído neste modelo específico:</p><p>E a tabela "Variáveis não presentes na equação", destaca as variáveis independentes</p><p>deixados de fora do modelo:</p><p>8.4 Resultados da regressão logística</p><p>Todas as próximas tabelas "Bloco 1: Método = Enter", representam os resultados da</p><p>principal análise de regressão logística, com todas as variáveis independentes adicio-</p><p>nados ao modelo.</p><p>A primeira tabela "testes de coeficientes do modelo", fornece a significância estatís-</p><p>tica global do modelo (ou seja, o quão bem o modelo prevê categorias em comparação</p><p>a quando não há variáveis independentes no modelo). Para este tipo de regressão lo-</p><p>José Alberto Dulluca dulluca@gmail.com (11) 97525.3343</p><p>8.5 predição Regressão logística</p><p>Figura 6: Regressão logística - tabelas descritivas</p><p>gística, você pode fazer referência a linha "Model". Você pode ver que o modelo é</p><p>estatisticamente significativa (p</p><p>bom.</p><p>8.5 predição</p><p>A regressão logística estima a probabilidade de um evento (neste caso, ter a doença</p><p>cardíaca) ocorrer. Se a estimativa da probabilidade de ocorrência do evento é maior do</p><p>José Alberto Dulluca dulluca@gmail.com (11) 97525.3343</p><p>8.5 predição Regressão logística</p><p>Figura 7: Regressão logística - tabelas bloco 0</p><p>Figura 8: Regressão logística - tabelas bloco 1</p><p>José Alberto Dulluca dulluca@gmail.com (11) 97525.3343</p><p>8.5 predição Regressão logística</p><p>que ou igual a 0.5, o SPSS classifica como o evento ocorre (por exemplo, doença do</p><p>coração estar presente). Se a probabilidade é inferior a 0.5, o SPSS classifica como o</p><p>evento não ocorre (por exemplo, sem doença cardíaca).</p><p>É muito comum o uso de regressão logística para prever se os casos podem ser</p><p>classificados corretamente a partir das variáveis independentes. Portanto, torna-se ne-</p><p>cessário dispor de um método para avaliar a eficácia da classificação prevista contra a</p><p>classificação real.</p><p>Existem muitos métodos para essa avaliação, dependendo da natureza do estudo.</p><p>No entanto, todos os métodos giram em torno das classificações observados e previstos,</p><p>os quais são apresentados na Tabela de Classificação mostrada a seguir:</p><p>José Alberto Dulluca dulluca@gmail.com (11) 97525.3343</p><p>8.6 Variaveis na equação Regressão logística</p><p>Figura 9: Regressão logística - tabelas de classificação</p><p>8.6 Variaveis na equação</p><p>A tabela a seguir mostra a contribuição de cada variável independente para o modelo e</p><p>sua significância estatística. Esta tabela é mostrado abaixo:</p><p>Figura 10: Regressão logística - variaveis na equação</p><p>O teste de Wald (coluna "Wald") é utilizado para determinar a significância estatís-</p><p>tica de cada uma das variáveis independentes.</p><p>A significância estatística do teste encontra-se na coluna "Sig.". A partir destes re-</p><p>sultados é possível ver que idade (p = 0,003), gênero (p = 0,021) e VO2máx (p = 0,039)</p><p>são significativas para o modelo, enquanto que peso (p = 0,799) é não signioficativo.</p><p>Os coeficientes β ′s são utilizados na equação para prever a probabilidade de um</p><p>evento ocorrer, porém não de uma forma intuitiva como no modelo linear.</p><p>Os coeficientes, de fato, mostram a mudança que ocorre no Log da probabilidade</p><p>para uma mudança de uma unidade na variável independente quando todas as outras</p><p>variáveis independentes são mantidas constantes. Assim, por exemplo, a mudança no</p><p>José Alberto Dulluca dulluca@gmail.com (11) 97525.3343</p><p>8.7 Diagnóstico de casos Regressão logística</p><p>gênero 0=mulher para 1=homem afeta o Log da probabilidade em 1,950. No entanto,</p><p>este não é frequentemente o método mais intuitivo de compreensão de seus resultados.</p><p>Felizmente, o SPSS também inclui as razões de chances de cada uma das variáveis</p><p>independentes, assim como seu intervalo de confiança. Este informa sobre a mudança</p><p>na razão de chances para cada aumento de uma unidade da variável independente. Por</p><p>exemplo, para o gênero, um aumento de uma unidade (isto é, se o gênero for mascu-</p><p>lino), a chance de ter doença cardíaca (categoria "sim") é 7,026 vezes maior para o</p><p>sexo masculino em oposição ao feminino.</p><p>Valores inferiores a 1 indicam que a chance reduz a cada aumento de uma unidade</p><p>da variável independente. Às vezes, por razões de clareza, a razão de chances é in-</p><p>vertida (por exemplo, 1/0,906 = 1,10, para o VO2máx). Assim, você poderia afirmar</p><p>que para cada redução de unidade na variável independente, VO2max, a chance de ter</p><p>doença cardíaca aumenta num fator de 1,10.</p><p>8.7 Diagnóstico de casos</p><p>Como na regressão linear múltipla, você também pode conferir os resultados de regres-</p><p>são logística para os casos que não se encaixam muito bem no modelo (por exemplo,</p><p>outliers). A tabela "‘lista entre casos"(mostrada abaixo) destaca casos em que os resí-</p><p>duos studentizados são maiores que 2 (coluna "ZResid"). Casos com valores residuais</p><p>studentized superiores a 2,5 devem ser inspecionados em mais detalhes para determi-</p><p>nar por que esses casos são discrepantes e para removê-los a partir da análise, se for</p><p>considerado necessário. Há apenas um resíduo que está de acordo com este critério e</p><p>isso é caso número 70 (coluna "Case"), que tem um resíduo studentized de 3,349. Você</p><p>deve verificar para ver por que este caso particular é incomum e se você deve removê-lo</p><p>do modelo.</p><p>Figura 11: Regressão logística - estudo de outliers</p><p>8.8 Conclusões</p><p>A regressão logística foi realizada para determinar os efeitos da idade, peso, sexo e</p><p>VO2max sobre a probabilidade de que os participantes têm a doença cardíaca. O</p><p>modelo de regressão logística foi estatisticamente significativa, χ2 (4) = 27,402, (p</p>