Unidade 4 - Estatística aplicada à saúde

•

UNINTER

Fernando Silva

22/04/2024

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 40 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 40 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 40 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Econometria Aplicada

139 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

ESTATÍSTICA APLICADA À SAÚDEESTATÍSTICA APLICADA À SAÚDE
ANÁLISE DEANÁLISE DE
SOBREVIVÊNCIA ESOBREVIVÊNCIA E
AVALIAÇÃO DIAGNÓSTICAAVALIAÇÃO DIAGNÓSTICA
Au to r ( a ) : D ra . D a i s y A s s m a n n L i m a
R ev i s o r : M a . R e n a t a C . S o u z a C h a t a l ov
Tempo de leitura do conteúdo estimado em 1 hora e 10 minutos.
Introdução
Olá, estudante! Neste material, você estudará sobre regressão logística, análise de
sobrevivência e avaliação diagnóstica. Você também realizará aplicações no software
SPSS com exemplos voltados à área da saúde.
A regressão logística é uma técnica estatística empregada quando a variável
dependente possui natureza dicotômica, ou binária. Uma variável binária é aquela que
possui resultados do tipo sim ou não. A análise de sobrevivência é usada na área da
saúde com o objetivo de mensurar o tempo de acompanhamento de pacientes que
estejam sob algum tratamento em que se avalie o uso de droga nova ou
procedimento médico novo — assim, é possível comparar com métodos já existentes.
A avaliação diagnóstica é relevante para o dia a dia da área de pesquisa clínica, pois
os agentes da área da saúde, com frequência, precisam de uma avaliação perfeita
dos resultados obtidos, independentemente do diagnóstico positivo ou negativo.
Então, bons estudos!
Regressão Logística
O objetivo da análise de conglomerados, também conhecida como análise de
agrupamentos ou de cluster, é particionar um conjunto de dados em grupos que são
internamente homogêneos e externamente distintos, ou seja, segmentar ou agrupar
em grupos menores (subgrupos). A classi�cação é realizada com base em uma
medida de similaridade ou dissimilaridade dentro e entre os grupos.
É, pois, uma técnica estatística que tem como objetivo produzir, a partir de
um conjunto de observações, um modelo que permita a predição de valores
assumidos por uma variável categórica a partir de um conjunto de variáveis
explicativas, contínuas e/ou binárias, sendo amplamente utilizada em
ciências médicas e sociais, como um método é útil para predizer a
probabilidade da ocorrência de um determinado evento, como uma doença,
por exemplo, em função da exposição a determinados fatores de risco
(FONTELLES, 2012, p. 256).
A regressão logística também é usada quando a distribuição dos dados preditos não
segue uma distribuição normal — vale considerar, aqui, que a maioria das estruturas
de dados atende a esse requisito. O fato de a regressão logística não exigir que
dados atendam à hipótese de normalidade permite que haja uma grande gama de
aplicações (BLAIR; TAYLOR, 2013).
Ademais, numa regressão logística, os coe�cientes podem ser usados para avaliar os
riscos relativos nos estudos de coorte ou, ainda, como taxas de tendência nos
estudos do tipo caso-controle.
Conforme Hair et al. (2009), para realizar uma análise de cluster cuidadosa, são
necessários métodos com as seguintes características:
Como se trata de uma regressão logística, os resultados serão avaliados em termos
de probabilidade de ocorrência. Isso é muito importante para analisá-los de maneira
apropriada.
Outra avaliação que pode ser feita é a dos efeitos das variáveis, que são associadas
para se analisar os controles, sendo que a odds ratio, ou razão de chance, nada mais
é que uma medida de associação calculada por meio do modelo logístico (ROSNER,
2010).
A�nal de contas, qual é a fórmula do modelo logístico? Podemos dar um apelido ao
nosso modelo: “Logit”, que pode ser observado conforme a seguir.
Onde:
 = intercepto.
De forma geral, o Código de Nuremberg estabeleceu que nenhum ser humano
poderia ser submetido a projetos de pesquisa sem o seu devido consentimento,
sendo o primeiro documento a ter alcance internacional, por conta, principalmente, do
repúdio da comunidade internacional quanto aos crimes cometidos no período nazi-
fascista (PALÁCIOS; REGO; SCHRAMM, 2009).
A necessidade de regulamentação de pesquisas em seres humanos, para proteger
seus participantes, e o desejo do corpo médico ter sua própria regulamentação foram
motivações para a criação da Declaração de Helsinque, a qual foi aprovada pela
Associação Médica Mundial, e cuja primeira versão é de 1964 (PALÁCIOS; REGO;
SCHRAMM, 2009).
Aqui é interessante nos atentarmos para os termos e serem parâmetros
desconhecidos obtidos por meio dos dados da amostra estudada. O método usado
para se obter os resultados é o da máxima verossimilhança, que nos indicará a
probabilidade máxima de se obter o resultado observado.
Em 1988, o Conselho Nacional de Saúde (CNS) do Brasil estabeleceu normas que
tratam da ética em pesquisa com seres humanos e, em 10 de outubro de 1996,
aprovou as diretrizes/normas que regulamentam pesquisas com seres humanos,
denominada Resolução 196/96 (PALÁCIOS; REGO; SCHRAMM, 2009).
1. Regressão logística simples: possui uma única variável preditora.
P x  =  
1
1 + exp[−(b +  b1x1  +  b2x2 +. . . +bnxn)]0
b0
b0 bn
 Regressão logística simples Regressão logística múltipla
Variáveis preditoras binárias
possui uma única variável preditora.
2. Regressão logística múltipla: possui duas ou mais variáveis preditoras.
3. Variáveis preditoras binárias: devem ser do tipo sucesso ou fracasso, ou
zero ou um.
A Resolução 196/96 estabeleceu princípios básicos para permitir apreciação da ética
em protocolos de pesquisa, criando os Comitês de Ética em Pesquisa (CEP) e a
Comissão Nacional de Ética em Pesquisa (Conep). O conteúdo da resolução
incorpora as experiências históricas da regulamentação sobre ética em pesquisa,
principalmente com base no Código de Nuremberg (1947), na Declaração dos
Direitos Humanos (1948), na Declaração de Helsinque (desde a primeira versão de
1964), nas Diretrizes Internacionais para a Revisão Ética de Estudos Epidemiológicos
e nas Diretrizes Éticas Internacionais para Pesquisas Biomédicas Envolvendo Seres
Humanos, assim como em conteúdos de leis promulgadas após a aprovação da
Constituição de 1988 (PALÁCIOS; REGO; SCHRAMM, 2009; NOVOA, 2014).
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
Samohyl (2009) estabelece que o grá�co de soma acumulada (CUSUM) é um
aprimoramento do grá�co de controle X de Shewhart, este, de�nido como sendo a
forma de monitoramento da média de um processo especí�co cuja
característica de qualidade de interesse X é uma grandeza mensurável
representada. Assim sendo, o CUSUM é o mais apropriado para se reconhecer o
histórico dos dados, característica ausente em grá�cos mais simples, e também
para identi�car pequenas alterações nos processos muito antes dos alarmes dos
grá�cos X, considerados como LSC e LIC.
FÁVERO, L. P.; BELFIORE, P. Manual de análise de dados: estatística e modelagem
multivariada com Excel®, SPSS® e Stata®. Rio de Janeiro: Elsevier Brasil, 2017.
μμ
A seguir, assinale a alternativa que apresenta corretamente um modelo de
regressão amplamente utilizado para modelar variáveis preditoras binárias (o qual
se refere ao enunciado da questão).
a) Regressão logarítmica, pois suaviza as estimativas realizadas com os
dados.
b) Regressão logística, pois se adapta à modelagem em que a variável
dependente é binária.
c) Regressão exponencial, pois é um tipo de regressão que se adéqua a esse
tipo de variável binária.
d) Regressão linear, pois há uma relação linear entre a variável dependente
e as demais variáveis.
e) Regressão linear múltipla, pois há uma relação linear múltipla entre as
variáveis dependentes.
A regressão logística é um tipo de modelagem que pode ser facilmente aplicada em
bases de dados cuja variável dependente possui natureza binária. Assim, os
resultados podem ser analisados de forma direta e os resultados podem ser
interpretados adequadamente.
Aula Prática no SPSS:
Regressão Logística
Fonte: frender / 123RF.
Regressão Binária no Software SPSS
A regressão binária pode ser implementada por meio do software estatístico SPSS.
Assim, o analista poderá usar a ferramenta estatística visualizada até aqui de forma
simples e intuitiva, ou seja, não será necessáriorealizar muitos cálculos. O
importante é saber interpretar os resultados que serão vistos nas implementações.
Apesar de a eticidade e a cienti�cidade da pesquisa cientí�ca, em especial, daquela realizada
com seres humanos, serem aspectos que caminham juntos, não cabe aos Comitês de Ética em
Pesquisa (CEP) a emissão de pareceres sobre a metodologia utilizada no desenvolvimento dos
estudos (NOVOA, 2014).
SAIBA MAIS
A seguir, analisaremos um passo a passo para
elaboração de uma regressão binária no SPSS baseado
em Fávero e Bel�ore (2017); o arquivo usado pelos
autores é nomeado como “Atrasado.sav”. Perceba que
a extensão .sav representa o arquivo de saída somente
do software SPSS; um aviso importante: se você quiser
A primeira ação é abrir o arquivo e, logo em seguida, clicar em Analisar->Regressão-
>Logística Binária. Atente-se, a seguir, para como �cará no software SPSS.
abrir os resultados noutro software estatístico,
precisará fazer a conversão para o tipo de arquivo que
queira abrir. Para reproduzir as atividades aqui
apresentadas, você usará o arquivo de dados que
possui a extensão .xls, de saída do Excel —
procedimento possível de se realizar dentro do próprio
SPSS.
Assista ao vídeo a seguir, com instruções para abrir o
arquivo com extensão .xls no SPSS:
A S S I S T I R
ANEXO
https://catalogcdns3.ulife.com.br/content-cli/ENG_ESAUDE_21/unidade_4/ebook/documents/Atrasado---SAIBA-MAIS-1.xls
Figura 4.1 - Caixa de diálogo para elaboração da regressão logística binária no SPSS
Fonte: Elaborada pela autora.
#PraCegoVer: a imagem representa uma caixa de diálogo com as variáveis a serem
selecionadas como dependente e covariada: estudante; chegou atrasado; distância
percorrida; quantidade de semáforos, dentre outros. Depois, há a opção de clicar em: OK;
colar; recon�gurar; cancelar; ajuda; categórico; salvar; opções; estilo; bootstrap.
Agora, passamos a de�nir a variável dependente e as variáveis covariadas. A variável
dependente é aquela foco do estudo ou análise. No exemplo de Fávero e Bel�ore
(2017), a variável ‘chegou atrasado à escola’ é a variável dependente. As demais são
covariadas e serão incluídas em “covariáveis”. O método recomendado inicialmente é
o ‘Método: Inserir’; assim, todas as variáveis serão incluídas na estimação.
O software permite que seja criada a variável categórica por meio do comando
‘Categórico’. Mas, como já estão criadas em nosso banco de dados, não trataremos
desse procedimento agora.
Agora, selecionamos o botão ‘Opções’ e as opções ‘Histórico de iteração’ e ‘CI para
exp(B)’. ‘Histórico de iteração’ é o procedimento de iteração, e ‘CI para exp(B)’ é o
intervalo de con�ança para as odds ratios de cada parâmetro. Atente-se ao fato de a
caixa de diálogo que se abre já possuir estas marcações:
SAIBA MAIS
A regressão logística binária é uma ferramenta
poderosa muitas vezes deixada de lado, pois a maioria
das publicações acaba por empregar a regressão
linear simples e a regressão linear múltipla. Isso não é
meramente uma questão de escolha, mas, sim, de
adequação ao tipo de dado que você possui em mãos.
Uma consequência é o resultado apresentar valor fora
do intervalo possível de valores; estamos tão focados
na signi�cância dos resultados que esse “detalhe”
pode passar despercebido.
O vídeo adiante mostra como fazer uma regressão
logística binária (com a variável dependente da
regressão sendo uma variável categórica do tipo “sim”
ou “não”). Na primeira parte, você se atentará a como
analisar se há multicolinearidade na regressão e a
como montar seu próprio modelo. O vídeo também
explica a diferença entre os modelos hierárquico,
stepwise e entrada forçada. Divirta-se!
Para saber mais, acesse:
A S S I S T I R
Fonte: Elaborado pela autora.
Figura 4.2 - Caixa de diálogo para ‘Opções’ na elaboração da regressão logística binária
no SPSS
Fonte: Elaborada pela autora.
#PraCegoVer: a imagem representa uma caixa de diálogo com as opções estatísticas e
grá�cos. As marcações estão em ‘Histórico de interação’ e ‘CI para exp(B)’. Ao �nal,
aparece a marcação em ‘Incluir constante no modelo’.
Não existem sistemas de medição que possam ser classi�cados como ideais. Dessa
forma, é atribuição direta dos engenheiros de�nir e implantar sistemas de medição
que apresentem propriedades estatísticas consideradas adequadas.
Figura 4.3 - Caixa de diálogo para o procedimento ‘Enter’ na elaboração da regressão
logística binária no SPSS
Fonte: Elaborada pela autora.
#PraCegoVer: a imagem representa os resultados após a estimação binária com o
procedimento Enter. Há um conjunto de três tabelas: Bloco 1, parte 1; logo em seguida,
parte 2, que é a continuação da primeira tabela do Bloco 1; depois, há a tabela com os
testes de Omnbus do modelo de coe�cientes.
Nesses resultados, o SPSS já apresenta o pseudo- de Cox & Snell e o pseudo-
de Nagelkerke. Os p-valores apresentados devem ser interpretados de modo a serem
menores que 0,05 para serem signi�cativos. A variável per�l2 não é estatisticamente
signi�cativa, pois apresenta p-valor maior que 0,05, o que indica que ela deve ser
excluída do modelo.
A seguir, faça uma atividade para aprofundar seus conhecimentos sobre o assunto.
R2 R2
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
Considere esta situação: num experimento para identi�car a con�abilidade de um
anel de vedação numa junta de um motor sujeito à variação de temperatura
ambiental, foram realizados ensaios com o intuito de registrar a temperatura X do
ambiente de trabalho do motor e o que ocorre logo em seguida. Pretende-se
averiguar se o anel resistia ou não (Y) à temperatura, com os pares (X,Y), sendo X
uma variável aleatória contínua e Y uma variável aleatória dicotômica.
Com base nessa situação, se um analista deseja prever o resultado Yi do ensaio i
sabendo a temperatura Xi, ele deve usar a seguinte técnica:
a) regressão linear simples.
b) regressão linear múltipla.
c) regressão do tipo Ridge.
d) regressão logística.
e) regressão de Poisson.
Análise de
Sobrevivência
A análise de sobrevivência é usada para identi�car como se comporta a
probabilidade de ocorrência de um evento em especí�co após ser dado algum
tratamento e o tempo ter passado (FIELD, 2009). Adicionalmente, é avaliada a
presença de outras variáveis preditoras para identi�car como se comportam; para
realizar essa avaliação, é usada uma função de sobrevivência em relação ao evento
estudado para cada período de monitoramento. Também é analisada a função da
taxa de risco de sobrevivência de o evento ocorrer em cada período (FÁVERO;
BELFIORE, 2017).
A propósito, atente-se para o seguinte trecho (FÁVERO; BELFIORE, 2017, p. 969):
Os abusos cometidos em nome do Estado e da Ciência, apurados e
denunciados mundialmente em 1947 no Relatório �nal do Tribunal
Internacional de Nuremberg, levaram à elaboração do primeiro Código de
conduta em pesquisas, internacionalmente aceito – o Código de
Nurembergue (1947) (PALÁCIOS; REGO, SCHRAMM, 2009, p. 607).
A pesquisa epidemiológica tem por base a coleta sistemática de dados sobre
eventos associados, principalmente, à saúde das pessoas pertencentes a populações
de interesse. O tratamento analítico dado aos fatores pesquisados tem base em três
procedimentos, a saber, a mensuração de variáveis aleatórias, a estimação de
parâmetros populacionais e o uso de testes estatísticos (BLOCH; COUTINHO, 2009).
REFLITA
O risco de ocorrência de óbitos por Covid-19 foi
observado por Galvão e Roncalli (2020) em indivíduos
idosos, principalmente aqueles com idade acima de 80
anos, pacientes com comorbidades, pessoas do sexo
masculino e com cor de pele não branca. Com base
O dado de censura será usado para calcular as probabilidades de sobrevivência ao
evento para um tempo de monitoramento menor que o daquela censura. Atente-se
para o trecho a seguir, sobre modelos com dados de sobrevivência (FÁVERO;
BELFIORE, 2017, p. 915):
A nova resolução divide-se em 13 partes e apresenta-se mais longa e
�losó�ca, levando-seem consideração referenciais básicos de bioética,
como o reconhecimento e a a�rmação da dignidade, a liberdade, a
autonomia, a bene�cência, a não male�cência, a justiça e a equidade,
dentre outros que visam assegurar os direitos e deveres que dizem respeito
aos participantes da pesquisa, à comunidade cientí�ca e ao Estado
(NOVOA, 2014, p. VII).
Existem as abordagens semiparamétrica e paramétrica. A primeira é usada para
estimar os parâmetros de uma função de sobrevivência sem haver como referência
alguma função de sobrevivência ou distribuição especí�ca; a segunda abordagem é
usada quando temos ou assumimos ter uma função de sobrevivência ou distribuição
teórica. Podem ser usadas as distribuições do tipo exponencial, Weibull ou Gompertz
(PAGANO; GAUVREAU, 2010).
Fonte: fotovika / 123RF.
nessas informações, estratégias e linhas de cuidado
devem ser tomadas para evitar a evolução ao óbito.
Fonte: Adaptado de Galvão e Roncalli (2020).
A abordagem semiparamétrica materializada pelo modelo de riscos proporcionais de Cox é
amplamente utilizada em diferentes contextos, inclusive da saúde — vale ressaltar que o modelo a
O procedimento de Kaplan-Meier é de�nido, a seguir, por Fávero e Bel�ore (2017, p.
976).
O procedimento Kaplan-Meier, conforme discutimos, não apresenta caráter
preditivo, porém oferece ao pesquisador uma oportunidade de elaborar
uma curva da função de sobrevivência ao evento com base nos tempos de
monitoramento das observações da amostra e na existência de dados
censurados.
Dessa forma, os valores que estão numa função de sobrevivência representam
probabilidades de sobrevivência ao evento para tempos de monitoramento maiores
que t. A fórmula para calcular a função de sobrevivência é apresentada a seguir.
Onde: representa o número de observações que não apresentaram evento ou
censura até o início do tempo de monitoramento t; representa o número de eventos
que ocorrem para essas observações com tempo de monitoramento exatamente
igual a t. Além disso, podemos de�nir como o número de censuras que ocorrem
para essas observações com tempo de monitoramento também exatamente igual a t.
Por �m, corresponde ao menor tempo de monitoramento dentre todos os
monitoramentos realizados na amostra.
ser escolhido deve ser baseado na teoria e na experiência do pesquisador.
V E R M A I S
(t) =   ( )Ŝ ∏
t
j=t0
−nj ej
nj
nt
et
ct
t0
Tabela 4.1 - Resumo sobre a decisão de inclusão de parâmetros em modelos de sobrevivência
Fonte: Fávero e Bel�ore (2017, p. 959).
#PraCegoVer: a tabela representa as regras de decisão para beta conforme a
estatística Wald, o teste z e a análise do intervalo de con�ança e regra de
decisão. Na coluna intitulada “Estatística z de Wald (para nível de signi�cância
α)”, temos -zcalα⁄2<zcal<zcalα⁄2 ou zcal> zcalα⁄2 ou zcal< -zcalα⁄2. Na coluna
intitulada “Teste z (análise do valor-P para nível de signi�cância α)”, temos Valor-
P> nível de signi�cância α ou Valor-P< nível de signi�cância α. Na coluna
intitulada “Análise pelo Intervalo de Con�ança da Taxa de Risco”, temos “O
intervalo de con�ança contém o 1” ou “O intervalo de con�ança não contém o 1”.
Na coluna intitulada “Decisão”, temos “Excluir o parâmetro do modelo” ou
“Manter o parâmetro no modelo”.
Assim, podemos estabelecer uma regra de decisão para incluir parâmetros ao
modelo de sobrevivência. Pela análise do teste t e do valor-p, podemos de�nir se
haverá ou não a inclusão do elemento 1 no intervalo de con�ança. A seguir,
identi�caremos como funciona na prática por meio de um exemplo no software SPSS.
Agora, passamos a analisar como podemos implementar no software SPSS a análise
de sobrevivência. Seguiremos as orientações de Fávero e Bel�ore (2017). Vamos lá!
Os dados usados serão os presentes no arquivo “TempoFormaturaCox.sav”,
disponibilizado pelos autores aludidos. Atente-se para o passo a passo, que pode ser
aplicado a diferentes contextos.
Aula Prática no SPSS:
Análise de
Sobrevivência
SAIBA MAIS
O arquivo usado pelos autores é o
“TempoFormaturaCox.sav”. Perceba que a extensão
.sav representa o arquivo de saída do software SPSS;
um aviso importante: se você quiser abrir os resultados
noutro software estatístico, precisará fazer a
Considerando que os dados já estão no software, analisaremos, após, esta sequência
de comandos: Analisar->Sobrevivência->Kaplan-Meier… Ao realizarmos esses cliques
no software, obteremos o procedimento de Kaplan-Meier e a caixa de diálogo que se
abrirá será assim:
Figura 4.4 - Caixa de diálogo para o procedimento Kaplan-Meier no SPSS
Fonte: Fávero e Bel�ore (2017, p. 979).
#PraCegoVer: a imagem representa a tela de comandos inicial do procedimento Kaplan-
Meier com as variáveis do software: estudante; status; tempo de monitoramento; possui
bolsa integral; idade ao término do curso.
conversão, já que o arquivo aqui apresentado possui a
extensão .xls, de saída do Excel. Esse procedimento é
possível de se realizar dentro do próprio SPSS.
ANEXO
https://catalogcdns3.ulife.com.br/content-cli/ENG_ESAUDE_21/unidade_4/ebook/documents/TempoFormaturaCox-SAIBA-MAIS-3.xls
Agora, é preciso selecionar a variável tempo de monitoramento até a formatura ou até
a censura. Para isso, incluiremos na caixa ‘Tempo’. Depois, incluiremos o status da
caixa em ‘Status’ e, então, clicaremos em ‘De�nir Evento…’; depois, em ‘Valor único’ —
inseriremos o valor 1. Com esse procedimento, indicamos ao software que o evento
de interesse, que é a formatura, é 1 na variável status.
Atente-se, a seguir, ao passo a passo dessas seleções no SPSS.
Figura 4.5 - Representação de seleções realizadas no software SPSS pelo método
Kaplan-Meier
Fonte: Elaborada pela autora.
#PraCegoVer: a imagem representa: a seleção da variável tempo de monitoramento em
‘Tempo’; a seleção da variável status em ‘Status’; a seleção de estudantes em ‘Rotular
casos por’.
Selecionaremos a de�nição do evento para a variável de status. Para isso, devemos
preencher a opção ‘Valores’ indicando que o evento ocorreu com o valor 1 em ‘Valor
único’, conforme observado a seguir. Em seguida, devemos clicar em ‘Continuar’.
Figura 4.6 - Caixas de diálogos para o procedimento Kaplan-Meier no SPSS para de�nir
evento para variável status
Fonte: Elaborada pela autora.
#PraCegoVer: a imagem representa a tela de comandos ‘Valor’ indicando que o evento
ocorreu. Aparecem as opções ‘Valor único’, ‘Intervalo de valores’ e ‘Lista de valores’. No
�nal, há as opções ‘Continuar’, ‘Cancelar’ e ‘Ajuda’.
Após clicar em ‘Continuar’, teremos as opções no comando ‘Opções…’;
selecionaremos a opção ‘Tabela(s) de sobrevivência’, que nos fornecerá a curva de
probabilidades de sobrevivência à formatura para cada tipo de monitoramento. Agora,
após clicar em ‘Continuar’, voltaremos à caixa de diálogo principal, o que nos
permitirá clicar em ‘Continuar…’ e selecionar a opção ‘Sobrevivência’, conforme a
seguir.
Figura 4.7 - Caixa de diálogo para o procedimento Kaplan-Meier no SPSS — opção
‘Survival’ — a �m de gerar no banco de dados as probabilidades de sobrevivência à
formatura para cada aluno
Fonte: Elaborada pela autora.
#PraCegoVer: a imagem representa a tela de comandos referente a estatísticas. Temos as
opções ‘Tabela(s) de sobrevivência’, ‘Sobrevivência de média e mediana’ e ‘Quartis’. Em
seguida, há as opções de marcar ‘Sobrevivência’, ‘Um menos sobrevivência’, ‘Risco’ e ‘Log
de sobrevivência’. No �nal, temos as opções ‘Continuar’, ‘Cancelar’ e ‘Ajuda’.
Agora, clicamos em ‘Continuar’ e em ‘OK’. O resultado gerará a função de
sobrevivência de Kaplan-Meier, conforme a seguir.
Figura 4.8 - Função de sobrevivência de Kaplan-Meier com tempo de monitoramento
em ordem crescente
Fonte: Fávero e Bel�ore (2017, p. 979).
#PraCegoVer: a imagem representa a tela ‘Resultados da tabela de sobrevivência (survival
table)’. A primeira coluna apresenta a numeração sequencial das observações; depois, o
‘ID’, ‘Hora’, ‘Status’, ‘Estimativa’, ‘Erro’, ‘Número de eventos cumulativos’ e ‘Número de
casos restantes’.
A coluna ‘Proporção cumulativasobrevivendo ao tempo’ mostra as probabilidades de
sobrevivência para a formatura de cada estudante. Quando aparece vazia, signi�ca
que os valores são iguais ao último valor apresentado. Adiante, estudaremos
medidas de avaliação diagnóstica. Vamos lá!
No contexto da saúde, existem os testes diagnósticos que comporão a avaliação
diagnóstica. Basicamente, você precisa ter em mente que o agente de saúde
precisará entregar um diagnóstico ao paciente ou à sociedade (BLAIR; TAYLOR 2013).
Então, Vieira (2018) frisa que é preciso informar se o paciente está ou não doente.
Essa é a essência de uma avaliação diagnóstica, a qual precisa ser feita com alta
performance.
Uma necessidade para o médico é saber o quão seguro é um teste de diagnóstico, e,
em essência, queremos saber o quão verdadeiro ele é. Sim, um resultado pode não
ser verdadeiro; para isso, há uma terminologia especí�ca para determinar as
possibilidades de resultados.
Atente-se, a seguir, ao infográ�co que contempla as variações conforme Vieira
(2018).
Medidas de Avaliação
Diagnóstica
Fonte: Adaptado de nizhnik / 123RF.
#PraCegoVer: o infográ�co é do tipo estático, em formato retangular, com fundo branco.
Na parte superior, há o título “Resultados dos testes de diagnóstico”. Logo abaixo, há
quatro retângulos coloridos dispostos na vertical. De cima para baixo, temos o primeiro
retângulo, na cor rosa, com o seguinte texto: “Verdadeiro-positivo (VP): quando detecta a
doença em quem a tem”. O segundo retângulo possui cor cinza e o seguinte texto: “Falso-
negativo (FN): quando não detecta a doença em quem a tem.” O terceiro retângulo possui
cor ciano e o seguinte texto: “Verdadeiro-negativo: quando não detecta a doença em quem
não tem.” O quarto retângulo possui cor amarela e o seguinte texto: “Falso-positivo:
quando detecta a doença em quem não tem”.
Os resultados possíveis podem ser mostrados no quadro de contingência:
Quadro 4.1 - Teste diagnóstico
Fonte: Vieira (2018, p. 185).
#PraCegoVer: o quadro apresenta as possibilidades de resultado do teste de
diagnóstico. Caso o diagnóstico seja positivo, pode haver ou não a doença — se
sim, há um verdadeiro-positivo; se não, temos um falso-positivo. Caso o
diagnóstico seja negativo, pode haver ou não a doença — se sim, temos um
falso-negativo; se não, temos um verdadeiro-negativo. A quantidade de
diagnósticos com a doença é representada por n1, e a quantidade de
diagnósticos sem a doença é representada por n2.
Podemos, ainda, ter outras duas estatísticas: a sensibilidade (S) e a especi�cidade
(E). A sensibilidade é a proporção de verdadeiros-positivos em relação ao total de
pessoas com a doença. Pode ser calculada por:
A especi�cidade do teste é a proporção de verdadeiros-negativos, portanto, os
resultados corretos em relação ao total de pessoas sem a doença. Pode ser
calculada por:
Antes de analisarmos um exemplo, vale registrar que um teste sensível é aquele em
que a probabilidade de apresentar resultado positivo quando a pessoa possui a
doença é alta (BLAIR; TAYLOR, 2013): podemos dizer que acertou em 95% dos casos.
Resultado
Doença
Sim Não
Positivo Verdadeiro-Positivo Falso-Positivo
Negativo Falso-Negativo Verdadeiro-Negativo
Total n1 n2
S  =   .
V P
n1
E  =   .
V N
n2
Por sua vez, o teste é especí�co quando a probabilidade de dar resultado negativo em
pessoas que não possuem a doença é alta: podemos dizer que acertou em 90% dos
casos.
Temos também a medida de con�abilidade como um instrumento de teste de
diagnóstico — ressalta-se haver diferentes formas de se mensurar a con�abilidade.
Vieira (2018) apresenta as estatísticas para estimar a con�abilidade, sendo que cada
uma apresenta um aspecto da conformidade do instrumento. Veja a seguir o
infográ�co sobre estatísticas de con�abilidade.
#PraCegoVer: o infográ�co é do tipo estático, em formato quadrado, com fundo branco.
Do lado esquerdo, há quatro círculos coloridos, dispostos na vertical, numerados de um a
quatro, de cima para baixo. Do lado direito de cada círculo, há um título e um texto
correspondente. O primeiro círculo é vermelho e traz o seguinte texto: “Con�abilidade
entre examinadores: o grau com que diferentes examinadores veem o mesmo fenômeno
usando o mesmo instrumento.” O segundo círculo é amarelo e traz o seguinte texto:
“Con�abilidade do teste-reteste: a consistência das medidas é realizada por meio do
mesmo instrumento de medida em ocasiões distintas.” O terceiro círculo é verde e traz o
seguinte texto: “Con�abilidade de forma paralela: consistência dos resultados de dois
instrumentos distintos, porém elaborados de maneira idêntica.” Por �m, temos o quarto
círculo, na cor azul, e o seguinte texto: “Consistência interna de um teste ou um
questionário: extensão em que os itens que compõem o questionário mensuram o mesmo
conceito ou construto.”
Para calcular o coe�ciente alfa de Cronbach, devemos aplicar a fórmula a seguir.
Onde:
 é o número de itens.
 é o número de respondentes.
 é a variância dos n escores das pessoas a i-ésimo item (i = 1, ..., k).
 é a variância dos totais Tj (j = 1, 2,...,n) de escores de cada respondente.
As variâncias são calculadas por esta fórmula:
Vimos como calcular o alfa de Cronbach, amplamente usado para identi�car as
variáveis que devem ser incluídas no modelo. Agora, a ideia é aplicar tais conceitos
de maneira objetiva e prática por meio do software SPSS. Vamos lá!
praticar
Vamos Praticar
A atividade a seguir é baseada em Vieira (2018). Considere que um teste diagnóstico
para detectar determinada doença foi aplicado em 1.000 participantes de pesquisa:
α =   (1 − )k
k − 1
∑k
i=1 S2
i
S2
k
n
s2  i
s2  soma
=s2 ∑ (x − )x̄
2
n
400 tinham a doença; 600 não tinham a doença. Os resultados do teste foram
positivos em 380 doentes e negativos em 360 participantes sem a doença.
Quadro - Resultados do teste diagnóstico
Fonte: Vieira (2018, p. 185).
#PraCegoVer: o quadro representa os resultados do teste de
diagnóstico. Caso o diagnóstico seja positivo, pode haver ou não a
doença — se sim, há 380 verdadeiros-positivos; se não, temos 240
falsos-positivos. Caso o diagnóstico seja negativo, pode haver ou não a
doença — se sim, temos 20 falsos-negativos; se não, temos 360
verdadeiros-negativos. A quantidade de diagnósticos com a doença é de
400, e a quantidade de diagnósticos sem a doença é de 600, totalizando
1.000.
Determine: a especi�cidade e a sensibilidade; se o teste é sensível ou não.
Resultado
Doença
Total
Sim Não
Positivo 380 240 620
Negativo 20 360 380
Total 400 600 1.000
Determinaremos o alfa de Cronbach com base em variáveis padronizadas.
Inseriremos os dados que estão no arquivo “NotasFatorial.sav”; o primeiro passo é
justamente padronizar as variáveis por meio do procedimento Zscores. No SPSS, isso
pode ser feito por meio da seguinte sequência de comandos: Analisar → Estatísticas
Descritivas → Descritivas…
Aula Prática no SPSS:
Medidas de Avaliação
Diagnóstica
SAIBA MAIS
O arquivo usado pelos autores é o “NotasFatorial.sav”.
Perceba que a extensão .sav representa o arquivo de
saída do software SPSS; um aviso importante: se você
quiser abrir os resultados noutro software estatístico,
precisará fazer a conversão, já que o arquivo aqui
apresentado possui a extensão .xls, de saída do Excel.
Esse procedimento é possível de se realizar dentro do
próprio SPSS.
ANEXO
https://catalogcdns3.ulife.com.br/content-cli/ENG_ESAUDE_21/unidade_4/ebook/documents/NotasFatorial-SAIBA-MAIS-5.xls
Depois disso, selecionaremos todas as variáveis originais e clicaremos em ‘Salvar os
valores padronizados como variáveis’. Depois, clicaremos em ‘OK’; as variáveis
padronizadas serão geradas no mesmo banco de dados em seguida.
Determinaremos o alfa de Cronbach propriamente dito: devemos clicar em ‘Analisar
→ Escala → Análise de Con�abilidade…’. Depois, uma caixa de diálogo será aberta,
onde inseriremos as variáveis padronizadas anteriormente e já presentes no banco
de dados. Por �m, clicaremos em ‘Itens’, conforme identi�cado a seguir.
Figura 4.9- Caixa de diálogo para a determinação do alfa de Cronbach no SPSS
Fonte: Elaborada pela autora.
#PraCegoVer: a imagem representa a tela de comandos intitulada Reliability Analysis.
Observamos as bases de dados; posteriormente, os ‘Itens’ e o botão ‘Estatísticas’. Logo
abaixo, há a opção ‘Modelo’, na qual está selecionado ‘Alfa’. Os botões seguintes são: ‘OK’,
‘Colar’, ‘Recon�gurar’, ‘Cancelar’ e ‘Ajuda’.
Em seguida, é preciso clicar em ‘Estatísticas’ e selecionar a opção ‘Escalar se item foi
excluído’, conforme pode ser observado a seguir.
Figura 4.10 - Caixa de diálogo para o cálculo do alfa ao se eliminar alguma variável no
SPSS
Fonte: Elaborada pela autora.
#PraCegoVer: a imagem representa a tela de comandos intitulada ‘Análise de
con�abilidade: estatísticas’. Depois, há a opção ‘Escalar se item for excluído’, que está
marcada. No campo ‘Omisso’, há o item ‘Excluir valores omissos para o usuário e do
sistema’. Logo abaixo, há os botões ‘Continuar’, ‘Cancelar’ e ‘Ajuda’.
Ao clicar em ‘Continuar’ e em ‘OK’, temos os resultados a seguir.
Figura 4.11 - Resultado do alfa de Cronbach no SPSS
Fonte: Elaborada pela autora.
#PraCegoVer: a imagem representa a tabela com os resultados do ‘alfa de Cronbach’ e do
‘número de itens’, com os valores 0,699 e 4 respectivamente.
Esses valores são obtidos diretamente da aplicação da fórmula do alfa de Cronbach.
Com os procedimentos demonstrados, é possível implementar a análise de
sobrevivência e realizar a análise do alfa de Cronbach de maneira rápida, simples e
intuitiva. Assim, teoria e prática podem caminhar juntas em estudos que requerem
esse tipo de procedimento estatístico.
Material
Complementar
W E B
Análise de sobrevivência | Nubank ML
Meetup.
Ano: 2019.
Comentário: nesse vídeo, você assistirá a uma palestra do
Nubank sobre análise de sobrevivência com o objetivo principal
de analisar o tempo até que o evento ocorra. A palestra evidencia
a teoria básica de análise de sobrevivência e acrescenta uma
modi�cação, que é o modelo de Cox para poder avaliar
problemas do Nubank como aprovar ou rejeitar a aplicação de
cartão de crédito e o tempo de pagamento em cobranças e, ao
mesmo tempo, comparar com formas tradicionais de
classi�cação.
Para assistir ao vídeo, acesse:
ACESSAR
https://www.youtube.com/watch?v=WZNmlT-arF0
L I V R O
Controle estatístico de qualidade
Autores: Enrico Antonio Colosimo e Suely Ruiz Giolo.
Editora: Blucher.
ISBN: 978-85-212-0384-1.
Comentário: nesse livro, são mostrados os conceitos iniciais,
técnicas não paramétricas e principais modelos probabilísticos e
de regressão usados em análise de sobrevivência. A obra
apresenta técnicas necessárias para usar métodos quantitativos
no contexto da saúde, por exemplo, e a possibilidade de
comparar grupos e de identi�car fatores de risco. Além disso,
aborda ser possível realizar estimativas e previsões com
métodos não tradicionais.
Conclusão
Neste material, foram abordados diferentes métodos para proceder à avaliação de
sobrevivência e à avaliação diagnóstica. Agora, você é capaz de identi�car o modelo
adequado para cada situação que encontrará na bioestatística, tendo visto como aplicar no
software SPSS ferramentas necessárias para tanto. Isso lhe garantirá um nível adicional de
praticidade ao lidar com esses temas no dia a dia; quando você se deparar com uma
variável dependente de natureza binária, portanto, poderá avaliar se deve usar uma
regressão logística ou outro método da mesma natureza.
Quando precisar mensurar o tempo de acompanhamento de pacientes que estejam sob
algum tratamento para o qual se avalie o uso de droga nova ou procedimento médico novo,
você aplicará as técnicas de análise de sobrevivência. Por �m, em nosso estudo, a
avaliação diagnóstica proporcionou uma análise mais criteriosa por meio de técnicas de
diagnóstico e suas especi�cidades.
Referências
ANÁLISE de sobrevivência | Nubank ML
Meetup. [S. l.: s. n.], 2019. 1 vídeo (20 min).
Publicado pelo canal Building Nubank.
Disponível em:
https://www.youtube.com/watch?v=WZNmlT-
arF0. Acesso em: 18 out. 2021.
BELLE, G. van et al. Bioestatiscs: a methodology
for the health sciences. 2. ed. Hoobokeen: John
Wiley & Sons, 2004.
Caro(a) estudante, a con�abilidade e a aceitação dos resultados obtidos pelos processos
de medição são muito relevantes no âmbito das questões metrológicas. Basicamente,
https://www.youtube.com/watch?v=WZNmlT-arF0
https://www.youtube.com/watch?v=WZNmlT-arF0
nenhum tipo de medição que possa ser realizada representa o verdadeiro valor mensurado.
Essa variação normalmente é explicada pelas limitações inerentes ao processo
dimensional, as quais limitam as quantidades de medições que podem ser realizadas,
assim como está associada aos efeitos das demais variações que possam estar
presentes.
BONAFINI, F. C. Estatística. Pearson, 2012. (Biblioteca Virtual da Laureate).
BUSSAB W. O.; MORETTIN, P. A. Estatística básica. 5. ed. São Paulo: Saraiva, 2005.
COLOSIMO, E. A.; GIOLO, S. R. Análise de sobrevivência aplicada. São Paulo: Blucher, 2006.
DEMARCHI, G. S. dos S. et al. Análise da consistência interna da versão em português da
Avaliação Cognitiva Dinâmica de Terapia Ocupacional para Crianças (DOTCA-Ch) em
estudantes de 06 a 12 anos. Cadernos Brasileiros de Terapia Ocupacional [on-line], [s. l.], v.
27, n. 3, p. 545-554, jul./set. 2019. Disponível em: https://doi.org/10.4322/2526-
8910.ctoAO1618. Acesso em: 18 out. 2021.
EXPORTANDO o banco de dados do Excel para o SPSS (aula 1 - parte 2). [S. l.: s. n.], 2017. 1
vídeo (8 min). Publicado pelo canal Fernanda Peres. Disponível em:
https://www.youtube.com/watch?v=bGwoYQeewv0. Acesso em: 18 out. 2021.
FÁVERO, L. P.; BELFIORE, P. Manual de análise de dados: estatística e modelagem
multivariada com Excel®, SPSS® e Stata®. Rio de Janeiro: Elsevier Brasil, 2017.
FIELD A. Descobrindo a estatística usando o SPSS. Porto Alegre: Artmed, 2009.
FONTELLES, M. J. Bioestatística aplicada à pesquisa experimental. São Paulo: Livraria da
Física, 2012. v. 1.
GALVÃO, M. H. R.; RONCALLI, A. G. Fatores associados a maior risco de ocorrência de óbito
por COVID-19: análise de sobrevivência com base em casos con�rmados. Revista
Brasileira de Epidemiologia [on-line], [s. l.], v. 23, p. e200106, 2020. Disponível em:
https://www.scielo.br/j/rbepid/a/WrTTwBdqgBhYmpBH7RX4HNC/abstract/?lang=pt.
Acesso em: 18 out. 2021.
PAGANO, M.; GAUVREAU, K. Princípios de bioestatística. São Paulo: Cengage Learning,
2010.
REGRESSÃO logística binária no SPSS (aula 13 - parte 1). [S. l.: s. n.], 2017. 1 vídeo (11
min). Publicado pelo canal Fernanda Peres. Disponível em:
https://doi.org/10.4322/2526-8910.ctoAO1618
https://doi.org/10.4322/2526-8910.ctoAO1618
https://www.youtube.com/watch?v=bGwoYQeewv0
https://www.scielo.br/j/rbepid/a/WrTTwBdqgBhYmpBH7RX4HNC/abstract/?lang=pt
https://www.youtube.com/watch?v=R0Ab_R2Vmrc&t=369s. Acesso em: 18 out. 2021.
RODRIGUES, M. A. S. Bioestatística. São Paulo: Pearson, 2014. (Biblioteca Virtual da
Laureate).
ROSNER, B. Fundamentals of biostatistics. 7. ed. Boston: Brooks/Cole; Cengage Learning,
2010.
VIEIRA, S. Bioestatística: tópicos avançados 4. ed. Rio de Janeiro: Elsevier, 2018.
https://www.youtube.com/watch?v=R0Ab_R2Vmrc&t=369s