Bioestatística e Epidemiologia Unidade 2 online

Epidemiologia e Bioestatística

•

UAM

Clara Conti

15/06/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 19 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 19 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 19 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Epidemiologia e Bioestatística

2.347 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

- -1
BIOESTATÍSTICA E EPIDEMIOLOGIA
UNIDADE 2 - ANÁLISE ESTATÍSTICA: 
EXIBINDO E COMPREENDENDO A VALIDADE 
DE DADOS
Autoria: Ana Paula Felizatti – Revisão técnica: Symara Rodrigues Antunes
- -2
Introdução
Você já sabe que a estatística pode ser aplicada em diversas
áreas do conhecimento, afinal, é comum vivenciarmos e vermos
informações no decorrer do dia que utilizam dados estatísticos.
Mas o que está por trás desses dados?
Saiba que temos diversos estudos, cálculos e testes. Esses testes
são importantes, pois auxiliam a responder hipóteses, e há
diversos tipos de testes. Todo estudo estatístico se inicia com
uma hipótese a ser comprovada ou refutada. Mas se há vários
tipos de testes, como definir qual o melhor para determinado conjunto de dados? Há diversos conceitos que nos
auxiliam, de acordo com os objetivos e tipos de estudos, assim como diferentes ferramentas para aplicação
desses testes.
Nesta unidade, vamos aprender os principais testes de hipóteses em bioestatística. Todavia, para compreendê-
los, devemos ver alguns conceitos essenciais, como qui-quadrado, análise de inferências, correlação, entre
outros, que permitem analisar os dados adequadamente, identificar os resultados e possíveis erros. Você sabia
que há tipos diferentes de erros? E em alguns estudos, o tipo de erro apresentado é muito importante para
definir se os dados são representativos ou não da realidade. Então, vamos lá, pois temos muitos conceitos para
serem estudados.
Bons estudos!
2.1 Compreendendo erros e testando hipóteses
Em estatística, a obtenção e análise dos dados é o ponto principal. Os dados podem ser apresentados de modo
descritivo – com estatística descritiva – considerando dados de parâmetros, como média ou desvio-padrão.
Todavia, para realizar afirmações acerca de dados obtidos em relação a uma população, ou seja, compreender a
real representatividade dos valores, deve-se utilizar outra área da estatística: a inferência estatística
(ANDRADE; OGLIARE, 2013).
A inferência estatística é utilizada para construir proposições, deduzindo informações a partir de dados
concretos fornecidos pela estatística descritiva. Um dos modelos mais utilizados em inferência estatística são os
testes de hipóteses (BUSSAB; MORETTIN, 2006). Vamos compreender melhor sobre eles a seguir.
2.1.1 Testes de hipóteses
Quando iniciamos uma análise estatística, temos uma hipótese para testar, como verdadeira ou falsa, em que há
uma pergunta a ser respondida. Para aceitar ou rejeitar uma hipótese, devemos submetê-la a um teste, chamado
de (BALDI; MOORE, 2014).teste de hipótese
O teste de hipótese é utilizado para avaliar duas declarações opostas sobre determinada população. Uma das
declarações é chamada de , enquanto a outra é chamada de . Ahipótese nula ( )H0 hipótese alternativa ( )H1
hipótese nula carrega o sinal de igualdade e indica usualmente “sem efeito”. Já a hipótese alternativa irá
contradizer a hipótese nula. Assim, aplica-se um teste de hipótese com regras específicas que avaliam o
comportamento das hipóteses nula e alternativa, definindo qual deve ser aceita ou rejeitada (LOPES ., 2014).et al
O teste de hipótese é aplicado após definição do intervalo de confiança, usualmente utilizado em 95%. Um dos
testes mais utilizados é o valor-p, que indica a probabilidade de ocorrência de valores extremos e médios (LOPES 
., 2014). Considere, então, que após a coleta de dados hipotéticos n amostral, previamente calculados eet al
- -3
testes mais utilizados é o valor-p, que indica a probabilidade de ocorrência de valores extremos e médios (LOPES 
., 2014). Considere, então, que após a coleta de dados hipotéticos n amostral, previamente calculados eet al
definidos, o valor-p foi calculado em 0,001. O que isso significa em relação às hipóteses, considerando o nível de
significância escolhido? Que a hipótese nula será rejeitada, e a hipótese alternativa passa a ser aceita, pois a
hipótese nula nos diz que não há nenhum efeito, ou seja, não há significância nos valores analisados. Todavia,
como obtivemos um valor de p menor que o nível de confiança, observamos que há uma diferença e, portanto, a
hipótese alternativa deve ser aceita.
Ao responder sobre a rejeição ou aceite da hipótese, podemos agir corretamente ou temos a possibilidade de
errar de duas maneiras (MOORE, 2005).
: afirmar que existe efeito, quando ela não existe.Primeira
: afirmar que não existe o efeito, quando existe.Segunda
Quando for verdadeira, e aceitamos como falsa – rejeitamos –, temos um erro do tipo I. Aqui, estamosH
0
rejeitando quando é verdadeiro. Quando for falso, e aceitamos como verdadeiro, temos um erro do tipo II.H
0
Aqui, estamos aceitando quando é falso. Observe, a seguir, um resumo desses conceitos.H
0
Figura 1 - Hipóteses e tipos de erros gerados
Fonte: Fonte: Elaborada pela autora, baseada em MOORE, 2005.
#PraCegoVer: imagem traz em uma primeira linha, as expressões: aceitar e rejeitar . Em uma segundaH
0
H
0
linha, as expressões: verdadeira; decisão correta; erro do tipo I. E na terceira linha, as expressões: falsa;H
0
H
0
erro do tipo II; decisão correta.
A probabilidade de cometer um erro do tipo I é denominada α, relacionada ao nível de significância escolhido
para o teste. Já a probabilidade de cometer um erro do II é dada por β, e indica qual as chances de se aceitar H
0
em casos em que é verdadeira (CALLEGARI-JACQUES, 2003).
Você quer ler?
Poder de teste e tamanho amostral
Ano: 2020
- -4
Há diversos testes estatísticos para testar as hipóteses. Vimos um exemplo, utilizando o valor-p, mas há outras
formas que dependem do tipo de conjunto amostral e sua distribuição. Agora, vamos tratar da distribuição
normal e dos principais testes utilizados.
2.1.2 Principais testes de hipóteses utilizados – distribuição normal
Um dos principais fatores que determinam a escolha de um teste é o tamanho amostral. Em amostras grandes,
com n > 30, podemos utilizar o teste de hipótese baseado na média, com o cálculo do valor Z (MOORE, 2015). O
valor Z é um indicativo do quanto um ponto está fora dos valores de desvio-padrão e média, ou seja, quão
distante ele está do esperado a partir de tais parâmetros estatísticos. Também chamado de escore-padrão, é
dado pela fórmula:
Onde: = média amostral, = média populacional, = desvio-padrão populacional, = número de elementos.n 
O valor Z é então comparado com tabelas estatísticas para diferentes níveis de confiança, em que a hipótese será
rejeitada ou não, se o valor estiver no limite estabelecido pelo intervalo de confiança (LOPES ., 2014;et al
BUSSAB; MORETTIN, 2006).
Mas, em muitos casos, em que o desvio-padrão não é conhecido, ou o número de elementos é menor, outro teste
é amplamente utilizado: o teste-t. Nele, a estatística de teste é baseada no cálculo da distribuição T- . Essestudent
teste também é utilizado para dados com distribuição normal (BUSSAB; MORETTIN, 2006). O cálculo é dado por:
Onde: = valor-t, = média amostral, = média populacional, = desvio-padrão amostral, = número det x n 
elementos.
Neste caso, devemos estabelecer valores críticos para t, para tomada de decisão sobre a hipótese. Assim, como
vimos anteriormente, definimos valores para o teste bilateral e unilateral, e definimos qual das hipóteses será
para . Para o teste ser bilateral, definimos como valor crítico os valores e . Para o teste unilateral àH
1
-t
α/2 
t
α/2
direita, o ponto crítico passa a ser , enquanto para o teste unilateral à esquerda o ponto crítico passa a ser - .t
α
t
α
Os valores de t em nível de confiança específico são obtidos nas tabelas de valor T, assim como observamos para
o valor Z, sendo encontradas facilmente em materiais de estatística (CAMPOS, 2000).
Observe as regiões correspondentes aos valores críticos de na distribuição normal.t
α
Ano: 2020
Autor: Sergio Miranda Freire
Comentário: para calcular o parâmetro estatístico β, relacionado ao erro do tipo II,
utilizam-se diversos parâmetros, como o nível de confiança, valor de Z crítico e
medidasda função da distribuição normal. É um cálculo importante para
compreender de modo mais avançado os erros do tipo II e reflete o poder de um teste
estatístico. No link a seguir, da obra , destaca-se o capítulo 15.9Bioestatística Básica
“Poder de teste e tamanho amostral”.
Acesse
http://www.lampada.uerj.br/arquivosdb/_book/testeHipotese.html#poder-de-um-teste-e-tamanho-amostral
- -5
Figura 2 - Valores críticos em curvas de distribuição normal
Fonte: Fonte: Elaborada pela autora, 2020.
#PraCegoVer: imagem traz três gráficos em formato de curva, que indica a distribuição normal. O da esquerda
tem como título região crítica: unilateral à direita; o do meio, região crítica: bilateral; e o da direita, região crítica:
unilateral à esquerda.
Portanto, após calcular t, observando os valores obtidos e comparando aos valores críticos, rejeitamos H
0
quando o valor-t calculado ultrapassar os valores críticos do teste escolhido (POCINHO; FIGUEIREDO, 2004;
PAGANO; GAUVREAU, 2006), ou seja, quando T > - em testes unilaterais à direita; quando T < em testest
α
t
α
unilaterais à esquerda; quando T > e T < em testes bilaterais.t
α/2 
t
-α/2 
É importante destacar que o uso conjunto dos testes de valor-t e valor-p são comuns e amplamente utilizados,
oferecendo maior confiabilidade aos resultados.
Teste seus conhecimentos
(Atividade não pontuada)
Até aqui, estudamos o cálculo de hipóteses em dados com distribuição normal. E quando os dados não forem
assim distribuídos? Acompanhe a seguir.
2.2 Testes paramétricos e não paramétricos
Agora que você já conhece alguns dos principais conceitos sobre testes de hipóteses, e introduzidos alguns testes
amplamente utilizados para análises de rejeição ou aceite de hipóteses, vamos aprofundar mais o conhecimento.
Há dois tipos principais de testes em estatística: os paramétricos e os não paramétricos (POCINHO; FIGUEIREDO,
- -6
Há dois tipos principais de testes em estatística: os paramétricos e os não paramétricos (POCINHO; FIGUEIREDO,
2004) O teste-t, por exemplo, é um exemplo de teste paramétrico (PAGANO; GAUVREAU, 2006).
E o que isso quer dizer? O termo “paramétrico” está relacionado a determinados parâmetros estatísticos: a
média e o desvio-padrão. Esses parâmetros refletem o comportamento da população e seu modo de distribuição
normal (MAGALHÃES; LIMA, 2005; PAGANO; GAUVREAU, 2006). Ou seja, os testes paramétricos são testes de
hipóteses que requerem o comportamento populacional devidamente caracterizado pelos parâmetros da média
e do desvio-padrão e uma distribuição normal. Já os testes não paramétricos não têm, necessariamente, essa
exigência. Assume-se que a distribuição do conjunto amostral é indefinida, sem o pressuposto da normalidade
(LOPES ., 2014; POCINHO; FIGUEIREDO, 2004). De acordo com Moore (2015), Pocinho e Figueiredo (2004),et al
dentre os testes paramétricos mais utilizados, destacam-se os testes-t e ANOVA. Vamos conhecer mais sobre eles.
Testes-t para uma ou duas amostras
Utilizados para comparar médias, resumem os valores do conjunto amostral em um valor de T, que é comparado
em uma tabela com níveis de confiança α. O teste-t para uma amostra também é chamado de teste-t pareado, e é
utilizado para comparar médias amostrais em relação ao valor determinado pela hipótese nula.
O teste-t para duas amostras envolve a coleta de dois grupos independentes. Assume-se na hipótese nula que
ambos os grupos são iguais, ou seja, a diferença entre eles é zero. A fórmula do cálculo passa a ser a diferença
entre as médias dos grupos e diferentemente do cálculo para uma amostra, desconsidera-se o tamanho amostral,
ficando:
Onde, = média amostral do grupo 1, = média amostral do grupo 2, = desvio-padrão amostral.s
ANOVA
O teste ANOVA é o teste de análise da variância, derivado do termo em inglês . Enquanto osanalisys f rianceo va
testes-t são utilizados para análise da diferença entre as médias de até dois grupos, as análises ANOVA podem
ser aplicadas para mais de três grupos independentes.
Utiliza-se o teste F para verificar a estatística das médias dos grupos de interesse. A estatística F nos diz sobre a
dispersão dos dados em relação à média, e é calculada pela razão entre duas variâncias, ou seja, o valor F é igual
à variação das medidas amostrais sobre a variação amostral.
Usualmente, a hipótese nula do teste F considera que as médias entre os grupamentos são iguais. A fórmula de F
é:
Onde = variância amostral da população 1, = desvio-padrão amostral da população 1, = variância
amostral da população 2, = desvio-padrão amostral da população 2.
Após o cálculo de F, utiliza-se a tabela Fisher-Snedecor para avaliar os valores para determinado intervalo de
confiança e verificar se a hipótese deverá ser aceita ou não.
- -7
Entre os testes não paramétricos, destacam-se: teste de Wilcoxon, Maan-Whitney e Kruskal-Wallis. Vamos
conhecê-los? Acompanhe.
• Teste de Wilcoxon para uma amostra
Método alternativo em situações em que o teste-t para uma amostra não pode ser aplicado. Informa
sobre a mediana, indicando se o valor é igual a um determinado valor numérico. Assim, a hipótese nula
considera que a mediana é igual a um valor θ
0,
 e as hipóteses alternativas consideram as condições de
diferença (maior, menor ou diferente).
• Teste de Mann-Whitney
Informa sobre a diferença entre grupos, ou seja, é uma alternativa ao teste-t para duas amostras, quando
não há informações sobre a distribuição. Pode ser aplicado em variáveis aleatórias, tanto numéricas
como categóricas, e indica se as distribuições de dois grupamentos são similares em termos de
localização da mediana. Aqui, define-se como hipótese nula que a diferença de localização entre as
medianas dos grupos testados é igual a zero.
• Kruskal-Wallis
É uma alternativa ao teste ANOVA, sendo utilizado para análise em estudos com mais de dois grupos. São
testadas as funções de distribuição dos grupos amostrais, assumindo-se como hipótese nula que todas as
funções de distribuição entre os grupos são iguais.
A escolha do teste adequado impacta diretamente na qualidade dos resultados obtidos. Considerando grupos
com distribuição normal, com dados simétricos e parâmetros de média e desvio-padrão, deve-se utilizar os teste-
t ou ANOVA, na maioria dos casos (PAGANO; GAUVREAU, 2006).
Teste seus conhecimentos
(Atividade não pontuada)
Até aqui, nos aprofundamos nos testes de hipóteses e os conceitos de testes paramétricos ou não paramétricos.
Agora, vamos passar para um teste em específico: o qui-quadrado.
Você quer ver?
O cálculo da ANOVA é essencial em bioestatísica. Em Estatística e Probabilidade -
 ( ) (2018) é possível rever conceitos importantes eAnálise de Variância ANOVA
aprender como aplicá-los corretamente para construção de uma análise ANOVA.
Acesse
•
•
•
https://www.youtube.com/watch?v=1ceP2FL5fzE&ab_channel=UNIVESP
- -8
2.3 Qui-quadrado e análise de correlação
Em estatística aplicada a estudos biológicos é comum que as hipóteses estejam relacionadas a frequências de
eventos ou como diferentes amostras se relacionam entre si. Nesse contexto, é comum que se queira avaliar
diferentes amostras e grupos, mas muitas vezes não há disponíveis os parâmetros de média ou desvio-padrão.
Por isso, há um teste não paramétrico amplamente utilizado em bioestatística: . Adicionalmente,qui-quadrado
temos uma ferramenta muito importante, chamada de , que permite a identificação dos feitos decorrelação
interação das variáveis estudadas. Vamos aprender sobre esses testes? Acompanhe.
2.3.1 Qui-quadrado
O teste qui-quadrado é um teste de hipótese do tipo não paramétrico. Sua principal característica é estabelecer
um comparativo entre proporções, proporcionando uma análise de diferenças entre frequências observadas e
esperadas (BALDI; MOORE, 2014; ANDRADE; OGLIARE, 2013).
O objetivo é determinar os valores de dispersão entre amostras com variáveis categóricas nominais e indicar
uma possível relação com variáveis numéricas. Para exemplificar, podemos relacionar a frequência que um geneestá descrito em uma população, e a relação com a quantificação de um fenótipo observado. De fato, a análise de
qui-quadrado é um teste muito utilizado em análises genéticas.
De modo geral, o teste serve para comparar frequências e proporções. (BUSSAB; MORETTIN, 2006). Apesar de
ser um teste não paramétrico, é condicionado a algumas exigências (BALDI; MOORE, 2014):
os grupos testados devem ser independentes e seus itens devem ser escolhidos aleatoriamente;
os eventos observados devem ser quantificados em termos de frequência ou contagem;
o n amostral não deve ser demasiadamente pequeno;
e, por fim, cada item de observação/evento deve estar relacionado a uma única categoria.
Inicialmente, devemos avaliar possíveis diferenças entre proporções observadas e esperadas, por meio da
fórmula da média dos desvios:
Onde = frequência observada para a classe, = frequência esperada para a classe. Em seguida, calculamos o qui-o e
quadrado ( ):X²
Analisando a fórmula, podemos perceber que quando os desvios forem grandes, ou seja, quando as frequências
observadas e esperadas foram distantes entre si, o valor de X² será alto, e quando os desvios forem pequenos, e
as frequências observadas e esperadas forem próximas entre si, o valor de X² será pequeno (POCINHO;
FIGUEIREDO, 2004).
Usualmente, os dados de testes X² são apresentados em forma de tabela, 2x2 no caso de duas amostras, ou 2xn,
no caso de amostras. Veja um exemplo.n
- -9
Tabela 1 - Exemplo de tabela 2x2 utilizada em testes X²
Fonte: Fonte: MAIA; BEDAQUE; MELO, 2018, p. 72.
#PraCegoVer: imagem traz uma tabela com dois títulos: exposição e incidência da doença. Para cada título há
colunas com textos e representações de valores.
Assim como observamos para outros testes, o teste de X² possui valores tabelados para determinados níveis de
confiança, e para verificar se o valor obtido está nos limites críticos, deve-se consultar a tabela. Comparando os
valores, é possível estabelecer se as hipóteses, nula ou alternativa, serão rejeitadas ou aceitas. A denotação do
valor de X² sob nível crítico de confiança é X²c (POCINHO; FIGUEIREDO, 2004). O grau de liberdade também
deve ser considerado na avaliação do X² tabelado. Ele é calculado pela diferença entre o número de
determinações amostrais e o número de parâmetros estatísticos (MOORE, 2005).
Assim, considerando os valores de X² calculados e tabelados, vamos rejeitar a hipótese nula quando o valor de X²
for maior ou igual ao tabelado, e aceitar quando X² for menor (BALDI; MOORE, 2014).
2.3.2 Correlação
A correlação é uma métrica estatística para comparação entre duas variáveis, visando compreender se entre elas
há uma relação de dependência. É qualquer relação dentro de diversos conjuntos relacionais sobre duas
amostras que são dependentes entre si. A principal métrica de uma análise de correlação é o , que indica avalor r
força de uma correlação, ou seja, quão provável ela é. Ele varia entre -1 e 1, e é chamado de coeficiente de
 (BALDI; MOORE, 2014; BUSSAB; MORETTIN, 2006).correlação de Pearson
Você quer ver?
Os graus de liberdade são utilizados para análise das tabelas de valores dos testes. É
um conceito simples, mas muito importante. No vídeo Graus de liberdade em 1
(2020), há uma rápida explicação sobre o conceito.minuto 
Acesse
https://www.youtube.com/watch?v=RX-vvhCng48&ab_channel=ScimusEstat%C3%ADstica
- -10
Quando o valor da correlação é negativo, indica uma correlação inversa, do tipo negativa, ou seja, quando uma
das variáveis cresce, a outra diminui. Por outro lado, quando o valor é positivo, há uma correlação direta, a
variação das variáveis é no mesmo sentido (BALDI; MOORE, 2014). A fórmula para o cálculo do coeficiente r,
considerando as variáveis x e y, é:
Onde = covariância de x e y, = desvio-padrão de x, = desvio-padrão de y.cov
xy
s
x
s
y
Aqui temos um conceito novo: a . A covariância é uma variância conjunta entre as variáveis; é umacovariância
métrica que indica quão dependentes elas são entre si (ANDRADE; OGLIARE, 2013). É dada pela somatória da
variância:
Onde n = número de elementos amostrais, xi = valor da variável x na posição i, = média amostral de x, yi = valor
da variável y na posição i, = média amostral de y.
A representação da correlação é por meio de gráficos de dispersão, podendo ser de forma linear ou não linear.
Observe exemplos de diferentes gráficos de correlação, considerando diferentes valores de r. Atente-se para a
configuração da distribuição dos dados, e seu formato de distribuição. Lembre-se de que sempre haverá uma
variável representada no eixo x e outra no eixo y (BUSSAB; MORETTIN, 2006).
Figura 3 - Diferentes gráficos de dispersão para valores de r
Fonte: Adaptada de YasDeep, Shutterstock, 2020.
Você o conhece?
Karl Pearson foi um estatístico britânico, nascido em 1857, em Londres. Foi o criador
do primeiro departamento de estatística em uma universidade, e é considerado um
dos maiores contribuidores do desenvolvimento da estatística em diversas áreas do
conhecimento, incluindo estudos biológicos e epidemiológicos (SZWARCWALD;
CASTILHO, 1992).
- -11
#PraCegoVer: ilustração contendo cinco tipos de gráficos, em que os eixos x e y estão em branco e na área entre
eles há bolinhas vermelhas. Para cada gráfico, as bolinhas estão representadas de uma maneira. Abaixo dos
gráficos, uma seta azul com a palavra dependência e nas duas pontas a palavra forte.
Observando a imagem, podemos concluir que quanto mais próximo de 1 ou -1, mais linear serão os dados,
portanto eles indicarão uma forte dependência. No caso de r = 1, positiva, e no caso de r = -1, negativa. Porém,
quanto mais próximo de zero, mais fraca é a relação. De fato, quando r = 0, as variáveis são independentes.
Claramente, os dados de r devem ser avaliados como um todo, para que as relações possam ser generalizadas
corretamente em relação ao grupo amostral e à população geral (POCINHO; FIGUEIREDO, 2004).
A análise de correlação é uma das métricas mais utilizadas em bioestatística, pois, na ampla maioria dos estudos
clínicos, o objetivo é a comparação de duas variáveis e a relação entre elas. Agora que já concluímos essa etapa,
podemos avançar para outras métricas.
2.4 Intervalo de confiança e análises de sobrevivência: 
conceitos importantes em bioestatística
Um teste estatístico tem como principal objetivo responder uma hipótese. Vimos os principais testes de
hipóteses utilizados, e como você se atentou ao conteúdo, pôde perceber que há um parâmetro sempre citado: 
. Vimos que eles possuem valores usualmente padronizados, mas precisamosintervalos de confiança
compreender um pouco mais sobre eles. Além disso, em bioestatística, há outras ferramentas que utilizam os
conceitos anteriormente vistos, como análises de sobrevivência e como interpretar os dados em relação ao todo,
ou seja, como de fato concluir que os dados obtidos ou apresentados são representativos da realidade (LOPES et
., 2014).al
Caso
O estudo do pesquisador Robert Matthews chama a atenção para um dado muito interessante: o autor
afirma ser capaz de provar estatisticamente que as cegonhas entregam bebês. Para tanto, ele coletou
dados sobre a taxa de nascimento de bebês, o número de pares de cegonhas, a área do local e o número
de habitantes, em 17 países. Após os testes estatísticos de hipóteses (T- ), o autor chegou osstudent
valores de p = 0,008, e de r = 0,62, afirmando que, estatisticamente, há uma probabilidade de 99.2% de
cegonhas realmente entregarem bebês. Claramente, os dados não são condizentes com a realidade, e
todos sabemos que os bebês não chegam pelas cegonhas. Mas o autor quis destacar que muitas vezes
os estudos analisam variáveis como se tivessem correlação, quando de fato não tem. Por isso, o
planejamento experimental e a correta seleção de variáveis e efeitos são tão importantes, pois os
parâmetros estatísticos podem afirmar situações que não podem ser generalizadas para a realidade. O
minucioso processo analítico e lógico é essencial. No estudo citado, a taxa de natalidadeera de fato
maior em regiões onde as cegonhas eram mais frequentes, mas o motivo é que em regiões rurais, há
um maior número de pássaros de modo geral, e uma maior cultura de múltiplas gestações
(MATTHEWS, 2001).
- -12
2.4.1 Aprofundando o conceito de confiança
Um intervalo de confiança (IC) inclui um grupo de valores estimados em relação aos parâmetros de estudo
envolvendo uma população. Assim, não é apenas um valor considerado, mas um conjunto de valores aceitos
considerando um parâmetro populacional conhecido. Vimos que o símbolo de confiança é dado pela letra grega
α, variando entre 0 e 1, equivalente a 0% e 100%. Veja mais sobre o intervalo de confiança.
Intervalo
d e
confiança
O intervalo de confiança indica a probabilidade de ocorrência a partir de um coeficiente,
chamado de coeficiente de confiança, dado por 1 – α, considerando α ϵ (0,1) (MOORE, 2005).
O IC é utilizado parar indicar o nível de confiabilidade de um conjunto de dados estimados, e quanto menor o IC,
maior a confiabilidade daquela estimativa estar correta (PAGANO; GAUVREAU, 2006).
É importante identificar que o intervalo de confiança não indica a probabilidade de um valor estar contido em
um intervalo, e sim a confiabilidade das estimativas obtidas para determinado parâmetro. O nível de confiança é
uma métrica associada à frequência de ocorrência de um parâmetro calculado e real durante a repetição de um
estudo, considerando amostras aleatórias de uma população. A análise e os testes de intervalo de confiança
também são métricas de inferência estatística (MAGALHÃES; LIMA, 2005).
O nível de confiança é definido pelo pesquisador, mas há algumas indicações em literatura para padrões a serem
seguidos. Em estudos de bioestatística, o IC mínimo é usualmente fixado em 95% (VIEIRA, 2008).A
representação e o cálculo de um intervalo de confiança são baseados na tabela de valores de testes, como
estatística Z ou T. Vamos exemplificar aqui o uso com a tabela Z, mas isso é válido para a estatística T (VIEIRA,
2008; LOPES ., 2014). O intervalo de confiança pode ser calculado em relação à estimativa de diferenteset al
parâmetros estatísticos, sendo os mais utilizados a estimativa da média e da proporção. O cálculo do IC para a
média é dado por:
O cálculo acima considera estudo hipotético de distribuição normal, com o objetivo de estimar o parâmetro da
média, quando é desconhecida, mas o desvio-padrão conhecido. A fórmula pode ser interpretada como a
probabilidade de obter um valor da população de distribuição normal, considerando os parâmetros de média e
desvio-padrão N ( , ), e este valor pertencer ao intervalo é igual a 1- %. Observe a
figura a seguir, com as indicações dos valores que compõem o intervalo de confiança em uma distribuição
normal padrão.
- -13
Figura 4 - Gráfico de frequência versus valor de Z crítico
Fonte: Fonte: FREIRE, 2020.
#PraCegoVer: imagem traz um gráfico em formato de curva, em que nas duas extremidades há áreas em
destaque, na cor laranja. O gráfico tem o título distribuição normal padrão.
Agora que aprofundamos nosso conhecimento sobre confiança e intervalo de confiança, vamos conhecer outra
ferramenta muito utilizada em bioestatística, que faz uso de diversos conceitos que exploramos até o momento.
Será uma ótima oportunidade de e aplicar o que já estudamos. Vamos lá!
2.4.2 Análises de sobrevida
Em bioestatística, um dos cálculos mais importantes em estudos clínicos é a análise de sobrevivência ou
sobrevida. De modo geral, trata-se de um teste da durabilidade de um evento até seu encerramento. Vamos
abordar a temática das análises de sobrevivência do ponto de vista biológico. Então, vamos iniciar com a
compreensão do conceito de sobrevida, usualmente confundido com o termo mortalidade. De acordo com
Ferreira e Patino (2016, p. 77),
o conceito errôneo de que mortalidade e sobrevida são intercambiáveis vem do uso leigo dos termos.
Porém, em bioestatística, sobrevida é um conceito derivado de um procedimento analítico específico,
enquanto mortalidade é uma variável de desfecho dicotômica geralmente comparada entre dois ou
mais grupos em um momento específico (por exemplo, em cinco anos). Sobrevida, por sua vez,
constitui uma variável que relaciona tempo e evento: ela mede o tempo entre o início da observação
até a ocorrência de um evento.
A análise da sobrevida tem o objetivo de relacionar o tempo decorrido e os efeitos em relação à durabilidade
- -14
A análise da sobrevida tem o objetivo de relacionar o tempo decorrido e os efeitos em relação à durabilidade
/atividade de determinada variável, ou seja, avaliar as relações entre as variáveis de interesse e seu tempo de
sobrevivência em relação a atividades ou riscos.
É obtida por técnicas de probabilidade condicional, considerando a probabilidade de sobrevivência até
determinado momento de tempo (t), para determinada variável que sofre alterações ao longo do tempo –
podendo ser um medicamento, um princípio ativo, um paciente acometido por patologias, entre outros
(FERREIRA; PATINO, 2016).
Dentre os principais conceitos de análises de sobrevivência, destacam-se: , tabela de sobrevida,Hazard Ratio
teste de Logrank e regressão de Cox (BUSTAMANTE-TEIXEIRA; FAERSTEIN; LATORRE, 2002).
HazardRatio
Utilizado para comparação entre grupos, utiliza a probabilidade da variável que não teve o evento estudado ter
em determinado momento. É uma medida de associação. Por exemplo, em um estudo sobre os efeitos de uma
patologia pulmonar, as chances de sobrevivência da população não fumante são dez vezes maiores comparada
com a população fumante. Assim, o seria calculado em 10, indicando um risco maior para osHazard Ratio
sujeitos fumantes.
Teste deLogrank
É um teste não paramétrico utilizado para comparar dados de distribuição das amostras, em análises
univariadas. Sua utilização é indicada quando há dados censurados, aqueles que ocorrem quando há informação
sobre o tempo de sobrevivência, mas não de modo exato, visto que a variável estudada não chegou ao evento de
interesse no tempo de análise. É amplamente utilizado em ensaios clínicos, em especial na análise da eficácia de
novos tratamentos.
Regressãode Cox
Assim como o teste de Logrank, é um teste de significância, com o objetivo de comparar grupamentos em
análises multivariadas. É utilizado para análise das taxas de falha, quando os grupamentos iniciais não são iguais
– em relação ao n amostral ou às características de interesse. É muito utilizado em ensaios com valor de n
pequeno ou em estudos que necessitam de ajustes em relação a covariáveis que também interferem na análise
de sobrevida.
Essas são as principais ferramentas para análise de sobrevida, cada qual com uma aplicabilidade de acordo com
o conjunto de dados e objetivo do estudo. A representação dos dados é usualmente feita por gráficos e tabelas.
As formas mais conhecidas de representação são as curvas de Kaplan-Meier.
As curvas de Kaplan-Meier são utilizadas para representar uma variável e seu efeito ao longo do tempo, ou seja,
objetiva mostrar as alterações naquela população estudada, de modo visual, sob efeito temporal (VIEIRA, 2008).
- -15
Observe a figura representando um gráfico de Kaplan-Meier de um estudo envolvendo a sobrevida de pacientes
diagnosticados com câncer bucal. No eixo , temos a representação da frequência de óbitos para aquele grupo, ey
no eixo , o tempo em meses (MONTORO ., 2008).x et al
Figura 5 - Exemplo de gráfico de Kaplan-Meier
Fonte: Fonte: MONTORO ., 2008, p. 863.et al
Você sabia?
Que há uma relação entre os testes estatísticos clássicos e os utilizados para análises
de sobrevida? Por exemplo, os histogramas estão para as análises clássicas, assim
como as curvas de Kaplan-Meier estão para as análises de sobrevida. Outras relações
podem ser observadas no artigo Epidemiologia Explicada – análise de sobrevivência
(BOTELHO; SILVA; CRUZ, 2009). Confira: https://apurologia.pt/wp-content/uploads
/2018/10/epidem-explic.pdf. 
https://apurologia.pt/wp-content/uploads/2018/10/epidem-explic.pdf
https://apurologia.pt/wp-content/uploads/2018/10/epidem-explic.pdf- -16
#PraCegoVer: imagem traz um gráfico, em que há uma curva decrescente. No eixo vertical, há valores que
indicam frequência de sobrevivência, e no eixo horizontal, valores que indicam o tempo.
Os dados de sobrevivência também podem ser representados de outras formas, com gráficos de barras ou
dispersão, ou simplesmente em tabelas.
E com isso finalizamos nossa segunda unidade, em que pudemos aprender diversos conceitos e conhecer
ferramentas muito utilizadas em bioestatística.
Você quer ler?
Técnicas de Análises de Sobrevida
Ano: 2002
Autores: Maria Teresa Bustamante-Teixeira, Eduardo Faerstein e Maria do Rosário
Latorre
Comentário: o artigo traz um estudo de revisão abordando as principais ferramentas
e técnicas de análises de sobrevida, com diversos exemplos da prática em
bioestatística. Os autores discutem a aplicabilidade e vantagens de diversas técnicas.
Acesse
https://www.scielo.br/pdf/csp/v18n3/9287.pdf
- -17
Conclusão
Finalizamos nossa unidade sobre conceitos e ferramentas em bioestatística. Vimos conceitos sobre testes de
hipóteses, inferência, quando podemos confiar em dados representativos de grupos, intervalos de confiança e,
para finalizar, os testes de sobrevida.
Nesta unidade, você teve a oportunidade de:
• compreender os conceitos de hipótese nula e alternativa;
• compreender os principais testes estatísticos e quando rejeitar ou aceitar uma hipótese baseando-se nos 
valores de T, Z ou P;
• diferenciar e reconhecer quando aplicar testes paramétricos e não paramétricos;
• compreender o conceito de intervalo de confiança;
Vamos Praticar!
As análises de correlação são muito importantes em inferências estatísticas, tal como
os testes de hipóteses. Muitas vezes, vários testes são realizados para que os
resultados se tornem mais robustos e confiáveis, mais prováveis de serem
representativos da realidade. Em estudos de bioestatística, é comum que os
resultados sejam apresentados em termos de valor-p e de dados de correlação. Os
dados de correlação são representados pelo coeficiente de correlação de Pearson r, e
indicam relações entre duas variáveis. O estudo Correlação entre ansiedade e
 (SILVA; TUCCI, 2018) buscouconsumo de álcool em estudantes universitários
correlacionar o consumo de álcool com a presença de ansiedade em estudantes
universitários. Foram avaliados 42 estudantes de diferentes áreas, que relataram um
padrão de consumo alcoólico e presença de ansiedade. Após o procedimento
experimental inicial, obteve-se um coeficiente de correlação r = 0,63, em um intervalo
de confiança = 0,40 e 0,78, considerando α = 0,05.
SILVA, É. C.; TUCCI, A. M. Correlação entre ansiedade e consumo de álcool em 
estudantes universitários. : teoria e prática, São Paulo, v. 20, n. 2, p.Revista Psicologia
93-106, 2018. Disponível em: http://pepsic.bvsalud.org/pdf/ptp/v20n2
/pt_v20n2a04.pdf. Acesso em: 2 dez. 2020. 
Com base no estudo apresentado e nos dados obtidos:
a) Interprete o valor de r (0,63) em relação à classificação (positiva/negativa) e faça
um esboço do gráfico esperado de correlação para representar esse valor.
b) Reflita sobre a conclusão do estudo, identificando qual a hipótese nula e qual a
alternativa.
c) Responda: foi encontrada uma correlação entre o consumo de álcool e o nível de
ansiedade dos estudantes? Justifique sua resposta.
•
•
•
•
http://pepsic.bvsalud.org/pdf/ptp/v20n2/pt_v20n2a04.pdf
http://pepsic.bvsalud.org/pdf/ptp/v20n2/pt_v20n2a04.pdf
- -18
• compreender o conceito de intervalo de confiança;
• interpretar corretamente dados de probabilidade em relação à confiabilidade e concluir inferências e 
generalizações sobre populações;
• compreender os testes de sobrevida, seus principais conceitos e ferramentas.
Referências
ANDRADE, D. F; OGLIARI, P. J. Estatística para as ciências agrárias
: com noções de experimentação. Florianópolis: Editorae biológicas 
da UFSC, 2013.
BALDI, B.; MOORE, D. S. A prática da estatística nas ciências da
. 2. ed. Rio de Janeiro: LTC, 2014. E-Book.vida
BOTELHO, F.; SILVA, C., CRUZ, F. Epidemiologia explicada – Análise
de Sobrevivência. , Lisboa, v. 26, n. 4, p. 33-38, 2009. Acta Urológica
Disponível em: https://apurologia.pt/wp-content/uploads/2018/10
. Acesso em: 23 nov. 2020./epidem-explic.pdf
BUSSAB, W. O; MORETTIN, P. A. . 5. ed. São Paulo:Estatística Básica
Editora Saraiva, 2006.
BUSTAMANTE-TEIXEIRA, M. T.; FAERSTEIN, E.; LATORRE, M. do R. Técnicas de análise de sobrevida. Cad. Saúde
, Rio de Janeiro, v. 18, n. 3, p. 579-594, 2002. Disponível em: Pública https://www.scielo.br/pdf/csp/v18n3
. Acesso em: 2 dez. 2020./9287.pdf
CALLEGARI-JACQUES, S. M. : princípios e aplicações. Porto Alegre: Artmed, 2003.Bioestatística
CAMPOS, G. M. Tipos de variáveis. : Departamento de Odontologia Restauradora. In Estatística prática para
. Faculdade de Odontologia de Ribeirão Preto - Universidade de São Paulo, 2000.docentes e pós-graduandos
Disponível em: . Acesso em: 12.http://www.forp.usp.br/restauradora/gmc/gmc_livro/gmc_livro_cap02.html
nov. 2020.
ESTATÍSTICA e Probabilidade - Aula 14 - Análise de Variância (ANOVA). 2018. São Paulo. 1 vídeo (13 min 23 s).
Publicado no canal UNIVESP. Disponível em: https://www.youtube.com/watch?
. Acesso em: 23 nov. 2020.v=1ceP2FL5fzE&ab_channel=UNIVESP
FERREIRA, J. C.; PATINO, C. M. O que é análise de sobrevida e quando devo utilizá-la? , Brasília,J. Bras. Pneumol.
v. 42, n. 1, p. 77, 2016. Disponível em: https://www.scielo.br/pdf/jbpneu/v42n1/pt_1806-3713-jbpneu-42-01-
. Acesso em: 2 dez. 2020.00077.pdf
FREIRE, S. M. . Rio de Janeiro: UERJ, 2020. E-book. Disponível em: Bioestatística Básica http://www.lampada.
. Acesso em: 2 dez. 2020.uerj.br/arquivosdb/_book/bioestatisticaBasica.html
GRAUS de Liberdade em 1 minuto. 2020. Belo Horizonte. 1 vídeo (1 min 2 s). Publicado no canal Scimus
Estatística. Disponível em: https://www.youtube.com/watch?v=RX-vvhCng48&ab_channel=ScimusEstat%C3%
. Acesso em: 23 nov. 2020.ADstica
LOPES, B. . Bioestatísticas: conceitos fundamentais e aplicações práticas. , Rio deet al Rev. Bras. Oftalmol.
Janeiro, v. 73, n. 1, p. 16-22, fev. 2014. Disponível em: http://www.scielo.br/pdf/rbof/v73n1/0034-7280-rbof-
. Acesso em: 16 abr. 2020.73-01-0016.pdf
•
•
•
https://apurologia.pt/wp-content/uploads/2018/10/epidem-explic.pdf
https://apurologia.pt/wp-content/uploads/2018/10/epidem-explic.pdf
https://www.scielo.br/pdf/csp/v18n3/9287.pdf
https://www.scielo.br/pdf/csp/v18n3/9287.pdf
http://www.forp.usp.br/restauradora/gmc/gmc_livro/gmc_livro_cap02.html
https://www.youtube.com/watch?v=1ceP2FL5fzE&ab_channel=UNIVESP
https://www.youtube.com/watch?v=1ceP2FL5fzE&ab_channel=UNIVESP
https://www.scielo.br/pdf/jbpneu/v42n1/pt_1806-3713-jbpneu-42-01-00077.pdf
https://www.scielo.br/pdf/jbpneu/v42n1/pt_1806-3713-jbpneu-42-01-00077.pdf
http://www.lampada.uerj.br/arquivosdb/_book/bioestatisticaBasica.html
http://www.lampada.uerj.br/arquivosdb/_book/bioestatisticaBasica.html
https://www.youtube.com/watch?v=RX-vvhCng48&ab_channel=ScimusEstat%C3%ADstica
https://www.youtube.com/watch?v=RX-vvhCng48&ab_channel=ScimusEstat%C3%ADstica
http://www.scielo.br/pdf/rbof/v73n1/0034-7280-rbof-73-01-0016.pdf
http://www.scielo.br/pdf/rbof/v73n1/0034-7280-rbof-73-01-0016.pdf
- -19
MAIA, F. G. S. da S.; BEDAQUE, H. de P.; MELO, M. Y. S. Estudos de Coorte. : BEDAQUE, H. de P.; BEZERRA, E. L.In
M. (Orgs.). : uma abordagem prática da Medicina Baseada em Evidências. Natal: EditoraDescomplicando MBE
Caule de Papiro, p. 63-77, 2018. Disponível em: http://cauledepapiro.com.br/files
. Acesso em: 2 dez. 2020./08fcf3f89a1cefa768ef293b76a3a645add0d8f9.pdf
MAGALHÃES, M. N.; LIMA, A. C. P. de. . 6. ed. São Paulo: Edusp, 2005.Noções de probabilidade e estatística
MATTHEW R. Storks Deliver Babies ( = 0.008). , Brisbane, v. 22, p. 36-38, 2001. Disponívelp Teaching Statistics
em: . Acesso em: 2 dez.https://www.researchgate.net/publication/227763292_Storks_Deliver_Babies_p_0008
2020.
MONTORO, J. R. de M. C. . Fatores prognósticos no carcinoma espinocelular de cavidade oral. et al Rev. Bras., São Paulo, v. 74, n. 6, p. 861-866, 2008. Disponível em: Otorrinolaringol. https://www.scielo.br/pdf/rboto
. Acesso em: 2 dez. 2020./v74n6/v74n6a08.pdf
MOORE, D. S. . 3. ed. Rio de Janeiro: LTC, 2005.A estatística básica e sua prática
PAGANO, M.; GAUVREAU, K. . 2. ed. São Paulo: Thomson, 2006.Princípios de Bioestatística
POCINHO, M., FIGUEIREDO, J. P. . Coimbra: Madeira, 2004.Estatística e Bioestatística
PORTAL ACTION. Erros cometidos nos testes de hipóteses. , São Carlos, 2020. Disponível em: Portal Action
. Acesso em: 23 nov. 2020.portalaction.com.br/inferencia/511-erros-cometidos-nos-testes-de-hipoteses
SILVA, É. C.; TUCCI, A. M. Correlação entre ansiedade e consumo de álcool em estudantes universitários. Revista
: teoria e prática, São Paulo, v. 20, n. 2, p. 93-106, 2018. Disponível em: Psicologia http://pepsic.bvsalud.org/pdf
. Acesso em: 2 dez. 2020./ptp/v20n2/pt_v20n2a04.pdf
SZWARCWALD, C. L.; CASTILHO, E. A. de. Os caminhos da estatística e suas incursões pela epidemiologia. Cad.
, Rio de Janeiro, v. 8, n. 1, p. 5-21, jan.-mar. 1992. Disponível em: Saúde Públ. https://www.scielo.br/pdf/csp
. Acesso em: 2 dez. 2020./v8n1/v8n1a02.pdf
VIEIRA, S. . 4. ed. Rio de Janeiro: Elsevier, 2008.Introdução à Bioestatística
http://cauledepapiro.com.br/files/08fcf3f89a1cefa768ef293b76a3a645add0d8f9.pdf
http://cauledepapiro.com.br/files/08fcf3f89a1cefa768ef293b76a3a645add0d8f9.pdf
https://www.researchgate.net/publication/227763292_Storks_Deliver_Babies_p_0008
https://www.scielo.br/pdf/rboto/v74n6/v74n6a08.pdf
https://www.scielo.br/pdf/rboto/v74n6/v74n6a08.pdf
http://portalaction.com.br/inferencia/511-erros-cometidos-nos-testes-de-hipoteses
http://pepsic.bvsalud.org/pdf/ptp/v20n2/pt_v20n2a04.pdf
http://pepsic.bvsalud.org/pdf/ptp/v20n2/pt_v20n2a04.pdf
https://www.scielo.br/pdf/csp/v8n1/v8n1a02.pdf
https://www.scielo.br/pdf/csp/v8n1/v8n1a02.pdf
	Introdução
	2.1 Compreendendo erros e testando hipóteses
	2.1.1 Testes de hipóteses
	Você quer ler?
	2.1.2 Principais testes de hipóteses utilizados – distribuição normal
	Teste seus conhecimentos
	2.2 Testes paramétricos e não paramétricos
	Você quer ver?
	Teste de Wilcoxon para uma amostra
	Teste de Mann-Whitney
	Kruskal-Wallis
	Teste seus conhecimentos
	2.3 Qui-quadrado e análise de correlação
	2.3.1 Qui-quadrado
	Você quer ver?
	2.3.2 Correlação
	Você o conhece?
	Caso
	2.4 Intervalo de confiança e análises de sobrevivência: conceitos importantes em bioestatística
	2.4.1 Aprofundando o conceito de confiança
	2.4.2 Análises de sobrevida
	Você sabia?
	Você quer ler?
	Vamos Praticar!
	Conclusão
	Referências