BIOESTATÍSTICA (Apostila completa com exemplos) - Dados, variáveis, Medidas de tendência central e dispersão, Histograma, Curva de Gauss, Valor Z, Amostra, Testes diagnósticos e Hipóteses)

•

UNINOVE

11

0

11

0

7

Thauana Lessa

23/01/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Bioestatística I

12.414 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Dados & Variáveis 
Estatística é a ciência que fornece os princípios e os 
métodos para coleta, organização, resumo, análise e 
interpretação de informações. 
DADOS ESTATÍSTICO: é toda informação coletada e 
registrada que se refere a uma variável. 
AMOSTRA: Conjunto de dados coletados e qou 
selecionados de uma população estatística definida. 
AMOSTRAGEM: É o método de retirada/coleta de 
informações dos elementos amostrais. 
VARIÁVEIS 
As variáveis assumem valores diferentes em diferentes 
unidades. 
Variável Preditora: O fator que precede ao desfecho. 
Por exemplo -> Idade; Gênero; Atividade Física; 
Alimentação; Estresse; Tabagismo; Sedentarismo. 
 
Variável Desfecho: são variáveis que são 
monitorizadas durante um estudo para documentar o 
impacto que uma dada intervenção ou exposição tem 
na saúde de uma dada população. Exemplos típicos de 
desfechos são cura, piora clínica e mortalidade. O 
desfecho primário é a variável que é a mais relevante 
para responder à questão da pesquisa. 
Tipos de variáveis 
 
Qualitativas ou categorizadas 
• Os dados são distribuídos em categorias 
mutuamente exclusivas 
• Não se diferem em grau de importância 
• Descrevem características 
• Representadas por palavras (não numéricos) 
 
VARIÁVEL QUALITATIVA NOMINAL 
• A variável é nominal quando os dados são 
distribuídos em categorias mutuamente exclusivas 
nomeadas em qualquer ordem (SEM 
PREFERÊNCIA) 
• São variáveis nominais: cor de cabelos (loiro, 
castanho, preto, ruivo), tipo de sangue (O, A, B, 
AB), não ter ou ter determinada doença. 
 
VARIÁVEL QUALITATIVA ORDINAL 
• A variável é ordinal quando os dados são distribuídos 
em categorias mutuamente exclusivas que têm 
ordem natural. 
• São variáveis ordinais: escolaridade (primeiro grau, 
segundo grau, terceiro grau), classe social (A, B, C, 
D, E), gravidade de uma doença (leve, moderada, 
severa) etc. 
Quantitativa ou numérica 
Expressa por números 
VARIÁVEL QUANTITATIVA DISCRETA 
• A variável discreta só pode assumir alguns valores 
em dado intervalo. Quantidade finita ou enumerada. 
Números inteiros. 
• Utilizado em ESCALAS 
• São variáveis discretas: número de filhos (nenhum, 
1, 2, 3, 4, 5 ou mais), quantidade de visitas ao médico 
no último ano (zero, 1, 2, 3, 4 ou mais), número de 
pessoas na fila de espera de um serviço de saúde. 
 
VARIÁVEL QUANTITATIVA CONTÍNUA 
• A variável contínua assume qualquer valor em dado 
intervalo (pode ser um número inteiro ou não) 
• Não possuem finitude > imprecisão na detecção 
• São variáveis contínuas: peso, temperatura corporal, 
tempo, distância, pressão sanguínea. 
Medidas de Tendência Central 
e Medidas de Dispersão 
Medidas de Tendência Central 
MÉDIA 
A média (Me) é calculada somando-se todos os valores 
de um conjunto de dados e dividindo-se pelo número de 
elementos deste conjunto. 
Como a média é uma medida sensível aos valores da 
amostra, é mais adequada para situações em que os 
dados são distribuídos mais ou menos de forma 
uniforme, ou seja, valores sem grandes discrepâncias. 
 
MEDIANA 
A Mediana (Md) representa o valor central de um 
conjunto de dados ordenados. 
Para encontrar o valor da mediana é necessário colocar 
os valores em ordem crescente ou decrescente. 
Quando o número de dados é ímpar, existe um único 
valor na posição central. Esse valor é a mediana. Por 
exemplo, o conjunto de dados {3; 5; 9} tem mediana 5 
Quando o número de dados é par, existem dois valores 
na posição central. A mediana é a média desses dois 
valores. Por exemplo, o conjunto {3; 5; 7; 9} tem a 
mediana 6, porque 6 é a média de 5 e 7 
É recomendado quando o conjunto de dados apresenta 
um outlier (valor aberrante/discrepante). 
EX: Renda familiar mensal de pacientes que tiveram 
febre amarela (Reais): 
500 1.000 800 1.100 700 2.000 900 1.500 10.000.000 
Média: 1.112.055,56 reais/mês 
Mediana: 1.000 reais/mês > Representa melhor o grupo 
MODA 
A Moda (Mo) representa o valor mais frequente de um 
conjunto de dados, sendo assim, para defini-la basta 
observar a frequência com que os valores aparecem. 
Um conjunto de dados é chamado de bimodal quando 
apresenta duas modas, ou seja, dois valores são mais 
frequentes. 
 
Medidas de Dispersão 
São parâmetros estatísticos usados para determinar o 
grau de variabilidade dos dados de um conjunto de 
valores. 
A utilização desses parâmetros torna a análise de uma 
amostra mais confiável, visto que as variáveis de 
tendência central (média, mediana, moda) muitas vezes 
escondem a homogeneidade ou não dos dados. 
AMPLITUDE 
É definida como a diferença entre a maior e a menor 
observação de um conjunto de dados, isto é: 
A = Xmaior - Xmenor 
DESVIO PADRÃO 
O desvio padrão é uma medida de variabilidade que 
mede a dispersão dos dados e permite, por conta 
disso, interpretação de interesse. 
Para calcular o desvio padrão, é preciso, primeiro, 
calcular o desvio e a variância. 
→ Desvio 
 
→ Variância 
• Calcule o desvio de cada observação em relação à 
média; 
• Eleve cada desvio ao 
quadrado; 
• Some os quadrados 
dos desvios; 
• Divida o resultado por 
n-1 (n é o número de 
observações) 
Variância da amostra é a 
soma dos quadrados dos desvios de cada observação 
em relação à média, dividida por (n – 1) 
 
→ Desvio Padrão 
Desvio padrão é a raiz quadrada da variância, com 
sinal positivo. 
 
o Quanto maior o valor do Dp, maior é a dispersão 
dos dados da pesquisa (mais diferentes entre si). 
o Usamos o Dp quando foi calculada a Média 
 
QUARTIL 
Os quartis são pontos que dividem o conjunto de dados 
ordenados em quatro partes, de modo que cada parte 
contenha 25% dos dados. O primeiro quartil (Q1) ocupa 
a posição central entre a mediana e o dado de menor 
valor. O segundo quartil é a mediana do conjunto de 
dados. O terceiro quartil (Q3) ocupa a posição central 
entre a mediana e o dado de maior valor. 
Então, se um item está “no quartil superior”, significa 
que está entre os 25% de itens de maior valor. 
Organize os dados em ordem crescente. Encontre a 
mediana, que é o segundo quartil; marque esse valor; 
→ Número ímpar de dados 
Exemplo: 
Conjunto 1, 2, 3, 4, 5, 6, 7, 9, 10 é ímpar. 
Então, a mediana é o valor central dos dados 
ordenados, ou seja, 5. 
Para obter o primeiro quartil, separe os dados iguais 
ou menores do que a mediana. Primeiro quartil é a 
mediana do novo conjunto de dados, ou seja, 3. 
1, 2, 3, 4, 5. 
Para obter o terceiro quartil, separe os dados iguais ou 
maiores do que a mediana. Terceiro quartil é a 
mediana do novo conjunto de dados, ou seja, 7. 
5, 6, 7, 9, 10 
→ Número par de dados 
A mediana dos dados 0, 1, 2, 3, 4, 5, 5, 7, 9, 10 é a 
média dos dois valores que estão no centro dos dados 
ordenados, ou seja, 4,5. 
 0, 1, 2, 3, 4, 5, 6, 7, 9, 10. 
Para obter o primeiro quartil, separe os dados menores 
do que a mediana. O primeiro quartil é a mediana desse 
novo conjunto de dados, ou seja, 2. 
 0, 1, 2, 3, 4. 
Para obter o terceiro quartil, separe os dados maiores 
do que a mediana. O terceiro quartil é a mediana desse 
novo conjunto de dados, ou seja, 7. 
 5, 6, 7, 9, 10 
→ Distância Interquartílica 
3º quartil – 1º quartil 
Quadros, Tabelas e Gráficos 
TABELAS 
Formatação: título, cabeçalho, conteúdo, fonte e, se 
necessário, nota(s) explicativa(s). Mínimo possível de 
linhas na horizontal e as bordas laterais não podem ser 
fechadas. 
Conteúdo: O dado numérico se destaca como 
informação central (dados quantitativos). 
 Este sinal significa que o extremo inferior está 
incluído no intervalo, mas o superior não. Utilizado para 
variáveis quantitativas contínuas. 
QUADROS 
Formatação: título, cabeçalho, conteúdo, fonte e, se 
necessário, nota(s) explicativa(s). Terá suas laterais 
fechadas e sem limite de linhas horizontais. 
Conteúdo: Síntese de informações textuais (dados 
qualitativos).GRÁFICO BOX PLOT 
 
Distância Interquartílica = Q3 – Q1 = 100 – 65 = 35 
LS = 1,5 x Distância Interquartílica = +52,5 
LI = 1,5 x Distância Interquartílica = -52,5 
Outlier = ponto ou asterisco 
Histograma e Normalidade 
CURVA DE GAUSS 
o Curva simétrica 
o Maioria dos dados encontrados nas ciências da 
natureza seguem esta distribuição. 
o A média, a mediana e a moda coincidem e estão no 
centro da distribuição; a curva é simétrica em torno 
da média. Logo, 50% dos valores são iguais ou 
maiores do que a média e 50% dos valores são 
iguais ou menores do que a média; 
o Na maioria das vezes, se a variável é contínua, o 
histograma se assemelha à distribuição normal. 
 
TESTE DE NORMALIDADE 
o Toda vez que utilizamos um teste, só o fazemos 
testando hipóteses. 
o Para os testes de normalidade as hipóteses são: 
• H0 (hipótese nula): distribuição normal 
(p>0.05) 
• H1 (hipótese alternativa): distribuição não 
normal (p<0.05) 
 
→ Testes mais utilizados: Kolmogorov-Smirnov e 
Shapiro-Wilk 
 
Valor Z 
Mede a posição de um dado em relação à média (quão 
distante da média está). Distância em desvio padrão. 
Média = μ (mi) 
Desvio padrão = σ (sigma) 
→ Espera-se que 68% dos valores estarão dentro 
de 1 desvio padrão da média. E 95% dentro de 
2 desvios padrões. 
Valor Z é uma medida de posição que indica a área 
de distância que um valor se encontra a partir da média 
na escala horizontal do gráfico. 
O valor de média se torna ZERO (0) e todo desvio se 
torna UM (1). 
 
Na prática desejamos calcular probabilidades para 
diferentes valores de μ e σ. 
Para isso, a variável X cuja distribuição é N (μ, σ ) é 
transformada numa forma padronizada Z com 
distribuição N (0, 1 – distribuição normal padrão) pois 
tal distribuição é tabelada! 
A quantidade z é dada por: 
 
Exemplo: Qual é a 
probabilidade de a variável 
Z, que tem distribuição 
normal reduzida, assumir 
um valor entre zero e 1,25? 
 
A probabilidade de Z assumir um valor entre zero e 1,25 
corresponde à área escurecida no gráfico. 
Essa probabilidade é encontrada na Tabela. 
Para achar a probabilidade pedida: na primeira coluna 
da Tabela, procure o valor 1,2; encontrado o valor 1,2, 
siga na linha que começa com esse valor até a coluna 
que começa com 0,05.; no cruzamento de 1,2 com 0,05, 
você encontra 0,3944 (também está em 
negrito); 0,3944 é a probabilidade de Z assumir um 
valor entre zero e 1,25. Escrevemos: 𝑃(≤ 𝑍 ≤ 1,25) =
0,3944 
 
Exemplo: Qual é a 
probabilidade de a variável Z, 
que tem distribuição normal 
reduzida, assumir um valor 
igual ou maior que 1,25? 
 
A probabilidade de Z assumir valor igual ou maior que 
1,25 é a medida da área escurecida no gráfico. 
Então: a probabilidade de ocorrer valor entre zero e 
1,25, que corresponde à área com hachuras é: P (0 ≤ Z 
≤ 1,25) = 0,3944; a probabilidade de Z assumir valor 
maior ou igual à média zero é 0,5000; 
𝑃(𝑍 ≥ 0) = 0,5000 
Logo, a probabilidade de ocorrer valor maior ou igual a 
1,25 (área escura) é: 
𝑃(𝑍 ≥ 1,25) = 0,5000 − 0,3944 = 0,1056 
 
Exemplo: Qual é a 
probabilidade de a variável Z, 
que tem distribuição normal 
reduzida, assumir valor 
menor do que -0,51? 
 
A probabilidade pedida é a área escurecida no 
gráfico; como a curva é simétrica, a probabilidade de 
ocorrer valor igual ou menor do que -0,51 é igual à 
probabilidade de ocorrer valor igual ou maior que 0,51. 
 
A probabilidade é dada na Tabela; encontre a linha que 
começa com 0,5 e a siga, até achar a coluna que tem 
0,01 no cabeçalho. No cruzamento da linha que começa 
com 0,5 e da coluna que começa com 0,01, está 
0,1950, que corresponde à área com hachuras. 
Escrevemos: 
 𝑃(0 ≤ 𝑍 = 0,51) = 𝑃(−0,51 ≤ 𝑍 ≤ 0) = 0,1950 
 
A probabilidade de ocorrer valor menor ou igual a zero 
(a média) é 0,5000: 𝑃(𝑍 ≤ 0) = 0,5000 
 
 então, 𝑃(𝑍 ≤ −0,51) = 0,5000 − 0,1950 = 0,3050 
Amostra 
População (ou 
Universo) é o 
conjunto de 
unidades sobre 
o qual 
desejamos 
informação. 
Amostra é todo 
subconjunto de unidades retiradas da população para 
obter a informação desejada. 
MÉTODOS DE AMOSTRAGEM 
AMOSTRA PROBABILÍSTICA 
A amostra probabilística é constituída por unidades 
retiradas da população por procedimento casual ou 
aleatório. 
 
Amostra Casual Simples 
A amostra é obtida por sorteio 
 
 
Amostra Estratificada 
Se a população estiver naturalmente dividida em grupos 
distintos de pessoas, o pesquisador deve obter uma 
amostra aleatória estratificada. Para isso, agrupa as 
pessoas similares em estratos e obtém, de cada 
estrato, uma amostra casual simples proporcional ao 
tamanho do estrato, formando, então, uma só amostra. 
 
 
AMOSTRA SEMIPROBABILÍSTICA 
Usa-se o procedimento parcialmente aleatório. 
 
Amostra sistemática 
A amostra sistemática é constituída por unidades 
retiradas da população seguindo um sistema 
preestabelecido. Você ordena as unidades, numera e 
retira para a amostra a k-ésima unidade. O número k é 
obtido por sorteio. 
 
 
Amostra por conglomerados 
Conglomerados são grupos de unidades que já existem 
na população por alguma razão. Um asilo é um 
conglomerado de idosos; uma escola de ensino médio 
é um conglomerado de adolescentes; um hospital é um 
conglomerado de doentes, ou seja, locais com pessoas 
com características similares. Na amostragem por 
conglomerados, um conglomerado é selecionado ao 
acaso da população. 
 
 
Amostra por Quotas 
Na amostragem por quotas, as pessoas são 
selecionadas para a amostra porque têm uma 
característica bem específica. A ideia de quota é 
semelhante à de estrato, com uma diferença básica: a 
amostra estratificada é selecionada ao acaso da 
população, enquanto a amostra por quotas não é 
aleatória. 
 
 
NÃO PROBABILÍSTICA 
Conveniência 
A amostra não probabilística ou de conveniência é 
constituída por unidades reunidas em uma amostra 
simplesmente porque o pesquisador tem fácil acesso a 
essas unidades. O professor que toma os alunos de sua 
classe como amostra de toda a escola está usando uma 
amostra de conveniência. 
Testes Diagnósticos 
Padrão-ouro (gold standard) é a referência utilizada 
para confirmar a presença ou ausência da doença, 
sendo confirmada por diferentes clínicos. 
O médico precisa ter uma estimativa da probabilidade 
de erro dos testes diagnósticos, isto é, uma estimativa 
da probabilidade de obter um resultado positivo para 
quem não tem a doença e da probabilidade de um 
resultado negativo para quem tem a doença. 
Dizemos que o resultado do teste é: 
Verdadeiro-positivo (VP): quando detecta a doença 
em quem tem a doença. 
Falso-negativo (FN): quando não detecta a doença 
em quem tem a doença. 
Verdadeiro-negativo (VN): quando não detecta a 
doença em quem não tem a doença. 
Falso-positivo (FP): quando detecta a doença em 
quem não tem a doença. 
 
 
 
Sensibilidade (S) do teste: é a 
proporção de verdadeiros-positivos 
(resultados positivos corretos) no total 
de pessoas com a doença. 
Especificidade (E) do teste: é a proporção de 
verdadeiros-negativos (resultados 
negativos corretos) no total de pessoas 
sem a doença. 
Exemplo: Considere que um teste diagnóstico para 
detectar determinada doença foi aplicado em 1.000 
participantes de pesquisa: 400 tinham a doença e 
600 não tinham a doença. Os resultados do teste foram 
positivos em 380 doentes e negativos em 360 
participantes sem a doença. 
 
→ O teste é sensível, porque a probabilidade 
de dar resultado positivo quando a pessoa tem 
a doença é alta (acertou em 95% dos casos da 
amostra). Entretanto, o teste não é específico, 
porque a probabilidade de dar negativo em 
pessoas que não têm a doença é relativamente 
baixa (acertou em 60% dos controles da 
amostra). 
 
 
TESTE SENSÍVEL 
Se o teste é sensível, uma pessoa que não tem a 
doença pode receber a informação de que tem a 
doença. Escolha um teste sensível se: 
• A doença não puder ser negligenciada.Se a 
pessoa tiver a doença, o teste tem alta 
probabilidade de mostrar que a pessoa é 
doente. 
• For necessário detectar pessoas doentes na 
população. 
TESTE ESPECÍFICO 
A probabilidade de ocorrerem falsos-negativos é alta 
Escolha um teste específico se: 
• O diagnóstico da doença for traumático. Para a 
pessoa que não tem a doença, o teste indica 
isso com alta probabilidade. 
• Para fechar um diagnóstico. Se o resultado for 
negativo, a pessoa muito provavelmente não 
tem a doença. 
ACURÁCIA (A) 
É a proporção dos resultados corretos (tanto positivos 
como negativos) na amostra. 
A acurácia não é adequada para julgar um teste 
diagnóstico. Isso porque um valor alto de acurácia não 
diz se o teste tem maior probabilidade de detectar 
verdadeiros-positivos ou de detectar verdadeiros-
negativos. 
 
VALORES PREDITIVOS 
Na prática clínica, o que importa é o diagnóstico correto. 
Em outras palavras, o que interessa é saber a 
probabilidade de o paciente ter a doença, dado que o 
teste resultou positivo, e a probabilidade de o paciente 
não ter a doença, dado que o teste resultou negativo. 
→ Valores preditivos são muito úteis para os 
clínicos, mas têm a desvantagem de depender 
da prevalência da doença. 
Valor preditivo de um teste positivo (VPP): é a 
proporção de resultados positivos corretos no total de 
resultados positivos. 
 
Valor preditivo de um teste negativo (VPN): é a 
proporção de resultados negativos corretos no total de 
resultados negativos. 
 
Exemplo: Um teste diagnóstico para detectar 
determinada doença foi aplicado em 1.000 participantes 
de pesquisa: 400 tinham a doença e 600 não tinham a 
doença. Os resultados do teste foram positivos em 380 
dos casos e negativos em 360 dos controles. 
 
RAZÃO DE VEROSSIMILHANÇA 
Razão de verossimilhanças é a razão entre a 
probabilidade de resultados positivos nas pessoas que 
têm a doença e a probabilidade de resultados positivos 
em quem não tem a doença. 
A razão de verossimilhança pode ser vista como 
indicadora do valor do teste para aumentar a certeza 
sobre diagnósticos positivos. 
Se >1 = relacionado ao teste positivo (presença da 
doença). 
Se <1 = relacionado ao teste negativo (ausência da 
doença). 
 
Hipóteses 
Hipótese de nulidade [H0]: Geralmente afirma que 
não há diferença entre os grupos experimentais. 
Hipótese alternativa [H1]: Contradiz a nulidade 
 
Erro Tipo I: Rejeitou uma hipótese verdadeira 
Erro Tipo II: Aceitou uma hipótese falsa 
CLASSIFICAÇÃO DE HIPÓTESE 
Unilateral 
• Somente um aumento ou uma diminuição. 
Bilateral 
• Altera” 
TESTES ESTATÍSTICOS 
❖ p-valor (probabilidade) 
• Evidências para rejeitar hipótese de nulidade 
 
❖ Se p<0.05 
• Rejeitamos a H0 
• Estatisticamente significante 
Qual teste escolher? 
 
TESTE T-STUDENT 
Teste t Pareado 
• Compara média (dados paramétricos) de dois 
grupos 
• Antes e depois no mesmo grupo experimental 
• Recrutar voluntários aos pares (mesmas 
características) submetidos a tratamentos 
diferentes 
• Mãe e filho ou gêmeos 
Teste t não pareado 
• Compara média (dados paramétricos) de dois 
grupos diferentes 
• 2 grupos de pessoas com tratamentos 
diferentes (convencional x novo / convencional 
x placebo). 
• 2 grupos de indivíduos com características 
diferentes