Conceitos Básicos de Bioestatística

•

FAMINAS-BH

3

0

3

0

Lívia Nascimento

20/08/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 110 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 110 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 110 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Bioestatistica Medica

125 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Bioestatística
1

Conceitos Básicos
Estatística
Ø Pessoa que cursou a matéria estatística;
Ø Resultado/ Número.

Conjunto de métodos destinados ao planejamento,
coleta, organização, resumo, análise e
interpretação dos dados de uma pesquisa.
- Ferramenta útil para uma tomada de decisão
(frente a uma incerteza).

População
Todos os elementos de um conjunto bem definido.
Não necessariamente são pessoas.
N: tamanho da população (número de elementos
total)

Amostra
Subconjunto de elementos da população definida.
Parte do todo que pegamos para analisar. Pegamos
uma parte para definir o todo.
n: tamanho da amostra (número de elementos
avaliados)

População X Amostra
O tamanho da amostra será sempre menor ou, no
máximo, igual ao tamanho da população.
Essa relação está relacionada ao objetivo da
pesquisa. A amostra deve parecer/ representar
com a população. Ou seja, se na população tem
fumantes e não fumantes, na amostra também
deve apresentar esses dois tipos.
Estudo populacional -> analisa TODOS os
elementos (CENSO)
Ø Vantagens: exatidão nas respostas para
aquele momento da pesquisa (ausência de
erro).
Ø Desvantagens: Muitas vezes é inviável, seja
por tempo, custo ou acesso aos elementos.

Estudo Amostral -> estuda uma amostra da
população
Ø Vantagens: menor tempo, menor custo,
viabiliza a pesquisa.
Ø Desvantagens: presença de erro amostral

Erro Amostral
Diferença entre o valor observado na amostra e o
verdadeiro valor na população.

Em estudos amostrais não é possível calcular qual
o erro amostral cometido, uma vez que o valor real
é desconhecido. Toda pesquisa tem, mas não é
possível calcular.
O erro amostral pode invalidar toda uma pesquisa.

Margem de Erro
Limite tolerável para o erro amostral. O quanto
você aceita que seu erro amostral atinja em sua
pesquisa.
Valor escolhido pelo pesquisador na fase de
PLANEJAMENTO da pesquisa, para cálculo do
tamanho da amostra.

Quanto mais pessoas você entrevistar, mais chance
você tem de ter pouco erro.
Quanto mais complexa é sua população (o fator de
estudo que tem muitos subgrupos), maior pode ser
seu erro amostral, pois fica mais difícil trazer uma
representatividade pra amostra.
Na margem de erro você escolhe e não leva em
conta a qualidade da pesquisa.
| Lívia Nascimento – FAMINAS BH 2/2020

Erro Amostral X Margem de Erro

Variável
Característica variável entre os elementos da
população que se tem interesse de avaliar. O
conjunto de varia1veis a serem avaliadas na amostra
depende do objetivo da pesquisa.
Ø Idade (anos completos)
Ø Altura (m)
Ø Salário
Ø Sexo
Ø Grau de instrução

Banco de Dados
Planilha organizada contendo os dados de todas as
variáveis, de todos os elementos da amostra.

Inferência
Conclusões feitas para uma população, retiradas a
partir de resultados de uma amostra.

Para que os resultados gerados através de uma
pesquisa tenham validade cientifica e possam ser
utilizadas para realizar inferências assertivas, e1
necessário que cada uma das fases do método
estatístico sejam cuidadosamente planejadas e
executadas.

Fases do Método Estatístico

| Lívia Nascimento – FAMINAS BH 2/2020

Bioestatística
1

Fases do método estatístico
1) Definição do problema/ objetivos
• O objetivo do estudo deve ser bem
definido.
• Qual a principal variável de interesse?
• Quais a variáveis secundarias?
• Qual a população alvo do estudo?

2) Planejamento da pesquisa
• Tipo de investigação
Observacional -> levantamento de dados
Experimental -> intervenção do
pesquisador.
• Tipo de estudo: populacional x amostral.
• Plano amostral:
Tipo de amostra -> representatividade da
população;
Tamanho da amostra -> calcular quantos
elementos vão participar; margem de erro.
• Ética: Comitê de Ética em Pesquisa
(pesquisas com ser vivo devem passar por
esse comitê).
• Termo de Consentimento Livre e
Esclarecido: documento breve que explica
pro participante quais são os riscos dessa
pesquisa.
3) Elaboração instrumento coleta de dados
• Qual será o tipo de instrumento de coleta
de dados?
Questionário -> entrevistador x auto-
preenchimento.
Formulário.
Muitas vezes os participantes tentam responder o
que é “certo”, e não a sua realidade. Por isso, deve-
se tentar diminuir o fator de constrangimento.
• Levantamento das variáveis de interesse e
das possíveis formas de obte2-las;
• Excluir variáveis desnecessárias!
• Instrumentos de mensuração?
• Pesquisa Bibliográfica
• Treinamento (padronização) de equipe e
de instrumentos de mensuração.
• Teste piloto. Aplicar esse questionário em
pessoas que não fazem parte da sua
população alvo/ pessoas que participarão da
pesquisa. Acontece antes da entrevista, para
testar se o questionário está coeso

DICAS
• Perguntas fechadas (múltipla escolha).
• Exaustivas -> abrangem todas as opções
possíveis de resposta (se necessário, incluir
opção “outros”).
• Mutuamente excludentes -> apenas uma
opção pode ser escolhida.
• IMPARCIALIDADE!!!
• Elaboração da pergunta
• Opções de resposta -> número de opções
positivas = número de opções negativas
• Perguntas quantitativas -> informar unidade
de medida.
• Evite perguntas que não abrangem toda a
ppulacao alvo. “Se SIM...”

4) Coleta de dados
• Treinamento de equipe e calibragem de
instrumentos de mensuração.
• Assegurar que os elementos são
selecionados de acordo com o plano
amostral.
• Evitar interferências que possam afetar
nos resultados da pesquisa.
• Preenchimento completo do
questionário/ formulário.
• Verificação de qualidade
(inconsistências).

| Lívia Nascimento – FAMINAS BH 2/2020

Bioestatística
1

Fases do método estatístico
4) Coleta de dados
• Evitar interferências que possam afetas nos
resultados de pesquisa
• Preenchimento completo do questionário
• Verificação de qualidade (inconsistências)

5) Banco de Dados
A codificação do questionário/formulário minimiza
e agiliza o processo de digitação das informações.
Para questões com única resposta, aplica-se um
código para cada opção:
Sexo
1- Feminino
2- Masculino
Cor do próximo carro
1- Preto
2- Branco
3- Prata
4- Outros

Para questões cm mais de uma opção de resposta,
trata-se cada opção como se fosse uma questão
separada, codificando cada uma como:
1 – sim ou 0 – não

Assinale as opções de lazer que desfrutou nos
últimos 3 meses.

6) Análise de dados
Fases de produção de resultados da pesquisa.
Trata-se do resumo das informações obtidas na
amostra
• Calculo de estatísticas descritivas
• Tabelas de frequências
• Gráficos
• Cruzamento de dados
Ajuste de modelos probabilísticos e testes de
hipóteses.

7) Conclusões e inferências
Qual era o objetivo da pesquisa?
Qual a resposta obtida?
Qual conclusão?
Quais as decisões a serem tomadas?

Amostragem

Processo ou técnica de escolha de amostra
adequada para analise de uma população.

Amostragem Probabilística: processo de selecionar
elementos de uma população bem definida que| Lívia Nascimento – FAMINAS BH 2/2020
atribui a cada elemento da população uma
probabilidade de inclusão na amostra calculável e
diferente de zero.
Tem um processo de sorteio e as probabilidades
de inclusão são calculadas.
Só essas são válidas cientificamente.

Amostras não-probabilísticas: não há aleatoriedade
(sorteio) para a escolha dos elementos da
população.

PLANO AMOSTRAL
Cálculo do tamanho da amostra (n), margem de
erro e definição das regras de seleção da amostra.

A descrição de um plano amostral probabilístico
deve especificar:
• O universo de investigação – população
alvo
• Os critérios de estratificação – quando for
o caso
• Os procedimentos de seleção e de
reposição das unidades amostrais – tipo de
amostra
• A margem de erro tolerável.

AMOSTRA ALEATÓRIA SIMPLES
Vai selecionar n elementos da população de tal
forma que cada elemento tenha a mesma chance
de ser escolhido
P = n/N
Limitação: lista/cadastro de todas os elementos da
população.
• Rifa;
• Loteria;
• Exame de sangue – todas as células do
sangue estão na carol, no exame de
sangue, qualquer uma das células tiveram a
mesma chance de serem capturadas.

AMOSTRA ALEATÓRIA ESTRATIFICADA
A população é dividida em estratos. Em seguida é
utilizada a AAS na seleção de uma amostra de cada
estrato.
Nesse você garante a representatividade de todos
os grupos sejam representados.
AAE é utilizada para garantir que cada um dos
estratos seja representados na amostra de forma
proporcional.
Exemplos:
• Sexo;
• Renda
• Bairro.

Nesse caso, a amostra é realizada separadamente
POR estrato, garantindo a representatividade de
todos eles.

Limitação: lista/cadastro de todas os elementos da
população.

| Lívia Nascimento – FAMINAS BH 2/2020
AMOSTRA ALEATÓRIA EM CONGLOMERADOS
Divide-se a população em um grande numero de
subpopulações – conglomerados – distintos.
Seleciona-se alguns conglomerados através de
AAS e todos os indivíduos destes conglomerados
são observados.
1 estágio.
Exemplos:
• Bairros;
• Escolas;
• Residências.

Neste caso, a população é dividida em
subpopulações e o elemento sorteado é o
conglomerado e não o individuo.

AMOSTRA ALEATÓRIA EM DOIS ESTÁGIOS
Nesse caso a população é dividida em
subpopulações como na AAC.
1º estagio: alguns aglomerados são escolhidos
usando a AAS.
1º estágio: alguns elementos são selecionados de
cada conglomerado – selecionado no primeiro
estagio – utilizando-se de AAS.
Pode ter mais de dois estágios, que continuam
chamando de AA2E.

AMOSTRA SISTEMÁTICA
Só 1 sorteio, sorteias o primeiro elemento.
Utilizada quando se tem disponível a relação
ordenada de todos os elementos da população.
Sorteia-se através de AAS um numero entre 1 e
(N/n). Este será o primeiro selecionado.
Os demais

Comum fazer quando tem uma lista ordenada, tipo,
uma lista com as matrículas.

TAMANHO DA AMOSTRA
Chamamos de erro amostral a diferença entre o
valor estimado para um parametro a partir dos
dados coletados em uma amostra e o verdadeiro
valor do parâmetro da população.

Parâmetro: característica da população. Por
exemplo: idade média, proporção de fumantes.

| Lívia Nascimento – FAMINAS BH 2/2020

FÓRMULA PARA CÁLCULO DO TAMANHO DA
AMOSTRA

Tamanho da amostra sempre arredonda para mais!

| Lívia Nascimento – FAMINAS BH 2/2020

Bioestatística
1

Estatística Descritiva
Conjunto de métodos utilizados para resumir
(descrever) bancos de dados.
Primeiro passo para compreensão dos resultados
em uma pesquisa.

Trata-se da construção de tabelas e gráficos, além
do calculo de medidas estáticas, como medias e
desvios, que resumem a informação.

TIPOS DE VARIÁVEIS
Quantitativas:
Ø Discretas: numero inteiros – numero de
filhos, de unidades de lote, de funcionários
de uma empresa.
Ø Contínuas: admitem decimais – peso, altura,
salario, idade.

Toda informação quantitativa pode se transformar
em qualitativa, já o contrario não é possível.

Qualitativas ou Categóricas: não indica grandeza,
não é maior ou melhor.
Ø Ordinais: existe uma ordenação – grau de
satisfação, escolaridade e faixa-etária.
Faixa etária é qualitativa porque perdeu o
detalhamento, diferente da idade, que é quantitativa,
pois conseguimos saber o valor exato.

Ø Nominais: não apresenta ordem – sexo, cor,
bairro, ordem alfabética.

TABELAS DE FREQUÊNCIAS SIMPLES
Titulo: conteúdo da tabela.
Fonte: deve sempre descrever a origem dos
dados – dados fictícios, fonte IBGE + endereço do
site + data de acesso.
Variável X: é apresentada na primeira coluna.
Fi: frequência absoluta, é o numero de casos na
categoria “i” da variável x.
N = tamanho da amostra -> observação: a soma
das frequências de todas as categorias da variável
x deve ser no tamanho da amostra (total de
informações coletadas)
Frequência relativa: é a proporção, em
porcentagem, de casos na categoria “i” da variável
X.
Ø Calculada na forma: frequência
total/tamanho da amostra x 100.

Gráfico de pizza só pode ser usado quando as
somas das fatias dão 100%.

| Lívia Nascimento – FAMED XVI/2

Porcentagem facilita a compreensão daquele
resultado.

Percentual é calculado a partir do grupo,
Nenhum gráfico é mais certo que o outro,
depende das informações que você quer
comparar.

Representação de variáveis quantitativas.

| Lívia Nascimento – FAMED XVI/2

BOXPLOT – cruza a variável quantitativa com a
categórica – comum na área da saúde.

| Lívia Nascimento – FAMED XVI/2

Bioestatística
1

Medidas de Tendência Central e de Posição
Exclusiva para medidas quantitativas; servem para
resumir um conjunto de dados.

MEDIDAS DE TENDÊCIA CENTRAL
Existe a tendência de valores observados em uma
amostra se agruparem em torno de valores
centrais.

MÉDIA
É a soma de todos os dados dividido pelo tamanho
da amostra.

A média não representa o individuo, mas sim se
todos fossem iguais.
Ø Em caso de variáveis quantitativas discretas
(números inteiros) -> não se arredonda o
valor, mas serve para compreender o valor.
Ø Podemos usar apenas 1 casa decimal, por
exemplo, em numero de filhos.
MÉDIA para DADOS AGRUPADOS:
É a soma de todos os dados divididos pelo tamanho
da amostra.

Salário médio = R$ 1.814,29/ funcionário

A media é sensível a valores extremos.
Ø Sempre utilizada com ressalvas, pois na
presença de outliers (extremo) é sensível,
e pode gerar uma informação equivocada
sobre o grupo.

MEDIANA
É o “valor do meio” de um conjunto de dados
ordenado.

| Lívia Nascimento – FAMED XVI/2
Seu conjunto de dados deve estar na ordem
crescente, caso o contrario, não conseguimos
retirar nenhum dado útil.

Se o valor da amostra (n) é impar: a mediana sera
o valor do elemento que ocupa a posição (n+1) /2

ENCONTRA-SE A POSIÇÃO DA MEDIANA, NÃO
O VALOR EM SI

50% dos alunos tem 21 anos ou menos, e 50% dos
alunos tem 21 anos ou mais.

Se o valor da amostra (n) é par: a mediana será a
media dos valores dos elementos que ocupam as
posições: n/2 + (n/2) +1.

A medianaserá o salario de 1500.

Mediana é menos sensível a esses outliers. Ou seja,
a presença de extremos não afeta muito a
mediana.

A média usa todos os valores que você coletou,
diferente da média.

MODA
É o valor mais frequente de um banco de dados.
Ø Se nenhum valor é o mais frequente que
os demais -> não tem moda.
Ø Se há empates: o conjunto de dados é dito
multimodal.

| Lívia Nascimento – FAMED XVI/2

SIMETRIA eu prefiro a média, pois usa todos os
dados;

ASSIMETRIA: prefiro a mediana, pois ela não é
afetada por esses valores extremos.

Media e medianas próximos: use a média
Media e mediana diferentes: use a mediana

QUARTIS
Os quartis são medidas de posição que dividem o
banco de dados em 4 partes, iguais em quantidade
de valores.

Encontra-se primeiro a mediana.

Ø 22% dos alunos tem 19 anos ou menos;
Ø 75% dos alunos tem 19 anos ou mais;
Ø 50% dos alnunso tem 23 anos ou menos;
Ø 50% dos alunos tem 23 anos ou mais;
Ø 75% dos alunos tem 25 anos ou menos;
Ø 25% dos alunos tem 25 anos ou mais.

CARACTERÍSTICAS:
Ø Em quantidade de valores; sempre é igual
Ø O tamanho da caixa varia pela diferença das
características dessas pessoas.
Ø Compara grupos;
Ø Mostra do menor para o maior;
Ø Mostra onde estão mais concentrados os
dados.
Ø Espalhamento ou variabilidade

É muito comum que os dados de artigos na área
médica serem apresentados dessa forma.

Endemia: quando a quantidade de casos ultrapassa
o terceiro quartil daquele mês.

| Lívia Nascimento – FAMED XVI/2

Bioestatística
1

Estatística Descritiva
Medidas de dispersão/ variabilidade: o conjunto de
dados tem uma variação grande ou pequena.

Medidas de tendência central são importantes, mas
sozinhas são incompletas.

Medidas de dispersão (variação) são medidas
estatísticas que informam sobre o grau de
variabilidade de um conjunto de dados.

AMPLITUDE TOTAL

DESVIO (d)
É a distância (diferença) de cada valor em relação
a media.

| Lívia Nascimento – FAMED XVI/2

DESVIO-PADRÃO
Pode ser interpretado como a media dos desvios
individuais.
O desvio padrão está na mesma unidade de
medida da variável em análise.

Não arredondamos esse valor.

| Lívia Nascimento – FAMED XVI/2

VARIÂNCIA
É o desvio-padrão ao quadrado, ou seja, a variância
é a media dos quadrados dos desvios individuais.
Esta medida é bastante citada na literatura e
também usada para cálculo de outras medidas
estatísticas.

FAIXAS DE REFERÊNCIA

As faixas de referência são criadas entre dois
desvios padrão para mais e dois desvios padrões
para menos.

PROPRIEDADE: DESVIO-PADRÃO

COEFICIENTE DE VARIAÇÃO
Grau de variação dos dados em relação à media.
| Lívia Nascimento – FAMED XVI/2

| Lívia Nascimento – FAMED XVI/2

Bioestatística
1

Teste de Hipóteses
Fazendo cálculos de probabilidade para verificação
de ocorrência de hipóteses.
Eu não posso afirmar nada sem ter um teste de
hipótese que comprove isso.

São métodos analíticos destinados a verificação
cientifica de uma hipótese acerca de um
parâmetro da população.

Comparações ou decisões tomadas com base em
pesquisas amostrais estão sempre sujeitas a erro
que podem ocorrer ao acaso independentemente
da qualidade técnica e primazia do planejamento da
pesquisa.

Comparação de dois grupos – o resultado
diferente não é apenas um acaso amostral, é um
resultado diferenciado.

Significativa à foi feito um teste estatístico que
comprove o estudo.

O que os testes estatísticos vão falar é se a
diferença que existe é dada apenas por um acaso
amostral ou uma diferença significativa.

DEFINIÇÃO DAS HIPÓTESES
H0: hipótese nula
Hipótese conservadora (assume igualdade entre os
grupos comparados);

H1: Hipótese alternativa
Hipótese que necessita de maiores evidencias para
ser considerada verdadeira (será sempre a
hipótese de diferença entre os grupos
comparados).

| Lívia Nascimento – FAMED XVI/2

A principio tudo é igual, só vou falar que existe
diferença se houver comprovação suficiente.

ERRO DE DECISÃO

Erro tipo 1: você decide, a partir da sua amostra,
rejeitar a hipótese nula (mas foi um acaso da
amostra).
Erro tipo 2: falar que os resultados são iguais,
quando na verdade são diferentes. Considera
menos grave à pois a ciência se desenvolve ,os
testes e pesquisas continuam sendo feitos.

CONTROLE DE ERRO

ESCOLHA DO TESTE
Para cada tipo de comparação que se deseja
realizar, em uma investigação cientifica, há uma
coleção de testes estatísticos disponíveis e em
desenvolvimento.

Na Teoria de Estatística Clássica, há dois grandes
grupos de testes estatísticos:
• Testes paramétricos;
• Testes não paramétricos.

TESTES PARAMÉTRICOS
Ø Possuem pressupostos – em geral, acerca
da forma de distribuição dos dados;
Ø São mais eficientes – capacidade de
perceber diferenças entre grupos // mais
sensíveis.

TESTES NÃO PARAMÉTRICOS
Ø Tem maior aplicabilidade – não consegui
verificar os pressupostos;
Ø Tem menor eficiência que seus
correspondentes paramétricos

DECISÃO
P – valor: probabilidade de significância (de cometer
o erro tipo I);
Probabilidade de errar ao rejeitar o H0.

P-valor: resultado que você obtém, probabilidade
de você errar se você rejeitar a hipótese nula.
Resultado da sua amostra (ou seja, não é
| Lívia Nascimento – FAMED XVI/2
padronizado). E aí você consegue decidir se você
vai rejeitar a hipótese nula ou não.

CONDUÇÃO DE TESTES DE HIPÓTESES
1. Definir as hipóteses do teste;
2. Definir o nível de confiança;
3. Escolha o teste adequado;
4. Cálculo do p-valor;
5. Conclusão do teste.

| Lívia Nascimento – FAMED XVI/2

Bioestatística
1

Risco Relativo e Razão das chances
Proporção: medida de frequência relativa;
É dada pela frequência absoluta de casos do
fenômeno de interesse sobre o total avaliado.

PORCENTAGEM

RAZÃO
Quociente entre duas medidas relacionadas entre
si. O denominador não inclui o numerador.
Numero de casos sobre o numero de não casos.
• Mede a forca da associação entre um
determinado fator de exposição e a
ocorrência da doença.

#b1 #6c #54#dff #19 #eb
| Lívia Nascimento – FAMED XVI/2

MEDIDAS DE EFEITOS
Resultados de pesquisas epidemiológicas são
frequentemente expressos por meio de medidas
de efeitos, tais como risco relativo ou razão de
chances.

RISCO OU CHANCE?
Criar tabela com os dados da pesquisa.

RISCO RELATIVO

RAZÃO DAS CHANCES

| Lívia Nascimento – FAMED XVI/2

Estudos de Coorte à
Estudos transversais de caso-controle à

RAZÃO DE PREVALÊNCIA
A razão de prevalências (RP) é usada em estudos
transversais de cálculo de prevalências.

| Lívia Nascimento – FAMEDXVI/2

INTERPRETAÇÃO DE RR, RC e RP

Estar exposto é um fator de proteção ao invés de
aumentar o risco à diminuem a chance de
ocorrência daquele evento.

INTERVALO DE CONFIANÇA (IC) para RR, RC e RP

| Lívia Nascimento – FAMED XVI/2

Camilla Magalhães - 2º Período – Etapa 2 – out e nov/2020

TRANSCRIÇÃO BIOESTATÍSTICA
Aula 13 – Correlação Linear
Aula online 06/11/2020

Análise de duas variáveis quantitativas, é para saber se tem alguma associação linear.
Não conseguir comparar grupos se tem variável categórica.
1) Quanto maior o tempo e experiência de profissão, maior o salário de uma pessoa. Quanto maior o
tempo de trabalho maior o salário (associação positiva).
2) Duas variáveis quantitativas, o tempo de espera para iniciar o tratamento, esse tempo influencia o
tempo de vida do paciente... e o tempo de espera tem vários motivos para acontecer (pode ser
devido ao SUS, ou o paciente negar que tem a doença... quanto maior o tempo de esperar menor a
sobrevida do paciente (associação negativa).

Se a natureza da associação for exponencial, quadrática, o que iremos estudar será associação linear, então
essas associações não entram.
Camilla Magalhães - 2º Período – Etapa 2 – out e nov/2020

Eixo X, coloca a variável que vai tentar explicar e dar resposta.

Gráfico com associação de altura x sapato. Cada pontinho é uma pessoa. Associação positiva (não quer dizer
nada, se é bom ou ruim), somente que altura está relacionada a número de sapatos. Os espaços vazios, tem
variabilidade, mas existe uma limitação dessa variabilidade. A medida em que a altura aumenta, o número
de sapato também aumenta, existe então uma relação.
Relação crescente: ler gráfico é da esquerda para direita.
Concentração diagonal das variáveis é que o devemos analisar.
Camilla Magalhães - 2º Período – Etapa 2 – out e nov/2020

Alunos da turma de mestrado, tempo de conclusão do primeiro curso de graduação, a concentração diagonal
é pequena. Consigo afirmar que não encontra pessoas com 25 ou 30 anos que terminaram curso de
graduação, existe uma associação mais fraca nesse exemplo em relação ao anterior. Será que a idade da
pessoa explica o tempo de conclusão do curso na graduação.
Quando um gráfico não tem nenhuma relação, nenhuma associação e não vê nenhuma diagonal, é subjetivo,
eu quero ver, mas o gráfico não mostra.

Correlação perfeita não acontece na área da saúde. Não tem variabilidade, e os pontos ficam em cima de
uma reta.
Correlação forte: exemplo tempo de experiência e salário, só que está pensando em um grupo bem
homogêneo, pode ser que tenha 3 pessoas que formaram juntas e tenham salários diferentes. Pode ter uma
pessoa que formou há 6 anos que ganha mais do que alguém que formou há 5 anos. Associação crescente,
quanto maior o tempo de experiência, maior o salário, pode ser vista também.
Correlação fraca: depende de vários fatores, se tem mais fatores que explicam a resposta, a variabilidade é
maior e por isso a correlação mais fraca.
Variável negativa é decrescente e positiva é crescente. E só mostra como a variável x está afetando a variável
y.
Camilla Magalhães - 2º Período – Etapa 2 – out e nov/2020

Cov: co-variância de x e y (calculada é a soma para todos os indivíduos, menos a média)
Cada indivíduo tem um par de informações, x é o tempo de serviço daquele indivíduo e y é o salário.

Média do X

Camilla Magalhães - 2º Período – Etapa 2 – out e nov/2020

Média do Y
Em relação a X, quem está abaixo da média recebe sinal negativo e quem está acima recebe positivo.

Camilla Magalhães - 2º Período – Etapa 2 – out e nov/2020

Cada indivíduo vai receber um sinal

Chamamos de primeiro, segundo, terceiro e quarto quadrante. Se cair no primeiro e quarto quadrante serão
negativos e segundo e terceiro positivo
Camilla Magalhães - 2º Período – Etapa 2 – out e nov/2020

Menos tempo de experiência, negativo, abaixo da média.
Quando estão em segundo e terceiro quadrante, covariância positiva. E primeiro e quarto quadrante,
covariância negativa.

Se não tiver associação vai dar zero.

Camilla Magalhães - 2º Período – Etapa 2 – out e nov/2020

Desvio padrão (sd), medida de variabilidade. Correlação é para analisar o sentido da associação, positiva,
negativa ou nula. Correlação r, vai dividir pelo sd, para saber se é forte ou fraca. " O sinal não tem a ver com
a força da associação”.

Não paramétrico: Menor capacidade de observar diferença significativa.

Exemplo: o tempo de experiência não vai influenciar no salário da pessoa (r=0), não tem correlação linear.
Camilla Magalhães - 2º Período – Etapa 2 – out e nov/2020

O programa estatístico além de calcular o r e p, traça essa reta, mas não é obrigatória ter a reta.
Olhar direto o p-valor para saber se tem correlação significativa ou não. Só interpreta o r se o p-valor for
significativo.
p-valor é uma probabilidade então multiplica por 100.
Nesse exemplo tem correlação positiva, então agora olha o r, é uma correlação, é moderada forte indicando
que quanto maior a idade, maior deverá ser o tempo de conclusão do curso de graduação.

Camilla Magalhães - 2º Período – Etapa 2 – out e nov/2020

No gráfico, renda que influência no gasto com alimentação.
p-valor 0,6% é menor que 5%, então tem correlação significativa positiva forte (acima de 0,8 é forte), quanto
maior a renda familiar, maior o gasto com alimentação.

A única diferença do segundo gráfico para o primeiro é que no segundo não tem o ponto superior direito
(mês dezembro).
Correlação significativa moderada fraca. Se tira mês de dezembro, ela é significava, mas passa a ser forte a
correlação.
A correlação é negativa, quanto maior o preço por unidade, menor a quantidade vendida, ou seja, quanto
mais caro, menos eu vendo.
Camilla Magalhães - 2º Período – Etapa 2 – out e nov/2020

Quando teve poucos casos por dia, também teve poucos óbitos no dia, e o contrário também.
Camilla Magalhães - 2º Período – Etapa 2 – out e nov/2020

1
Testes de Hipóteses
Aluna: Lívia Nascimento de Souza
Disciplina: Bioestatística
Medicina – 2o período – Turma 2

A. As hipóteses apresentadas pelo artigo 1 foram:
• Hipótese nula: proporção de fumantes mulheres é igual a proporção de
fumantes homens.
• Hipótese alternativa: proporção de fumantes mulheres é diferente da
proporção de fumantes homens.

B. P < 0,001 à Isso significa dizer que a probabilidade de erro ao afirmar que o
consumo de tabaco é diferente significativamente entre os dois gêneros é menor
que 0,1%.

C. Ao nível de 95% de confiança, concluiu-se que o tabagismo ocorreu mais em
homens (23,1% dos homens e 9,9% das mulheres), ou seja, houve diferença
significativa.

A. As hipóteses apresentadas pelo artigo 1 foram:
2
• Hipótese nula: a proporção de mulheres que consomem ansiolíticos é
igual a proporção de homens que consomem ansiolíticos;
• Hipótese alternativa: a proporção de mulheres que consomem
ansiolíticos é diferente da proporção de homens que consomem
ansiolíticos.

B. P = 0,038 à Isso significa dizer que a probabilidade de erro ao afirmar que o uso
de ansiolíticos é diferente significativamente entre os dois gêneros é de 3,8%.C. Ao nível de 95% de confiança, concluiu-se que o uso de ansiolíticos se mostrou
mais comum entre as mulheres, ou seja, houve diferença significativa.

A. As hipóteses apresentadas pelo artigo 1 foram:
• Hipótese nula: a proporção de mulheres que consomem remédios para
emagrecer é igual a proporção de homens que consomem esses mesmos
remédios;
• Hipótese alternativa: a proporção de mulheres que consomem remédios
para emagrecer é diferente da proporção de homens que consomem
esses remédios.

B. P = 0,150 à Isso significa dizer que a probabilidade de erro ao afirmar que o uso
de remédios para emagrecer é diferente significativamente entre os dois
gêneros é de 15%.

C. Ao nível de 95% de confiança tal estudo demonstrou que não há diferença
significativa entre o uso de remédios para emagrecer, proporcionalmente, por
homens e mulheres.

3

A. As hipóteses apresentadas pelo artigo 2 foram:
• Hipótese nula: a proporção de mulheres que apresentam diabetes é igual
a proporção de homens que apresentam essa doença;
• Hipótese alternativa: a proporção de mulheres que apresentam diabetes
é diferente da proporção de homens que apresentam essa doença.

B. P = 0,2196 à Isso significa dizer que a probabilidade de erro ao afirmar que a
prevalência de diabetes é diferente significativamente entre os dois gêneros é
de 21,96%.

C. Ao nível de 95% de confiança, tal estudo demonstrou que não há diferença
significativa em relação a prevalência da diabetes entre homens e mulheres.

A. As hipóteses apresentadas pelo artigo 2 foram:
• Hipótese nula: a proporção de idosos com diabetes que foram
hospitalizados é igual a proporção de idosos com diabetes que não foram
hospitalizados;
• Hipótese alternativa: a proporção de idosos diabéticos que foram
hospitalizados é diferente da proporção de idosos diabéticos que não
foram hospitalizados.

4
B. P = 0,0029 à Isso significa dizer que a probabilidade de erro ao afirmar que a
prevalência de diabetes em idosos é diferente significativamente entre aqueles
que foram hospitalizados ou não é de 0,29%.

C. Ao nível de 95% de confiança tal estudo demonstrou que há diferença
significativa em relação a prevalência de diabetes por ocorrência de
hospitalização, sendo que aqueles que foram hospitalizados apresentaram uma
maior proporção.

Os fatores sócio-demográficos que apresentaram significância estatística foram:
• Idade;
• Sexo;
• História familiar;
• Classe social.

Os fatores de risco para a dependência de álcool que apresentaram significância
estatística foram:
• Tabagismo;
• Consumo diário de chimarrão.
Exercícios – Medidas de Efeito
Aluna: Lívia Nascimento de Souza
Disciplina: Bioestatística

A prevalência de diabetes em paciente que apresentaram uma ou mais hospitalizações é 1,63
vezes maior em comparação com pacientes que não tiveram nenhuma hospitalização.

A. O fator que está significativamente associado à ocorrência de acidentes de trabalho é a
presença de horas extras, visto que seu IC é maior que 1.

B. Os trabalhadores que fazem hora extra apresentam 3,72 vezes mais chance de sofrerem
um acidente de trabalho do que aqueles funcionários que não fazem hora extra.

C. Sobre os fatores de proteção encontrados:

a. Sexo à nesse caso, os funcionários do sexo feminino apresentam 2,41 vezes
menos chances de sofrerem um acidente de trabalho do que os funcionários do
sexo masculino.
b. Uso de EPI à os funcionários que fazem uso do EPI apresentam 15,92 vezes
menos chances de sofrerem um acidente de trabalho do que os funcionários que
não utilizam esses equipamentos.
c. Equipe à os funcionários que fazem parte da equipe de produção apresentam
1,96 vezes menos chances de sofrerem um acidente de trabalho que os
funcionários que estão na equipe de montagem.

D. Por ordem de importância, algumas medidas podem ser tomadas para redução de
acidentes de trabalho nessa indústria:

1. Diminuição das horas extras;
2. Incentivar o uso do EPI por uma maior quantidade de funcionários;

A. A partir da interpretação da tabela, podemos aferir que o shampoo A tem 10,96 vezes
mais chances de apresentar mais brilho que o shampoo B.

B. Um erro de interpretação comum é achar que o resultado representa 10,96 vezes mais
brilho, enquanto que na realidade é 10,96 vezes MAIS CHANCE, ou seja, não é algo afirmativo,
de que com certeza, com o uso do shampoo, o cliente obterá mais brilho.

Apesar de a razão de chances ter permanecido a mesma, o tamanho da amostra é importante, pois
possibilita um maior grau de confiabilidade no estudo, pois diminui a margem de erro. Diante disso, pôde-
se perceber que o RC se manteve igual nos dois estudos, todavia, o IC (95%) se alterou drasticamente,
devido ao fato de a amostra do estudo 2 ser 10x menor que a amostra do estudo 1, de modo que o
intervalo de confiança ficasse maior. Assim, pôde-se perceber que, enquanto o estudo 1 é considerado
um fator significativo de risco, o estudo 2 é um fator não significativo.

Correlação Linear
Anna Carolina Lustosa Lima
MSc. Estatística – UFMG
Pergunta principal:
 O salário de um profissional está associado ao
seu tempo de profissão?
 O tempo entre diagnóstico e início do
tratamento está associado ao tempo de
sobrevida de um paciente de câncer de mama?
Duas Variáveis quantitativas
(X e Y) estão associadas?
Correlação Linear
Para avaliar a existência de associação linear
entre duas variáveis quantitativas,
primeiramente recorremos à construção de
um gráfico de dispersão.
Adequado apenas para
o cruzamento de duas
Variáveis Quantitativas
Gráficos de Dispersão
Escolhemos para o eixo Y do gráfico a
variável resposta, ou seja, aquela que
possivelmente é afetada pelo valor observado
na variável posicionada no eixo X, denominada
variável explicativa (covariável).
Gráficos de Dispersão
Gráficos de Dispersão
Gráficos de Dispersão
Gráficos de Dispersão
Cálculo do Coeficiente de
Correlação de Pearson
Cálculo do Coeficiente de
Correlação de Pearson
Cálculo do Coeficiente de
Correlação de Pearson
x
y
Cálculo do Coeficiente de
Correlação de Pearson
x
y
x
Cálculo do Coeficiente de
Correlação de Pearson
x
y
x
_
+_
+
Cálculo do Coeficiente de
Correlação de Pearson
x
y
y
++
_ _
Cálculo do Coeficiente de
Correlação de Pearson
x
y
y
x
Cálculo do Coeficiente de
Correlação de Pearson
x
y
y
x
_
+_
+
Cálculo do Coeficiente de
Correlação de Pearson
x
y
y
x
_
+
++
_ _
_
+
Cálculo do Coeficiente de
Correlação de Pearson
x
y
y
x
_
+
+
+
+
_ _
_
+
Cálculo do Coeficiente de
Correlação de Pearson
x
y
y
x
_
+
+
+
+
+_ _
_
+
Cálculo do Coeficiente de
Correlação de Pearson
x
y
y
x
_
+
+
+
+
+_ _
_
_
+
Cálculo do Coeficiente de
Correlação de Pearson
x
y
y
x
_
+
+
+
+
+_ _
_
_
_
+
Cálculo do Coeficiente de
Correlação de Pearson
x
y
y
x
+
+
_
_
Cálculo do Coeficiente de
Correlação de Pearson
x
y
y
x
_
_
+
+
Cálculo do Coeficiente de
Correlação de Pearson
x
y
y
x
+
+
_
_
/
/
/
/
Cálculo do Coeficiente de
Correlação de Pearson
x
y
y
x
+
+
_
_
/
/
/
/
Cálculo do Coeficiente de
Correlação de Pearson
x
y
y
x
+
+
Cálculo do Coeficiente de
Correlação de Pearson
x
y
y
x
+
+
Cálculo do Coeficiente de
Correlação de Pearson
x
y
y
x
+
+
Cálculo do Coeficiente de
Correlação de Pearson
x
y
y
x
_
_
Cálculo do Coeficiente de
Correlação de Pearson
x
y
y
x
_
_
Cálculo do Coeficiente de
Correlação de Pearson
x
y
y
x
_
_
Coeficiente de Correlação
O coeficiente de correlação, r (ou ), procura
mensurar a força e o sentido (+ ou -) da
associação entre duas variáveis quantitativas.0 0,2 0,4
Forte
Moderada
Forte
Moderada
Moderada
Fraca
Fraca Fraca
Moderada
Fraca
Moderada
Moderada
Forte
Forte
0,6 0,8 1,0-0,2-0,4-0,6-0,8-1,0
Ausência de
Correlação
Correlação
Positiva
Perfeita
Correlação
Negativa
Perfeita
Coeficiente de Correlação
0-0,2-0,4-0,6-0,8-1,0
Ausência de
Correlação
Correlação
Perfeita
Forte
Moderada
Forte
Moderada
Moderada
Fraca
Fraca
Ausência de
Correlação
Correlação
Perfeita
00,20,40,60,81,0
Escolha do Coeficiente
Paramétrico x Não-Paramétrico
Coeficiente de
Correlação de Pearson
Coeficiente de
Correlação de
Spearman
Usado apenas quando
ambas as variáveis
possuem distribuição
Normal
Não há restrição, porém
é menos eficiente.
Definição das Hipóteses
H0: r = 0 (ausência de correlação linear)
H1: r  0 (presença de correlação linear)
Definição das Hipóteses
H0: r = 0 (ausência de correlação linear)
H1: r  0 (correlação linear)
p-valor ≤ 0,05  correlação significativa
Definição das Hipóteses
H0: r = 0 (ausência de correlação linear)
H1: r  0 (correlação linear)
p-valor ≤ 0,05  correlação significativa
p-valor > 0,05  ausência de correlação
Coeficiente de Correlação
Coeficiente de Correlação
Coeficiente de Correlação
Exercício 1
Os dados ilustrados no
gráfico a seguir
correspondem à Renda
Familiar (X) e Gasto com
Alimentação (Y), para uma
amostra de 25 famílias.
Interprete o coeficiente
de correlação calculado.
Exercício 1
Os dados ilustrados no gráfico abaixo correspondem
à Renda Familiar (X) e Gasto com Alimentação (Y),
para uma amostra de 25 famílias.
Interprete o coeficiente de correlação calculado.
Renda Familiar
G
a
s
to
A
li
m
e
n
ta
ç
ã
o
200150100500
60
50
40
30
20
10
0
r = 0,954r = 0,954
p = 0,006
Exercício 1
Os dados ilustrados no gráfico abaixo correspondem
à Renda Familiar (X) e Gasto com Alimentação (Y),
para uma amostra de 25 famílias.
Interprete o coeficiente de correlação calculado.
Renda Familiar
G
a
s
to
A
li
m
e
n
ta
ç
ã
o
200150100500
60
50
40
30
20
10
0
r = 0,954r = 0,954
p = 0,006
Há correlação
significativa, positiva
forte indicando que
quanto maior a
Renda Familiar,
maior o Gasto com
Alimentação.
Exercício 2
Uma empresa está estudando
como varia a demanda de certo
produto em função de seu preço
de venda. Os gráficos a seguir
apresentam os preços praticados
e volume de vendas ao longo de
um ano. No segundo gráfico o
valor do mês de dezembro foi
omitido.
Exercício 2
Uma empresa está estudando como varia a demanda de certo produto
em função de seu preço de venda. Os gráficos a seguir apresentam os
preços praticados e volume de vendas ao longo de um ano. No segundo
gráfico o valor do mês de dezembro foi omitido.
Qual gráfico é mais adequado para estudar o volume de vendas
em função do preço do produto? Justifique e interprete r.
200190180170160
260
250
240
230
220
210
200
190
Preço/unidade(X)
U
n
id
a
d
e
s
V
e
n
d
id
a
s
(Y
)
Y = 307.6 - 0,5 X
r = -0,252
190185180175170165160
250
240
230
220
210
200
190
Preço/unidade(X)
U
n
id
a
d
e
s
V
e
n
d
id
a
s
(Y
)
Y = 564.9 - 2,0 X
r = -0,960r = -0,252 p = 0,050 r = -0,960 p = 0,003
Exercício 2
O segundo gráfico é melhor, pois retirando-se o mês atípico
de vendas de dezembro, é possível verificar correlação
significativa, negativa forte indicando que quanto maior o
Preço por unidade, menor o número de Unidades Vendidas.
200190180170160
260
250
240
230
220
210
200
190
Preço/unidade(X)
U
n
id
a
d
e
s
V
e
n
d
id
a
s
(Y
)
Y = 307.6 - 0,5 X
r = -0,252
190185180175170165160
250
240
230
220
210
200
190
Preço/unidade(X)
U
n
id
a
d
e
s
V
e
n
d
id
a
s
(Y
)
Y = 564.9 - 2,0 X
r = -0,960r = -0,252 p = 0,052 r = -0,960 p = 0,003
Exercício 3
Os dados ilustrados no gráfico a
seguir correspondem ao
número de casos de tuberculose
diagnosticados no Brasil (Y) por
ano (X). Interprete o coeficiente
de correlação calculado para
estas duas variáveis.
Exercício 3
Os dados ilustrados no gráfico a seguir correspondem ao
número de casos de tuberculose diagnosticados no Brasil (Y)
por ano (X). Interprete o coeficiente de correlação
calculado para estas duas variáveis.
20162014201220102008200620042002
6500
6000
5500
5000
4500
4000
Ano
T
u
b
e
rc
u
lo
se
r = -0,968 p-valor= 0,000
Exercício 3
Os dados ilustrados no gráfico a seguir correspondem ao
número de casos de tuberculose diagnosticados no Brasil (Y)
por ano (X). Interprete o coeficiente de correlação
calculado para estas duas variáveis.
20162014201220102008200620042002
6500
6000
5500
5000
4500
4000
Ano
T
u
b
e
rc
u
lo
se
r = -0,968 p-valor= 0,000
Há correlação negativa
forte indicando que com
o passar do tempo (Anos)
o número de casos de
Tuberculose no Brasil têm
reduzido
significativamente.
Exercício 4
Os dados ilustrados no gráfico a
seguir correspondem ao
número de Óbitos por COVID-
19, por número de Casos novos,
por dia, no Brasil. Interprete o
coeficiente de correlação linear
calculado para estas duas
variáveis.
Exercício 4
Os dados ilustrados no gráfico a seguir correspondem ao número
de óbitos por COVID-19, por número de casos novos, por dia, no
Brasil. Interprete o coeficiente de correlação linear
calculado para estas duas variáveis.
Há correlação
significativa, positiva
forte indicando que
quanto maior o número
de Casos Novos, maior o
Número Óbitos por
COVID-19, no Brasil.
Exercício 4
Os dados ilustrados no gráfico a seguir correspondem ao número
de óbitos por COVID-19, por número de casos novos, por dia, no
Brasil. Interprete o coeficiente de correlação linear
calculado para estas duas variáveis.
POR HOJE É SÓ!