Introdução à Bioestatística

•
FAMINAS-BH

Juliana Vieira
20/08/2021
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 29 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 29 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 29 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Bioestatística I

12.435 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
Bioestatística 
3º Período 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Juliana Vieira Queiroz Almeida 
2º Semestre 2018 
1 
 
Bioestatística 
2º Semestre 2018 
FAMINAS - Profª. Anna Carolina Lustosa 
Estudante: Juliana Vieira Queiroz Almeida 
 
Contato: annaufmg@hotmail.com (principal) 
 anna.lima@faminasbh.edu.br 
 
Introdução à estatística 
Estatística: conjunto de métodos destinados ao planejamento, coleta, organização, resumo, análise e 
interpretação dos dados de uma pesquisa. 
 - Na presença de incerteza, a estatística é uma ferramenta útil para tomada de decisão. 
 
 População X amostra 
População: Todos os elementos (não 
necessariamente pessoa) de um 
conjunto bem definido, ou seja, o que eu 
quero estudar; grupo de interesse. 
 - Ex: gestantes mineiras. 
Amostra: Subconjunto de elementos da 
população definida. 
 - Ex: gestantes mineiras de 15 a 17 anos. 
 - O ideal é que seja aleatória, mas há as 
amostras de conveniência que levam a 
tendenciosidade. 
 - O tamanho da amostra (n) será 
sempre menor ou, no máximo, igual ao tamanho da 
população (N). 
N: Tamanho da população (nº total de elementos). 
n: Tamanho da amostra (nº de elementos avaliado). 
 
Pesquisa populacional: quando se consegue pesquisar a população. 
Erro Amostral: diferença entre o valor observado na amostra e o verdadeiro valor na população. 
Exemplo: 85% (disseram que votarão em tal candidato)  resultado final de 84%  erro amostral de -1%. 
Não se sabe onde está o erro sempre, mas sabe-se que há erro. 
Margem de erro: costuma ser dado entre a amostra. Ex: 85% (disseram que votarão em tal candidato) ± 
2% (margem de erro)  resultado entre 83% e 87%. 
 - Qual margem de erro é aceitável nessa pesquisa?  se calcula o tamanho da amostra. Ou vice-versa. 
 
Variável: Característica variável entre os elementos da população, que se tem interesse de avaliar. 
 - O conjunto de variáveis a serem avaliadas na amostra depende do objetivo da pesquisa. 
 - Exemplos: Idade (anos completos); altura (m); salário (R$); sexo; grau de instrução. 
 
Interferência: conclusões feitas para uma população, retiradas a partir de resultados de uma amostra. 
 - Para que os resultados gerados através de uma pesquisa tenham validade científica e possam ser 
utilizados para realizar inferências assertivas, é necessário que cada uma das fases do método estatístico 
seja corretamente executada. 
 
 Fases do método estatístico 
1) Definição do problema/Objetivos 
 - O objetivo do estudo deve ser bem definido. 
 - Qual a principal variável de interesse? 
 - Quais as variáveis secundárias? 
 - Qual a população alvo do estudo? 
 
2) Planejamento da pesquisa 
 - Momento mais demorado de uma pesquisa, pensando nos problemas que podem ocorrer. 
mailto:annaufmg@hotmail.com
mailto:anna.lima@faminasbh.edu.br
2 
 
 - Tipo de Investigação: 
 # Observacional  Levantamento de dados. 
 # Experimental  Intervenção do pesquisador. 
 Por exemplo: equivalência de medicamentos. 
 - Tipo de estudo: Populacional x Amostral. 
 # Critério: é possível fazer em toda a população? Se sim, populacional; se não, amostral. 
 - Plano Amostral. 
 # Tipo de amostra  Representatividade da População. 
 De alunos da FAMINAS, de diferentes cursos e períodos. 
 # Tamanho da amostra  Robustez do Estudo. 
 Coopera para a margem de erro. 
 - Ética: se for uma pesquisa com seres vivos ou seres humanos tem-se critérios e documentos a serem 
organizados para que a pesquisa seja aprovada. 
 # Crie um ambiente para que a pessoa responda a verdade, não o que é certo. 
 # Se você procura um problema, você deve haver meios de solucionar esse. Caso você não tenha meios 
de atuar no problema, não faça a pesquisa pois ela gera frutos, consequências. 
 # Questionários de auto-preenchimento: não deve ser entregue ao indivíduo, talvez ele não saiba ler  
análise da população, da cultura, da classe social majoritária, entre outros. 
 - Termo de consentimento: qualquer pesquisa deve ser voluntária. 
 
3) Elaboração Instrumento Coleta de Dados 
 - Qual será o tipo de Instrumento de coleta de dados? 
 # Questionário  Entrevistador (devem ser treinados) x Auto-preenchimento. 
 # Formulário: não se pergunta peso e altura, se mede. 
 # Instrumento de Mensuração: balanças, por exemplo, deve passar pelo mesmo processo de calibração. 
 - Levantamento das Variáveis de interesse e das possíveis formas de obtê-las  Excluir variáveis 
desnecessárias. 
 - Pesquisa Bibliográfica: ajuda com o questionário, pode-se aproveitar muitas ciosas ou saber o que não 
fazer. 
 - Treinamento (padronização) de equipe e de instrumentos de mensuração: para padronização das 
perguntas. 
 - Teste Piloto: antes de começar as entrevistas com amostra e público alvo, se faz com pessoas de um 
ambiente que você convive para ver se as perguntas estão claras, com intenção de melhorar o 
questionário. 
 # Importante ter a opção “não quero ter carro”, por exemplo. 
 - Dicas para coleta de dados: 
 # Deve-se deixar claro quando se pode marcar mais de uma opção. 
 # Perguntas fechadas (múltipla escolha); exaustivas, abrangem todas as opções possíveis de resposta (se 
necessário, incluir a opção “outros”); mutuamente excludentes (apenas uma opção pode ser escolhida). 
 “-l” Significa inclusive. Exemplo: Idade: 20 -l 30  inclui o 30 nessa opção. Idade: 45 l-l 50  45 e 50 
inclusos. Se for com entrevistador, se treina esses. Se for para autopreenchimento, pode-se colocar 20 – 
29, 30 – 39, e assim por diante. 
 # Imparciais: elaboração da pergunta e opções de resposta, sendo o nº opções positivas igual ao nº de 
opções negativas. Pode-se colocar um quadro com “nunca”, “3 vezes por semana”, “todos os dias” e várias 
linhas de preenchimento. 
 # Perguntas quantitativas  Informar unidade de medida; Idade ____ anos completos; salário ____ R$; 
peso ____ g; peso _____ Kg. 
 # Evite perguntas que não abrangem toda a população alvo. “Se SIM...”. Coloque as opções de 
quantidade na mesma questão. Exemplo: você faz atividade física? “Não”; “Sim, 3 vezes por semana”; 
“Sim, 5 vezes por semana”. 
 
4) Coleta de dados 
 - Verificação de efetividade do Treinamento de equipe e de instrumentos de mensuração. 
3 
 
 - Assegurar que os elementos são selecionados de acordo com o plano amostral: IBGE faz com que o 
coordenador da região volte em 10% das casas conferindo as respostas. 
 - Evitar interferências que possam afetar nos resultados da pesquisa: evitar a mãe ou pai do lado 
dependendo da pergunta, criando um ambiente para respostas concretas. 
 - Preenchimento completo do questionário/formulário: prontuário muitas vezes não tem todas as 
informações, como por exemplo, tabagismo, alcoolismo – médico não anota –; muitas informações são 
retiradas para aproveitar as outras completas. 
 - Verificação de qualidade (inconsistências): é preciso corrigir, de modo que essa deve ser feita por quem 
teve contato com o entrevistado  muitas vezes a informação cai – é tirada do formulário –, de modo que 
se aumenta a margem de erro. 
 
5) Banco de dados 
 - A codificação do questionário/formulário minimiza e agiliza o processo de digitação das informações. 
 - Para questões com única opção de resposta, aplica-se um código para cada opção: 
 # Sexo: 1- Feminino; 2- Masculino. 
 # Para evitar erros por espaços ou caixa alta ou não, é melhor codificar e colocar apenas F ou M, evitando 
erros nos gráficos e na amostragem. 
 - Para questões com mais de uma 
opção de resposta, trata-se cada 
opção como se fosse uma questão 
separada, codificando cada uma 
como: “1-Sim” ou “0-Não”  gera um 
banco de dados como a tabela ao lado. 
 # Nome não é importante, dando se 
um número, um código, no lugar 
facilitando a correção. 
 # Assinale as opções de lazer que 
desfrutou nos últimos 3 meses: ( ) Clube; ( ) Parque Ecológico; ( ) Parque de Diversão; ( ) Cinema; ( ) 
Shopping; ( ) Viagem. 
 - Quadros 
 
6) Análise deDados 
 - É a fase de produção de resultados da pesquisa. 
 - Trata-se do resumo das informações obtidas na amostra. 
 # Cálculo de estatísticas descritivas. 
 # Tabelas de frequências. 
 # Gráficos. 
 # Cruzamento de dados. 
 # Ajuste de modelos: verificar se o tabagismo aumenta ou diminui a chance de desenvolver alguma 
outra doença. Probabilidade. 
 
7) Conclusões e Inferências 
 - Qual era o objetivo da pesquisa? 
 - Qual a resposta obtida? 
 - Qual conclusão? 
 - Quais as decisões a serem tomadas? 
 
Trabalho  realizar as fases do método estatístico 
Lembrar da ética, se você quer fazer sobre o nível de satisfação de um lugar, você deve entregar para o 
responsável do local do qual você está pesquisando e, antes da pesquisa, pedir a autorização para a 
realização dessa e se é possível fazer mudanças. 
Tema: Qualidade de lazer. 
Componentes: Ana Magalhães, Isadora, Juliana, Laryssa e Rayssa. 
Objetivo: O objetivo desta pesquisa é avaliar a qualidade do lazer dos estudantes de medicina do terceiro 
período, turma 2, da Faculdade de Minas - BH. 
4 
 
População-alvo: Estudantes de medicina da FAMINAS-BH que cursam o terceiro período na turma 2. 
Primeira versão do questionário com 10 a 15 perguntas (máximo). 
 
Amostragem 
Na amostragem aleatória, da população se seleciona, 
aleatoriamente, os indivíduos de modo que possa se ter 
uma estatística. 
Quando há interferência estatística, pela amostra se 
seleciona a população. Nessa se cumpre com a flexibilidade 
de população, por classe social, etnia, gênero, entre outros. 
 - Deve haver o sorteio para que todos tenham chance de ser selecionados. 
 
Amostra Aleatória Simples (AAS) 
Definição: Consiste na seleção de n elementos da população de tal forma que cada elemento tenha a 
mesma chance de ser escolhido. 
 - Cálculo por p = n / N. 
 - Neste caso, todos os elementos da população a têm a mesma chance de ser 
selecionado e, portanto, a amostra não consegue garantir a representatividade de 
sub-grupos. 
 # No caso de controle de qualidade do estacionamento, do banheiro, não importa o subgrupo, mas por 
exemplo, o controle do acervo da biblioteca, não seria possível, pois diferentes cursos têm acesso a 
diferentes acervos. 
Limitação: Lista e cadastro de todos os elementos da população. 
 - Exemplos: Rifa, loteria, exame de sangue, entre outros. 
 
 Amostra Aleatória Estratificada (AAE) 
Como ocorre: A população é dividida em estratos. Em seguida é utilizada a AAS 
na seleção de uma amostra de cada estrato. 
 - AAE é utilizada para garantir que cada um dos estratos seja representado na 
amostra de forma proporcional, pois se pega uma porcentagem equivalente 
à da população na amostra. Garante representatividade. 
 - Exemplos: Sexo, renda, bairro. 
 # Amostra estratificada de caixa ou lote de lâmpadas. Se pega 3, por 
exemplo, de cada caixa e testa. Caso essa funcione, se aceita o lote, caso 
contrário, se recusa. 
 - Também é usada para comparativo: “os efeitos colaterais são iguais em homens e mulheres?” “... alunos 
de medicina e direito?” 
 
 Amostra Aleatória por Conglomerados (AAC) 
Divide-se a população em um grande número de subpopulações 
(conglomerados) distintos. Seleciona-se alguns conglomerados através 
de AAS e todos os indivíduos destes conglomerados são observados. 
 - Exemplos: bairros, escolas e residências. 
 - Sorteia-se lotes e os testa. 
 - Pode ser um grupo muito grande, ai se faz a AA2E. 
 
 Amostra Aleatória em Dois Estágios (AA2E) 
Neste caso a população é dividida em subpopulações como na 
AAC. 
 1º Estágio: Alguns conglomerados são escolhidos usando a 
AAS. 
 2º Estágio: Alguns elementos são selecionados de cada 
conglomerado (selecionado no 1º estágio) utilizando se de AAS. 
O estratificado pega alunos de várias escolas, o de dois estágios seriam apenas de uma. 
 - Pode ser de múltiplos estágios, mas o nome não muda. Sorteia município, escolas, salas, alunos (3 
estágios). 
5 
 
 Amostra sistemática (AS) 
Utilizada quando se tem disponível a relação ordenada de todos os 
elementos da população. 
 - Quando se tem uma lista ordenada é fácil de pegar uma 
amostra assim e garante que 
 - Sorteia-se através de AAS um nº entre 1 e (N – tamanho da 
população/n – tamanho da amostra). Este será o 1º selecionado. 
 # Se a razão N (1000)/n (10) é igual a 100 e o número sorteado foi 5, o 1º indivíduo é o 5º, o 2º o 105º, o 3º 
o 205º, e assim por diante até chega ao 10, no qual o indivíduo é o 905º. Após ele não há mais como fazer a 
amostra pois não há mais população. 
 - Os demais são sistematicamente determinados somando-se (N/n) ao primeiro número sorteado. 
Exemplos: Controle de qualidade em linhas de produção; casas em uma determinada rua. 
 
 Tamanho da amostra 
Chamamos de erro amostral a diferença entre o valor estimado para um parâmetro a partir dos dados 
coletados em uma amostra e o verdadeiro valor do parâmetro na população. 
 - Uma média de uma amostra sempre terá um erro amostral (diferença entre o errado e o total), uma 
margem de erro. Só haverá a média correta caso haja o estudo de toda população. 
 # O cálculo do erro da amostra é obtido 
Parâmetro: característica da população. 
 - Por exemplo: Idade média, proporção de fumantes, entre outros. 
A determinação do Tamanho da Amostra (n) depende do erro amostral máximo tolerável (E), ou seja, o 
quanto se admite errar na estimação do parâmetro de interesse. Só é possível calcular o E pelo valor real, o 
que nunca se tem. 
 - Pesquisas Eleitorais: 
 # Candidato A: 34% ± 2%. 
 # Significa que o resultado da pesquisa foi de 34%, mas que se admite que o valor real esteja entre 32% e 
36% 
 
Cálculo do tamanho da amostra 
Notação: N = Tamanho da População 
 E = Erro Amostral máximo tolerável 
 no = Tamanho inicial da amostra 
 n = Tamanho da amostra 
Primeiro se calcula o no e depois o n. Com isso se sabe o tamanho da amostra com uma margem de erro já 
pré-definida. Deve-se sempre arredondar pra cima. 
 
Atividade 1 
Suponha que no curso de Medicina da FAMINAS-BH há 1000 alunos matriculados, determine o tamanho 
de amostra necessário para realizar uma pesquisa com margem de erro tolerável de: 
a) 2% no = 1 / 0,02²  2500 n = (1000 x 2500) / (1000 + 2500)  n = (25 x 105) / (3500)  714,28 
Ou seja, o tamanho da amostra deve ser de 715 para que haja um erro tolerável de 2%. 
b) 5% no = 1 / 0,05²  400 n = (1000 x 400) / (1000 + 400)  n = 4 x 105 / 1400  n = 285,74 
Ou seja, o tamanho da amostra deve ser de 286 para que haja um erro tolerável de 5%. 
c) 10% no = 1 / 0,10²  100 n = (1000 x 100) / (1000 + 100)  n = 1 x 105 / 1100  n = 90,90 
Ou seja, o tamanho da amostra deve ser de 91 para que haja um erro tolerável de 10%. 
 
Atividade 2 
Considerando que na turma de 3º período de Medicina da FAMINAS-BH há 50 alunos matriculados, 
determine o tamanho de amostra necessário para realizar uma pesquisa com margem de erro tolerável de: 
a) 2% no  2500 n = (86 x 2500) / (86 + 2500)  n = 215 x 103 / 2586  n = 83,13 
Ou seja, o tamanho da amostra deve ser de 84 para que haja um erro tolerável de 2%. 
b) 5% no  400 n = (86 x 400) / (86 + 400)  n = 34400 / 486  70,78 
Ou seja, o tamanho da amostra deve ser de 71 para que haja um erro tolerável de 5%. 
c) 10% no  100 n = (86 x 100) / (86 + 100)  n = 86 x 100 / 186  n = 46,23 
Ou seja, o tamanho da amostra deve ser de 47 para que haja um erro tolerável de 10%. 
6 
 
Estatística descritiva – Tabelas de Frequências e Gráficos 
Definição: é o conjunto de métodos utilizados para resumir bancos de dados. 
 - É o primeiro passo para a compreensão dos resultados de uma pesquisa. 
 - Trata-se da construção de tabelas e gráficos, além do cálculo de medidas estatísticas, tais como médias, 
que resumem a informação de um banco de dados tornando-a compreensível. 
Variáveis 
 - Quantitativa: 
 # Discretas (número inteiros): nº de filhos, unidadesde lote, de funcionários na empresa, idade (anos 
completos). 
 # Contínuas (admite decimais): peso, altura, salário, idade (anos, meses e dias). 
 - Qualitativas ou categóricas 
 # Ordinárias (existe uma ordenação): grau de satisfação, escolaridade, faixa-etária (não é idade). 
 # Nominais: não há um critério de avaliação, não há pior ou melhor; sexo, cor, bairro. 
 
Em estatística não se usa valores absolutos, mas sim porcentagens para que haja uma melhor avaliação. 
 - Proporção (frequência relativa ou fr) = nº de casos (frequência absoluta ou fi) / total (tamanho da 
amostra ou n). 
 - Porcentagem = proporção x 100 
 # Não há problemas em arredondar pois há o erro amostral, o importante é se há predomínio ou não. 
 
Gráfico de setores (pizza), gráfico de barras e tabela de frequência costumam ser usados para representar 
variáveis categóricas, sendo uma barra para cada categoria (sim e não). 
 - A tabela de frequência tem que ter as laterais extremas (de fora) 
abertas, sem linhas limitantes – ABNT –, se não vira quadro, usado 
para informações, textos. 
 - O de setores não deve ser utilizado quando houverem muitas fatias. 
 
Gráficos de Barras Cruzado: se apresenta “sim” e “não” para mulheres e em seguida 
para homens. 
 - Cruzamento de duas variáveis categóricas. 
 - É importante a olhar a proporção, pois a maneira em que é exposto a informação, 
pode dar diferença. 
 
Gráficos de Barra Várias Variáveis: apresenta variáveis categóricas que apresentam 
as mesmas categorias, como sim e não. 
 - No gráfico só se mostra os ‘sim”. 
 - Pode colocar uma linha no 50% para melhorar o entendimento do gráfico. 
 
Gráfico de pontos: a quantidade de ponto indica 
quantas pessoas e gênero em um gráfico de altura, 
por exemplo. 
 
Histograma: gráfico onde as barras são juntas; usado para variáveis 
quantitativas categorizadas. 
 - Gráfico à direita. 
 
Boxplot: usado para variáveis quantitativas categorizadas, onde se tem gênero x 
altura, onde se separa em grupos com o mesmo número de indivíduos onde o traço do 
meio simboliza 50% do grupo avaliado. 
 - Mostra a variabilidade. 
 
Gráfico de dispersão: há o cruzamento de variáveis quantitativas. 
 - Pode-se avaliar gênero, altura, quantidade de indivíduos entrevistados e o 
número de pessoas. 
 - Pode ser crescente, decrescente ou em “nuvem”, ou seja, sem diagonal. 
 
Gráfico de linhas  análise de tendência. 
 - Cruzamento de duas variáveis quantitativas e uma categórica. 
7 
 
 - Deve-se ter cuidado pois não se sabe se é relacionado a 
recusa antigamente a fazer o exame, no caso do de 
próstata, de forma que impedia o diagnóstico, ou outro. 
 - Para se conectar, tem que ser para avaliar/acompanhar 
ao longo do tempo. Não se usa para outra função. 
 
Estatística descritiva 
Medidas de Tendência Central 
 - Existe a tendência de valores observados em uma amostra se agruparem 
em torno dos valores centrais. 
 - Adequado apenas para variáveis quantitativas. 
 - Ao lado, se vê na imagem que, quando os dados são simétricos, sendo comum ao avaliar alturas de um 
gênero, a moda, média e mediana costumam ser iguais. Quando há mais dados discrepantes para menos, 
a média é puxada para baixo, a mediana é sempre mediana, e a moda é onde há o pico. Quando é 
discrepante para mais, a mediana permanece mediana, a média é puxada deslocada para os maiores 
valores e a moda no pico. Pensar no gráfico de pontos facilita o entendimento para a mediana e média. 
 
Média: É a soma de todos os dados dividido pelo tamanho da amostra. 
 - Não se arredonda a média, sabe-se que ela é superior ou inferior ao valor inteiro encontrado. 
 X = X1 + X2 + ... + Xn 
 n 
 
 Média para dados agrupados: 
 X = (X1 + X2 + ... + Xn) x fi sendo x a variável e fi a frequência 
 n absoluta/número de casos. 
 Se for fazer a média se pega 38 e divide por 25  1,52. 
Ninguém tem 1 animal e meio  sabe-se que a média é superior 
a um animal de estimação. 
 
Mediana: é o “valor do meio” de um conjunto de dados ordenados. 
 - Se “n” é ímpar: a mediana será o valor do elemento que ocupa a posição (n + 1)/2. 
 - Se “n” é par: a mediana será a média dos valores dos elementos que ocupam as posições n/2 e (n/2) + 1. 
Após achar essas posições, pega o valor de âmbar e se divide por 2. O que se achar é o valor da mediana. 
 
Média X mediana 
 - A média é mais sensível, pois considera todos os dados. Assim, a presença de valores extremos pode 
afetar consideravelmente esta medida. 
 - A mediana não é afetada pela presença de valores extremos/discrepantes (outlier) pois seu cálculo 
considera apenas o(s) valor(es) central(is) de um conjunto de dados. 
 # Salários em uma empresa com 19 operários (1 salário mínimo cada) e 1 diretor (25 salários 
mínimos)  a média é igual 2,2 salários mínimos cada. Se for olhar a mediana, esta é igual a 1 
 mediana tende a representar a maioria e média representar os gastos da empresa. 
 - Se a média e a mediana forem próximas, escolha a média, pois ela considera a amostra 
como um todo. Quando há grande diferente, prefira a mediana, pois o distanciamento delas 
mostra que há valores discrepantes. 
 
Moda: É o valor mais frequente de um banco de dados. 
 - Se nenhum valor é mais frequente que os demais (vários valores se repetem a mesma quantidade de 
vezes)  ∄ Moda. 
 - Se há empates  o conjunto de dados é dito multimodal (deve ter pelo menos um que não está na 
moda, ai os outros passam a ser moda). 
 
 Atividade avaliativa 
1) Determine a média, mediana e moda do salário dos funcionários de uma empresa. 
Animais de estimação 
X 0 1 2 3 4 Total 
fi 5 9 7 1 3 25 
Xi x fi 0 9 14 3 12 38 
8 
 
 - Média: (8 x 1000) + (15 x 1500) + (10 x 5000) / 33  (8000 + 22500 + 
50000) / 33  R$2.439,39 
 - Mediana: (n + 1)/2  34/2  17º  R$ 1.500,00 
 - Moda: R$1.500,oo 
 
2) Determine a média, mediana e moda, dos seguintes conjuntos de dados: 
 a) Nº de exacerbações de pacientes com fibrose 
cística: 
 Média: (6x0) + (3x1) + (12x2) + (3x8) + (4x6) / 35  (0 + 
3 + 24 + 24 + 24) / 35  75/35  2,14. 
 Mediana: (35 + 1)/2  A mediana é encontrada no 
18º, e esse é um paciente com 2 exacerbações. 
 Moda: 2 exacerbações. 
 
 b) Idade de pacientes com câncer de mama: 
 Média: (25x4) + (35x37) + (45x86) + (55x97) + (65x72) + (75x63) + (85x30) + (95x4) / 393  (100 + 1.295 + 
3.870 + 5.335 + 4.680 + 4.725 + 5.550 + 380)/393  25.935/393  65,99 anos. 
 Mediana: (393 + 1)/2  197  A mediana é encontrada no 197º, e esse é um paciente de 50 a 59 anos. 
 Moda: É mais frequente em pacientes com idade de 50 a 59 anos. 
 
 
Medidas de Dispersão/Variablidade 
Situação: tenho 1,50m e não sei nada. Quero atravessar o rio, fui informada que a profundidade média do 
rio é de 1m. Posso atravessar? 
 - Não se pode tomar decisão baseada na tendência central. 
 
Medidas de dispersão (variação) são medidas estatísticas que informam sobre o grau de variabilidade de 
um conjunto de dados. 
 - Adequado apenas para variáveis quantitativas. 
 
Amplitude total: variação máxima ocorrida na minha amostra. É a diferença entre o maior e o menor valor. 
 AT = XMÁX – XMIN 
Desvio: é a diferença entre cada valor em relação a média. 
 D1 = (XINDIVIDUAL – XMÉDIA). 
 - A soma dos desvios é sempre igual a zero 
 - Exemplo: x = idade. Foi pego o Xi de 5 indivíduos, sendo essas 20, 21, 19, 26, 19. Em seguida se calcula a 
média = ∑ Xi1 / n  105 / 5  21. O indivíduo 1, 2, 3, 4 e 5 estão, respectivamente, -1, 0, -2, 5, -1 acima da 
média. A somatório dos desvios é igual a zero. 
 # Em seguida se faz a soma do quadrado dos desvios, sendo respectivamente, 1, 0, 4, 25 e 4, que totaliza 
34. Em seguida se divide a soma por (n – 1), 34 / (5-1)  8,5 (variância). Em seguida se faz a raiz da 
variância para “tirar” o elevado. Assim se obtém 2,91  desvio. 
 - Deve-se deixar pelo menos umacasa decimal por o número não ser inteiro. 
 
Desvio padrão (σ) 
 - Ao se usar σ, quer dizer que se avalia toda a população. Ao usar sd, quer dizer que é a amostra. 
 - 1º Passo: diferença  (Xi – X média) 
 - 2º Passo: Quadrado  (Xi – X média)² 
 - PODE ser necessário fazer o produto de forma  (Xi – X média)² x F1 
 - 3º Passo: Soma  ∑ (Xi – X média)² x F1 
 - 4º Passo: Divisão  ∑ (Xi – X média)² x F1 / (n-1) 
 - 5º Passo: Raiz  √ (∑ [Xi – X média)² x F1 / (n-1) ] 
 
 - Exemplo: nº de tvs por indivíduos. Há 4 indivíduos que não tem TV, 5 que tem 1, 7 que tem 2, 12 que tem 
3, 6 que tem 4. Se soma o (Xi x Fi) que dá 79 e se calcula a média, que deu 2,3. A diferença (Xi – X) deu, 
Fibrose cística 
Nº de 
exacerbações 
0 1 2 3 4 Total 
Nº de 
pacientes 
6 3 12 8 6 35 
Câncer de mama 
Nº de pacientes 4 37 86 97 72 63 30 4 393 
Idade 20-29 30-39 40-49 50-59 60-69 70-79 80-89 90-100 Total 
9 
 
respectivamente, 2,3, 1,3, 0,3, 0,7 e 1,7, sendo que esses devem ser multiplicados pela frequência que eles 
aparecem para que a somatória dos desvios seja zero. Em seguida se faz os outros passos, quadrado, nesse 
caso, o produto, soma, divisão e raiz. 
 
 - Quando os dados de uma variável possuem 
distribuição normal (simétrica em torno da média), vale 
a seguinte regra: 
 # Se se permite 1 σ para mais ou para cima, ainda se 
abrange de forma restrita a população, sendo σ o sd e 
tendo como valor inicial a média. Então no exemplo 
anterior de idade, média foi 21 e o sd foi 2,9. O Valor 
inicial é 21, e se aumentar 1 σ, se tem 23,9, 2 σ se têm 
26,8. E assim por diante. 
 - O desvio padrão não pode ser usado para comparar grupos. 
 
Coeficiente de variação (cv) 
 - Usado para comparar grupos. 
 - Valia se o grau de variação é moderado ou acentuada. 
 - Medida usada para comparar a variabilidade de conjuntos de dados distintos. 
 - cv < 35%  dados são homogêneos. 
 Cv ≥ 35%  dados são heterogêneos. 
 
Quartis 
 - Q1: mediana da mediana. 50% l 50% 
 - Q2: mediana. Mín Q2 Máx 
 - Q3: mediana da segunda metade da mediana. Mín Q1 Q2 Q3 Máx 
 - Cada quarti contém 25%. 
 # Quando menos condensado, mais disperso é o valor. Quando menos condensado, menos disperso é o 
valor e mais compactado é o gráfico. 
 
Atividade avaliativa 
1) Estudo amostral x Estudo populacional 
a) Qual a diferença? O estudo amostral ocorre com parte da população, enquanto o da população são 
todos aqueles presentes no local escolhido durante uma determinada época. 
b) Cite vantagens e desvantagens de cada um. As vantagens do amostral é que é um grupo mais fácil 
de manter controle, de se notar mudanças, e pode haver menos erros durante a pesquisa; as 
desvantagens é que há erros amostrais neste que é um grupo limitado da população, de forma que 
não abrange 100% dos possíveis casos e possíveis resultados. As vantagens da população é que 
não há erro amostral, se há um resultado mais confiável e no qual se sabe todas as possibilidades 
possíveis. A desvantagem é que pode ser inviável, muito trabalhoso, e provavelmente impossível 
dependendo do tamanho da população, nem sempre as pessoas aceitam participar do estudo. 
c) Qual deve ser o critério de escolha? O tipo de estudo, se há necessidade de se obter valores toda a 
população, se é possível fazer o estudo em toda população, se há material suficiente, entre outros. 
d) Defina erro amostral: é a diferença do valor achado na amostra e o verdadeiro valor na população. 
Nem sempre se sabe onde ele se encontra. 
e) Defina margem de erro: costuma ser dado na amostra, sendo que essa é calculada antes da 
pesquisa e tem a ver com a diferença entre o estudo populacional e o amostral. 
 
2) Um empresário deseja conhecer o grau de satisfação do seu cliente e assim melhorar o atendimento 
da sua loja. Para o estudo, decidiu entrevistar 50 dos 154 clientes cadastrados. Então, a cada 3 
clientes, que passavam pelo caixa da loja, solicitava que um desse uma nota de 1 a 10 pelo 
atendimento recebido. 
a) Qual o objetivo do estudo do empresário? Melhorar o atendimento da sua loja. 
b) Quem é a população alvo do estudo? Os clientes. 
c) Qual o tamanho da amostra? 50. 
d) Qual o tipo de amostragem escolhida pelo empresário? Amostra sistêmica. 
10 
 
e) Neste estudo, o empresário já “passou” por quais fases do método estatístico, e quais ainda 
faltam? Pelas quatro primeiras, sendo essas, definição do problema/objetivo, planejamento da 
pesquisa, definição da instrumentalização da coleta de dados e coleta de dados. 
 
3) A diretoria Administrativa da Companhia que trabalho está cogitando alterar alguns benefícios dos 
funcionários. No intuito de verificar a viabilidade do projeto, solicitou à minha gerência que gerasse 
dados atualizados sobre o perfil do funcionário, tais como: 
 Situação de Moradia (Imóvel Próprio/Imóvel Alugado) 
 Meio de transporte 
 Nº de dependentes 
 Estudos (Curso em andamento/ Não está estudando) 
Segundo informação obtida no RH, atualmente estão registrados 3200 funcionários na Companhia. Os 
resultados deverão ser apresentados na reunião Gerencial nesta 6ª feira. 
a) Que tipo de estudo você sugere realizar (Populacional/Amostral)? Justifique. Amostral, pois ele 
possui uma grande quantidade de funcionários, podendo ser difícil ter acesso a todos. 
b) Se a diretoria determinar que deva ser utilizado um estudo amostral, qual o tipo de amostra você 
sugere utilizar? Justifique. Amostra aleatório estratificada, de forma que possa se pegar indivíduos 
de todas as áreas da Companhia de forma equilibrada. 
c) Calcule o tamanho de amostra necessário para realizar a pesquisa com margem de erro de 6%. 
 
4) Identifique a população-alvo e o tipo de amostragem utilizado, para as seguintes situações: 
a) Escolhidos ao acaso, 1819 pacientes que haviam recebido alta em hospitais foram 
indagados sobre sua opinião a respeito dos cuidados que receberam  amostragem 
aleatória simples; população de todos pacientes que receberam alta. 
b) A soja é plantada num campo de 48 acres de área. O campo está dividido em sub-regiões de um 
acre. Uma amostra de plantas é coletada em cada uma das 48 sub-regiões a fim de se estimar a 
colheita  sojas plantadas; amostragem aleatório estratificada. 
c) Uma lista de administradores é compilada e ordenada. Após se escolher aleatoriamente um 
número inicial, todo vigésimo nome é selecionado até se atingir a quantidade de 1000 
administradores. Os administradores são questionados a respeito do uso de mídia digital  
administradores na lista; amostragem sistemática. 
d) Um município apresenta cerca de 1/3 da população residente na zona rural. Foram escolhidas ao 
acaso, 100 pessoas do meio rural e 200 do meio urbano, com idades de 65 anos ou mais, e 
indagadas sobre sua saúde e sua experiência com medicamentos prescritos  população do 
município; amostragem aleatória estratificada. 
e) Após um furacão, a região atingida pelo desastre foi dividida em 200 pequenas áreas de igual 
tamanho. Trinta delas foram selecionadas e um morador, escolhido ao acaso, de cada residência 
pertencente às áreas selecionadas foi entrevistado para ajudar a identificar o perfil das famílias 
atingidas  famílias atingidas; amostra aleatório em dois estágios. 
 
5) Relacione corretamente: 
a) Amostra Aleatória 
Simples 
b) Amostra Aleatória 
Estratificada 
c) Amostra Aleatória por 
Conglomerados 
d) Amostra Aleatória em 
2 Estágios 
e) Amostra Sistemática 
( B ) Um carregamento de leite é inspecionado pela vigilância sanitária. 
Em cada lote uma caixa é selecionada ao acaso para verificação da 
conformidade do produto. 
( E ) Em uma linha de produção de uma montadora de carros, um a cada 
cinco veículos é testado pelo departamento de qualidade. 
( A ) Escolhidos aleatoriamente 30 pessoas que possuem cartãofidelidade de uma grande rede de supermercados para bonificação e 
descontos. 
( A ) Em uma bairro foram selecionadas aleatoriamente 15 casas e todos 
os moradores foram questionados sobre os seus hábitos de higiene. 
 
 
11 
 
6) O governo brasileiro deseja conhecer a proporção de presos, do sistema semi-aberto, que 
conseguiram emprego e estão trabalhando, enquanto cumprem a pena. Para isso o governo pretende 
realizar uma pesquisa de âmbito nacional. Através das informações contidas na tabela ao lado 
responda: 
a) Qual o método de amostragem que você sugere para o 
estudo? Justifique sua resposta. 
Amostra aleatório estratificada, pois poderá se ter uma 
noção de casos em todas as regiões do Brasil, ou seja, 
será uma pesquisa em âmbito nacional. 
b) Calcule o tamanho da amostra considerando um erro de 
4%. no = 1 / 0,04²  625; N = (15000 x 625) / (15000 + 
625)  9375000 / 15625  600 
 
7) Quero saber, dentre os 2000 alunos de uma universidade, 
qual a proporção de alunos que tem filhos. Considerando 
minhas limitações de tempo e recursos, decidi entrevistar 50 
alunos. Para realizar a pesquisa sorteei aleatoriamente 5 turmas, em seguida selecionei 
aleatoriamente 10 alunos de cada uma destas turmas para responder ao meu questionário. 
a) Qual o objetivo do estudo? Saber a proporção de alunos que tem filhos. 
b) Qual é a população-alvo do estudo? Mães ou pais. 
c) Qual o tamanho da amostra utilizado? 50 alunos. 
d) Qual o tipo de amostragem escolhida? Amostra aleatória em dois estágios. 
e) Neste estudo, quais as fases do método estatístico já foram realizadas e quais faltam realizar? 
Definição do objetivo, planejamento da pesquisa e elaboração do instrumento da coleta de dados. 
f) Qual deveria ser o tamanho da amostra para garantir um erro amostral máximo de 5%? no = 400  
N = (400 x 2000) / (2400)  333.33  o tamanho da amostra deve ser de 334 indivíduos. 
 
8) Classifique as variáveis em categóricas/qualitativas (nominais ou ordinais) ou quantitativas (contínuas 
ou discretas): 
a) Cor dos olhos das alunas: qualitativa nominal. 
b) Número de defeitos em aparelhos de TV: quantitativa discreta. 
c) Comprimento dos pregos produzidos por uma empresa: quantitativa contínua. 
d) A face obtida em cada jogada de um dado: quantitativa discreta. 
e) A pontuação em testes, de questões fechadas (pode valer 1,5), de uma turma de alunos de 
estatística: quantitativa contínua. 
f) O salário mensal dos empregados de uma firma de contabilidade: quantitativa contínua. 
g) O número do RG dos empregados de uma firma de contabilidade: qualitativa nominal (a pessoa 2 
não é metade da 4, não é quantitativo). 
h) As idades de uma amostra de 350 pacientes de clínicas de repouso: quantitativa contínua. 
i) Grau de escolaridade da população de Minas Gerais: qualitativa ordinal. 
j) Grau de confiança do eleitor no Presidente da República: qualitativa ordinal. 
 
9) Duas pesquisas foram realizadas com o objetivo de estimar o salário médio de médicos recém-
formados (dados fictícios). Os resultados das pesquisas estão apresentados abaixo: 
 Selecione abaixo a afirmativa CORRETA. 
a) A igualdade das médias em ambas as pesquisas 
demonstra que o salário de médicos recém-
formados é fixo. 
b) O tamanho da amostra não afeta a confiabilidade 
dos resultados de uma pesquisa. 
c) A pesquisa 1, tem menor margem de erro e, portanto, é mais confiável. 
d) A pesquisa 2, tem menor margem de erro e, portanto, é mais confiável. 
e) Os resultados de ambas as pesquisas são igualmente confiáveis. 
 
12 
 
10) Para comparar o desempenho dos alunos da rede pública nos ENEM, foi feito um levantamento de 
dados e calculada a proporção (%) de alunos aprovados em universidades federais. 
Para cada estado, calcule a média, mediana e moda. Desenhe 
um gráfico de linhas e compare os estados de acordo com os 
resultados. 
 - MG: Média = 39,57; Mediana = 38; Moda = inexistente. 
 - SP: Média = 39,57; Mediana = 38; Moda = inexistente. 
 - RJ: Média = 39,57; Mediana = 37; Moda = 35. 
 
11) Uma turma de 20 alunos tirou as seguintes notas no exame de estatística: 
62 57 63 72 59 70 68 64 56 71 52 63 100 100 60 82 48 45 72 63 
a) Calcule a nota média da turma: 66,35. 
b) Calcule a nota mediana da turma: (63 + 63) / 2  63. 
c) Qual das medidas é melhor para resumir este banco de dados? Justifique 
sua resposta. A média, pois nela se encontra o valor médio de todas as 
notas da turma. 
d) Construa uma tabela de frequências de duas classes para estes dados. Pode ser vista acima. 
 
12) Uma pesquisa com 95 mulheres da zona rural de São Domingos do Prata sobre o número de filhos 
apontou os seguintes resultados: 
a) Qual a média do nº de filhos? (12x0) + (6x1) + 
(23x2) + (34x3) + (6x4) + (14x5) / 95  248 / 95  
2,61. 
b) Mediana? 48º  3 filhos. 
c) Moda? 3 filhos. 
d) Desvio-padrão? -2,61; -1,61; -0.61; 0,39; 1,39; 2,39. 
 
13) Entrevistados 50 presos de penitenciárias de Belo Horizonte, e questionados sobre o número de vezes 
que já estiveram detidos. Calcule a média, a mediana, a moda, desvio-padrão 
e coeficiente de variação; 
Média: (10x0) + (24x1) + (12x2) + (4x3) / 50  1,2 vezes. 
Mediana: 25º e 26º  (1 + 1) / 2  1 vez. 
Moda: 1 vez. 
Desvio padrão: -1,2; -0,2; 0,8; 1,8. 
 
14) Uma empresa com 7 estagiários, 5 funcionários de nível médio, 28 funcionários de nível superior e 5 
funcionários de diretoria, em que os salários são divididos da seguinte forma: 
a) Qual o salário médio da empresa? (7x1) + (5x1) + (28x3) + (5x6) / 45  2,8 sm. 
b) Qual a mediana? 23º  3 sm. 
c) Qual a melhor medida para representar estes dados, média ou mediana? 
Média, pois a média e a mediana são próximas, porém a média avalia a todos 
os funcionários. 
d) Desvio-padrão? -1,8; -1,8; 0,2; 3,2. 
e) Coeficiente de Variação? 
 
15) Uma amostra de 120 universitários informou o número de parceiros sexuais que já tiveram até o 
momento: 
a) Calcule a média, a mediana e a moda; 
Média: (18x0) + (42x3) + (36x8) + (15x13) + (9x18) / 120  771 / 120  
6,42 parceiros. 
Mediana: 60º e 61º  1-5 parceiros e 6-10 parceiros  5,5 parceiros. 
Moda: 1 a 5 parceiros. 
b) Qual a proporção de alunos que não tiveram nenhum parceiro sexual? 120 é igual a 100%, logo, 18 
é igual a 15%. 
 
Nota Nº % 
0-69 13 65 
70-100 7 35 
Total 20 
13 
 
16) Qualidade de vida é uma expressão que indica as condições de vida das pessoas e envolve diversas 
áreas como o bem físico, mental, psicológico e emocional, relacionamento profissional e outros 
parâmetros que afetam a vida humana. 
Um grupo de alunos da disciplina de Bioestatística da PUC-Betim elaborou um questionário com o objetivo 
de conhecer a qualidade de vida dos alunos de Medicina Veterinária desta universidade. 
Foi aplicado um questionário com 15 perguntas a uma amostra de 100 alunos de Medicina Veterinária, 
escolhidos aleatoriamente. Alguns dos resultados desta pesquisa estão apresentados nos gráficos abaixo. 
Avalie os resultados e redija suas interpretações. 
 
 
 
A maioria da população é masculina (54 alunos); 
Avaliando as respostas com somente a opção “sim e não”: 75 alunos acham que sua vida tem sentido; 33 
acham que tem energia suficiente para o dia a dia; 48 são satisfeitos com sua saúde; 40 necessitam de 
tratamento médico para levar sua vida diária; 39 possuem dinheiro suficiente para suas necessidades; e 28 
praticam atividade física como lazer. 
Respostas com mais de duas opções: 44 avaliam sua qualidade de vida como ótima, 48 como boa e 8 como 
ruim. 
Respostas quantitativas: Quando pedido para atribuir uma nota de 0 a 100% (mostrado no gráfico de 
pontos) para o porcentual de energia diária a moda foi > que 75% e menor que < 90%. Quando pedido para 
avaliar de 0 a 100% a felicidade a moda foi > que 96%. 
Quando colocado em um gráfico de dispersão, é perceptível que a maioria dos alunos classificaram sua 
porcentagem de felicidade e energiadiária como maior que 60%. 
 
17) Os dados abaixo foram retirados do estudo: Prevenção do Suicídio: Manual Dirigido a Profissionais 
das Equipes de Saúde Mental – Ministério da Saúde, Brasil. Para cada gráfico apresentado abaixo 
responda: O gráfico apresentado é adequado? Interprete o resultado. 
O gráfico ao lado é adequado pois é possível entender em quais idades a 
taxa de suicídio foi mais comum no ano de 2004. Pode-se perceber, de 
acordo com a tabela que a taxa de suicídio é maior em indivíduos de 70 a 
79 anos e menor em indivíduos de 10 a 14 anos. 
46.0%
Feminino
54.0%
Masculino
Sexo
Qualidade de Vida
%
RuimBoaÓtima
50
40
30
20
10
0
8
48
44
Como você avalia sua Qualidade de Vida?
25.0%
Não
75.0%
Sim
Você acha que sua Vida tem sentido?
% Energia Diária
907560453015
Atribua uma nota de 0 a 100% 
para o seu percentual de Energia Diária
% Felicidade
96847260483624
Atribua uma nota de 0 a 100%
relativo ao seu Grau de Felicidade
% Felicidade
%
 E
n
e
rg
ia
 D
iá
ri
a
100908070605040302010
100
80
60
40
20
0
r = 0 898
14 
 
O gráfico à direita é adequado pois mostra a taxa de 
mortalidade por suicídio ao longo dos anos, sendo a linha em 
preto a taxa de homens e a vermelha de mulheres. Esse tipo de 
gráfico é adequado para representar informações com o passar 
dos anos, podendo ser visto quando houve o aumento ou 
queda da taxa de acordo com o ano e sexo. 
 
O gráfico 
ao lado não 
é o mais indicado para essa quantidade de 
informações, pois o gráfico de pizzas é melhor quando 
usado para menos dados. Nesse caso, os dados 
poderiam ficar melhor ordenados caso fossem 
colocados em um gráfico de barras, possibilitando 
avaliar com maior facilidade quais os transtornos 
mentais são mais e menos prevalentes de acordo com 
o estudo. 
 
 
18) O gerente de uma clínica dermatológica deseja comparar o tempo gasto para conclusão de um 
determinado procedimento entre as equipes do turno diurno e o noturno. Para isso registrou durante 
um mês os tempos alcançados por seus funcionários. Os resultados estão apresentados na tabela. 
Estatísticas descritivas para o tempo de execução do procedimento (minutos). 
a) Qual equipe trabalha com tempos mais homogêneos? 
Justifique sua resposta: A equipe do turno noturno, pois 
esse o desvio padrão dele foi menor. 
 
19) Com o objetivo de comparar os preços dos carros comercializados por 2 importantes montadoras 
nacionais (X e Y), foram escolhidos ao acaso 10 carros de cada uma dessas marcas, e observado o 
valor atual constante na tabela FIPE (Fundação Instituto de Pesquisas Econômicas). 
 Estatísticas descritivas dos preços de carros de duas montadoras nacionais. A mediana é Q2. Fonte: 
Tabela FIPE. 
 Com base nas estatísticas descritivas apresentadas na tabela 
acima, assinale V ou F para as afirmativas abaixo: 
 ( F ) Tanto a mediana quanto a média mostram que os preços 
praticados por ambas as montadoras (não) são similares. 
 ( F ) A média (mediana) representa melhor a medida de tendência 
central, pois considera todos os dados colhidos na amostra. 
 ( V ) A mediana representa melhor a medida de tendência central, pois desconsidera valores 
discrepantes. 
 ( V ) A diferença acentuada entre a média e a mediana na montadora X indica a presença de valores 
discrepantes na amostra. 
 ( V ) 25% dos carros da montadora Y têm valor igual ou maior que R$89.830,20. 
 ( F ) 75% dos carros da montadora X têm valor igual ou maior que R$88.560,40. 
 ( F ) O coeficiente de variação mostra que os preços praticados por ambas as montadoras é 
homogêneo. 
 ( F ) A variabilidade de preços observada na montadora Y é maior que na montadora X. 
 ( V ) A medida adequada para comparar a variabilidade de preços das montadoras é o coeficiente de 
variação. 
 ( F ) A medida adequada para comparar a variabilidade de preços das montadoras é o desvio-padrão. 
 
Probabilidade 
Noções de probabilidade 
Definição: medida matemática/estatística que procura mensurar a chance de ocorrência de um evento de 
interesse. 
15 
 
Definição clássica de probabilidade: P(A) = número de possibilidade de “A” 
 Total de possibilidades 
 - P(A) = #A / #Ω 
 - Exemplo: joga um dado e se sair número maiores de 4 você ganha uma bala  P(A) = 2 / 6  P(A) = 
0,333... 
Definição frequentista de probabilidade: P(A) = nº de vezes que “A” ocorreu 
 N 
 - É uma estimativa para a probabilidade, calculada através de dados amostrais. 
Espaço amostral (Ω): conjunto de todos os resultados possíveis. 
 
Propriedades 
Estamos acostumados a lidar com porcentagem, mas probabilidade é dada em decimal. 
I) 0 ≤ P(a) ≤ 1 
II) P(A) = 1  evento certo 
III) P(A) = 0  evento impossível 
IV) P(A) ~ 0  evento improvável 
 
l l l  probabilidade 
0 0,5 1 
0 100 
l l  100% 
 
O 0,5 (50%) é o maior índice de incerteza que se pode ter de alguma coisa. 
A regra pede para usar 4 casas decimais na probabilidade, a menos que seja um número inteiro, como 0,5, 
ai se usa duas, “0,50”. 
 
Probabilidade de ter dor de cabeça na sala 
 - P(F) = 28/40 = 0,70 
 - P(M) = 1 – 0,70 = 0,30 
 - P(D) = 14/40 = 0,35 
 - P(D/F) = 14/28 – 0,50 
 - P(D/M) = 0 
 - P (D Ω F) = 14/40 = 0,35 
 - / = dado que. 
 - Ω = e. 
 
Testes de hipóteses 
Definição: Testes de Hipóteses são métodos analíticos destinados a verificação científica de uma hipótese 
a cerca de um parâmetro da população. 
 - Comparações ou decisões tomadas com base em pesquisas amostrais estão sempre sujeitas a erro que 
podem ocorrer ao acaso independentemente da qualidade técnica e primazia do planejamento da 
pesquisa. 
Exemplos de aplicação: A proporção de fumantes é igual entre homens e mulheres? Os salários de 
advogados e professores, em atuação no município de Belo Horizonte, são iguais? A prevalência de um 
determinado sintoma de uma doença é maior em pacientes acima de 60 anos? 
 - Os salários, de médicos recém-formados, são iguais entre homens e mulheres? 
 # Suponha uma pesquisa realizada com 50 médicos e 50 médicas, obteve os seguintes resultados: 
Sabemos que R$12.000 é a média feminina e é diferente de R$12.500, que é a média masculina, entretanto 
queremos saber se esta diferença é apenas um acaso amostral ou se, de fato, há diferença significativa 
entre os grupos comparados. 
 
 Definição das Hipóteses 
H0: Hipótese nula  hipótese conservadora (Assume igualdade entre os grupos 
comparados). Como se fosse o anterior = ao que se quer provar. 
H1: Hipótese Alternativa  necessita de maiores evidências para ser considerada 
verdadeira (será sempre o complementar de H0). Anterior ≠ ao que se quer provar. 
16 
 
 Erro de Decisão 
 
 
 
 
 
 
 
 Controle de Erro 
Erro Tipo I: o nível de aceitação deve ser definido antes da realização dos testes. 
 -  = Nível de Significância 
 - 1- = Nível de Confiança 
Erro Tipo II: nem sempre controlado, é definido na etapa de cálculo do tamanho amostral. 
 -  = Probabilidade de Erro Tipo II 
 - 1- = Poder do Teste 
 
 Escolha do Teste 
Para cada tipo de comparação que se deseja realizar, em uma investigação científica, há uma coleção de 
testes estatísticos disponíveis e em desenvolvimento. 
Na Teoria de Estatística Clássica, há dois grandes grupos de testes estatísticos, os paramétricos e os não 
paramétricos. 
 - Paramétricos: possuem pressupostos (em geral, acerca da forma de distribuição dos dados); são mais 
eficientes (capacidade de perceber diferenças entre grupos). 
 - Não paramétricos: Têm maior aplicabilidade (não possuem pressupostos); têm menor eficiência que 
seus correspondentes paramétricos. 
 
 Decisão  p-valor 
p-valor: Probabilidade de significância (Erro 1) 
 Probabilidade de errar ao rejeitar H0, ou seja, probabilidade de errar ao afirmar que há diferença 
significativa. Quando menor que 0,5, há diferença, quando maior, não há (hipótese nula, ou seja, é 
anulada/nãotem valor). 
A decisão de um teste de hipóteses é tomada a partir do p-valor encontrado. 
 - p-valor ≤ α  rejeitar H0 
 - p-valor > α  não rejeitar H0 
Quando equivalente a 95% de confiança  5% de significância. 
Probabilidade de errar ao afirmar que existe diferença significativa deve ser no máximo de 5%. 
 - p-valor ≤ 0,05  rejeitar H0 
 - p-valor > 0,05  não rejeitar H0 
 
 Condução de Testes de Hipóteses 
1º passo  definir as hipóteses do teste 
2º passo  definir o nível de confiança 
3º passo  escolha do teste adequado 
4º passo  cálculo do p-valor 
5º passo  conclusão do teste 
 
Atividade avaliativa 
Questão 1 
Defina o p-valor. 
 
Questão 2 
Procure um artigo científico que tenha resultados de testes estatísticos e identifique no artigo o nível de 
confiança determinado, defina as hipóteses de teste e redija a conclusão do teste aplicado. 
 
Questão 3 
A taxa de Leucócitos no plasma de 44 voluntários sadios foi avaliada antes e após a participação em um 
17 
 
estudo de bioequivalência de medicamentos. Defina as hipóteses apropriadas para verificar se ocorreu 
alteração na taxa de Leucócitos dos voluntários participantes do estudo. Interprete o p-valor do teste. Com 
base nos resultados apresentados abaixo, qual a conclusão do teste, considerando-se 95% de confiança? 
P-value: 0.198 
 
Questão 4 
A taxa de Hemoglobina no plasma de 44 voluntários sadios foi avaliada antes e após a participação em um 
estudo de bioequivalência de medicamentos. Defina as hipóteses apropriadas para verificar se ocorreu 
alteração na taxa de Hemoglobina dos voluntários participantes do estudo; interprete o p-valor do teste. 
Qual a conclusão do teste, considerando-se 95% de confiança? 
P-value: 0.006 
 
Questão 5 
Uma pesquisa de análise de sobrevivência foi realizada no intuito de 
verificar quais variáveis estão associadas à ocorrência de óbito por 
câncer de mama. A tabela abaixo apresenta os resultados da análise 
de sobrevivência de pacientes, atendidos pelo setor oncológico do 
Hospital Bom Pastor (Varginha-MG), no período de 1998 a 2009. 
A partir dos resultados apresentados na tabela acima, quais as 
variáveis estão significativamente associadas à ocorrência de óbito por 
câncer de mama? (considere 95% de confiança) 
 
Questão 6 
Para verificar se o uso de fertilizante na cultura de tomates interfere 
no resultado do fruto, foram selecionados e pesados 15 tomates de um canteiro em que foi adicionado o 
fertilizante e 15 tomates de um canteiro sem adição de fertilizante. 
 
Sem 14.3 13.8 15.2 12.5 13.5 14.1 15.1 14.0 12.2 11.8 14.5 11.7 14.5 13.6 15.4 
Com 14.2 14.8 14.7 16.5 16.3 15.9 17.2 15.1 14.9 16.2 14.3 16.8 15.1 15.0 15.6 
P-Value = 0.000 
Defina as hipóteses apropriadas para verificar se há diferença no peso do tomate produzido com e sem 
fertilizante; interprete o p-valor do teste. Qual a conclusão do teste, considerando-se 95% de confiança? 
 
Correlação Linear 
 Introdução 
Duas variáveis (X e Y) estão associadas? 
 - Eixo X: variável explicativa; Eixo Y: variável de resposta. 
 - O salário de um profissional está associado ao seu tempo de profissão? Teria que se aumentar a medida 
que se ganha experiência. 
 - O tempo entre diagnóstico e início do tratamento está associado ao tempo de sobrevida de um paciente 
de câncer de mama? Quanto maior o tempo de espera, menor a sobrevida desse e maior a gravidade do 
seu problema. 
Para avaliar a existência de associação linear entre duas variáveis quantitativas, primeiramente recorremos 
à construção de um gráfico de dispersão. 
 - Adequado apenas para o cruzamento de duas variáveis quantitativas. 
 
 Gráficos de Dispersão 
Escolhemos para o eixo Y do gráfico a variável resposta, 
ou seja, aquela que possivelmente é afetada pelo valor 
observado na variável posicionada no eixo X, denominada 
variável explicativa (covariável). 
 
Vemos que a correlação pode ser positiva ou negativa, de 
forma que a primeira é quando uma cresce, e a outra cresce 
também, crescente, a segunda é quando uma cresce e a outra diminui (“quanto mais filhos, menos tempo 
a mulher tem”), decrescente (nem sempre fácil de identificar, são desvios no gráfico de pontos). 
Variáveis p-valor 
Faixa etária 0,010 
Raça/cor 0,954 
Escolaridade 0,522 
Estadiamento 0,031 
Histórico de câncer na 
família 
0,040 
Alcoolismo 0,998 
Tabagismo 0,682 
18 
 
Variação perfeita: não tem variabilidade e tem forte relação. Cerveja 5 reais cada. Comprei 5, pago 25, 10, 
pago 50. 
Variação forte: tem variabilidade, mas ainda tem forte relação, 2 cervejas 5 reais, 3 cervejas 12. 
Variação fraca: tem alta variabilidade e pouca relação. 
 
 Coeficiente de Correlação 
O coeficiente de correlação, r (ou ), procura mensurar a força e o sentido (+ ou -) da 
associação entre duas variáveis quantitativas. 
Dependendo do resultado de r, vemos que 
quanto mais perto de zero, mais fraca é a 
correlação, quanto mais próxima de 1, mais 
forte. Sendo o fato de ser negativa e positiva 
definida pelo sinal. 
 - Ao lado vemos: forte negativa (-1 a -0,8)  
moderada forte (-0,8 a -0,6)  moderada (-
0.6 a -0.4)  moderada fraca (-0,4 a -0,2)  
fraca (-0,2 a 0)  nula (0)  fraca positiva (a 0,2)  moderada fraca (0,2 a 0,4)  moderada (0,4 a 0,6)  
moderada forte (0,6 a 0,8)  forte positiva (0,8 a 1). 
 
Em A vemos uma correção negativa perfeita; em B vemos uma 
correlação positiva moderada forte; em C vemos uma correlação zera 
por não haver associação linear entre as variáveis; e em D achamos 
valores negativos e positivos que se anulam, de forma que a correlação é 
zero. 
 
Coeficiente de Pearson: usado apenas quando ambas as variáveis 
possuem distribuição normal, ou seja, quando há uma média central 
(cada valor é subtraído da média). 
 - Se a média não representa bem, se usa outro. 
Coeficiente de Spearman: não há restrição, porém é menos eficiente. 
 
 Definição das Hipóteses 
H0: r = 0 (ausência de correlação linear) 
H1: r ≠ 0 (presença de correlação linear) 
Se r = 0,619 (p-valor = 0,001) vemos relação moderada forte, indicando que quanto maior a idade do 
indivíduo, maior o tempo de conclusão (anos). 
Se r = 0,325 (p-valor = 0,105) vemos que não há correlação, pois o p-valor é alto e o r é baixo, de forma que 
devemos considerar como ausência de correlação. 
 
Atividade Avaliativa 
Questão 1 
Os dados ilustrados no gráfico abaixo correspondem à Renda 
Familiar (X) e Gasto com Alimentação (Y), para uma amostra de 25 
famílias. Interprete o coeficiente de correlação calculado para estas 
duas variáveis. 
O coeficiente, por ser maior que 0,8, é considerado como positivo 
forte, ou seja, o gasto com a alimentação está fortemente 
relacionado a renda familiar de cada família de forma crescente – 
quando maior a renda, maior o gasto com alimentação. 
 
Questão 2 
Uma amostra de 10 famílias foi selecionada e observadas 
as seguintes variáveis: renda, número de filhos e média de 
anos estudo da família. Interprete os coeficientes de 
correlação calculados para estas variáveis. No gráfico de 
19 
 
nº de filho por média de anos de estudo da família temos r de - 0,737, de forma que a correlação é 
moderada forte negativa, ou seja, quanto maior o nº de filhos, menor é a média de anos de estudo da 
família. No gráfico de nº de filhos por renda, vemos r de - 0,759, também sendo 
moderado forte negativa, de forma que quanto maior o nº de filhos, menor a 
renda. E por fim, no gráfico de renda por média de anos de estudo da família, 
temos r = 0,947, ou seja, há relação forte positiva entre as variáveis de forma 
que, quanto maior a renda, maior é a média de anos de estudo da família. 
 
Questão 3 
Os dados ilustrados no gráfico abaixo correspondem ao número de casos de 
tuberculose diagnosticados no Brasil (Y) por ano (X). Interprete o coeficiente 
de correlação calculado para estas duas variáveis. 
O coeficiente de relação é de -0,968, ou seja, é forte negativo. Com isso 
vemos que temos uma linear decrescente e que ao passardos anos menor 
foi o número de casos de tuberculose diagnosticada no Brasil. 
 
Questão 4 
Procurando quantificar os efeitos da escassez de sono sobre a capacidade de 
resolução de problemas simples, um pesquisador tomou ao acaso 10 sujeitos 
e os submeteu a experimentação. Deixou-os sem dormir por diferentes 
números de horas, após o que solicitou que os mesmos resolvessem 50 
"contas de adicionar" de um teste. Os resultados da pesquisa estão ilustrados 
no gráfico a seguir. Interprete o coeficiente de correlação calculado. 
Como r = -0,801, vemos que a correlação é forte e negativa, ou seja, é uma 
relação decrescente e pouco variável. Sendo assim, quanto maior foi o número de acerto, menor foi a 
quantidade de horas sem dormir. 
 
Questão 5 
Uma empresa está estudando como varia a 
demanda de certo produto em função de seu preço 
de venda. Os gráficos ao lado apresentam os 
preços praticados e volume de vendas ao longo de 
um ano, sendo que no segundo gráfico o valor do 
mês de dezembro foi omitido. Qual gráfico é mais 
adequado para estudar o volume de vendas em função do preço do produto? Justifique. 
O segundo é mais adequado, pois a correlação é mais forte (forte negativa no segundo e fraca moderada 
no primeiro) e a variabilidade é menor, de forma que uma avaliação do gráfico é mais fácil de ser feita e 
estudada. Além disso, os valores estão mais coerentes com a média, de forma que há menos desfalques 
dos valores reais e mostra que há mais forte correlação entre as variáveis X e Y. 
 
Regressão linear 
Definição: Modelo linear para o ajuste de duas variáveis quantitativas. 
 - Equação para se estimar a condicional (valor esperado) de uma variável y, dados os valores de algumas 
outras variáveis x. 
Os estatísticos propuseram formas de avaliar a reta, vendo sua variabilidade, não sendo uma 
 
 Análise de regressão linear simples 
Passos: 
 - 1º passo: Identificar uma correlação linear entre 2 variáveis 
 - 2º passo: Estimas uma equação que descreva a relação entre estas variáveis. 
 
A relação mais simples é aquela descrita pela equação de uma reta. 
 - y = Bo + B1 x, sendo y a variável resposta, B0 o coeficiente linear (intercepto), B1 o coeficiente angular 
(inclinação) e x a variável explicativa. 
 # Quando o x é igual a zero, o que sobra na equação é Bo. Se B1 é positivo, há uma reta crescente e o 
20 
 
valor deste é a inclinação da reta. Se B1 é negativo, há uma reta decrescente 
e cada vez que se aumenta x, aumenta-se a inclinação. Se Bo é zero, se tem 
uma reta (sem inclinação). 
 
 Modelo de regressão linear 
^y = ^Bo + ^B1 x  valores estimados de y. 
y = ^Bo + ^B1 xi + Li  valores observados de y. 
Na prática, existe variabilidade na resposta, o que significa que os pontos 
observados oscilam ao redor da reta estimada. 
 - Vemos que pode haver uma associação entre tempo e salário, mas que 
esse não define a reta. 
 
Denominamos de resíduos do modelo a diferença entre os valores observados na 
amostra os valores estimados através da reta de regressão. 
Temos Li = yi – ^yi, sendo ^yi o valor esperado (a reta). Os pontos acima da reta 
são os resíduos (erros do modelo) positivos, os abaixo são os negativos. 
 
 Ajuste da reta de regressão 
Na primeira reta vemos uma 
superestimação dos valores de y. 
Na segunda vemos a 
subestimação dos valores de Y. 
Sendo assim, na terceira reta, 
vemos uma reta ideal, de forma que quando se soma os resíduos positivos e negativos se acha zero, pois 
eles devem se anular. 
 - Assim, o melhor ajuste da reta é aquela que os resíduos oscilam em torno da reta (positivos e negativos) 
de tal forma que a média dos resíduos seja igual à zero. 
 
Ainda assim, é possível determinar diversas retas com esta propriedade (Li = 
zero). 
 - A reta azul e a verde ao lado não são adequadas, pois se espera a menor 
distância da reta e do resíduo. Além disso que a soma da distância entre a reta e 
o resíduo é levada ao quadrado, se espera o menor valor possível. 
 
O método de mínimos quadrados estima os calores de Bo e B1 de tal forma que minimiza as distâncias dos 
resíduos, ou seja, determina Bo e B1, de maneira que os pontos se aproximem da reta da “melhor forma 
possível”. 
 
 Interpretação dos coeficientes 
Bo: é o valor esperado de y, quando o x = 0 (nem sempre interpretável). 
B1 = indica a variação (aumento ou redução) esperada de y, a cada unidade de x. 
 
 Coeficiente de determinação (R²) 
Trata-se de uma medida de qualidade do ajuste da reta de regressão: fiz uma reta de regressão, calculei, 
ela está bem ajustada aos dados? 
O coeficiente de determinação, R², mede a proporção da variação em Y, que é explicada pela variável X, ou 
seja, quanto da variação de Y pode ser explicada pelo modelo de regressão. 
 - Quanto da variação do salário pode ser explicada só pelo tempo? Ou seja, se exclui as outras variáveis e 
só avalia uma. 
O coeficiente de determinação será um valor entre 0% e 100%. Quando maior for o valor de R² melhor o 
grau de ajuste do modelo de regressão. 
 - Quando mais próximo de 100, maior é a capitação da variabilidade de Y. 
 # Ela está na mesma empresa e todo ano o salário dela aumenta 200 reais – somente o salário, ou ele 
majoritariamente explica. Quando mais próximo de zero, mostra que 
não depende somente do tempo (ele não explica muito). 
 - Na imagem ao lado mais à esquerda vemos R² ~ 100%, e na à direita 
vemos R² ~ 0%. 
21 
 
 Atividade – exemplo 
Exemplo: taxa de mortalidade infantil em Betim. 
20 ^y = 2500,2 – 1,24x  reta de regressão estimada. Sendo x = ano. 
16 R² = 72,3% 
12 1 – Interprete Bo e Bi  Não faz sentido interpretar Bo nesse caso, 
8 pois no ano zero não existia Betim. B1 pode ser visto como uma 
4 redução na taxa de mortalidade de 1,24/cem mil a cada ano. 
 2 – Qual a taca esperada em 2018?  y = 2500,2 – 1,24 (2018)  
 
2002 2003 2004 2005 2006
 2500,1 – 2502,33  - 2,12 
3 – Se a progressão continuar constante, quando teremos uma taxa de 1 óbito a cada cem mil? 1 = 2500,1 – 
1,24x  1,24x = 2500,2 – 1  1,24x = 2499,2  x = 2015,48. 
4 – Interprete R²  ela pode explicar a variabilidade da taxa de mortalidade. 
 
Atividade Avaliativa – Regressão linear 
Questão 1 
É esperado que a massa muscular de uma pessoa diminua com a idade. Para estudar essa relação, uma 
nutricionista selecionou 18 mulheres com idade entre 40 e 79 anos, e observou em cada uma dela a idade (X) e 
a massa muscular (Y). 
a) Interprete os coeficientes da reta de regressão. A massa muscular é a variável resposta, ou 
seja, a variável afetada pela idade (Explicativa). Bo  com a idade zero, a massa muscular 
não pode ser estimada. B1  a cada ano, há a redução de 0,027g. 
b) Qual a massa muscular esperada para uma mulher de 75 anos? 1,027x = 148,2 – 1,027,7  y 
= 148,2 – 77,025  y = 70,975. 
c) Em que idade espera-se que a massa muscular seja igual à 100? 1,027x = 148,2 – 100  y = 
48,2 / 1,027  y = 46,932.814 
 
 
Proporção, porcentagem e razão – Medidas de Efeito – RR e RC 
Proporção: medida de frequência relativa. 
 - É dada pela frequência absoluta de casos do fenômeno de interesse sobre o total avaliados. 
 - Proporção = nº de casos / total. 
 - Varia de 0 a 1. 
Porcentagem: mais usada para divulgar resultados de pesquisas. 
 - Porcentagem = proporção x 100 
 - Varia de 0 a 100%. 
Razão: Quociente entre duas medidas relacionadas entre si; (o denominador não inclui o numerador, são 
duas entidades separadas e distintas). 
 - Medem a força da associação entre um determinado fator de exposição e a ocorrência da doença  
quantas vezes a ocorrência da doença é maior no grupo de expostos em relação ao grupo de não expostos. 
 # Razão = expostos/não expostos ou doentes/não doentes. 
 
 Medidas De efeito 
Resultados de pesquisas epidemiológicas são frequentemente expressos por meio de medidas de efeito, 
tais como risco relativo (relative risk) ou razão de chances (OddsRatio). 
 - O uso dessas medidas ajuda a identificar fatores associados a doenças, condições ou comportamentos. 
 - Embora amplamente utilizadas nas pesquisas epidemiológicas os conceitos e métodos podem ser 
aplicados nas diversas áreas do conhecimento. 
 - O aparecimento e/ou desenvolvimento de uma determinada doença (ou desfecho de interesse) pode 
ocorrer com maior frequência na presença de alguns fatores, os quais são usualmente chamados de 
fatores de risco. Entretanto, ainda existe certa confusão quanto à decisão de qual medida de efeito deve 
ser usada e como se faz a interpretação de tal medida. 
 
Cálculo de Risco ou Chance 
 - Imagem ao lado. 
22 
 
Risco Relativo 
Baseado nessas probabilidades, o RR pode ser calculado pela probabilidade de expostos / por não 
expostos, sendo assim (a/a+b) / (c/c+d). 
O resultado equivale a dizer que, o valor encontrado é o risco de vezes mais do indivíduo de ser acometido 
pelo o que está sendo estudado. Ou seja, é dizer o quanto mais de risco o indivíduo tem caso um fator 
estudado seja presente. 
Exemplo: o risco de morte perinatal de um recém-nascido de baixo peso é 17,7 vezes o risco de morte 
perinatal de um recém-nascido com peso ≥2.500 g. 
 
 Razão de Chances 
Pode ser calculada pela divisão da chance dos expostos terem o desfecho pela chance dos expostos não 
terem o desfecho. Portanto, é (a/b) / (c/d)  ad / bc. 
O resultado mostra a chance do indivíduo ser acometido por ter determinado fator em comparação com 
alguém que não tem o fator. 
Exemplo: calcula-se que a chance de morte perinatal de um recém-nascido de baixo peso é 22,1 vezes a 
chance de um recém-nascido com peso ≥2.500g. 
 
 Como escolher? 
Estimativas de RR só podem ser feitas quando partimos da exposição e observamos o evento, o que ocorre 
em Estudos de Coorte (acompanhamento), sendo um estudo longitudinal. Entretanto, a forma mais 
frequente de estudos comparativos são os Estudos Caso-Controle, nestes casos utilizamos a RC. 
 
 Como interpretar? 
Sabe-se que o RR (ou a RC), por se tratar da razão entre duas quantidades, será igual a 1 quando o risco (ou 
chance) for igual entre expostos e não-expostos. 
 - Se RR (ou RC) for maior que 1, temos um fator de risco; 
 - Se RR (ou RC) for menor que 1, temos um fator de proteção  nesse caso calcula-se 1/RR ou 1/RC  O 
resultado pode ser interpretado como o número de vezes menos chance de ocorrência em relação ao 
grupo exposto. 
 
Assim, baseados no IC (Intervalo de Confiança) para o RR (ou RC), podemos afirmar que: 
 - Se o IC obtido contiver o valor 1, o fator não é significativo nem para risco nem para proteção. 
 - Se o IC for todo maior que 1 temos um fator significativo de risco. 
 - Se o IC for todo menor que 1 temos um fator significativo de proteção. 
 
Lista de Exercícios – RR e RC 
Questão 1 
Uma indústria automobilística 
deseja reduzir o índice de 
acidentes de trabalho dos seus 
funcionários. Com este objetivo 
decidiu investigar alguns possíveis 
fatores de risco para a ocorrência 
dos acidentes. 
a) Observe os resultados do 
estudo na tabela abaixo 
e identifique quais os 
fatores estão 
significativamente associados à ocorrência de acidentes de trabalho. Temos como fatores de risco 
horas extras, e fator de proteção sexo feminino, uso de EPIs e produção. Como não associados 
tempos idade e turno. 
b) Interprete os fatores de risco encontrados. Vimos uma maior chance de acidentes com 
trabalhadores que realizavam hora extra, demonstrando que o cansaço com excesso de trabalho é 
prejudicial para saúde do trabalhador e para empresa. Assim, abolir horas extra é uma importante 
medida para evitar acidentes. 
Fatores 
Acidente 
RC 
IC (95%) 
1/RC 
Sim Não Li Ls 
Sexo Fem 13 425 0.41 0.23 0.76 
 Masc 64 868 2.41 
Idade ≤ 35 52 744 1.53 0.94 2.50 
 > 35 25 549 0.65 
Horas Extras Sim 50 430 3.72 2.29 6.02 
 Não 27 863 0.27 
 
Turno Diurno 39 798 0.64 0.40 1.01 
 Noturno 38 495 1.57 
Uso de EPI Sim 14 1008 0.06 0.03 0.11 
 Não 63 285 15.92 
Equipe Produção 58 1108 0.51 0.30 0.88 
 Montagem 19 185 1.96 
Total 77 1293 
23 
 
c) Interprete os fatores de proteção encontrados. Vemos que o uso de EPIs de forma obrigatória é 
necessário, assim como melhor treinamento dos funcionários do sexo masculino e o reforço das 
instruções de segurança com os funcionários que trabalham na montagem, como forma de reduzir 
os acidentes. 
d) Por ordem de importância, quais as medidas devem ser tomadas para a redução de acidentes de 
trabalho nesta indústria? Uso de EPIs, treinamento dos funcionários do sexo masculino, medidas de 
proteção reforçadas e proibição de horas extras. 
 
Questão 2 
Com o objetivo de aumentar 
minha renda, estou produzindo 
deliciosas palhas italianas 
artesanais e vendendo na padaria 
do meu bairro. 
Na primeira semana, as palhas italianas foram expostas ao lado da caixa registradora. Na segunda semana, 
as palhas italianas foram colocadas na vitrine do setor de confeitaria, no interior da loja. 
A quantidade de clientes que passaram pela loja e a quantidade de palhas italianas vendidas, em cada 
semana, estão apresentadas na tabela abaixo. 
a) Qual das medidas de efeito (RR ou RC) é mais adequada para este estudo? Justifique. O uso de RR é 
mais adequado, pois partimos da exposição, que é o local onde as palha-italianas foram expostas, 
para observar o evento, que é o número de doces que foram ou não vendidos em cada situação. 
b) Interprete o resultado. O risco de venda de uma palha-italiana exposta na caixa é 2,88 maior que o 
risco de venda no interior da padaria. 
 
Questão 3 
É comum observarmos em embalagens de 
shampoo frases do tipo: 
“10x mais volume” “8x mais hidratação” 
 “3x mais brilho” 
Este tipo de informação é proveniente de estudos como o exemplo apresentado na tabela abaixo. 
a) Interprete o resultado. A chance de se obter maior volume utilizando o shampoo A é 10,96 vezes a 
chance de se obter maior volume utilizando o shampoo B. 
b) Comente qual o erro de interpretação é comum o cliente cometer ao ler a embalagem do shampoo? O 
cliente pode interpretar que o shampoo aumentará o volume do seu cabelo em 10 vezes, ao invés 
ded que há 10 vezes mais chance de aumentar o volume. 
 
Questão 4 
Observe os resultados da tabela abaixo. 
Qual a importância do tamanho da 
amostra no estudo? 
Caso o tamanho da amostra não seja 
significativo, o intervalo de confiança 
não será valido, não indicando nem um fator de risco nem um fator de proteção. 
 
Lista de Exercícios – Bioestatística – 2ª etapa 
Questão 1 
Defina o p-valor. 
P-valor: probabilidade de errar ao afirmar uma diferença significativa. 
 - Quando > 0,05, Ho: A = B. 
 - Quando ≤ 0,05, H1: A ≠ B. 
 
Questão 2 
Um grupo de alunos da disciplina de Bioestatística da PUC-Betim 
elaborou um questionário com o objetivo de conhecer a qualidade de vida 
dos alunos de Medicina Veterinária desta universidade. O Gráfico abaixo 
apresenta a correlação entre o % de Energia diária e o % de felicidade 
Local 
Comprou? 
RC 
IC (95%) 
RR 
IC (95%) 
Sim Não Li Ls Li Ls 
Caixa 132 924 3.15 2.21 4.50 2.88 2.06 4.02 
Interior 43 948 
Total 175 1872 
Shampoo 
Mais Volume 
RC 
IC (95%) 
Sim Não Total Li Ls 
A 81 19 100 10.96 5.65 21.28 
B 28 72 100 
Total 109 91 
Estudo Shampoo 
Mais Volume 
RC 
IC (95%) 
Sim Não Total Li Ls 
1 A 70 30 100 3.50 1.95 6.29 
 B 40 60 100 
2 A 7 3 10 3.50 0.55 22.30 
 B 4 6 10 
24 
 
declarado por estes alunos. Avalie os resultados e redija suas interpretações. Vemos que quanto mais feliz o 
indivíduo é, maios energia diária ele relata ter. Vemos que o r é igual a 0,898, sendo uma correlação 
positiva forte. 
 
Questão 3 
Uma loja de eletrodomésticos está interessada em verificar o 
efeito do preço de um produto sobre o volume de vendas e o 
lucro. Os gráficos abaixo procuram avaliar a existência de 
correlação entre estas variáveis 
a) Interprete o coeficiente de correlaçãocalculado em 
cada um dos gráficos. O primeiro gráfico é uma correlação negativa muito 
forte, de modo que quanto maior o preço, menor o índice de vendas, por 
ser avaliado unidades vendidas e preço por unidade. Já no segundo, 
vemos que é uma correlação muito forte positiva, de modo que quanto 
mais unidades são vendidas, maior é o lucro, de forma que o preço 
estabelecido compensa. E já no terceiro gráfico vemos lucro por unidades 
vendidas, com uma correlação negativa média, de forma que o lucro diminui com o aumento das 
vendas. 
b) É mais vantajoso para a loja adotar preços maiores ou menores? Justifique. Deve ser adotado um 
preço que permita que o lucro seja alto, assim como o número de vendas. Esse pode ser estimado 
por volta de 180 pelos gráficos mostrados acima. 
 
Questão 4 
A expectativa de vida é uma medida estatística que procura mensurar o tempo de sobrevida esperado. A 
correlação entre idade e expectativa de vida é: 
a) Positiva b) Negativa c) Nula d) Irregular e) Perfeita 
Ela é negativa pois, quando mais velho o indivíduo é, menos tempo ele espera viver. Uma criança de 10 
anos diz querer viver mais 100, um indivíduo de 30 anos, espera viver mais 50, por exemplo. 
 
Questão 5 
A Tabela abaixo apresenta os resultados da análise de correlação 
linear, realizada através do cálculo do coeficiente de correlação de 
Pearson, entre a contagem de eosinófilos e as variáveis: Idade, IgE 
Total, IgE DP, IgE BT, IgE LV, IgG HP e os resultados de Prick test 
DP, BT, CÃO e CAVALO, dos participantes da pesquisa “Associação 
de Infecção por Helicobacter pylori e o Desenvolvimento de 
Esofagite Eosinofílica”. 
Fonte: Dados coletados na pesquisa. 
a) Quais as covariáveis estão associadas à contagem de 
eosinófilos dos pacientes? Para ver quais estão associadas, 
devemos olhar o p-valor, sendo essas então, idade, IgDP, 
IgG HP e Prick test DP. 
b) Interprete os coeficientes de correlação significativos. 
Quanto maior a idade, menor a contagem de eosinófilos, entretanto é uma associação fraca; o IgE 
DP é uma relação moderada positiva, de forma que quanto mais IgE DP, maior a contagem; IgG 
HP é uma relação moderada negativa, de forma que quanto mais IgG HP encontrados, menor é a 
contagem de eosinófilos; Prick test DP tem uma correlação fraca positiva e, quanto maior o Prick 
Test DP, maior é a contagem de eosinófilos. 
 
Questão 6 
Atkinson et al. (1994) investigaram em que medida partículas de chumbo potencialmente tóxica emitidas por 
veículos automotores são absorvidas por ciclistas que participam de competições. A tabela abaixo, fornece 
níveis de chumbo no sangue e horas semanais de treinamento de 10 ciclistas. 
 
Covariáveis R p-valor 
Idade -0,323 0,015 
IgE total 0,158 0,246 
IgE DP 0,406 0,002 
IgE BT 0,160 0,240 
IgE LV 0,178 0,190 
IgG HP -0,440 0,001 
Prick test DP 0,365 0,006 
Prick test BT 0,031 0,820 
Prick test CÃO 0,111 0,414 
Prick test CAVALO 0,021 0,877 
Horas de treinamento (A) 8 10 10 12 15 18 18 21 25 25 
Chumbo no sangue (B) 0,53 0,25 0,34 0,25 0,29 0,30 0,53 0,53 0,53 0,87 
25 
 
a) Interprete os coeficientes da reta de regressão. Deve-se 
lembrar que o Bo vem sozinho, e o B1 vem 
com a variável. Nisso vemos que o 0,1178 é o Bo e 0,02001 
hrs é o B1. O Bo é o quanto se espera da 
variável y, quando x é igual a zero (nesse caso, a taxa de 
chumbo esperada quando o indivíduo não treina). O B1 varia 
com o tempo de treino da pessoa (sendo hrs as horas de 
treino, sendo o valor visto, o valor que será multiplicado 
pelas horas de treino). 
b) Interprete o coeficiente de determinação do modelo de regressão. R² é o coeficiente de 
determinação, ou seja, o grau de ajuste, mostrada no gráfico como R-sq, com valor de 40,8% que 
equivale a porcentagem de chumbo no sangue que pode ser explicada pela atividade física. Ou 
seja, outros 59,2% são coisas que afetam a quantidade de chumbo no corpo e não podem ser 
previstas pelo estudo mostrado. 
c) Qual a taxa de chumbo esperada de chumbo para um atleta que treina 20 horas por semana? Pb = 
0,1178 + (0,02001 x 20)  A taxa de Pb esperada nesse indivíduo é de 0,518. 
d) Para quantas horas de treino semanal é esperada uma taxa de chumbo de 0,7? 0,7 = 0,1178 + 0,02001 
hrs  0,02001 hrs = 0,5822  Ele precisa treinar 29 horas/semana. 
 
Questão 7 
A cada 10 anos o Instituto Brasileiro de 
Geografia e Estatística (IBGE) realiza o 
censo demográfico da população 
brasileira. O gráfico ao lado apresenta a 
população brasileira por ano do censo no 
período de 1940 à 2010, a reta de 
regressão linear estimada e o coeficiente 
de correlação calculado. 
a) Há correlação significativa entre 
o tempo e o tamanho da 
população? Sim, pois vemos que 
o p-valor equivale a zero, e r = 
0,995, sendo uma correlação 
forte positiva. 
b) Interprete os coeficientes da reta de regressão. Temos Bo como 4.640 x 106 e B1 como 2.251.768 ano. 
Sendo Bo importante para compor a equação, mas não possível de interpretar (Brasil não existia no 
ano um e a população não pode ser negativa) e B1 a quantidade que se deve aumentar a cada ano, 
o crescimento populacional anual. 
c) Interprete o coeficiente de determinação do modelo de regressão. R² ou R-sq é de 99,1%, ou seja, 
através dessa reta de regressão é possível prever que o tempo explica o grau de ajuste/a 
variabilidade em 99,1%. 
d) A partir dos resultados apresentados acima qual o número de habitantes esperados para a população 
brasileira do ano de 2018? Pop = - 4.340 x 106 + 2.251.768 x 2018  Pop = -4.340 x 106 + 
4.544.067.824  Pop = 204,067,824 habitantes. 
e) Qual a taxa de crescimento da população? De 1% 
por ano. 
 
Questão 8 
O número de casos diagnosticados de hanseníase, por 
localidade no Brasil, está disponível no site do DATASUS 
do Ministério da Saúde. O gráfico abaixo apresenta o 
número de casos de Hanseníase diagnosticados em Minas 
Gerais, no período de 2002 à 2015, a reta de regressão 
linear estimada e o coeficiente de correlação calculado. 
26 
 
a) A redução do número de casos de Hanseníase a cada ano em Minas Gerais é estatisticamente 
significativa? Justifique. Sim, sendo uma correlação negativa forte, havendo uma reta descendente, 
pois o p-valor é de 0,005 e r = -0,934. 
b) Interprete o coeficiente de correlação calculado. É uma correlação negativa forte, indicando que 
quanto maior o tempo, menor o número de casos. 
c) Qual o número esperado de casos de hanseníase em Minas Gerais no ano de 2017? A cada ano se 
espera 174,8 casos a menos. 
d) Interprete o coeficiente de determinação calculado. R-sq é de 91,5%, de forma que o tempo explica 
91,5% da variabilidade dos casos da doença. 
e) Se a tendência observada, pela reta de regressão, continuar constante, em que ano é esperado que 
a doença seja erradicada em Minas Gerais? Hanseníase = 353.404 – 174,8 ano  zero = 353.404 – 
174,8 ano  Ano = 353,404 / 174,8  Ano = 2021,76, ou seja, se continuar assim, a doença será 
erradicada em 2022. 
 
Questão 9 
Os alunos da Carol foram questionados no primeiro dia 
de aula se estavam se sentindo felizes. A proporção de 
alunos que se declararam felizes naquele dia está 
associada ao gênero do aluno? 
a) Defina as hipóteses de interesse. Ho = 
Proporção felizes FEMININO = Proporção felizes 
MASCULINO e H1 = Proporção felizes FEMININO ≠ 
Proporção felizes MASCULINO. 
b) Usando os resultados abaixo onde foi realizado um teste estatístico para comparação da proporção de 
felizes entre gêneros, qual a conclusão do teste, considerando-se 95% de confiança? Com 95% de 
confiança, não há diferença significativa na proporção de felicidade entre os sexos feminino e 
masculino. 
 
Questão 10 
A taxa de Linfócitos no plasma de 44 voluntários sadios foi avaliada antes e após a participação em um estudo 
de bioequivalência de medicamentos. P-value = 0.359 
a) Defina as hipóteses apropriadas para verificar se ocorreu alteração na taxa de Linfócitos dos 
voluntários participantes do estudo. Ho: taxa de linfócitos ANTES