Buscar

Apostila de Bioestatistica

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 82 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 82 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 82 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Bioestatística
• O Método e a Ciência;
• Estatística e Bioestatística;
• Os Níveis de Mensuração;
• População e Amostra;
• As Técnicas de Amostragem.
• Conceituar Bioestatística e Estatística a partir das necessidades da Pesquisa Científi ca. 
• Estudar os tipos de variáveis e a necessidade de coletar amostras que refl itam o compor-
tamento de uma população em análise.
OBJETIVOS DE APRENDIZADO
Bioestatística
UNIDADE Bioestatística
O Método e a Ciência
Pensamento científico
O Pensamento Científico ocorre a partir de uma linguagem teórica sobre con-
ceitos e hipóteses científicas; porém, a comprovação dele necessita de uma lin-
guagem e de um método operacional, que é a morada das hipóteses estatísticas. 
Exemplo
Quanto maior o grau de Educação de uma pessoa, menor será o preconceito 
em aceitar uma Campanha Sanitária.
Temos aqui então dois conceitos teóricos:
• Preconceito: atitude negativa baseada em um pré-julgamento;
• Educação: conjunto de conhecimentos acumulados que permite a uma pessoa 
um julgamento global do mundo.
Como podemos instituir um método operacional para medir esses concei-
tos teóricos?
• Preconceito: atribuir escores, valores ou notas a partir de um questionário 
sobre o assunto;
• Educação: quantidade de anos de estudo escolar.
Hipótese estatística: “Quanto maior os anos de Escolaridade, menor a sua nota 
(escore) em uma escala de preconceito”; o que significa dizer que é negativa a cor-
relação em anos de Escolaridade e nota em uma escala de preconceito.
Caso essa afirmação seja a respeito de um grupo de pessoas, por exemplo: 
João, Maria, Kátia, José e Pedro, basta somente verificar a veracidade entre eles e 
pronto. Porém, as hipóteses estatísticas são gerais e se relacionam às populações.
Após formular uma hipótese, o passo seguinte é testá-la, antes de formular uma 
nova Teoria sobre o assunto (Figura 1). Portanto, para atingir esse objetivo, uma 
série de passos deve ser seguida. 
Esses passos visam a reunir informações seguras para que seja feita uma tomada 
de decisão e uma posterior formulação da Teoria. 
São passos a serem seguidos para formular uma nova teoria científica:
• Formular uma Hipótese Científica, o que chamamos de Inferência dedutiva. 
Essa é a ideia que surgiu após a pergunta do pesquisador a partir de seu conhe-
cimento prévio e observacional, sem a utilização de métodos comprobatórios;
• Organizar um plano para a coleta de dados e análise: onde e como vou con-
seguir as informações?
8
9
• Estabelecer uma regra de decisão: após a obtenção e a análise dos resultados 
– Qual parâmetro vou utilizar para considerar se minha hipótese inicial pode 
ser confirmada ou negada?
• Coletar os dados: é a busca propriamente dita das informações, por mensura-
ções dos conceitos teóricos pré-estabelecidos;
• Proceder à análise da hipótese estatística: estabelecimento de hipótese estatís-
tica a partir de um método operacional;
• Tomar decisões com relação à hipótese, após a análise dos dados e seguindo 
a regra de decisão estabelecida anteriormente;
• A partir da verificação da verdade ou da falsidade da hipótese inicial por meio 
da análise estatística, induz-se (inferência indutiva) a uma verdade cientí-
fica correspondente.
Mundo do Pesquisador Mundo da Estatística
Hipótese cientí�ca
PLANEJAMENTO
• Hipótese cientí�ca
• De�nição das variáveis
• Plano de coleta
• Tipo de análise dos dados
• De�nição das regras decisão
INFERÊNCIA INDUTIVA
Formulação de teoria a 
respeito da verdade cientí�ca
Aceitação ou rejeição
da hipótese estatística
COLETA DE DADOS
ANÁLISE ESTATÍSTICA
DOS DADOS
Figura 1 – O Método Científi co: da hipótese até a formulação de uma nova Teoria
Fonte: Acervo do Conteudista
Portanto, a Estatística tem como seu papel na Pesquisa Científica contribuir 
junto ao pesquisador:
• Na formulação de hipóteses estatísticas;
• Fixação de regras de decisão;
• Técnicas para um delineamento da pesquisa; 
• Coleta; 
• Tabulação e Análise dos Dados (Estatística Descritiva);
• Testes de hipóteses para expressar as incertezas da inferência indutiva em 
um nível probabilístico.
9
UNIDADE Bioestatística
Estatística e Bioestatística
A palavra Estatística deriva do latim status, significando Estado Político ou a 
situação de alguma coisa. J. F. Von Bielfel publicou o termo no livro The elements 
of universal erudition, em 1770, em um capítulo chamado Statistics, e foi defi-
nido como: “A Ciência que nos ensina qual a situação política de todos os estados 
modernos do nosso mundo”. 
Depois de uma série de publicações, a Estatística adquiriu um significado menos 
amplo: “A exposição das características de um estado por meio de métodos numé-
ricos”. 
Em 1834, ocorreu fundação da Royal Statistical Society. Após várias mudanças 
do significado de Estatística, passou-se a estudar séries de dados numéricos que 
operavam e a falar em:
a) Estatísticas médicas;
b) Estatísticas vitais;
c) Estatísticas marítimas.
Bérquó (1981) define em seu livro: 
Estatística é um ramo do conhecimento científico que consta de um 
conjunto de processos que têm por objeto a observação, a classificação 
formal e a análise dos fenômenos coletivos ou de massa (descritivos) e, 
por fim, investigar a possibilidade de fazer inferências indutivas válidas a 
partir dos dados observados e buscar métodos capazes de permitir esta 
inferência (indutiva).
A Estatística pode ser dividida em:
• Geral ou metodológica: elabora métodos gerais e aplicáveis e estuda as pro-
priedades matemáticas dos fenômenos de massa e a demonstração dos proce-
dimentos e fórmulas;
• Aplicada: ramo do conhecimento que procede exclusivamente por intermédio 
de metodologia estatística.
E Bioestatística é definida como: “A Ciência que trata os planos e os métodos de 
coleta, tabulação e análise de fatos numéricos nas Ciências da vida”.
Conceito de Variáveis
Quando estudamos as populações utilizando a óptica da Estatística, necessita-
mos, então, classificar os indivíduos de acordo com características mensuráveis. 
10
11
Essas características são chamadas de variáveis. A identificação e o estudo das 
variáveis vão permitir a descrição da população e o estabelecimento de compara
ções entre grupos, o que constitui, então, a base da Bioestatística. 
O entendimento do nível de mensuração que se estabelece em uma população 
vai permitir a escolha de técnicas corretas de demonstração dos Dados (Tabelas e 
Gráficos), de utilização de medidas comparativas, técnicas de inferência e a tomada 
de decisão. Portanto, reside aqui a base da Bioestatística, de onde seguem todas as 
demais Teorias. 
Os Níveis de Mensuração
Classifi cação da população de acordo
com uma característica nominal
Esse tipo de classificação pressupõe separar a população em grupos que possuem 
ou não a característica em estudo, como, por exemplo, sexo, cor de olhos, peso, 
peso ao nascer, raça etc. As características se expressam nominalmente, em escala 
nominal, ou seja, são dadas por um nome e não por um número, e devem ser:
• Exaustivas: todos os indivíduos estudados possuem a característica;
• Mutuamente exclusivas: cada indivíduo possui somente uma categoria.
Classifi cação da população de acordo
com uma característica que se ordena
Nesta situação, as características possuem um ordenamento natural, medidas, 
então, em uma escala ordinal. Nessa mensuração, não existe informação sobre a 
magnitude da característica – veja que, embora exista ordem, não existe grandeza 
(número). Se colocarmos a situação de um estudo sobre escolaridade de uma de-
terminada população e decidirmos classificá-lo segundo o critério Fundamental, 
Médio e Superior, fica clara a ordem natural desses nomes.
Classifi cação por características
mensuráveis e com zero arbitrário
Nesta escala de mensuração, além da ordenação, pode-se dizer quanto vale 
exatamente a diferença entre elas. Por exemplo, a diferença entre 30° e 10° é de 
exatamente 20°; porém não se pode dizer que 30° é três vezes mais quente que 
10°, pois o zeroé um ponto arbitrariamente estabelecido e não fruto de uma men-
suração objetiva. Nesse caso, a escala é dita intervalar, ou seja, os intervalos podem 
ser determinados.
11
UNIDADE Bioestatística
Classificação por características 
mensuráveis e com zero não arbitrário
Aqui, a característica é mensurável e, portanto, são permitidas as operações 
aritméticas, pois o zero não é arbitrário como em uma escala de temperatura. 
Um bom exemplo é quando trabalhamos com a altura de indivíduos: pode-se dizer 
que um indivíduo de 2,00m é duas vezes maior que um indivíduo de 1,00m. Esta 
se trata de uma escala de razões. Nesse tipo de classificação, podemos utilizar uma 
infinidade de operações matemáticas e estabelecer medidas que permitam melhor 
entender o comportamento da característica.
Deve-se perceber, então, que temos características que podem ser medidas, 
por exemplo, ao utilizarmos de instrumentos como a régua, que gera números e 
características que são apenas contadas, permitindo uma quantidade limitada de 
operações para descrever seu comportamento.
Esses atributos (características) que variam entre os indivíduos são chamados de 
variáveis, que podem ser classificadas em qualitativas, aquelas medidas em escala 
nominal ou ordinal, e quantitativas.
As variáveis quantitativas podem ser contínuas ou discretas:
• Contínuas: assumem qualquer valor. Por exemplo, peso, altura. Veja que entre 
a altura de 1,50m e a de 1,55m, por exemplo, existe uma infinidade de valores 
possíveis, dependendo da precisão do instrumento de medida utilizado;
• Discretas: assumem valores de um conjunto enumerável. Por exemplo, nú-
mero de indivíduos nascidos de cada mãe. Perceba que podemos ter 1, 2, 3, 
4, 5...10 filhos, mas nunca números fracionados; entre 1 e 2 filhos não existe 
nenhum valor possível.
Os tipos de variáveis estão resumidos na Figura 2:
Variável
Qualitativa
Quantitativa
Nominal
Ordinal
Contínua
Discreta
Figura 2 – Classificação das variáveis
Fonte: Acervo do Conteudista
12
13
População e Amostra
A Pesquisa Científica, Observacional ou Experimental busca dados sobre a tese 
a ser comprovada e estabelece comparações entre grupos com características dis-
tintas. A primeira pergunta do pesquisador, no início da Pesquisa, é se os dados 
serão coletados de toda uma população ou de uma parcela representativa da popu-
lação. Para tanto, é necessário definir População e Amostra (Figura 3).
• População: conjunto de elementos que têm, em comum, determinada caracte-
rística. Por exemplo, pessoas que vivem em uma determinada região: popula-
ção da cidade de São Paulo; animais de uma determinada espécie – tamanduá-
-mirim; pessoas com um determinado tumor – portadores de melanoma;
• Amostra: todo subconjunto não vazio e com número menor de elementos
da população.
Qualquer parcela de indivíduos que pertence a uma população é uma amostra. 
Por exemplo, 50 pessoas da cidade de São Paulo é uma amostra desta população.
a
A População
Amostra
Figura 3 – População e Amostra
Fonte: Acervo do Conteudista
Assim, as populações podem ser classificadas como finitas e infinitas:
• Finita: é aquela população com um número total possível de se determinar – 
Por exemplo, o conjunto de alunos de um curso;
• Infinita: é aquela em que o número de elementos que faz parte dessa popu-
lação é impossível de se determinar – Por exemplo, o número de vezes que 
posso jogar os dados.
Em alguns casos, as populações finitas são tão grandes que as podemos consi-
derar infinitas – Por exemplo: pessoas com mais de 18 anos no Brasil.
Para acessar os dados para comprovação da tese, podemos escolher trabalhar 
com populações inteiras ou com o estudo de amostras. 
Assim, quando a coleta é feita de toda uma população, recebe o nome de 
Recenseamento, e quando é feita de uma parcela da população, recebe o nome 
de Amostragem.
13
UNIDADE Bioestatística
• Recenseamento: coleta de dados de TODA a população. Censo é o conjunto 
de dados obtidos;
• Amostragem: coleta de informações de PARTE da população.
Muitas vezes, o estudo CUIDADOSO de uma amostra tem mais valor científico 
do que o estudo sumário de uma população. 
Por vezes, o pesquisador tem a impressão de que um conjunto de dados muito 
grande, como o de toda uma população, pode trazer mais informações do que uma 
amostra; porém, a dificuldade em analisar esses dados se torna tão grande que as 
conclusões obtidas são fracas e de pouco valor. 
Um número limitado de dados provenientes de uma boa amostra permite um 
estudo detalhado, de onde se chega a conclusões mais consistentes.
As Técnicas de Amostragem
A amostra foi definida como qualquer subconjunto de uma população, mas nem 
toda amostra (ou subconjunto) representa adequadamente uma população a ponto 
de servir a uma pesquisa. 
Para que uma amostra seja adequada para um estudo científico, ela deve apre-
sentar características similares a da população para permitir que o resultado de seu 
estudo seja aplicado à população que a originou.
Amostragem é o ato de obter uma amostra de uma população, é o procedimento 
que será adotado para escolher os elementos que irão compor a amostra. Amostras 
obtidas de forma incorreta, ou seja, que representam mal uma população, são cha-
madas de amostras viciadas.
Apesar de o risco sempre presente de uma amostra representar mal uma popu-
lação, seu uso oferece muitas vantagens:
• Custo menor: toda pesquisa envolve custos financeiros, quanto menor o nú-
mero de indivíduos analisados, menor o seu custo. Muitas vezes o custo finan-
ceiro é fator limitante para que uma pesquisa ocorra;
• Menor tempo: outro fator limitante é o tempo. A utilização de estudos amos-
trais diminui em muito o tempo de realização de uma pesquisa;
• Objetivos mais amplos: imagine que gostaríamos de conhecer profundamen-
te os hábitos alimentares, culturais e financeiros da população brasileira. Para 
isso, seria necessário buscar uma centena de informações. Caso fossemos 
acessar essas informações em toda a população, seria de se esperar que o nú-
mero de perguntas fosse minimizado a ponto do trabalho não se tornar longo 
e exaustivo. Quando limitamos uma amostra, certamente podemos alongar 
os questionamentos e conseguir uma quantidade melhor de informações.
14
15
Muitas vezes, o trabalho com amostras é imperativo e não resta ao pesquisador 
outra opção. 
São situações em que isso ocorre:
• Populações tão grandes que se assemelham a infinitas. Por exemplo, estudo da 
presença de enzimas séricas na população mundial;
• Casos em que o processo de investigação da característica é destrutivo. Por 
exemplo, o resultado a ser obtido necessita do sacrifício de animais ou da des-
truição do objeto de análise;
• Casos em que existem problemas éticos impeditivos para utilizar toda uma 
população. Por exemplo, testes com drogas ou vacinas;
• Casos em que a população é hipotética, ou seja, desconhecida, e a amostra é 
real. Por exemplo, estudo com usuários de drogas de abuso.
Feita a opção por estudar uma amostra, algumas etapas que devem ser obedecidas:
Etapas do levantamento por amostragem:
1. Estabelecer os objetivos com clareza. Defi nir qual a unidade elementar ou 
de trabalho;
2. Defi nição da população a ser amostrada;
3. Escolha das variáveis a serem observadas em cada unidade de análise;
4. Especifi cação do grau de precisão desejado. O grau de incerteza pode ser 
reduzido ao tomarmos amostras maiores e empregar melhores técnicas 
de medição;
5. Escolha dos instrumentos de medida e da forma de abordagem;
6. Escolha da unidade amostral: a menor parte distinta e identifi cável da po-
pulação para fi ns de enumeração e sorteio;
7. Execução de prova experimental, piloto ou pré-teste. Isso orienta os ajus-
tes necessários;
8. Seleção da amostra depois de decidido o seu tamanho.
A próxima questão é: sabendo que nem toda amostra é adequada e representati-
va de uma população, qual a metodologia a ser utilizada para que a minha amostra 
represente a população da melhor maneira possível?Existem algumas técnicas que podem ser utilizadas para diminuir a probabilida-
de da ocorrência de vício na amostra.
As amostras podem ser, então, obtidas de maneira probabilística ou não probabi-
lística. As amostras probabilísticas somente serão preteridas na absoluta impossibili-
dade de utilização, são amostras obtidas sem a utilização de técnicas específicas, as 
quais nos garantem que todos os elementos da população tiveram a mesma chance 
de fazer parte da amostra. Exemplos: se necessitamos avaliar o desempenho de um 
15
UNIDADE Bioestatística
docente a partir de um questionário aplicado aos 1000 alunos que esse docente 
atende e para isso decidimos fazer uma amostragem da turma com 50 alunos; se, 
para a realização da pesquisa, eu escolho os alunos que vão fazer parte dessa pes-
quisa, estou diante de uma amostra não probabilística, pois excluí a possibilidade de 
vários alunos participarem; porém, se estabeleço um sorteio utilizando o número de 
matrícula desses alunos, então todos terão a mesma oportunidade de participar e, 
dessa maneira, faço, então, uma amostra probabilística.
• Probabilística: cada unidade amostral tem uma probabilidade conhecida dife-
rente de zero;
• Não probabilística: não se conhece a probabilidade de cada unidade amostral 
pertencer à amostra. Algumas unidades terão probabilidade zero de pertencer 
à amostra.
São tipos de amostragem probabilística:
• Casual simples;
• Casual simples estratificada;
• Sistemática.
Amostra casual simples sem reposição
É a amostra composta por elementos retirados ao acaso da população. Todo 
elemento tem igual probabilidade de ser escolhido, qualquer subconjunto de n ele-
mentos diferentes de uma população de N elementos tem a mesma probabilidade 
de ser sorteado. 
Por exemplo, o Curso necessita de uma amostra casual simples de cinco de seus 
alunos para uma avaliação de conhecimentos gerais. O total de alunos é 100 e to-
dos têm um número de matrícula de 1 a 100. A partir de bolinhas numeradas de 1 
a 100, sorteia-se, ao acaso (sem nenhum tipo de interferência intencional), uma das 
bolas com o número dos alunos, sem retornar à bola, por cinco vezes (Tabela 1):
Tabela 1 – Resultado do sorteio de 5 alunos para uma avaliação
Sorteio Número do aluno sorteado
1 005
2 093
3 015
4 100
5 002
16
17
Amostra casual simples estratifi cada
É a amostra composta por elementos de todos os diferentes estratos da população. 
Vamos chamar de estrato todo subconjunto de uma população que possua ca-
racterísticas comuns e que interfira no resultado da variável estudada. Por exemplo, 
na Pesquisa Eleitoral, as populações de faixa socioeconômicas diferentes possuem 
opiniões diferentes a respeito dos candidatos. Temos as variáveis: sexo, renda, idade, 
escolaridade etc., que podem interferir no resultado da pesquisa cuja pergunta é: 
“Qual o seu candidato?” Portanto, para que a amostra não seja viciada, devemos ob-
ter uma amostra de cada estrato da Sociedade e reunir tudo em uma única amostra.
Se uma população é composta de h estratos, define-se:
N= Tamanho da população
Nh = Tamanho de cada estrato populacional
N= Tamanho total da amostra
nh = Tamanho da amostra do estrato h
Amostragem sistemática
Esse tipo de amostragem utiliza a ordenação natural dos elementos de uma dada 
população. Muitas populações são ordenadas naturalmente, como, por exemplo, 
a população dos pacientes de uma clínica ou de qualquer serviço de atendimento 
à Saúde. 
Os indivíduos pertencentes a essa população, tão logo chegam ao serviço, são 
cadastradas por ordem de entrada. Esse cadastramento tem correlação direta com 
o tempo, sendo que os primeiros números são dos primeiros pacientes e os núme-
ros mais altos se referem aos pacientes mais recentes. 
Sempre que esse ordenamento natural for observado, a criação de um sistema 
para formar a amostragem é conveniente. Por exemplo, ao desejar estudar uma 
amostra de 100 elementos da população de 10.000 pacientes cadastrados em 
uma Clínica, retira-se uma ficha a cada mil, iniciando-se da primeira.
Define-se então:
• N: tamanho da população
• n: tamanho da amostras
• K: intervalo de amostragem = N/n ,
• i: início casual, sorteado entre 1 e k, inclusive
• Amostra sorteada é composta pelos elementos: i, i+k, i+2k, ...., i+(n-1)k.
17
UNIDADE Bioestatística
Observação
É necessário ter cuidado com a periodicidade dos dados. Por exemplo, se for 
feito sorteio de dia no mês, podemos ter como resultado sempre um domingo, em 
que o padrão de ocorrência do evento pode ser diferente.
Amostra de conveniência
É a amostra não probabilística composta por elementos que o pesquisador reuniu 
simplesmente por que dispunha deles, sem qualquer tipo de técnica. Existe uma série 
de restrições estatísticas a essa amostragem; porém, ela é comum na área da saúde, 
pois, por dificuldades de ordem ética, nem sempre é possível formar uma amostra 
probabilística. Imagine a seguinte situação: um pesquisador deseja conhecer o perfil 
de usuários de drogas ilícitas e, para tanto, precisa fazer entrevistas com 100 indiví-
duos, qual é a população desses usuários? Essa população se declara? 
Em situações como essa, o pesquisar recorre a uma amostra que encontra, 
como, por exemplo, os indivíduos de uma clínica de recuperação. 
Vício de uma amostra
Vício, viés ou tendenciosidade caracterizam-se pela diferença entre a média ob-
tida de todas as possíveis amostras e o verdadeiro valor do parâmetro populacional 
em estudo. De maneira simples, é o erro que a amostra carrega por ser composta 
por indivíduos com valores distantes do verdadeiro valor que se pesquisa. 
Voltando a um exemplo anterior em que, para avaliar o desempenho de um 
docente, aplicava-se um questionário aos alunos e o docente escolhia a amostra, 
conclui-se que essa amostra (grupo de alunos) tende a atribuir a esse professor uma 
nota média superior àquela que a média da turma toda iria conferir. Essa tendência 
chama-se, então, vício da amostra.
Dados discrepantes
São considerados dados discrepantes os valores aparentemente incompatíveis 
com os demais valores obtidos em um levantamento de dados.
Diz-se aparentemente, pois é impossível para um pesquisador avaliar se existe 
um dado errado ou incompatível. Veja, se um pesquisador deseja conhecer o tipo 
físico dos alunos matriculados em uma grande instituição de Ensino Superior, se-
guindo nossos critérios, ele vai optar por uma amostra. 
Se essa Instituição tem 10.000 alunos matriculados, ele pode perfeitamente 
fazer uma amostra casual simples de 100 alunos para aferir altura e peso. 
Analise essa situação hipotética: dos 100 alunos sorteados, apareceu um com 
altura de 1,40m e 100Kg, ou seja, esse aluno, tipicamente fora do padrão corporal 
18
19
de qualquer população, está representando 1% da amostra, mas será que 1% da 
população, ou seja, 100 alunos, possuem esse tipo físico? Essa é uma típica 
situação de dado discrepante.
O que fazer com os dados discrepantes? 
Leve em consideração os pontos a seguir:
• Deve-se verificar todo o valor suspeito e descartá-los, se forem verificados er-
ros em um ou mais pontos do processo;
• Os dados discrepantes influenciam os resultados estatísticos;
• A inclusão ou exclusão deve ser minuciosamente analisada.
19
Material Complementar
Indicações para saber mais sobre os assuntos abordados nesta Unidade:
 Leitura
O Caminho da Ciência: O método científico
https://goo.gl/2Mdyic
Estatística/Bioestatística/Métodos Estatísticos/Bioestatística e Epistemologia da Investigação
https://goo.gl/WbMtS8
Níveis de Mensuração da Variável
https://goo.gl/2d8Qtd
Etapas do Método Estatístico
https://goo.gl/NM2MTN
Referências
BERQUÓ, E. S.; SOUZA, J. M. P.; GOTLIEB, S. L. D. Bioestatística. 2.ed. São 
Paulo:Editora pedagógica e Universitária, 1981.
VIEIRA, S. Introdução à Bioestatística. 5.ed.São Paulo: Campus, 2008.
______.Bioestatística: tópicos avançados. 2.ed. São Paulo: Campus, 2003.
• Introdução;
• Elaboração de Questionários e de Instrumentosde Coleta de Dados;
• Elaboração de Tabelas e Gráficos.
• Apresentar como é elaborado um questionário e demais instrumentos para coleta de dados;
• Discutir como é feita a tabulação dos dados;
• Abordar o processo de elaboração de tabelas e gráfi cos.
OBJETIVOS DE APRENDIZADO
Obtenção e Expressão de Dados 
Utilizados em Bioestatística
UNIDADE Obtenção e Expressão de Dados Utilizados em Bioestatística
Introdução
Hoje iremos falar sobre assuntos importantes que serão preparatórios para as 
análises estatísticas ou a finalização (exposição) dos resultados obtidos. São eles:
1. Elaboração de questionários e de instrumentos de coleta de dados;
2. Tabulação de dados;
3. Elaboração de tabelas e gráficos.
Será um módulo bem interessante. Esperamos que você o aproveite e aprenda 
da melhor forma possível.
Elaboração de Questionários e de 
Instrumentos de Coleta de Dados
Depois do nosso primeiro módulo, percebemos que toda linguagem teórica 
 precisa ser transformada em uma linguagem operacional, isto é, ser convertida 
para condições que nos permita agrupar e relacionar uma informação (dados) com 
 outra, bem como expressar informações a respeito do fenômeno investigado.
Isso porque será a partir dessa transformação, do teórico para o operacional, 
que poderemos avançar na estatística.
Tomemos como ponto inicial deste conteúdo o mesmo exemplo já abordado na 
aula anterior:
Linguagem teórica Linguagem operacional
Preconceito
– Um possível escore que varie de zero a dez (variável quantitativa);
– Categorizar as respostas de acordo com a intensidade do preconceito: “muito”, “razoável”, 
“nenhum” (variável qualitativa);
Escolaridade
– Nível de estudo: fundamental, médio ou superior (variável qualitativa);
– Anos de escolaridade (variável quantitativa);
– Quantidade de anos cursados, não importando o tipo de curso: técnicos, de idiomas etc. (variável 
quantitativa).
Perceba que, no exemplo acima, se fôssemos criar um questionário para cole­
tar as informações de pessoas, possivelmente teríamos alguns problemas, já que 
teríamos mais de uma forma de entender o que seria “preconceito” e “escolari­
dade”. Sendo assim, qual seria a melhor forma de se obter informações sobre 
esses dois conceitos?
8
9
Figura 1
Fonte: Getty Images
Problematização
Para discutirmos isso, vamos pensar na seguinte situação (que poderia ser bem real!):
Figura 2
Fonte: Getty Images
Situação A: imagine que fosse apresentado aos participantes de uma pesquisa 
de uma grande empresa de tratamento de água e de esgoto o seguinte formulário:
1. Qual o seu preconceito para aceitar uma campanha sanitária?
(__) muito (__) razoável (__) nenhum
9
UNIDADE Obtenção e Expressão de Dados Utilizados em Bioestatística
2. Qual a sua escolaridade?
(__) fundamental incompleto
(__) fundamental completo
(__) médio incompleto
(__) médio completo
(__) superior incompleto
(__) superior completo
Na sua opinião, temos um formulário de fácil entendimento?
Figura 3
Fonte: Getty Images
Pense nessa condição e, ao final deste módulo, veremos se você acertou ou errou.
Quando se pretende realizar análise estatística, precisamos de dados. No mó­
dulo anterior, vimos que os dados são definidos a partir da criação de variáveis. 
A classificação dos dados em variáveis é que permitirá a elaboração de tabelas, 
gráficos e também a investigação das relações de duas ou mais variáveis. Uma das 
formas mais usuais de obtenção de dados é a partir do uso de questionários ou de 
roteiros. Esses podem obter informações (dados) pela simples observação (por 
exemplo, se a pessoa é muito alta ou muito baixa), pelo questionamento (saber a 
opinião de uma pessoa sobre o atendimento que teve em uma determinada loja), 
10
11
medição (por exemplo, a circunferência abdominal de uma mulher) ou por testes 
(um exame de sangue, um teste ergométrico). Todas essas formas permitem a ob­
tenção de dados.
Exemplo:
Se desejarmos saber o sexo e a idade de uma pessoa, o questionário poderia ser 
elaborado assim:
Orientações: Gostaríamos que o(a) senhor(a) nos fornecesse algumas informa­
ções a seu respeito. Por favor, responda as seguintes questões:
1. Qual o seu sexo? (__) Masculino (__) Feminino
2. Qual a sua idade? _____ anos
Comentários:
Nesse exemplo, pode­se perceber que as informações quanto ao sexo foram 
obtidas a partir da criação de uma variável nominal que possui as duas categorias 
(masculino e feminino), e temos ainda a idade do entrevistado, a partir da criação 
de uma variável contínua (anos).
Tabulação de Dados
A tabulação de dados seria a etapa seguinte. Nela, podemos visualizar a quan­
tidade e a qualidade dos dados obtidos. Consideremos agora uma pesquisa que 
procurou investigar os fatores socioeconômicos de mulheres frequentadoras de um 
supermercado. Veja, na tabela abaixo, a distribuição das informações coletadas 
após a aplicação de um questionário:
Figura 4 – Dados sociodemográfi cos de mulheres frequentadoras de um determinado supermercado
Fonte: Acervo do Conteudista
11
UNIDADE Obtenção e Expressão de Dados Utilizados em Bioestatística
Abaixo, a codificação dos dados. Nesse modelo, foi utilizado um programa dis­
ponível na grande maioria dos computadores e também nas dependências da nossa 
universidade, o Excel.
Figura 5 – Apresentação da descrição e da forma de mensuração/categorização das variáveis apuradas na Figura 4
Fonte: Acervo do Conteudista
Nessa tabulação, podemos verificar a distribuição dos dados. No caso acima, 
visualizamos as variações de idade, de profissão, número de filhos, renda etc. Ao 
final, percebemos (Figura 4) que boa parte da amostra possui filhos. Sempre usa-
mos a tabulação dos dados para, a partir dessa etapa, começarmos a realizar 
análises estatísticas descritivas e analíticas.
Elaboração de Tabelas e Gráficos
Agora que já entendemos como devemos coletar e tabular os dados, vamos expres­
sar as informações obtidas. Muitos já devem ter lido as informações descritas a partir 
de textos (parágrafos), tabelas e gráficos. Vamos saber como usá­los adequadamente.
Texto
A divulgação dos dados a partir de textos deverá ser feita sempre com muito 
cuidado. Não se pode colocar em um único parágrafo muitas informações, pois, ao 
final da leitura desse parágrafo, o leitor já não se lembrará de tudo o que leu. Veja 
o exemplo a seguir:
12
13
Foram detectadas duas fases distintas de uso de drogas. A primeira, com drogas lícitas, sendo 
o cigarro e o álcool as mais citadas pela amostra. Parentes e amigos dos entrevistados foram os 
incentivadores do consumo, e o motivo alegado para o uso dessas substâncias foi a necessidade 
de autoconfiança. A idade precoce do consumo e o uso pesado de uma ou ambas as drogas foram 
determinantes para o início de uma escalada de drogas ilícitas. A maconha foi a primeira droga 
dessa segunda fase. Uma postura mais ativa na busca da droga como fonte de prazer passou a 
ser o motivo do consumo.
Fonte: Revista de Saúde Pública, v. 36 n. 4, p. 420-430, 2002. Disponível em: https://goo.gl/cWg4b6
Perceba que no texto acima foram sintetizadas as informações mais importantes 
que os pesquisadores encontraram. É claro que uma pesquisa contém muito mais 
informação do que a existente em um parágrafo, mas o detalhamento dos dados é 
melhor compreendido pelo uso de tabelas e gráficos.
Gráfi cos
Os gráficos, que em estatística e metodologia também podem ser chamados de 
figuras, servem para expressar de forma generalizada (considerando toda a amos­
tra ou população) ou detalhada (apresentando cada elemento da amostra) os dados 
apurados. Há diversos tipos de gráficos, vejamos alguns deles:
Exemplo 1: Gráfico de pontos
Figura 6 – Curva ajustada para coefi cientes de mortalidade por homicídios segundo 
local de residência e renda nominal média. Município de São Paulo, 2000
Fonte: Rev. Saúde Pública, 2005
13
UNIDADE Obtenção e Expressão de Dados Utilizados em Bioestatística
Exemplo 2: Gráfico de setores
Figura 7 – Distribuição do local ondeo agressor foi encontrado
Fonte: Saúde Soc. São Paulo, 2008
Exemplo 3: Gráfico de barras
 
Figura 8 – Percentagem de vítimas de acidentes de trânsito segundo sexo, regime de internação e tipo de acidente
Fonte: Rev. Saúde Pública, 1993
14
15
Exemplo 4: Gráfico de barras
Figura 9 – Número de substâncias psicoativas que motivaram a procura de tratamento pelos 
farmacodependentes classifi cados como jogador social, jogador problema e jogador patológico
Fonte: Rev. Saúde Pública, 2005
Exemplo 5: Gráfico de barras
Figura 10 –Frequência de diagnóstico de dependência de álcool, cocaína/crack e maconha
Fonte: Rev. Saúde Pública, 2005
As tabelas são muito utilizadas para facilitar (e muito) as informações obtidas e 
apuradas. Se a variável for qualitativa, realiza­se a simples contagem; se for quan­
titativa, usamos os cálculos matemáticos básicos (soma, divisão, multiplicação, di­
visão etc.).
Veja o exemplo seguir, no qual são descritos dados quantitativos:
15
UNIDADE Obtenção e Expressão de Dados Utilizados em Bioestatística
Figura 11 – Evolução dos gastos sociais por função nos Estados brasileiros – R$ 2002-04
Fonte: Ciências & Saúde Coletiva, 2007
Já nesta outra tabela temos a descrição de dados qualitativos:
Figura 12 – Características quanto ao sexo, idade e ano do curso na 
amostra de estudantes de Medicina (N = 449). Pelotas, 1996
Fonte: Rev. Saúde Pública, 2001
Os exemplos acima são considerados como modelos simples de tabelas. Há 
diversos outros formatos de tabelas que expressam as relações de duas ou mais 
variáveis, sejam elas de natureza quantitativa ou qualitativa.
A grande vantagem das tabelas mais complexas, isto é, as que mostram as 
relações de duas ou mais variáveis, é que essas conseguem explicar e esclarecer 
melhor o fenômeno investigado. São essas as tabelas que buscaremos compreender 
e elaborar ao final dos nossos estudos.
16
17
Exemplo 6:
Figura 13 – Modelos fi nais para as associações entre categorias de fumo e características associadas
Fonte: Rev. Saúde Pública, 2001
E Quanto ao Problema que foi Exposto no Começo desta Unidade?
Na verdade, temos duas perguntas que podem gerar uma série de dúvidas quan­
to às suas respostas. Vamos entender as razões:
Sobre o termo “preconceito”
1º) Quando se pergunta qual o nível de preconceito para aceitar uma campa­
nha sanitária, é possível que muitas pessoas jamais tenham pensado que pudesse 
ser usado o termo “preconceito” fora das condições sociais, étnicas e socioeconô­
micas. Daí que muitas poderiam responder sem ter entendido realmente o signi­
ficado de “preconceito”, que é um pré­julgamento, um pré­conceito a respeito de 
algo ou alguém;
2º) A falta de conhecimento amplo sobre esse conceito poderia obrigar o pes­
quisador (aquele que formulou as perguntas) a criar breves definições para conceitos 
como esse. Possivelmente, ninguém iria admitir muito preconceito, pois, na nossa 
sociedade, causa má impressão admitir isso. Definir o que seria muito preconceito, 
razoável ou nenhum preconceito talvez fosse uma forma eficiente de obter respos­
tas com mais fidedignidade.
17
UNIDADE Obtenção e Expressão de Dados Utilizados em Bioestatística
Sobre o termo “escolaridade”
3º) Em relação à escolaridade, se fossemos entrevistar pessoas de todas as ida­
des, talvez os idosos não tenham a resposta exata, pois, no “tempo deles” de estu­
do, não existia “esse tal” de ensino fundamental e médio; havia o ginasial e outros 
níveis de escolaridade. Perceba que o “erro” foi na formulação da pergunta, pois 
não havia essa divisão de níveis de escolaridade.
4º) Definindo “escolaridade” como “anos de estudo”, você poderia entender que, 
independentemente da divisão vigente quanto aos níveis de escolaridade, as reais 
chances de identificarmos os anos estudados de cada participante seria muito maior 
– isso se fosse do nosso interesse investigar os anos estudados dos entrevistados. 
No entanto, se a pesquisa fosse realizada apenas com adolescentes, essa divisão de 
escolaridade não traria qualquer problema.
Conclusão
Esperamos que, ao final desta unidade, você tenha percebido a importância da 
coleta, tabulação e expressão de dados. A estatística é também coleta, análise e 
expressão dos dados.
18
Material Complementar
Indicações para saber mais sobre os assuntos abordados nesta Unidade:
 Leitura
Técnicas de coleta de dados e instrumentos de pesquisa
https://goo.gl/nJfHKW
A elaboração de questionários na pesquisa quantitativa
https://goo.gl/vRHQuf
Estatística Descritiva: Tabelas e Gráficos
https://goo.gl/24BZx
Gráficos e tabelas para organizar informações
https://goo.gl/V4UwAi
Referências
HULLEY, Stephen B. Delineando a Pesquisa Clínica – Uma Abordagem Epi-
demiológica. 3. ed. Porto Alegre: Artmed, 2008.
• Introdução;
• Medidas de Tendência Central;
• Medidas de Dispersão;
• Conclusão.
• Ampliar seu conhecimento sobre as Medidas de Tendência Central (Média, Moda e a 
Mediana) e Medidas de Dispersão: Variância e Desvio Padrão. 
OBJETIVO DE APRENDIZADO
Medidas de Tendência 
Central e de Dispersão
UNIDADE Medidas de Tendência Central e de Dispersão
Introdução
Vamos abordar um assunto importante a respeito da transmissão das infor-
mações relativas à amostra ou à população estudada. Em se tratando dos dados 
obtidos, a condensação deles facilita a compreensão das características essenciais 
de uma amostra ou população. Para viabilizar essa etapa, usamos as medidas de 
tendência central e de dispersão. Hoje vamos conhecer um pouco mais sobre 
essas medidas.
Figura 1
Fonte: Getty Images
Medidas de Tendência Central
As medidas de tendência central são confiáveis quanto mais representativo for o 
conjunto de elementos da amostra ou da população. Se o conjunto de elementos for 
bem selecionado, se guardar características semelhantes às características da popu-
lação que foi extraída, e se for suficientemente grande, os dados refletirão melhor 
o que poderíamos encontrar na população. Pode-se dizer também que essas medi-
das – de tendência central e de dispersão – são uma primeira caracterização dos 
conjuntos populacionais ou amostrais.
Média Aritmética
A média aritmética consiste na soma dos valores de um conjunto de dados, di­
vididos pelo número de elementos.
Veja o exemplo abaixo. Considere o seguinte conjunto de dados:
11 10 10 12 23 24 30
8
9
A média aritmética será = 11 + 10 + 10 + 12 + 23 + 24 + 30 / 7 = 17,14
Observação 1: Frequentemente a média aritmética vem acompanhada de outra medida, o desvio padrão. 
Essa é uma medida de dispersão e indica o quanto os valores se afastam ou se aproximam da média.
Observação 2: A média aritmética é muito infl uenciada por valores extremos, ou seja, valores muito 
menores ou maiores infl uenciam de forma marcante o valor real da média.
Figura 2
Fonte: Getty Images
Dividir a conta em um bar (“rachar a conta”) é um bom exemplo prático de mé-
dia aritmética.
A fórmula para cálculo da média aritmética é:
x x x x
n
x
n
n
i
i
n
=
+ + +
= =
∑
1 2 1

Onde o X com uma barra significa média aritmética de uma amostra e n o 
 número de indivíduos da amostra.
Exercício resolvido:
Uma nutricionista decidiu investigar a circunferência abdominal de 10 gerentes 
de uma grande empresa multinacional interessados em perder peso por meio de 
um programa de reeducação alimentar. As medidas seguem abaixo:
Gerentes 1 2 3 4 5 6 7 8 9 10
Circunferência 88 83 79 76 78 70 80 82 86 105
9
UNIDADE Medidas de Tendência Central e de Dispersão
Devemos primeiro determinar qual o tamanho da amostra (n):
Como no caso temos 10 gerentes, então dizemos que n = 10.
Cada gerente representa um valor de x, como segue:
x1 = 88
x2 = 83
x3 = 79
x4 = 76
x5 = 78
x6 = 70
x7 = 80
x8 = 82
x9 = 86
x10 = 105
Substituindo na fórmula, teremos:
x
x
x
=
+ + + + + + + + +
=
=
88 83 79 76 78 70 80 82 86 105
10
827
10
82 7,
Dizemos então que: a média aritmética da circunferência abdominal dos 10 
 gerentes é de 82,7 cm.
Mediana
A mediana é outramedida que indica a caracterização do conjunto de valores. 
Ela indica o valor que divide ao meio o conjunto de valores, ou seja, indica o valor 
que ocupa a posição central desse conjunto, não sofrendo qualquer interfe­
rência dos valores extremos. O seu cálculo depende da ordenação dos dados, o 
que corresponde a colocá-los em ordem crescente ou decrescente.
Continuando com o exemplo usado no calculo da média aritmética:
10
11
11 10 10 12 23 24 30
11 10 12 23 24
10 10 11 12 23 24 30
A mediana seria assim calculada:
Segue um exemplo com n par:
10+12=22
22 2=11
Essa é a mediana, pois é o valor
central de um conjunto de dados.
Quando o número de valores for
ímpar (como no caso acima), a
mediana será sempre o valor do meio.
Como o n é par, soma-se os dois
valores centrais e divide-se por “2”.
Portanto, nesse exemplo, 11 é a mediana da distribuição apresentada.
Moda
A moda é o valor que ocorre com maior frequência. Essa medida, juntamente 
com a média e a mediana, ajudam a compreender o padrão homogêneo dos dados. 
Quando essas três medidas estão próximas, podemos dizer que o conjunto de 
 dados é homogêneo, ou seja, não há valores extremos, mas sim uma tendência de 
que boa parte dos números se localizem próximos a essas três medidas.
Figura 3
Fonte: Getty Images
11
UNIDADE Medidas de Tendência Central e de Dispersão
Se um conjunto de dados possui um único valor que se repete com maior frequên-
cia, diz-se que o conjunto é unimodal; quando dois números aparecem com maior 
frequência, é bimodal; se três ou mais números aparecem com maior frequên cia, é 
multimodal. A ausência de moda caracteriza um conjunto amodal.
Veja o exemplo abaixo. Considere o seguinte conjunto de dados:
0 1 1 2 3 4 4 4 5
Analisando os dados, observa-se que o número 4 é o número que se repete com 
maior frequência (3 vezes). Dessa forma, dizemos que o conjunto é unimodal.
Vamos analisar outro conjunto de dados:
0 1 1 1 3 4 4 4 5
Analisando os dados, observa-se que os números 1 e 4 se repetem com maior 
frequência (3 vezes cada um). Dessa forma, dizemos que o conjunto é bimodal.
Medidas de Dispersão
As medidas de tendência central, vistas anteriormente, ajudam a explicar a ten-
dência central dos dados, ou seja, o quanto esse conjunto é homogêneo. Essas 
medidas precisam estar acompanhadas de outras informações que indiquem a 
 VARIABILIDADE dos dados, isto é, o quanto os valores divergem em relação aos 
valores de caracterização geral da população ou amostra.
Considere a situação apresentada no livro Introdução à bioestatística, da autora 
Sônia Vieira (2008):
Considerando 2 domicílios, sendo que em um deles moram 7 pessoas , 
todas com 22 anos de idade. A média de idade será de 22 anos. No ou-
tro domicilio, poderíamos ter a mesma média de idade, no entanto, 
 nesse segundo domicilio, moram uma garota de 17 anos, um garoto 
com 23 anos, duas crianças de 2 e 3 anos, respectivamente, além de 
uma mulher de 38 anos, outra criança de 8 anos e uma senhora de 
65 anos.
Nesse exemplo acima, temos dois conjuntos de valores, cuja variabilidade é diferente, embora a média 
seja a mesma. No primeiro conjunto de valores, a variabilidade é bem menor, condição contrária à que 
ocorre no segundo grupo , no qual a variabilidade é maior, pois as idades variam de 2 até 65 anos.
12
13
Quartis e Percentis
Já aprendemos que a mediana é o valor que divide ao meio o conjunto de valores. 
Poderíamos dizer também que a mediana indica que, abaixo daquele valor, temos 50% 
das observações dos valores. Mas há situações em que podemos dividir o conjunto de 
valores em partes menores: quartis, decis e percentis indicam essa possibilidade.
Sendo assim, o primeiro quartil indica que 25% dos valores estão abaixo desse 
valor; o segundo quartil indica que 50% da amostra está abaixo desse valor; e assim 
por diante. Veja o modelo abaixo:
1º quartil 2º quartil 3º quartil 4º quartil
25% 25% 25% 25%
50% DOS VALORES
75% DOS VALORES
Já os percentis consideram as posições dividindo o conjunto de valores em 100 
partes. Da mesma forma que o quartil, o percentil 70, por exemplo, indica que 70% 
dos valores de um conjunto encontram-se abaixo desse valor.
Observação: percebam, no modelo esquemático abaixo, que uma posição (ou 
valor) pode ser indicada de mais de uma forma.
25% 25% 25% 25%
50% 2º quartil
Percentil 5050% 
13
UNIDADE Medidas de Tendência Central e de Dispersão
Amplitude, Mínimo e Máximo
A amplitude explica a variabilidade de valores, e por isso é considerada uma 
medida de dispersão. É definida como a diferença entre o maior e o menor valor de 
um determinado conjunto de valores.
Menor, também chamado de mínimo, é o menor valor de um determinado con-
junto de valores.
Maior, também chamado de máximo, é o maior valor de um determinado con-
junto de valores.
Maior
A M P L I T U D E
menor_
Importante!
Assim como a média, a amplitude é muito influenciada por valores extremos, isto é, um 
valor muito baixo ou muito alto altera facilmente essa medida e pode, em determinados 
casos, não representar a real variabilidade do conjunto de valores, pois houve o compro-
metimento em razão desse(s) valor(es) extremo(s).
Importante!
Variância e Desvio Padrão
Essas duas medidas indicam a variabilidade, distância dos valores em torno do 
valor médio encontrado para um determinado conjunto de dados (valores). Se meno­
res, a variância e o desvio padrão indicam pouca variabilidade dos valores, caracteri-
zando um conjunto de valores mais homogêneo, ou seja, de variabilidade pequena.
Considere as informações abaixo:
Variância
x x
n
DesvioPadrão
x x
n
somatória
x o v
=
−( )
−
=
−( )
−
∑
∑ ∑2 2
1 1
:
: aalor de cada uma das observações
x a média da amostra
n
:
: o número de obsservações (tamanho da amostra)
Perceba que tanto a variância quanto o desvio padrão partem do cálculo da 
distância de um valor em relação a media (x – x). Faz-se a somatória dessas 
distâncias e, por “necessidades” matemáticas, eleva-se ao quadrado (para eliminar 
os valores negativos das distâncias) ou extrai-se a raiz quadrada (pois queremos 
eliminar a elevação ao quadrado de uma determinada medida).
14
15
Defi niremos como variância a soma dos quadrados dos desvios de cada observação em relação a media, 
dividida por (n – 1).
E desvio padrão como a raiz quadrada da variância.
Exercício Resolvido:
Vamos considerar o seguinte conjunto de notas de um determinado aluno:
5,0 6,0 5,0 9,0
Calcule a Variância e o Desvio Padrão.
Variância é representada por s. Pela fórmula dada, precisamos subtrair cada 
valor de x da média da amostra, somar todos esses valores, elevar o resultado ao 
quadrado e depois dividir por n – 1.
Vamos fazer passo a passo:
Abaixo a fórmula do desvio padrão:
s
x x
n
=
−
−
∑( )2
1
Vamos calcular em primeiro lugar a média:
x
x
x
= ÷
= ÷
=
(5+6+5+9) 4
425
6 25,
Vamos subtrair cada valor de x da média amostral:
x x ( x –x )
5 – 6,25 –1,25
6 – 6,25 –0,25
5 – 6,25 –1,25
9 – 6,25 +2,75
Notas dos alunos Média calculada x menos a média
Agora, vamos elevar os valores obtidos ao quadrado:
x x ( x –x ) ( x –x )2
5 – 6,25 –1,25 1,5625
6 – 6,25 –0,25 0,0625
5 – 6,25 –1,25 1,5625
9 – 6,25 +2,75 7,5625
15
UNIDADE Medidas de Tendência Central e de Dispersão
Precisamos, então, somar os quadrados obtidos:
x x ( x –x ) ( x –x )2
5 – 6,25 –1,25 1,56
6 – 6,25 –0,25 0,0625 +
5 – 6,25 –1,25 1,5625
9 – 6,25 +2,75 7,5625
= 10,75
A fórmula pede que esse valor (10,75), seja dividido por n – 1.
Em nosso exemplo, n = 4 (quatro notas), então 4 – 1 = 3
Então:
10,75 ÷ 3 = 3,58
Portanto:
s (variância) é igual a 3,58.
O desvio padrão é representado por s2.
s2 é igual a raiz quadrada de s (variância), então:
s2 = s
s2 = 3 58,
 s2 = 1,89 ou seja, o desvio padrão das notas desse aluno é 1,89, sendo que a 
média foi 6,25.
Coeficiente de Variação
Essa medida indica a dispersão dos valores em relação à média. Para se calcular 
o coeficiente de variação,usamos o desvio padrão e a média:
CV= desvio padrão / média x 100
Percebam que o CV não possuirá unidade de medida (é adimensional). Dessa 
forma, podemos comparar a dispersão de valores para dados quantitativos que 
utilizaram medidas diferentes, como metros e quilogramas. O uso de coeficientes 
não é tão frequente quanto o uso das outras medidas discutidas neste capítulo. 
Os  coeficientes são importantes na elaboração de indicadores de saúde.
16
17
Importante!
As medidas de tendência central e de dispersão são úteis na compreensão e caracteri-
zação dos dados populacionais ou amostrais. A apresentação dessas medidas ajuda a 
entender o caráter homogêneo ou não dos dados, bem como a forma de dispersão dos 
mesmos em relação a um determinado valor médio.
Em Síntese
17
Material Complementar
Indicações para saber mais sobre os assuntos abordados nesta Unidade:
 Vídeos
Moda, Média e Mediana
https://youtu.be/UfupcG1ax6U
Média e Mediana de dados agrupados
https://youtu.be/7djAJFHYyno
Propriedades da Média e Desvio Padrão
https://youtu.be/3swCXxdYwdI
Cálculo do desvio padrão e da variância
https://youtu.be/PEN2M_eo6SY
Referências
ARANGO, H. G. Bioestatística – Teórica e Computacional. 2. ed. Rio de Janeiro: 
Guanabara Koogan, 2005. (acompanha CD demonstrativo)
VIEIRA, S. Princípios de Estatística. São Paulo: Pioneira Thomson Learning, 2003. 
VIEIRA, S. Introdução à Bioestatística. 4. ed. Rio de Janeiro: Elsevier, 2008.
TRIOLA, M. F. Introdução à Estatística. Rio de Janeiro: LTC, 2005.
• Noções de Probabilidade;
• Eventos Independentes;
• Distribuição Normal ou de Gauss;
• Distribuição Normal Reduzida.
• Estudar as probabilidades e as distribuições de frequências como estimativas de probabilidade.
OBJETIVO DE APRENDIZADO
Probabilidade e Distribuição 
de Frequências como Estimativa 
da Probabilidade
UNIDADE Probabilidade e Distribuição de Frequências 
como Estimativa da Probabilidade
Noções de Probabilidade
Após realizar a descrição dos eventos utilizando gráficos, tabelas, calculado mé-
dia, desvio padrão, fazendo correlações e regressões, o pesquisador deseja fazer 
inferências, ou seja, extrapolar seus resultados para a população. Para tanto, é 
necessário entender de probabilidade, uma vez que as inferências são expressas em 
probabilidade de aquela conclusão ser falsa ou verdadeira. 
Probabilidade aleatória
Para entender a probabilidade de um evento aleatório, precisamos definir:
• S – Espaço amostral: É o conjunto de todos os elementos possíveis;
• EVENTO – É qualquer subconjunto de S (Notação A, B, C, ...);
• Φ (phi) – Conjunto vazio, ou seja, representa um evento impossível.
Definimos, então, probabilidade de um evento A como a razão entre o número 
de elementos de A e o número de elementos do espaço amostral (S). Representa-
mos com a fórmula abaixo:
P A Número de elementos de A
Número de elementos de S
( ) =
Vamos considerar o seguinte exemplo: 
Um pesquisador deseja saber qual a probabilidade de, ao lançar um dado, esse 
cair com a face 3 voltada para cima.
Analisando esse exemplo simples, porém, muito ilustrativo, temos:
• Um dado tem 6 faces;
• Cada vez em que um dado é lançado, somente uma face fica voltada para 
cima, Então temos as seguintes possibilidades:
Figura 1
• Portanto, das 6 possibilidades, somente uma satisfaz a condição CAIR FACE 3.
Figura 2
8
9
Em termos de probabilidade, temos o seguinte:
• O espaço amostral (S) é: S = {1, 2, 3, 4, 5, 6};
• O evento (A) CAIR FACE 3 é: A = {3};
• A probabilidade do evento A (CAIR FACE 3) é dado pela expressão:
P A( ) = 1
6 
1 ÚNICO ELEMENTO DO EVENTO A {3}
6 elementos do espaço amostral S {1;2;3;4;5;6}
Resolvendo a equação:
P (A) = 0,1667 ou 16,67%
São propriedades da probabilidade:
• A probabilidade de qualquer evento é um valor entre 0 e 1: 0 ≤ P ≤ 1; se apre-
sentado na forma de porcentagem: 0% ≤ P ≤ 100%;
• A probabilidade de um evento vazio é sempre igual a zero: P (Φ) = 0. Voltando 
ao nosso exemplo anterior, se o pesquisador perguntasse qual a probabili-
dade de, ao jogar um dado, CAIR A FACE 7? Como um dado não possui 
essa face, o evento A é vazio ou A:{ }. Pela fórmula, zero divido por qualquer 
número continua sendo zero;
• A probabilidade de ocorrer um evento igual ao espaço amostral é 1: P(S) = 1. 
No nosso exemplo, se o pesquisador perguntasse qual a probabilidade de, 
ao jogar um dado, CAIR UMA FACE ENTRE 1 E 6? Veja que o evento A se 
satisfaz com qualquer uma das faces do dado, ou seja A:{1;2;3;4;5;6}, que equi-
vale ao espaço amostral. Pela fórmula, teremos uma probabilidade dada pela 
razão entre A, ou seja, 6 e S, que também é a que resulta no valor 1 ou 100%.
Probabilidade condicional
Chamamos de probabilidade condicional a probabilidade de ocorrer determina-
do evento quando ele depende de uma dada condição. A probabilidade de ocorrer 
o evento A sob a condição de ter ocorrido o evento B é representada então: P(A|B); 
que se lê: probabilidade de A dado B.
De volta ao nosso exemplo dos dados, pense na seguinte pergunta:
Qual a probabilidade de, ao se lançar um dado, ocorrer face 6, sabendo antecipada-
mente que a face que ocorreu é par? 
Em termos de estatística, a pergunta deveria ser construída assim: 
Qual a probabilidade de ocorrer o evento A dado que ocorreu o evento B? 
Escrevemos da seguinte maneira: P (A|B).
9
UNIDADE Probabilidade e Distribuição de Frequências 
como Estimativa da Probabilidade
A fórmula para a resolução de uma probabilidade condicional é:
P A B A B
B
( | )
( )
=

Onde se lê: a probabilidade de A dado B é a razão (divisão) entre o número de 
elementos da intersecção entre A e B e o número de elementos de B.
Entendendo a fórmula
• Evento A: face 6, já sabemos que o dado tem somente 1 face com o número 6;
• Evento B: face par, o dado possui as seguintes faces com números pares: {2; 
4; 6}, ou seja, 3 faces com números pares. A intersecção entre os Eventos A e 
B é a quantidade de elementos que existem nos dois conjuntos: A e B.
A B
2
4
6
6
Figura 3 – Evento A e Evento B
A
B
2
4
6
Figura 4 – Intersecção entre os eventos A e B
Sabemos que: A = 1 elemento; B = 3 elementos; P (A ∩ B) = 1 elemento. 
Então, temos:
P A B A B
B
P A B
P A B
P A B
( | )
( )
( | )
( | ) ,
( | ) , %
=
=
=
=

1
3
0 3333
33 33
10
11
Eventos Independentes
Dizemos que dois eventos são independentes quando a probabilidade de ocorrer 
um dos eventos não é modificada pela ocorrência do outro.
Vamos pensar nesta situação:
Um jogador joga uma moeda e um dado, e ele deseja saber qual a probabilidade de 
ocorrer cara na moeda sabendo que, no jogo do dado, caiu a face 5.
Devemos raciocinar: o resultado do jogo da moeda interfere no resultado do jogo 
do dado? Uma moeda tem duas faces, uma chamada cara (C) e a outra coroa (K); 
por sua vez, o dado, como já vimos, tem 6 faces. Visualize, antes do jogo de moe-
das: qual o espaço amostral do jogo de dados? É o seguinte: S = {1; 2; 3; 4; 5; 6}
Figura 5
A moeda foi lançada, caiu a face cara. Como fica o espaço amostral do jogo de 
dado após o jogo da moeda? É o seguinte: S={1; 2; 3; 4; 5; 6}
Figura 6
Ou seja, não muda. Portanto, dizemos que o evento “Cair 5 no jogo de dados” 
é independente do evento “Cair cara no jogo de moeda”.
Dizemos, então, que a probabilidade de A dado B é igual à probabilidade de A, 
e representamos isso da seguinte maneira:
P (A|B) = P (A)
Teorema do produto
Esse teorema diz que, se A e B são eventos independentes, a probabilidade de 
ocorrer A e B é dada pela probabilidade de ocorrer A multiplicada pela de ocorrer B.
P (A e B) = P (A) x P (B)
Exemplo: Qual a probabilidade de ocorrer cara jogando uma moeda duas vezes?
11
UNIDADE Probabilidade e Distribuição de Frequências 
como Estimativa da Probabilidade
Possibilidades:
Tabela 1 – Probabilidades em um jogo duplo de moedas
Tentativa 1º. Lançamento 2º. Lançamento
1 C C
2 C K
3 K C
4 K K
Veja que a probabilidade de cair cara (C) no primeiro lançamento é de ½, e de 
cair coroa (K)no 2º Lançamento é de ½. E de cair em dois lançamentos cara (C) e 
cara (C), é de ¼. Então, aplicando a fórmula, temos: 
P (C e C) = ½ x ½ = ¼
Teorema da soma
Quando A e B são eventos que não podem ocorrer ao mesmo tempo, a probabili-
dade de ocorrer A ou B é dada pela seguinte expressão: P (A ou B) = P (A) + P (B).
Se uma urna possui duas bolas brancas, uma azul e uma vermelha e retiramos 
uma ao acaso, qual a probabilidade de sair uma colorida?
Figura 7 – Urna com bolas coloridas
A condição só é satisfeita se for sorteada a bola vermelha ou a azul. Veja que 
duas bolas, das quatro existentes, satisfazem a condição. A probabilidade de ser re-
tirada tanto a bola azul quanto a bola vermelha é de ¼, portanto, a expressão fica:
P (azul ou vermelha) = ¼ + ¼ = ½
12
13
Distribuição Normal ou de Gauss
As frequências obtidas da maioria das medidas biológicas e de outras situações 
dão origem aos gráficos com características em comum, semelhante ao apresen-
tado abaixo. Observem que essa distribuição de frequências apresenta muitos indi-
víduos com valores semelhantes. No exemplo, entre 39 e 41, poucos com valores 
abaixo disso e poucos com valores acima. Vemos então um gráfico com formato de 
sino. Esse tipo de distribuição de frequências recebe o nome de distribuição normal.
Número
de soldados
Distribuição de medidas do tórax (polegadas) de soldados escoceses
diâmetro em polegadas
0
33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
200
400
600
800
1000
Figura 8 – Distribuição de medidas do tórax (polegadas) de soldados escoceses
Fonte: Adaptado de Daly F. et al. Elements of Statistics, 1999
A distribuição normal tem as seguintes características:
• A variável aleatória pode assumir qualquer valor;
• O gráfico da distribuição é uma curva em forma de sino, simétrica em torno da 
média populacional representada pela letra grega µ;
• A área total da curva representa uma frequência de 100% da população. A área 
representa a probabilidade da variável assumir qualquer valor; 
• Os parâmetros são: µ (média populacional) e a σ2 (variância populacional).
Cada população apresentará uma média e uma variância que vai gerar uma curva 
normal diferente e característica daquela população. Na figura acima, se quisermos 
saber a probabilidade de um soldado daquela população ter medida de tórax entre 38 
e 39 polegadas, basta calcular a área da curva dessa parcela da população. Para isso, 
são necessários cálculos complexos, pois a figura é uma curva e não uma reta.
Para entender melhor esse conceito, faça um exercício mental tentando respon-
der às questões propostas abaixo:
• Como seria um gráfico de distribuição de frequências da altura da população 
adulta do Brasil?
• Sabendo que a glicemia (quantidade de glicose no sangue) normal das pessoas 
é de 80 mg/dL, como seria a distribuição de frequências da glicemia da popu-
lação de uma cidade?
• Em uma prova aplicada a 1000 alunos, valendo de zero a dez, como seria o 
gráfico da distribuição de frequências das notas?
13
UNIDADE Probabilidade e Distribuição de Frequências 
como Estimativa da Probabilidade
Distribuição Normal Reduzida
O cálculo de probabilidades de populações com distribuição do tipo normal é 
complexo para ser utilizado rotineiramente. Para facilitar esse tipo de cálculo, foi 
feita o tabelamento de todas as possíveis probabilidades de uma única curva nor-
mal, que recebeu o nome de Curva Normal Reduzida. 
Essa curva possui as seguintes características:
• É uma distribuição com média 0 e variância 1;
• A variável aleatória representada pela distribuição normal reduzida é a z;
• Na distribuição normal reduzida, os valores de probabilidade de 0 até z estão 
dispostos em tabelas.
Exemplo: 
A probabilidade de ocorrer valores entre 0 e 1,5 corresponde à área pintada:
0 1,5 Z
Figura 9
Se formos procurar na tabela a probabilidade entre 0 e 1,5, obtemos o valor de 
0,4332 ou 43,32%. Na tabela, devemos procurar a linha que contenha a primeira 
unidade e o decimal 1,5, e a coluna com o centésimo e o milésimo: 0,00. No cru-
zamento da linha com a coluna selecionada, obtemos então o valor 0,4332 que, em 
porcentagem, fica 43,32%. Observe que a tabela apresenta somente a parte posi-
tiva da curva, porém, como a curva é simétrica, a probabilidade do lado positivo é 
idêntica à do lado negativo.
Cálculo de probabilidade com qualquer 
variável com distribuição normal
Vejamos o seguinte exemplo:
A quantidade de colesterol no plasma tem distribuição normal com média 
200mg e desvio padrão de 20mg, conforme a ilustração a seguir:
14
15
0
μ = 200
y
x
Figura 10
Perguntamos:
Qual a probabilidade de um indivíduo apresentar valores de colesterol entre 200 e 
225 mg?
Para facilitar o entendimento, coloque os valores em um esboço da curva, como 
mostrado abaixo:
0 200 225
y
x
Figura 11
Se X é uma variável com distribuição normal (essa informação tem que ser dada 
no exercício) de média µ e desvio padrão σ, então devemos transformar a variável 
X em Z pela seguinte expressão:
Z x� � �
�
Substituindo os valores:
• Para X (valor dado na questão) = 225, temos: Z1 = (225-200)/20 = 1,25
• Para X (valor dado na questão) = 200, temos: Z2 = (200-200)/20 = 0
15
UNIDADE Probabilidade e Distribuição de Frequências 
como Estimativa da Probabilidade
Substituímos X1 (=225) e X2 (=200) dados na questão por Z1 e Z2, que foram calcu-
lados pela fórmula, assim teremos o seguinte esboço da distribuição normal reduzida:
0 0 1,25
y
z
Figura 12
O que significa dizer que a probabilidade X entre 200mg e 225mg é a mesma 
probabilidade de Z assumir valores entre 0 e z=1,25, que, segundo a tabela, vamos 
buscar a linha 1,2 (veja na tabela abaixo) e a coluna 0,05 (veja na tabela abaixo) 
onde obtemos o valor: 0,3944 ou 39,44%.
Figura 13 – Tábua da distribuição das probabilidades em uma 
curva normal reduzida, valores entre 0 e z P(0 - z)
16
17
Material Complementar
Indicações para saber mais sobre os assuntos abordados nesta Unidade:
 Vídeos
Probabilidade: conceitos básicos
https://youtu.be/8g571hUvgeo
Construindo a Distribuição de Probabilidade para Variáveis Aleatórias
https://youtu.be/lqhsgj4wwbg
Teorema da Soma
https://youtu.be/3QQ6l-WUBWc
 Leitura
Probabilidade condicional
https://goo.gl/Zt7Jb7
17
Referências
BERQUÓ, E. S.; SOUZA, J. M. P.; GOTLIEB, S. L. D. Bioestatística. 2. ed. São 
Paulo: Editora Pedagógica e Universitária, 1981.
VIEIRA, S. Introdução à Bioestatística. 5. ed. São Paulo: Campus, 2008.
______. Bioestatística: tópicos avançados. 2. ed. São Paulo: Campus, 2003.
• Introdução;
• Formulando as Hipóteses e o Estudo dos Erros;
• Alguns Testes de Hipótese Utilizados
Rotineiramente na Pesquisa Biomédica.
• Aprender como propor as hipóteses de um dado experimento;
• Conhecer alguns testes de hipótese utilizados rotineiramente na pesquisa biomédica.
OBJETIVOS DE APRENDIZADO
Testes de Hipótese
UNIDADE Testes de Hipótese
Introdução
Na pesquisa biomédica, necessitamos tomar conclusões com base em amos-
tragens, já que, por vezes, é impossível analisar populações inteiras para que pos-
samos saber o real efeito daquilo que desejamos estudar. Vários tipos de experi-
mentos são feitos com o intuito de tentar entender o que aconteceria de fato na 
população estudada.
Como já foi explicado, um estudo estatístico normalmente está baseado em 
amostragens. Isso se dá pela dificuldade operacional ou financeira de ter acesso a 
toda uma população. Como exemplo, vamos analisar a situação a seguir.
Uma empresa farmacêutica resolve testar a toxicidade de um determinado fár-
maco. Cães serão utilizados como animais de laboratório para os testes antes do 
lançamento. Como fazer para obter uma resposta confiável sobre a toxicidade, 
para que o responsável técnico tenha confiança em lançar essa droga no mercado?
Algumas sugestões:
• Testar a droga em todos os cães do planeta;
• Testar a droga em um grupo de cães (amostra).
A primeira sugestão parece absurda, tanto pela impossibilidade de operá-la 
quantopelo altíssimo custo. Portanto, opta-se pela segunda sugestão, o que gera 
uma quantidade enorme de outras questões:
• Todos os cães vão reagir da mesma forma?
 » SIM: testo em um ou dois animais → fim do experimento;
 » NÃO:
a) Quantos animais devem ser testados?
b) Os dois sexos respondem da mesma maneira?
c) As diversas raças respondem da mesma maneira?
d) As condições ambientais influenciam?
Resolvida tais questões e desenhado um grupo experimental representativo, sur-
gem outras questões sobre os possíveis resultados:
• O fármaco não é tóxico para os cães;
• O fármaco é tóxico para TODOS os cães;
• O fármaco é tóxico para alguns cães.
Nesse momento, o pesquisador fica em outra situação complicada. Os itens a) 
e b) são conclusivos e encerram o experimento, mas e o item c)? Ele abre para 
mais questões:
• Posso colocar à venda o fármaco se ele for tóxico para alguns indivíduos?
8
9
 » Não: Encerra-se o experimento;
 » SIM: mais dúvidas:
a) Qual a proporção de indivíduos intoxicados para que ainda se possa 
considerar seguro para a venda?
Para responder a todas essas questões, são necessários conhecimentos de:
• Técnicas de amostragem;
• Medidas de tendência central;
• Medidas de dispersão;
• Probabilidade;
• Distribuição Normal;
• Distribuição Binomial.
O teste de hipótese é uma regra de decisão, na qual se leva em conta uma série 
de interferências, com uma chance calculada de errar. Veja o esquema a seguir:
Hipótese
cientí�ca
Hipótese estatística em 
termos operacionais
Inferência dedutiva
Estimador populacional
Delineamento 
experimental
Coleta
de dados
Regras de
decisão
Veracidade ou
Falsidade cientí�ca
Veri�cação da
hipótese
Inferência 
indutiva
Figura 1
Vamos definir alguns termos:
• Inferência estatística: qualquer procedimento utilizado para generalizar 
afirmações sobre determinada população, baseadas em dados retirados de 
uma amostra;
9
UNIDADE Testes de Hipótese
• Parâmetro: a medida usada para descrever uma característica de uma população;
• Estimação: processo por meio do qual estima-se o valor de um parâmetro de 
uma população com base no valor obtido em uma amostra;
• Hipótese: uma forma de especulação relativa a um fenômeno estudado (qual-
quer que seja). É qualquer afirmação sobre a distribuição de probabilidade de 
uma variável aleatória (afirmação sobre um parâmetro);
• Hipótese estatística: é uma especulação feita em relação a uma proposição, 
porém relativa a uma população definida.
Formulando as Hipóteses 
e o Estudo dos Erros
Vamos ver como devemos propor as hipóteses de um experimento, com a fina-
lidade de testá-las. Partiremos de um exemplo prático.
Situação hipotética: 
Comparar a eficácia de uma Nova droga (Dn) com uma droga padrão (Da).
Devemos, antes de iniciar esse experimento, fixar os seguintes parâmetros:
• Qual é a Hipótese nula (H0): Diz que a hipótese formulada pelo pesquisador 
é invalida;
• Qual é a Hipótese alternativa (H1): É qualquer resultado que não se encaixe 
na hipótese nula;
• Qual a Probabilidade de ocorrência de um erro durante a tomada de decisão (a).
Fixando as hipóteses
H Dn Da
H Dn Da
0
1
:
:
=
>




( )Teste Monocaudal
Na situação colocada acima, a droga nova é mais eficaz do que a droga antiga, 
chamamos a esse tipo de teste de monocaudal.
Se a pergunta do pesquisador é a de que a droga nova é diferente da antiga, ou 
seja, pode ser mais ou menos eficaz, representaremos como está a seguir. Esse tipo 
de teste é chamado de bicaudal:
H Dn Da
H Dn Da
0
1
:
:
=
≠




( )Teste Bicaudal
10
11
Se a eficácia da droga antiga for de 50% (0,50), temos para um teste monocau-
dal as seguintes hipótese:
H Dn
H Dn
0
1
0 50
0 50
: ,
: ,
=
>




A eficácia (E) pode ser medida pelo número de curas. Suponhamos que a nova 
droga será utilizada em 10 pacientes (n=10) e que a eficácia conhecida da droga 
antiga (DA) é de p=0,5. A probabilidade de ocorrer curas entre 0 e 10 para uma 
variável como a apresentada anteriormente está apresentada na Tabela 1.
Tabela 1 – Distribuição das probabilidades de uma variável X com n=10 e p=50%
X número de curas Probabilidade de X
0 0,001
1 0,010
2 0,044
3 0,117
4 0,205
5 0,246
6 0,205
7 0,117
8 0,044
9 0,010
10 0,001
Precisamos agora de um critério para testar H0 e, ao final, decidir ou não por 
rejeitá-lo. Temos então duas possibilidades: rejeita-se H0 ou se aceita H0.
A tomada dessa decisão pode gerar possíveis erros, já que estaremos decidindo 
com base em uma amostra e não em uma população. Observe no Quadro 1 as 
possíveis decisões que podemos tomar nesse caso e a consequência dessas decisões.
Quadro 1 – Os erros em testes de hipóteses
VERDADE
Decisão H0 H1
H0 Não cometeu Erro Erro tipo II
H1 Erro tipo I Não cometeu Erro
Quando aceitamos H0 e essa é a hipótese verdadeira, não cometemos nenhum 
tipo de erro; da mesma forma quando rejeitamos H0 e essa é a decisão verdadeira. 
Porém, quando rejeitamos H0 e a hipótese verdadeira é H0, cometemos um erro 
que é classificado como do Tipo I; e quando aceitamos H0 e a decisão correta seria 
rejeitá-lo, cometemos um erro classificado como do Tipo II. As probabilidades de 
cometermos esses erros são as explicitadas abaixo:
•	 a = Probabilidade (erro tipo I) = Probabilidade (Rejeitar H0 e H0 é verdade)
11
UNIDADE Testes de Hipótese
•	 b = Probabilidade (erro tipo II) = Probabilidade (Aceitar H0 e H0 é falsa)
A probabilidade de cometer o erro do tipo I (a) é determinada pelo pesquisador 
no início do experimento e esse é o critério de rejeição de H0. O valor de a é es-
tipulado de maneira arbitrária pelo pesquisador e devemos saber de antemão que: 
quanto maior o valor atribuído, maior a chance de tomarmos uma decisão incor-
reta; e se optarmos por um valor excessivamente pequeno, corremos o risco de 
nunca rejeitarmos o H0, mesmo que isso signifique uma decisão correta. De modo 
geral, podemos trabalhar com o seguinte critério:
•	 a	= 5% (0,05) para a maioria das situações
•	 b	= 1% (0,01) para situações onde o erro do tipo I leva a consequências muito 
graves, como aceitar que uma droga não possui efeitos colaterais, sendo que 
na verdade ela é letal.
A partir da definição de a, podemos estabelecer uma região de aceitação e re-
jeição de H0. No exemplo anterior, para a=5% (0,05), definiremos como região de 
rejeição de H0 a região onde a probabilidade de acontecer o evento seja inferior a 
5%. Observe a Tabela 2.
Tabela 2 – Distribuição das probabilidades de evento com n = 10 e P (probabilidade) = 0,50, 
com a delimitação das áreas de aceitação e rejeição de H0 para um alfa de 5%
} Região de Aceitação 
de
 H
0
}
Re
giã
o d
e R
eje
içã
o d
e H
0
X número de curas Probabilidade de X
0 0,001
1 0,010
2 0,044
3 0,117
4 0,205
5 0,246
6 0,205
7 0,117
8 0,044
9 0,010
10 0,001
Repare que rejeitamos H0 para o conjunto de valores cuja probabilidade de ocor-
rer seja menor do que 0,05 (5%). Na Tabela 2, a soma de 0,010 e 0,001 é 0,011 
ou 1,1%; se acrescentarmos a probabilidade de 8 casos (0,044), teremos 0,055 ou 
5,5%, que excedem a nossa regra de decisão de aceitar somente os valores com 
probabilidade abaixo de 5%. 
A nossa questão exemplo era: a droga nova é mais eficaz que a droga antiga?
12
13
Para um nível de significância de 5%, se testarmos essa droga em 10 indivídu-
os, diremos que essa afirmação é verdadeira se ela for eficaz para 9 ou 10 indivídu-
os. Veja que chamamos de nível de significância o valor de a que fixamos a priori.
São passos necessários para a realização de um teste de hipóteses:
• Formular as hipóteses;
• Fixar a;
• Determinar a região de aceitação/rejeição de H0;
• Realizar o estudo, observar os resultados, calcular a estatística do teste;
• Confrontar o valor observado da estatística do teste com a região de rejeição/
aceitação do teste;
• Tomar a decisão;
• Apresentar a conclusão.
Alguns Testes de Hipótese Utilizados 
Rotineiramente na Pesquisa Biomédica
Testes Paramétricos
Mostraremosa seguir alguns testes paramétricos, ou seja, aqueles que exigem 
que determinados parâmetros estejam presentes para que o seu resultado tenha 
valor. Você deve se preocupar mais com a indicação do teste e a interpretação dos 
resultados do que propriamente com a maneira de proceder com os cálculos.
Teste de T
O teste de T é utilizado quando desejamos comparar as médias de duas amos-
tras, que podem ser o mesmo conjunto de indivíduos onde os valores foram toma-
dos antes e depois do tratamento; ou entre dois grupos, sendo um tratado e outro 
o grupo controle.
Para aplicarmos o teste de T como um teste de hipótese em nossa pesquisa, as 
condições a seguir devem estar satisfeitas:
• A variável deve ser quantitativa;
• A variável deve ter distribuição normal;
• A amostra deve ter uma distribuição próxima a normal.
13
UNIDADE Testes de Hipótese
Estudaremos o 1º Caso, onde temos observações independentes. São obser-
vações independentes quando estamos diante de dois grupos formados por indiví-
duos distintos. Para utilizar esse teste, devemos seguir os seguintes passos:
• Estabelecer o nível de significância (a);
• Formular as hipóteses;
• Calcular a média do grupo 1 e do grupo 2;
• Calcular a variância de cada grupo;
• Calcular a variância ponderada entre os dois grupos;
• Calcular o valor de t utilizando a fórmula;
• Comparar o t calculado com um valor da tabela de T utilizando como parâme-
tro o valor de alfa e o número de graus de liberdade.
A regra de decisão é:
Se tcalculado>ttabela, a diferença entre as médias é considerada significativa para um 
nível de significância (α) previamente estabelecido.
Cálculos:
n: número de elementos de cada grupo
s2: variância 
Variância ponderada (s2):
n s n s
n n
1 1
2
2 2
2
1 2
1 1
2
−( ) + −( )
+ −
Cálculo de t:
x x
s
n n
2 1
2
1 2
1 1
−
+






Valor na Tabela de T:
• Valores de a;
• Graus de liberdade dado pela seguinte fórmula: GL = (n1 + n2 – 2).
14
15
Figura 2 – Tabela para o teste de T
Estudaremos o 2º Caso, onde temos observações pareadas. São observações 
pareadas quando estamos diante de um grupo onde foram feitas duas observações. 
Para utilizar esse teste, devemos seguir os seguintes passos:
• Deve-se encontrar a diferença de x (d);
• Encontrar a média das diferenças d;
15
UNIDADE Testes de Hipótese
• Encontrar a variância das diferenças;
• Encontrar o valor de t.
A regra de decisão é:
Se tcalculado>ttabela, a diferença entre as médias é considerada significativa para um 
nível de significância (α) previamente estabelecido.
Cálculos:
X2: valores do grupo 2;
X1: valores do grupo 1;
S2: Variância;
d barra: Média da diferença entre os valores de X1 e X2.
Cálculo das diferenças e média das diferenças:
d x x
d
d
n
= −
=∑
2 1
Variância das diferenças:
S
d
d
n
n
2
2
1
=
−
( )
−
∑∑
Valor de t para teste pareado:
t d
s
n
=
2
O valor da tabela de T deve ser procurado para n-1 graus de liberdade.
Vamos ver dois exemplos:
Exemplo 1
Duas dietas estão sendo comparadas e os resultados em perda de massa em Kg 
estão na Tabela 3. Decida se é possível dizer se a dieta 2 é mais eficiente do que a 
1 para um nível de significância de 5%.
16
17
Tabela 3
Dieta 1 Dieta 2
12 15
8 19
15 15
13 12
10 13
12 16
14 15
11
12
13
Temos então dois grupos independentes:
a=5%
As hipóteses são:
H D D
H D D
0 2
1 2
1
1
:
:
=
>




perda de massa da dieta 2 maior do qque da dieta 1( )
=n1 10
n2=7
A Média da dieta 1 é de 12Kg e da dieta 2, é 15Kg.
A Variância para a dieta 1 é de 4Kg2 e da dieta 2, é de 5 Kg2.
Calculando a Variância ponderada, temos: S2 = 5 Kg2.
Calculando o valor de t, temos: 2,72.
Graus de liberdade = n1+n2–2 = 10+7-2 = 15.
Procurando na tabela, a = 5% e GL = 15, encontramos o valor de: 2,13.
A nossa regra de decisão diz: se o valor calculado de t (2,72) for maior do que 
o valor encontrado na tabela de t (2,13), então a diferença observada entre as mé-
dias dos grupos 1 e 2 (12 e 15Kg) é estatisticamente significativa para um nível de 
significância de 5%.
Então, para esse nível de significância, a dieta 2 fez os indivíduos perderem mais 
massa do que a dieta 1.
Exemplo 2
Uma dieta está sendo analisada em um grupo de indivíduos. Os resultados de 
massa em Kg antes e após a dieta estão na Tabela 4. Decida se é possível dizer se 
a dieta 2 é mais eficiente do que a 1 para um nível de significância de 5%.
17
UNIDADE Testes de Hipótese
Tabela 4
Antes da Dieta Depois da Dieta
77 80
62 58
61 61
80 76
90 79
73 69
86 90
59 51
88 81
Temos então amostras pareadas:
a=5%
As hipóteses são:
H D D
H D D
depois antes
depois antes
0
1
:
:
=
<




massa depois menorr do que antes
observe que temos um único grupo
( )
=n 9( )
Calculamos a diferença de massa para cada indivíduo e a média obtida é:
Tabela 5
Antes Depois Diferença
77 80 3
62 58 -4
61 61 0
80 76 -4
90 79 -11
73 69 -4
86 90 4
59 51 -8
88 81 -7
A Média da diferença é de −3,44Kg, os indivíduos perderam em média essa 
quantidade de massa após a dieta – para os cálculos, utilizaremos esse valor sem o 
sinal: 3,44 Kg.
A Variância da diferença é de 25,03Kg2.
Calculando o valor de t, temos: 2,06.
Graus de liberdade = n−1 = 9−1 = 8.
Procurando na tabela a = 5% e GL= 8, encontramos o valor de: 2,31.
18
19
A nossa regra de decisão diz: se o valor calculado de t (2,0,6) for maior do que 
o valor encontrado na tabela de t (2,31), então a diferença antes e depois (3,44Kg) 
é estatisticamente significativa para um nível de significância de 5%. Porém, como 
o valor de t é menor do que o da tabela, concluímos que para um nível de signifi-
cância de 5%, a diferença observada não é estatisticamente significativa, ou seja, 
não podemos afirmar que essa dieta realmente faria indivíduos perderem massa.
Testes Não Paramétricos
Mostraremos a seguir alguns testes não paramétricos, ou seja, aqueles nos quais 
determinados parâmetros, como a normalidade, não estão presentes para que o 
seu resultado tenha valor. O aluno deve se preocupar mais com a indicação do teste 
e a interpretação dos resultados do que propriamente com a maneira de proceder 
com os cálculos.
O teste de χ2 é utilizado quando desejamos comparar o resultado de amostras 
com variáveis qualitativas com um padrão pré-estabelecido, o que denominamos 
de resultado esperado.
• A variável deve ser qualitativa;
• Resultados apresentados em uma tabela de contingência com as proporções 
observadas; ou
• Em uma lista de variáveis e proporção observada.
No 1º Caso, temos o chamado teste χ2 para aderência. São observações de 
variáveis qualitativas que devem ser comparadas com um padrão esperado. 
No 2º Caso, para utilizar esse teste, devemos seguir os seguintes passos:
• A partir de uma observação, calcular a frequência observada;
• A partir dos totais, calcular a frequência esperada;
• Calcular o valor do χ2;
• Comparar o valor obtido com a tabela de distribuição de χ2.
A regra de decisão é:
Se χ2calculado> χ2tabela, a diferença entre o observado e o esperado é considerada signi-
fi cativa para um nível de signifi cância (α) previamente estabelecido.
Cálculos:
c2=
−( )Σ O E
E
19
UNIDADE Testes de Hipótese
O: proporção dos valores observados;
E: proporção dos valores esperados;
Graus de liberdade: r−1.
Exemplo 1
A teoria de Mendel diz que a segregação dos genes em ervilhas ocorre na se-
guinte proporção:
9
16
3
16
3
16
1
16
: :
Um pesquisador repetiu o experimento e os resultados observados:
Tabela 6
Sementes Frequência
Amarelo Lisa 315
Amarelo Rugosa 101
Verde Lisa 108
Verde Rugosa 32
Total 556
As hipóteses ficam:
H O E0 = ( ) Os dados observados são iguais aos dados esperados
HH O E1 ≠ ( )


Os dados observados são diferentes aos esperados


Para um total de 556 sementes, seguindo a segregação mendeliana, os resulta-
dos esperados seriam:
Tabela 7
Sementes Frequência Proporção
Amarelo Lisa 312,75 9/16
Amarelo Rugosa 104,25 3/16
Verde

Outros materiais