aula-de-bioestisticapdf-201601265458

•
FAG

Ana Ribeiro
18.02.2016
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 100 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 100 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 100 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Metodologia

20.039 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
Metodologia Científica
Bioestatística
Prof. Emídio Cavalcanti de Albuquerque
PESQUISA
Definição: pesquisa é uma indagação ou busca minuciosa para averiguação da 
realidade; é a investigação e estudo, minudentes e istemáticos, com o fim de 
descobrir ou estabelecer fatos ou princípios relativos a um campo qualquer do 
conhecimento (Ferreira, 1975). Pesquisar é encontrar respostas para questões 
propostas, utilizando métodos científicos. A pesquisa sempre parte de um tipo de 
problema, de uma interrogação. Através de um tratamento científico ela vai 
responder às necessidades de conhecimento de certo problema. Hipóteses serão 
levantadas e os resultados da pesquisa confirmarão ou invalidarão as mesmas. 
ALGUNS TIPOS DE PESQUISA
PESQUISA DE COMUNICAÇÃO - Tipo de pesquisa realizada para aferir aspectos ligados à
comunicação de marketing, como percepção da marca, índice de recall, compreensão da 
mensagem, etc. (Ver demais definições de pesquisa e Recall)
PESQUISA DE MERCADO - Tipo de pesquisa realizada para aferir aspectos ligados ao 
produto em si e ao mercado, como motivações de consumo, necessidades e desejos dos 
consumidores e prospects, conceito dos principais concorrentes, etc. (Ver demais definições de 
pesquisa e Prospect)
PESQUISA DE MÍDIA - Tipo de pesquisa realizada para aferir aspectos ligados à mídia, 
como índices e perfil de audiência, hábitos de consumo de veículos e programas, 
relacionamento com os veículos, etc. (Ver demais definições de pesquisa)
PESQUISA QUANTITATIVA - Tipo de pesquisa realizada para mensurar segmentos do 
mercado e as informações qualitativas pré-existentes ou levantadas pela pesquisa qualitativa. 
(Ver demais definições de pesquisa)
PESQUISA QUALITATIVA - Tipo de pesquisa realizada para aferir aspectos qualitativos de
alguma questão, como percepção de imagem, atitudes diante de marcas e veículos, motivações, 
etc. (Ver demais definições de pesquisa) 
PASSOS BÁSICOS PARA REALIZAR UMA PESQUISA
• Seleção do tópico ou tema para investigação; 
• Definição e diferenciação do problema;
• Levantamento de hipóteses de trabalho;
• Coleta, sistematização e classificação dos dados;
• Análise e interpretação dos dados;
• Relatório do resultado da pesquisa.
TEMA
Primeira etapa de uma pesquisa.
A investigação pressupõe uma série de conhecimentos anteriores e exige do pesquisador 
dedicação, persistência, paciência e esforço contínuo. 
PROBLEMA 
Dificuldade, teórica ou prática, dentro de um tema, para a qual se quer encontrar 
uma solução. 
Deve haver clareza, concisão e objetividade. 
Um problema muito abrangente torna a pesquisa mais complexa; quando bem 
delimitado, simplifica e facilita a maneira de conduzir a investigação.
O problema, para ser considerado apropriado, deve ser analisado sob os seguintes 
aspectos: 
a. Viabilidade - pode ser resolvido através da pesquisa;
b. Relevância - estar adequado ao estágio atual da evolução científica;
c. Novidade - trazer conhecimentos novos;
d. Exequibilidade - chegar a uma conclusão válida; 
e. Oportunidade - atender a interesses particulares e gerais.
HIPÓTESE 
• Tentativa de se dar resposta a um problema existente. 
• Antecede a constatação dos fatos
• Caracterizada por uma formulação provisória; 
• Deve ser testada para determinar sua validade;
• A definição prévia da hipótese torna mais simples o estabelecimento do objetivo 
da pesquisa;
• É necessário que ela seja formulada com embasamento teórico, e de tal maneira 
que sirva de guia na tarefa da investigação .
Coleta e organização: envolve os processos de definição da população de estudo, 
construção do instrumento de coleta (questionário), definição do processo de 
amostragem, controle de viés, construção de banco de dados, validação e consistência 
do banco de dados. 
Representação e descrição dos dados: se refere a melhor maneira de apresentar os 
dados estatísticos, sejam eles na forma de tabelas ou gráficos, de forma que a 
sumarização dos dados facilite a descrição dos fenômenos observados. 
COLETA, SISTEMATIZAÇÃO E CLASSIFICAÇÃO DOS 
DADOS
Pesquisa Qualitativa x Quantitativa
POPULAÇÃO E AMOSTRA
POPULAÇÃO (N): É o conjunto de indivíduos, objetos ou informações que tenham 
uma específica característica de interesse, podendo, quanto ao número de elementos, 
ser: finita (tamanho N) ou infinita. Como exemplo de população estatística podemos 
citar:
População de pacientes internados no IMIP, no período entre 01 de janeiro e 31 de 
dezembro de 2006;
População de adolescentes usuários do ambulatório do PROSAD no CISAM/Recife, 
atendidos no período de fevereiro a maio de 2004;
População do mosquito Aedes aegypti, para pesquisa de infestação. 
AMOSTRA (n): É um subconjunto não vazio ou parte da população. 
N
n
Extrapolação para a população 
(estimativas)
Resultados na amostra: representação da 
população
PROCESSOS ESTATÍSTICOS DE AMOSTRAGEM 
- CENSO - avaliação direta de um parâmetro, utilizando-se todos os componentes 
da população. Estudos por meio de censo são caros, lentos, porém, admite erro 
processual zero e tem confiabilidade 100%. Como exemplo, o Censo Demográfico 
Brasileiro, que ocorre de dez em dez anos. 
- AMOSTRAGEM (Inferência) - avaliação indireta de um parâmetro, com base 
em um estimador através do cálculo das probabilidades. São estudos de baixo custo, 
rápidos, no entanto, admite erro amostral e tem confiabilidade menor que 100%.
Definições: Parâmetro, Estimador e Estimativa
a) As medidas numéricas descritivas de toda a população (proporção, média, total, desvio 
padrão) são denominadas parâmetro.
b) Uma característica numérica estabelecida para uma amostra é denominada estimador. 
O estimador sempre será uma função de variáveis aleatórias observáveis, usada para 
estimar um parâmetro. Por exemplo, a média de uma amostra (), pode ser usada como 
estimador da média da população. é um estimador dado ser uma função de observações de 
uma amostra.
c) O valor numérico assumido pelo estimador numa determinada amostra é denominada 
estimativa.
TÉCNICAS DE AMOSTRAGEM
-Probabilística ou aleatória;
-Não probabilística ou não aleatória, viciada;
PROBABILÍSTICA OU ALEATÓRIA-quando cada unidade amostral na população 
tem a probabilidade conhecida e é diferente de zero.
NÃO PROBABILÍSTICA OU NÃO ALEATÓRIA (Tendência) - quando não é
conhecida a probabilidade de cada unidade pertencer à amostra, podendo prejudicar a 
sua representatividade em relação à população.
PRINCIPAIS TIPOS DE AMOSTRAGEM PROBABILÍSTICAS
Aleatória Simples
Aleatória Sistemática
Estratificada Com e Sem Partilha Proporcional
Conglomerados
AMOSTRAGEM ALEATÓRIA SIMPLES (AAS)
-É semelhante a um sorteio lotérico;
-A população deve ser razoavelmente homogênea;
-Na formação da amostra, cada elemento da população a ser sorteada deve apresentar 
igual probabilidade de pertencer a amostra;
-Os elementos da população são listados e devem ser enumerados de 1 a n, em 
qualquer ordem, seja ela alfabética ou pelo número do prontuário ou data de entrada. 
- Para o sorteio, a tabela de números aleatórios (anexo 1) pode ser utilizada, como 
também uso de software ou calculadora estatística.
AMOSTRAGEM ALEATÓRIA SISTEMÁTICA
- Selecionam-se sistematicamente as observações que participarão da amostra, em 
intervalos fixos a partir de uma observação inicial selecionada ao acaso.
- É utilizada quando as unidades amostrais estão dispostas em alguma ordenação que 
possibilite o sorteio em intervalos iguais. Como por exemplo, prontuário médicos em 
um arquivo, ficha da família no arquivo do PSF, entre outros. 
A amostragem sistemática seguem os seguintes passos: 
1. É necessário definir o intervalo amostral (k), calculado por
onde, N é o tamanho da população e n é o tamanho a amostra2. O primeiro indivíduo a compor a amostra é obtido através do sorteio de um número 
entre 1 e o intervalo amostral (k) - Início aleatório (i). 
n
Nk =
n
Nk =
n
Nk =
Exemplo: População de tamanho 20, numerada sequencialmente e amostra de 
tamanho 5.
1º Passo: Calcular o intervalo amostral
2º Passo: Sortear o início aleatório entre 1 a 4 
Número sorteado = 2 (primeiro sorteado - 2º da lista)
3º Passo: Determinar as unidades amostrais
i = 2
i + K = 2 + 4 = 6 (6º da lista)
i +2K= 2 + 8 = 10 (10º da lista)
i + 3K = 2 + 12 = 14 (14º da lista)
i + 4K= 2 + 16 = 18 (18º da lista)
Então, as unidades amostrais que farão parte da amostra serão: 2, 6, 10, 14 e 18.
AMOSTRAGEM ESTRATIFICADA
Formados os estratos, o tamanho da amostra por estrato pode ser calculado de 
duas formas: 
Partilhando proporcionalmente os estratos de acordo com a proporção, na 
população, da característica de interesse adotada como formadora do estrato. Essa 
forma é a mais recomendada dada à facilidade da estimação no processo de análise. 
A divisão pode ser feita sem partilha proporcional, ou seja, a amostra é dividida 
igualmente entre os estratos. Na amostragem sem partilha proporcional, a 
estimação da característica de interesse da população tem que ser ponderada pelo 
tamanho de cada estrato no momento da análise, tornando-a mais dificultosa. 
Exemplo: Uma pesquisa tem o objetivo de avaliar o perfil de atendimentos em 3 grandes 
Hospitais regionais – Hospital de Arcoverde, Agreste e Palmares. Para isso, foi calculada uma 
amostra de 696 atendimentos. A tabela abaixo mostra a divisão da amostra utilizando os 
métodos sem partilha proporcional e com partilha proporcional pelo número de atendimentos 
semanal. 
Atendimentos semanal Número de Amostras por hospital 
Hospitais 
N % Proporcional Não proporcional 
Arcoverde 1.345 37,0 258 232 
Agreste 1.173 32,2 224 232 
Palmares 1.122 30,9 214 232 
Total 3.640 100,0 696 696 
 
AMOSTRAGEM POR CONGLOMERADOS
Exemplo: Um pesquisador deseja estudar a prevalência de AIDS em adolescentes 
estudantes universitários da rede particular no Recife em 2006. Primeiro deverá
realizar o cálculo para o tamanho da amostra. Obter a listagem das faculdades da 
rede privada em 2006, e o número de adolescentes em cada uma delas. Ele sorteia 
algumas delas e realiza o exame para o vírus HIV em todos os estudantes 
adolescentes das faculdades sorteadas.
DADOS ESTATÍSTICOS E VARIÁVEIS
VARIÁVEL - categoria que descreve mudança ou variação nos fenômenos. Qualquer 
aspecto de um indivíduo que seja mensurado ou qualificado e registrado é chamado de 
variável. Entenda-se indivíduos em estatística não só como pessoas mas como a domicílios, 
hospitais, cobaias etc.
VARIÁVEL
QUANTITATIVA
QUALITATIVA
DISCRETA
CONTÍNUA
NOMINAL
ORDINAL
Tipos básicos de variáveis
Quanto à natureza, as variáveis podem ser classificadas como qualitativas ou 
quantitativas.
Variável qualitativa: é uma variável cujas manifestações (ocorrências ou realizações) 
apresentam diferenças de natureza, ou seja, são qualitativamente distintas. Essas 
manifestações constituem as modalidades ou categorias da variável. O gênero, o estado 
civil, o credo religioso, a nacionalidade e o tipo de sangue são exemplos de variáveis 
qualitativas.
Variável quantitativa: é uma variável cujas manifestações mantém sempre a mesma
natureza, diferindo entre si apenas em magnitude. A altura, o peso, a idade, o nível de 
hemoglobina, o número de filhos, o estágio de uma doença são exemplos de 
variáveis quantitativas.
Escala nominal. É uma escala apenas classificatória. Suas categorias não têm 
qualquer tipo de ordenação entre elas. As escalas nominais são as escalas naturais para 
mensurar as variáveis qualitativas. Um exemplo de escala nominal é a escala formada 
pelas palavras masculino e feminino. Esta escala é freqüentemente usada para registrar o 
gênero. O conjunto {O, A, B, AB} define uma escala nominal para o grupo 
sangüíneo do sistema ABO. 
Observação: Os numerais podem ser usados para representar as categorias de uma 
escala nominal. Nesses casos, os numerais não estão representando quantidades. Eles 
devem ser vistos apenas como rótulos identificadores. 
Visto que uma escala nominal é apenas uma escala classificatória, e, sendo a 
classificação a mais básica operação efetuada em qualquer ciência, as escalas nominais 
são consideradas as escalas que possuem o mais baixo nível de mensuração.
Escala ordinal. É um conjunto de categorias ordenadas. Escalas ordinais são 
apropriadas para variáveis quantitativas quando não é viável definir uma unidade de 
medida, mas é possível ordenar dois casos que sejam considerados diferentes. É o 
que acontece, por exemplo, com o estádio de câncer de mama, cuja progressão é
registrada usando-se uma escala ordinal com as seguintes categorias: estádio I, 
estádio II, estádio III e estádio IV, com a seguinte ordem definida entre elas:
estádio I < estádio II < estádio III < estádio IV
A ordenação é definida de maneira que qualquer estádio situado à direita de um sinal 
“< “ significa uma progressão em relação aos estádios situados à sua esquerda. 
Entretanto, a inexistência de uma unidade de medida, nesse caso, não permite 
quantificar a magnitude da diferença entre dois casos situados em estádios diferentes. 
Por conta disso, não é possível dizer, por exemplo, que a diferença entre o estádio II 
e o estádio I é igual à diferença entre o estádio III e o estádio II. 
Uma escala ordinal, que, além de classificar os elementos em categorias, permite a 
ordenação das mesmas, é considerada uma escala com nível de mensuração mais 
elevado do que as escalas nominais.
Em algumas variáveis quantitativas existe um limite (em valor absoluto) para a 
diferença de magnitude entre dois casos considerados distintos. Tais variáveis são 
denominadas de variáveis discretas. Por exemplo, se dois pacientes tiverem número 
de internações diferentes durante certo período de tempo, a diferença entre esses 
dois números, em valor absoluto, não pode ser inferior a um. Portanto, o número de 
internações (durante certo período de tempo) é uma variável discreta. O número de 
filhos de uma família e o número diário de nascimentos em uma maternidade são 
também variáveis discretas. 
Uma variável contínua é uma variável quantitativa em que não existe um limite para 
a diferença entre dois valores distintos dessa variável. Por exemplo, entre duas 
pessoas com idades diferentes, a diferença das idades poderia ser inferior a um ano, a 
um mês, a um dia, a uma hora, a um minuto, a um segundo, etc. Peso, altura, área, 
volume, temperatura, pressão arterial e nível de glicose são exemplos de variáveis 
contínuas. Sempre que os valores de uma variável são necessariamente registrados com erro de 
arrendondamento, essa variável é contínua.
Em análises onde se pretende buscar associação entre variáveis, a variável principal de 
interesse é denominada como dependente e as outras variáveis que possivelmente 
possam estar relacionadas com a variável dependente é denominada de independente 
ou explicativa.
VARIÁVEIS INDEPENDENTES - são as causas presumidas que estão associadas 
a variável dependente ou efeito. 
VARIÁVEIS DEPENDENTES - é ou são o(s) efeito(s) presumido(s) das variáveis 
independentes. 
Exemplo: consumo de açúcar (possível causa) e cárie dentária (efeito do consumo de 
açúcar nos dentes). Então, consumo de açúcar é a variável independente e cárie a 
variável dependente.
COLETA E PROCESSAMENTO DOS DADOS
Após cuidadoso planejamento, escolha das variáveis e determinação da amostra, o 
pesquisador deverá dar início à coleta de dados para a sua descrição, apresentação e, 
posterior análise.
Quanto aos métodos de coleta de dados, podemos descrever alguns mais usados e
discutir oscuidados que devemos ter com cada um deles:
• Entrevista pessoal
• Entrevista por telefone
• Questionário auto-administrado
• Observação direta 
Todos esses métodos pressupõem a existência de um instrumento de coleta 
(questionário ou de um elenco de perguntas e observações a serem realizadas) que 
também deve ser planejado com bastante critério. 
A fonte de informação para a coleta dos dados pode ser primária ou secundária.
FONTE PRIMÁRIA DOS DADOS - quando estes são levantados diretamente 
da população de estudo no momento da pesquisa. Exemplo: dados de inquérito.
FONTE SECUNDÁRIA - quando o pesquisador utiliza dados já existentes, por 
exemplo, dados do prontuário médico, do censo.
Processamento através da criação de um banco de dados
Banco de dados
Um banco de dados é uma coleção de realizações ou observações sobre as variáveis 
mensuradas numa pesquisa.
Exemplo 1. Parte inicial de um banco de dados proveniente de um estudo sobre 
fatores de risco para óbito infantil.
N sexo pesonasc gesta tipograv tipoparto idademae instrmae cathosp desfecho 
1 1 4130 4 1 1 25 2 2 2 
2 2 3100 4 1 2 33 4 0 2 
3 2 3600 4 1 1 19 2 2 2 
4 1 3000 4 1 2 21 2 2 2 
5 2 3500 4 1 1 17 2 2 2 
6 1 3350 4 1 1 25 2 2 2 
7 2 3350 4 1 2 17 2 2 2 
8 2 3900 4 1 2 27 2 2 2 
9 1 3850 4 1 1 25 3 2 2 
10 2 3420 4 1 1 24 3 2 2 
 
Descrição das variáveis do banco de dados sobre fatores de risco para óbito infantil. 
 
Variável Descrição Códio Descrição do código 
Sexo Sexo da criança 1 
2 
Masculino 
Feminino 
Peso Peso ao nascer (gramas) 300 a 6000 
Gesta Duração da gestação 1 
2 
3 
4 
5 
0 – 21 semanas 
22 – 27 semanas 
28 – 36 semanas 
37 – 41 semanas 
>= 42 semanas 
Tipograv Tipo de gravidez 1 
2 
3 
4 
Única 
Dupla 
Tríplice 
> Três 
Tipoparto Tipo de parto 1 
2 
Espontâneo 
Operatório 
Idademae Idade da mãe 12 a 46 anos 
Instrmae Grau de instrução da mãe 1 
2 
3 
4 
5 
Nenhuma 
Primeiro grau incompleto 
Primeiro grau completo 
Segundo grau 
Superior 
Cathosp Categoria do hospital 0 
1 
2 
Privado não SUS 
Público-estatal 
Privado contratado pelo SUS 
Desfecho Variável indicadora de óbito ou 
sobrevida 
1 
2 
Óbito 
Vivo 
 
Seguido da digitação, o pesquisador deverá fazer a crítica dos dados colhidos, dados 
brutos, visando eliminar valores impróprios ou inconsistentes, que possam interferir 
nos resultados finais do estudo.
Observação: Recomenda-se que essa digitação seja feita em duas entradas, além 
disso, por dois digitadores diferentes, para que haja a confrontação dos dois bancos 
de dados, a fim de identificar possíveis erros de digitação. Isso se justifica pelo fato 
que é muito pouco provável que os dois digitadores errem no mesmo dado. 
Estatística Descritiva
Após a coleta e armazenamento num arquivo, tem início a análise e a interpretação 
dos dados. Para que sejam informativos ou comparáveis com outros resultados, ou 
ainda, para julgar a adequação deles a alguma teoria, percebe-se a necessidade de 
organizá-los e resumi-los de forma adequada. Os meios necessários a essa 
finalidade constituem a Estatística Descritiva. São eles: tabelas, gráficos e medidas 
numéricas tais como médias e percentagens.
Estatística Descritiva
Após a coleta e armazenamento num arquivo, tem início a análise e a interpretação 
dos dados. Para que sejam informativos ou comparáveis com outros resultados, ou 
ainda, para julgar a adequação deles a alguma teoria, percebe-se a necessidade de 
organizá-los e resumi-los de forma adequada. Os meios necessários a essa finalidade 
constituem a Estatística Descritiva. São eles: tabelas, gráficos e medidas numéricas tais 
como médias e percentagens. 
Tabela 1. Freqüência e percentagem da escolaridade das mães, numa coorte de nascidos vivos 
em 1992. Goiânia, GO.
Escolaridade N % 
Nenhuma 586 3,2 
Primeiro grau incompleto 8679 47,0 
Primeiro grau completo 3229 17,5 
Segundo grau 4461 24,2 
Superior 1502 8,1 
Total 18457 100,0 
 
Distribuição de freqüência de variáveis numéricas discretas
A distribuição de freqüência de uma variável discreta numérica é obtida de maneira similar à
distribuição de freqüência de uma variável categórica (nominal ou ordinal). No caso de variáveis 
discretas numéricas, o número de elementos com um dado valor da variável é a freqüência desse 
valor. Associando-se cada valor com a respectiva freqüência, obtém-se a distribuição de 
freqüência da variável. A Tabela 2 ilustra a maneira usual de representar uma distribuição de 
freqüência de uma variável numérica discreta com poucos valores.
Tabela 2. Distribuição de escolares de 103 unidades das redes de ensino público e privado do 
Município de São Paulo, 1996.
Idade (anos) N % 
5 490 19,7 
6 266 10,7 
7 245 9,8 
8 264 10,6 
9 263 10,6 
10 246 9,9 
11 222 8,9 
12 495 19,9 
Total 2491 100,0 
 
Classes 
A maneira usual de resumir dados de uma variável contínua, quando existe um grande 
número de elementos, é adotar um procedimento similar àquele usado para as 
variáveis categóricas. Ou seja, define-se uma nova escala, agora uma escala categórica, 
e os dados são reclassificados de acordo com as categorias dessa escala. Essas 
categorias, chamadas de classes, são intervalos de números reais que contêm valores 
da variável. A questão básica é decidir número, amplitude e limites (inferior e superior) das 
classes que vão formar a nova escala. A determinação do número, amplitude e limites 
de classes, não obedece a regras precisas e detalhadas, mas subordinam-se a um 
procedimento geral constituído das seguintes etapas:
1. escolher classes justapostas, mas sem superposição e em número suficiente para 
englobar todas as observações. 
2. Contar o número de observações que pertencem a cada classe. Esse número é
chamado de freqüência absoluta.
3. Determinara a freqüência relativa de cada classe.
Observação: Recomenda-se que o número de classes fique compreendido entre 5 e 15.
A Tabela 3 apresenta uma distribuição de freqüência da idade das mães (banco de 
dados do estudo sobre óbito infantil).
Tabela 3. Distribuição de freqüência da idade das mães, numa coorte de nascidos vivos em 
1992. Goiânia, GO..
Idade (anos) N (%) 
Menos de 14 116 0,6 
15 a 19 3941 21,4 
20 a 24 6782 36,7 
25 a 29 4739 25,7 
30 a 34 2046 11,1 
35 a 39 684 3,7 
40 ou mais 149 0,8 
Total 18457 100,0 
 
A divisão por intervalos de classes iguais é construída de acordo com os seguintes 
procedimentos: 
1. Efetua-se um ROL ESTATÍSTICO (ordenação crescente ou decrescente de 
grandeza) nos Dados Brutos (aqueles ainda não organizados numericamente).
2. Determina-se a AMPLITUDE TOTAL dos dados
AT = Xmáx - Xmín onde Xmáx : maior valor observado e 
Xmín : menor valor observado
3. Escolhe-se convenientemente o número de classes K (no. inteiro). O número de 
classes pode ser calculada por: 
4. Calcular a amplitude das classes (h), pela formula .
5. Efetua-se o AGRUPAMENTO EM CLASSES e, a seguir, toma-se as 
FREQUÊNCIAS SIMPLES DE CLASSES, elaborando-se, portanto, a tabela 
de distribuição de freqüências.
K n≅ ou 
K n≅ + ⋅1 3 3, log (Fórmula de Sturges) 
Exemplo: - Distribuição de frequências das alturas das vítimas de acidentes de trânsito, Cidade X, 
ano 2006. 
ALTURAS 
(cm) 
Freq. 
Simples 
fi 
Freq. Relativa
fri 
Freq. 
Percentual 
fi % 
Freq.Simples 
Acum. 
Fi 
Freq.Perc. 
Acum. 
Fi % 
150 |----- 157 1 0,034 3,4 1 3,4 
157 |----- 164 4 0,138 13,8 5 17,2 
164 |----- 171 12 0,415 41,5 17 58,7 
171 |----- 178 9 0,310 31,0 26 89,7 
178 |----- 185 3 0,103 10,3 29 100,0 
Total ou ∑ 29 1,000 100,0 
 
Elementos constituintes de tabelas estatísticas
As tabelasestatísticas são compostas de elementos essenciais e elementos complementares. Os 
elementos essenciais são título, cabeçalho, coluna indicadora e corpo. O título especifica 
as variáveis observadas, o local e a época em que os dados foram coletados; o cabeçalho, que 
vem logo após o título, identifica o conteúdo das colunas; a coluna indicadora (que pode ser 
mais de uma) especifica o conteúdo das linhas; o corpo é o conjunto de linhas e colunas que 
contém as informações obtidas. Os elementos complementares de uma tabela são fonte, e 
chamadas que se situam, preferencialmente no rodapé da tabela. Fonte identifica a entidade 
responsável pelo fornecimento ou elaboração dos dados; chamadas são informações de 
natureza específica sobre determinada parte da tabela, com a finalidade de conceituar ou 
esclarecer dados.
Representação Gráfica de Uma Distribuição de Freqüência
A apresentação de dados pode também ser feita sob a forma de gráficos. O objetivo é
o mesmo de uma tabela: mostrar o essencial de um conjunto de dados de forma 
rápida e de fácil compreensão. Aqui só apresentaremos três tipos de gráficos: o 
diagrama de colunas, o histograma e o polígono de freqüência.
Representação gráfica de uma distribuição de freqüência de uma variável 
categórica. Diagrama de colunas
ABBAO
45
40
35
30
25
20
15
10
5
0
Tipo de sangue
P
e
r
c
e
n
t
a
g
e
m
Figura 1. Distribuição do tipo de sangue de 502 pessoas
DomingoSábadoSextaQuintaQuartaTerçaSegunda
15
10
5
0
Dia da semana
P
e
r
c
e
n
t
a
g
e
m
Figura 2. Hospitalização por infarto do miocárdio, segundo o dia da semana.
Região de Ribeirão Preto, 1987 - 1996.
Fonte:Ver Tabela 1.
Representação gráfica de uma distribuição de freqüência de uma 
variável contínua
-Histograma
Tabela 1. Distribuição do nível de colesterol de um grupo de homens, com idade entre 40 e 50
anos. 
Nível de colesterol (mg/100ml) Freqüência absoluta Freqüência relativa (%) 
120 ├─ 140 10 0,96 
140 ├─ 160 21 2,02 
160 ├─ 180 37 3,55 
180 ├─ 200 97 9,32 
200 ├─ 220 152 14,60 
220 ├─ 240 206 19,80 
240 ├─ 260 195 18,73 
260 ├─ 280 131 12,58 
280 ├─ 300 96 9,22 
300 ├─ 320 47 4,51 
320 ├─ 340 30 2,88 
340 ├─ 360 13 1,25 
360 ├─ 380 6 0,58 
Total 1041 100,0 
 
Figura 3. Distribuição do nível de colesterol em um grupo de homens 
com idade entre 40 e 50 anos
Nível de colesterol sérico (mg/100ml)
F
r
e
q
ü
ê
n
c
i
a
0
20
40
60
80
100
120
140
160
180
200
220
240
120 140 160 180 200 220 240 260 280 300 320 340 360 380 400
 Figura 4. Distribuição do nível de colesterol em um grupo de homens 
com idade entre 40 e 50 anos
Nível de colesterol sérico (mg/100ml)
D
e
n
s
i
d
a
d
e
 
0
0.2
0.4
0.6
0.8
1
1.2
100 120 140 160 180 200 220 240 260 280 300 320 340 360 380 400
Polígonos de freqüência
Figura 5. Distribuição do nível de colesterol em um grupo de homens 
com idade entre 40 e 50 anos 
Nível de colesterol sérico (mg/100ml)
D
e
n
s
i
d
a
d
e
 
0
0.2
0.4
0.6
0.8
1
1.2
100 120 140 160 180 200 220 240 260 280 300 320 340 360 380 400
Distribuições simétricas e assimétricas
Uma característica facilmente identificável na Figura 4 é uma marcante simetria 
exibida pelo nível de colesterol no grupo estudado. 
A Figura 6, que representa a distribuição de freqüência do peso de escolares, exibe 
uma marcada assimetria, que é denominada de assimetria positiva.
Figura 6. Distribuição de pesos de escolares
Peso (kg)
D
e
n
s
i
d
a
d
e
 
(
%
/
k
g
)
0
3
6
9
12
15
18
21
24
27
30
9.4 14 18.6 23.2 27.8 32.4 37 41.6 46.2 50.8 55.4 60
Por outro lado, a assimetria também está presente na Figura 7. Nesse caso, a 
assimetria é chamada de assimetria negativa.
80706050403020
0.042
0.036
0.030
0.024
0.018
0.012
0.006
0.000
Idade (anos)
D
e
n
s
i
d
a
d
e
3.75%
3.25%
3.5%
4%
1.5%
4.0%
0.75%
0.5%
0.25%0.25%0.25%
Figura 7. Distribuição da idade de 80 pacientes portadores de câncer de estômago
detectados em Campinas, SP em 1991.
MEDIDAS DE TENDÊNCIA CENTRAL
Vimos anteriormente a apresentação dos dados sob a forma de tabelas, e distribuições 
de freqüências, ou seja, a análise descritiva das variáveis qualitativas ou categóricas. 
Agora, abordaremos o cálculo das medidas que possibilitem analisar de forma 
descritiva dados referentes a uma variável quantitativa, isto é, informações numéricas.
Essas informações estatísticas são as MEDIDAS DE POSIÇÃO e, dentre as mais 
importantes, citamos as Medidas de Tendência Central, que recebem tal 
denominação pelo fato dos dados observados tenderem, em geral, a se concentrar 
em torno de valores centrais. 
Dentre as medidas de tendência central, destacamos:
Média aritmética ou Média;
Moda;
Mediana.
As outras medidas de posição são as SEPARATRIZES, que englobam:
a própria mediana;
os quartis;
os percentis.
MÉDIA ARITMÉTICA (ou simplesmenteMÉDIA)
Dada uma população constituída de N elementos, X1, X2, ..., XN sua média, denotada por μ , 
mede o valor médio do conjunto de dados, sendo expressa na mesma unidade, e definida por: 
Dada uma amostra constituída de n elementos, X1, X2, ..., Xn , sua média, denotada , será
definida por:
= =
Exemplo: Determinar a média do seguinte conjunto (amostra) de valores Xi : 3, 7, 8, 10, 11 
μ = + + +X X X
N
N1 2 ... μ = ∑ X
N
i
X
X n
XXX n+⋅⋅⋅++ 21 X Xn
i∑
VANTAGENS E DESVANTAGENS DA MÉDIA
1. É uma medida de tendência central que por uniformizar os valores de um 
conjunto de dados, não representa bem os conjuntos que revelam tendências 
extremas. Ou seja, é grandemente influenciada pelos valores extremos 
(grandes) do conjunto.
2. É a medida mais conhecida e de maior emprego.
3. É facilmente calculável
4. Pode ser tratada algebricamente (ver propriedades).
5. Serve para compararmos conjuntos semelhantes.
6. É particularmente indicada para séries (conjuntos) que possuem os valores 
simétricos em relação a um valor médio e de freqüência máxima.
7. Depende de todos os valores do conjunto de dados.
MODA
Dado um conjunto de valores, a moda, denotada Mo, é o valor que ocorre com maior 
freqüência, ou seja, é o valor que mais se repete no conjunto de dados.
Observação:
i) A moda de um conjunto de dados pode não existir, basta que não haja valor mais freqüente 
ii) A moda de um conjunto de dados pode não ser única. Denominamos a distribuição de 
dados com 2 modas de Bimodal , 3 modas Trimodal e mais de 3 modas denominamos 
Polimodal. 
VANTAGENS E DESVANTAGENS DA MODA
1. Não depende de todos os valores do conjunto de dados, podendo mesmo não se alterar 
com a modificação de alguns deles.
2. Não é influenciada por valores extremos (grandes) do conjunto de dados.
No conjunto de dados 1, 3, 4, 5, 5, 5, 7, 9 a moda é 5; no conjunto 1, 3, 4, 5, 5, 5, 7, 7, 7, 9 
existem duas modas: 5 e 7; no conjunto 1,1,2,2,3,3 não existe moda.
A moda é útil quando a observação mais freqüente é a que tem relevância. Isto costuma 
ocorrer com variáveis categóricas. 
MEDIANA
Considere uma série (conjunto de dados) ordenada, constituído de n valores. A 
mediana, denotada Me , é o valor que divide o conjunto em duas partes iguais (isto é, 
em duas partes de 50% cada).
Exemplos:
a) Calcular a mediana do seguinte conjunto de dados: 2, 3, 5, 8, 9, 11, 13 (n = 7 
ímpar)
Me = 8 (termo de ordem central )
b) Calcular a mediana do seguinte conjunto de dados: 2, 3, 5, 8, 9, 11, 13, 15 
(n= 8 par)
Me = (8+9)/2 = 8,5 (Média aritmética dos termos de ordens centrais) 
Verificamos que, estando ordenados os valores de uma série (conjunto de dados) e 
sendo n o número de elementos da série, o valor mediano será:
-o termo de ordem central (n+1)/2, Me=X(n+1)/2 se n for ímpar;
- a mediana será a média aritmética dos dois valores centrais, termos de ordem
n n
2 2
1e + 2
1
22
+
+
=
nn XX
Me se n for par. 
PROPRIEDADES DA MEDIANA
A mediana não é influenciada por valores extremos (grandes) de uma série ou conjunto 
de dados.
A escolha de uma medida de tendência central
Tendo em vista a existência de mais de uma medida de tendência central, uma 
questão pertinente é a escolha de uma delas para ser empregada num particular 
conjunto de dados. Dois fatores são importantes para a escolha: a escala de 
mensuração e a forma da distribuição. A média é mais apropriada para as 
distribuições simétricas ou aproximadamente simétricas que não apresentam mais de 
uma moda. A mediana é mais indicada quando os dados incluem valores aberrantes 
ocasionais ou quando a distribuição é marcadamente assimétrica. Além disso, a 
mediana é a única medida de tendência central que pode ser empregada quando os 
dados são ordinais.
MEDIDAS DE POSIÇÃO E ORDENAMENTO
Principais medidas de ordenamento e posição
As medidas de ordenamento e posição fornecem uma idéia sobre a distribuição dos 
dados ordenados, como a mediana, que representa o ponto de divisão dos dados 
(50% dos dados são superiores à mediana, 50% inferiores). De um modo geral, 
existem três grandes grupos de medidas de ordenamento: 
•quartis
•decis
•percentis.
QUARTIS
Os quartis dividem a distribuição ordenada em quatro partes iguais. A medida de 
posição onde se encontra o quartil na relação ordenada dos valores, é obtido através 
da aplicação da seguinte expressão:
⎥⎦
⎤⎢⎣
⎡ +×
=
2
1
4
nii XQ
Exemplo : encontre os quartis da seguinte série bruta de dados : 1, 3, 2, 6, 5, 9. 
Para encontrar os quartis, valores que dividem a série ordenada em quatro partes 
iguais, torna-se necessário a obtenção do Rol : 1, 2, 3, 5, 6, e 9. Percebe-se que os 
números 2 (quartil 1) , 4 (quartil 2, média entre 3 e 5) e 6 (quartil 3) dividem a 
série ordenada em quatro partes iguais, cada uma contendo um elemento. Outra 
forma para encontrar os quartis envolveria a aplicação da fórmula para encontrar 
a medida de posição 
[ ]2
2
1
4
611 XXQ == ⎥⎦⎤⎢⎣⎡ +×
[ ]5,3
2
1
4
622 XXQ == ⎥⎦⎤⎢⎣⎡ +×
[ ]5
2
1
4
633 XXQ == ⎥⎦⎤⎢⎣⎡ +×
O primeiro quartil é igual ao valor do segundo 
elemento da série ordenada, que é igual a 2.
O segundo quartil é igual ao valor do 
elemento 3,5 (entre o elemento3 e o 
elemento 4) da série ordenada, que é igual a 
média entre 3 e 5, que é igual a 4.
O terceiro quartil é igual ao valor do 
elemento 5 da série ordenada, que é igual a 
6.
DECIS
Os decis dividem a distribuição ordenada em dez partes iguais. A medida de posição do decil
pode ser obtido através da aplicação da seguinte expressão:
PERCENTIS
Os percentis dividem a distribuição ordenada em cem partes iguais. A medida de posição 
pode ser obtida através da aplicação da seguinte expressão:
⎥⎦
⎤⎢⎣
⎡ +×
=
2
1
10
nii XD
⎥⎦
⎤⎢⎣
⎡ +×
=
2
1
100
nii XP
MEDIDAS DE DISPERSÃO
Na seção anterior, aprendemos a calcular e entender convenientemente as medidas de 
posição representativas de um determinado conjunto de dados, onde destacamos a 
média, a moda e a mediana.
Sejam quatro conjuntos A, B, C e D com os seguintes valores:
Conjunto A ====> 7, 7, 7, 7, 7
Conjunto B ====> 5, 6, 7, 8, 9
Conjunto C ====> 4, 5, 7, 9, 10
Conjunto D ====> 0, 5, 10, 10, 10
Para representarmos cada conjunto, podemos 
calcular a sua respectiva média. 
Vemos assim que apesar de constituídos de 
valores diferentes, os grupos revelam uma 
mesma média aritmética.
As medidas estatísticas responsáveis pela variação ou dispersão dos valores de um 
conjunto são as medidas de dispersão ou de variabilidade, onde se destacam a 
amplitude total, a variância, o desvio padrão e o coeficiente de variação. Em 
princípio, diremos que entre dois ou mais conjuntos de dados, o mais disperso (ou 
menos homogêneo ) é aquele que tem a maior medida de dispersão.
AMPLITUDE TOTAL
Medida já apresentada na elaboração de uma distribuição de freqüências com dados 
agrupados em classes, denotamos AT.
AT= Xmáx – Xmín, onde Xmáx = maior valor do conjunto e Xmín = menor valor do 
conjunto.
VARIÂNCIA
A variância de um conjunto de dados (amostra ou população) mede a variabilidade do 
conjunto em termos de desvios quadrados em relação à média aritmética do conjunto. 
É uma quantidade sempre não negativa e expressa em unidades quadradas do conjunto 
de dados, sendo de difícil interpretação.
a) Seja um conjunto ( população ) constituído de N elementos X1, X2, . . ., XN. Sua variância 
denotada , é definida por:
( )σ μ2 2= −∑ X
N
i
σ2
b) Seja um conjunto ( amostra ) constituído de n elementos X1, X2, . . . , Xn. Sua 
variância, denotada S2 , é definida por:
( )
S
X X
n
i2
2
1
= −−
∑
Observação: A equação acima é utilizada quando nosso interesse não se restringe à
descrição dos dados mas, partindo da amostra, visamos tirar inferências válidas para 
sua respectiva população. No caso de estarmos interessados apenas na descrição dos 
dados, podemos usar no divisor n em lugar de n – 1
Exemplo : Determine a variância do seguinte conjunto (amostra) Xi : 2, 3, 5, 7, 8
( ) ( ) ( ) ( ) ( )
S 2
2 2 2 2 22 5 3 5 5 5 7 5 8 5
5 1
= − + − + − + − + −−
( ) ( ) ( ) ( ) ( ) 5,6
4
26
4
94049
4
32023 222222 ==++++=+++−+−=∴S
DESVIO PADRÃO
É uma outra medida de dispersão mais comumente empregada do que a variância, por ser 
expresso na mesma unidade do conjunto de dados. Mede a "DISPERSÃO ABSOLUTA" de 
um conjunto de valores e é obtida a partir da variância. 
Desvio Padrão = Raiz quadrada da Variância
Conforme, o conjunto de dados, trate-se de uma população ou uma amostra, teremos o 
desvio padrão dado por:
VariânciaDP =
( )σ μ= −∑ X
N
i
2
( )
S
X X
n
i= −−
∑
1
2
População (N)
Amostra (n)
Do exemplo anterior , dado acima, temos o desvio padrão dado por
=> S = 2,55
COEFICIENTE DE VARIAÇÃO
É uma quantidade adimensional e serve para comparar dois ou mais conjuntos de 
dados de unidades diferentes. Mede a "DISPERSÃO RELATIVA" de um conjunto 
de dados. É expresso, usualmente, em percentagem ( % ).
CV = ×σμ 100
CV
S
X
= × 100
População (N)
Amostra (n)
Exemplo : Calcule o coeficiente de variação (dispersão relativa) das ALTURAS das 26 
crianças e adolescentes
Temos: altura média 169,67 cm e o Desvio Padrão de 6,77 cm
CV
S
X
cm
cm
= × = × =100 6 77
169 67
100 3 99
,
,
, CV = 3 99%,
Amplitude interquartil.
A amplitude interquartil é a diferença entre o terceiro e o primeiro quartil. É
o comprimento do intervalo dentro do qual espera-se encontrar cerca de 50% das 
observações. Além disso, é pouco influenciado pela presença de valores muito 
afastados do resto dos dados, o que não acontece com o desvio padrão.
Para conjuntos simétricos ou razoavelmente simétricos onde os dados 
tendem a se aglomerar no centro, a média e o desvio padrão são boas medidas do 
valor típico e da variabilidade, respectivamente. Entretanto, quando o conjunto 
apresenta uma pronunciada simetria positiva ou negativa, a mediana e a amplitude 
interquartil são as medidas mais adequadas para representar o "valor típico" e a 
variabilidade, respectivamente.
A escolha de uma medida de variabilidade
Devido a existência de várias medidas de variabilidade, é também pertinente aquestão da escolha de uma delas para ser empregada num particular conjunto de 
dados. Para isso, deve-se considerar que:
O desvio padrão deve ser usado quando a média é usada, ou seja, em dados 
numéricos provenientes de distribuições simétricas ou razoavelmente simétricas.
A amplitude interquartil deve ser usada em três situações:
quando os dados são ordinais;
quando os dados incluem valores aberrantes ocasionais;
quando a distribuição é marcadamente assimétrica.
Box Plots
Um boxplot é um tipo de gráfico utilizado na descrição de dados. Baseia-se apenas 
no primeiro e terceiro quartil e na mediana. Um retângulo é desenhado de forma 
que a base representa o primeiro quartil e o topo, o terceiro quartil 
50
40
30
20
10
i
d
a
d
e
 
d
a
s
 
m
ã
e
s
 
(
a
n
o
s
)
Gráfico 1. Distribuição da idade das mães. Coorte de recém-nascidos.Goiana, GO, 1992.
Gráfico 2. Distribuição da idade das mães, segundo o tipo de gravidez. Coorte de RNs. 
Goiana, GO, 1992.
> TrêsTríplaDuplaÚnica
50
40
30
20
10
Tipo de gravidez
I
d
a
d
e
 
d
a
 
m
ã
e
 
(
a
n
o
s
)
A curva de densidade normal
Uma forma alternativa de descrever graficamente uma distribuição de uma variável 
numérica contínua é substituir o histograma pela área definida pelo gráfico de uma 
função matemática apropriada. Mas esse procedimento só produz resultados 
satisfatórios quando se dispõe de um número razoavelmente grande de observações. 
Observe que o histograma correspondente à distribuição de freqüência pode ser bem 
representado pela área sob a curva sobreposta. Essa curva é chamada de curva (de 
densidade) normal ou curva de Gauss. A curva de Gauss é o gráfico da seguinte função 
matemática:
2
2
2
)(
2
1)( σ
μ
πσ
−−=
x
exf
μ e σ são parâmetros. O parâmetro μ pode ser qualquer número real, mas o 
parâmetro σ só pode assumir valores positivos.
Figura1. Curva normal ajustada a um histograma 
Propriedades da curva de Gauss
• A curva normal é simétrica e tem a forma aproximada de um sino. Estende-se 
indefinidamente tanto para a esquerda como para a direita de seu eixo de 
simetria, cuja abcissa é o parâmetro μ; 
• A área delimitada pelo gráfico da curva e o eixo horizontal é igual a 1.
• O “achatamento” da curva depende do valor do parâmetro σ. Quanto maior 
for o valor de σ, mais achatada será a curva de Gauss; quanto menor for o 
valor de σ, mais “pontiaguda” será a curva.
Quando uma curva de Gauss é utilizada para representar a distribuição de uma 
variável contínua, os parâmetros μ e σ representam, respectivamente, o valor 
médio e o desvio padrão da variável.
A curva normal padrão
A curva normal em que μ = 0 e σ = 1, denomina-se de curva normal padrão ou curva 
normal reduzida ou curva normal 0-1.
Escore z
A partir de qualquer variável numérica é sempre possível construir outra variável Z, 
através da seguinte fórmula:
σ
μ−= XZ
Os valores de Z são chamados de escores z da variável X. O escore z de um dado 
valor de x, diz quantos desvios padrão, acima ou abaixo da média, o valor x se 
encontra.
A variável Z tem sempre média igual a 0 e desvio padrão igual a 1. Mas quando X
tem uma distribuição normal de média μ e desvio padrão igual a σ, então a 
variável segue uma distribuição normal padrão
σ
μ−= XZ
Intervalos de Confiança
Estimação é o procedimento de obtenção de um valor amostral para ser 
usado como estimativa de um parâmetro populacional. 
A inferência estatística usa dados amostrais para formar dois tipos de estimativas de 
parâmetros: a estimativa pontual e a estimativa intervalar. 
Uma estimativa pontual de um parâmetro é o valor de um estimador escolhido para 
estimar o parâmetro. A estimativa pontual é constituída por um único valor numérico e representa 
uma avaliação do valor do parâmetro obtida com os dados amostrais disponíveis.
Exemplo
Numa pesquisa eleitoral foram entrevistados 1560 eleitores, dos quais 312 
declararam intenção de voto para um determinado candidato. Nessa amostra, 
20% (312/1560) dos eleitores disseram que votariam no candidato. Essa proporção, 
20% , obtida na amostra é a estimativa pontual para a proporção populacional do 
eleitorado que tem a intenção de votar no candidato. Ou seja, com base nos dados 
amostrais, estima-se que 20% do eleitorado têm a intenção de votar no candidato
Uma estimativa intervalar consiste de um intervalo de números reais no qual deposita-se 
um certo grau de confiança de que contenha o parâmetro.
O grau de confiança é expresso por um número entre 0 e 100%. Esse número é
chamado de nível de confiança do intervalo.
No caso da pesquisa eleitoral mencionada acima, mostra-se que uma 
estimativa intervalar para a proporção do eleitorado que está disposto a votar no 
candidato é o intervalo que vai de 18% a 22%. O nível de confiança desse intervalo é
95%. Ou seja, afirma-se, com uma confiança de 95%, que a proporção do eleitorado, 
disposta a votar no candidato, está entre 18% e 22%. 
Estimador pontual
Uma estimativa pontual é um valor de uma estatística. No exemplo citado 
no item anterior, 20% é o valor da proporção amostral, definida em todas as 
possíveis amostras de tamanho 1570, que poderiam ser escolhidas da população de 
eleitores. Quando o valor de uma estatística é utilizado para prever ou estimar o 
valor de um parâmetro, a estatística recebe o nome de estimador desse parâmetro.
O desvio padrão de um estimador chama-se de erro padrão (do 
estimador).
A diferença entre um valor de um estimador e o valor do parâmetro que 
pretende estimar é denominado de erro de estimativa ou erro amostral. 
O erro amostral é um ingrediente básico no planejamento de uma 
pesquisa. É responsabilidade do pesquisador decidir sobre a magnitude do erro de 
estimativa que deseja tolerar.
Estimadores da média e do desvio padrão de uma população
Considere uma população com média μ e desvio padrão σ, ambos desconhecidos.
Para qualquer amostra extraída dessa população, os estimadores naturais para μ e σ
são, respectivamente, a média e o desvio padrão amostrais. Mais 
especificamente:
é o estimador natural de μ e
DP é o estimador natural de σ.
Observação: O desvio padrão amostral é representado, quase universalmente, 
em textos de Estatística, pela letra S ou s.
X
Intervalo de confiança para uma média populacional
⎟⎟⎠
⎞⎜⎜⎝
⎛ +−=
n
xX
n
xXIC σσ 96,1,96,1%95
⎟⎟⎠
⎞⎜⎜⎝
⎛ ×+×−=−
n
zX
n
zXIC σσα ,)1(
Variância populacional conhecida
Observação 1: O número representa o erro máximo que se deseja 
tolerar na estimativa de μ. A magnitude de ε depende do nível de confiança do 
intervalo, do tamanho da amostra e do desvio padrão de X.
Observação 2: É responsabilidade do pesquisador estabelecer a magnitude do erro 
de estimação que deseja tolerar bem como o nível de confiança (1-α).
n
z σε ×=
Exemplo: O nível de uma certa enzima numa população humana segue uma 
distribuição normal de média desconhecida e variância igual a 45. Numa amostra 
aleatória de 10 pessoas dessa população encontrou-se uma média amostral de 22. 
Determine um intervalo de 95% de confiança para a média populacional μ. 
26,2) (17,8;
10
71,696,122,
10
71,696,122%95 =⎟⎟⎠
⎞⎜⎜⎝
⎛ +−= xxIC
Interpretação: pode-se afirmar, com uma confiança de 95%, que a média populacional 
da enzima é um valor compreendido entre 17,8 e 26,2. 
Adotando-se 22 como o valor médio populacional da enzima, verifica-se, 
com base no intervalo de confiança obtido, que o erro de estimação não é superior a 
4,2, para mais ou para menos. Ou seja, a média populacional da enzima, que continua 
sendo um valor desconhecido, não deve estar afastado de 22 por uma distância 
superiora 4,2, para mais ou para menos. O grau de confiança dessa conclusão é 95%.
Intervalo de confiança para uma média populacional
⎟⎠
⎞⎜⎝
⎛ +−=
n
SxX
n
SxXIC 96,1,96,1%95
⎟⎠
⎞⎜⎝
⎛ ×+×−=−
n
SzX
n
SzXIC ,)1( α
Variância populacional desconhecida
a) O tamanho da amostra é igual ou maior que 30
Nessa fórmula, z é o percentil (1 − α/2) da distribuição normal padrão
Exemplo: Numa amostra de 298 crianças, com idade variando de 6 meses a 6 
anos, a média de IgM sérico foi de 0,80 g/l e o desvio padrão, 0,47 g/l. Determinar 
um intervalo de 95% de confiança para a média do IgM sérico na população da 
qual a amostra foi selecionada.
0,85) (0,75;
298
47,096,180,0,
298
47,096,180,0%95 =⎟⎟⎠
⎞⎜⎜⎝
⎛ +−= xxIC
Com base nesse intervalo prevê-se, com uma confiança de 95%, que o 
valor médio da variável IgM, na população pertinente, está compreendido entre 
0,75 e 0,85. 
A média do IgM sérico na população continua sendo um valor 
desconhecido. Substituindo-o por 0,80 (valor obtido na amostra), conclui-se que 
o erro de estimação não deve ser superior a 0,05 g/l, para mais ou para menos. O 
grau de confiança dessa conclusão é 95%. 
Variância populacional desconhecida
b) o tamanho da amostra é menor que 30
⎟⎠
⎞⎜⎝
⎛ ×+×−=−
n
StX
n
StXIC ,)1( α
onde t é o percentil () da distribuição T de “Student” com n−1 graus de liberdade
Exemplo: Um conjunto de 12 animais de experiência foi alimentado com uma certa dieta 
durante 3 semanas e produziu os seguintes aumentos de peso:
30, 22, 32, 26, 24, 40, 34, 36, 32, 33, 28, 30.
Admitindo que o aumento de peso segue uma distribuição normal, determine um intervalo de 
90% de confiança para μ.
33,2) (27,9;
12
1,580,16,30,
12
1,580,16,30%95 =⎟⎠
⎞⎜⎝
⎛ +−= xxIC
Interpretação: Em uma população de animais do tipo usado na experiência, estima-se 
que, após 3 semanas de alimentação, utilizando a referida dieta, o ganho médio de 
peso populacional ficará entre 27,9 e 33,2. O grau de confiança dessa conclusão é
90%.
Intervalo de confiança para uma proporção populacional
⎟⎟⎠
⎞
⎜⎜⎝
⎛ −+−−=− −− n
ppzp
n
ppzpIC )1(,)1()1(
2121
ααα
Exemplo: Numa amostra aleatória de 150 famílias de uma certa comunidade urbana, verificou-
se que em 131 delas ao menos um de seus membros tinha algum tipo de seguro saúde. 
Determine um intervalo de 95% de confiança para a proporção populacional de famílias, em 
que pelo menos um de seus membros tem algum tipo de seguro saúde.
)92,0;82,0(
150
)87,01(87,096,187,0,
150
)87,01(87,096,187,0%95 =⎟⎟⎠
⎞
⎜⎜⎝
⎛ −+−−=IC
Conclusão: Com base na amostra, estima-se que a proporção populacional de famílias, onde 
pelos menos um de seus membros tem algum plano de saúde, é um valor compreendido entre 
82% e 92%. A confiança dessa conclusão é de 95%.
TESTE DE HIPÓTES
Trata-se de uma técnica para se fazer a inferência estatística sobre uma população a 
partir de uma amostra
Hipóteses Estatísticas
Um objetivo freqüente em muitas pesquisas científicas é verificar se os dados obtidos 
estão de acordo com certas suposições sobre um ou mais parâmetros populacionais. 
Essas suposições sobre parâmetros populacionais são denominadas de hipóteses 
estatísticas. Daqui por diante, por simplicidade, as hipóteses estatísticas serão 
simplesmente chamadas de hipóteses.
TEORIA POPPERIANA
• NÃO SE PODE PROVAR NADA, APENAS “DESPROVAR”.
• SÓ APRENDEMOS QUANDO ERRAMOS.
• É MAIS FACIL REFUTAR DO QUE PROVAR ALGUMA ASSERTIVA.
• OS ESTATÍSTICOS NÃO PERGUNTAM QUAL É A PROBABILIDADE DE 
ESTAREM CERTOS, MAS A PROBABILIDADE DE ESTAREM ERRADOS. 
Para fazerem isso estabelecem um hipótese nula.
PRINCIPAIS CONCEITOS
HIPÓTESE ESTATÍSTICA
Trata-se de uma suposição quanto ao valor de um parâmetro 
populacional, ou quanto à natureza da distribuição de probabilidade de 
uma variável populacional.
TESTE DE HIPÓTESE
É uma regra de decisão para aceitar ou rejeitar uma hipótese estatística 
com base nos elementos amostrais
TIPOS DE HIPÓTESES
Designa-se por Ho, chamada hipótese nula, a hipótese estatística a ser testada, e por 
H1, a hipótese alternativa. 
A HIPÓTESE NULA É UMA ASSERTIVA DE COMO O MUNDO DEVERIA 
SER, SE NOSSA SUPOSIÇÃO ESTIVESSE ERRADA.
A hipótese nula expressa uma igualdade, enquanto a hipótese alternativa é dada por 
uma desigualdade.
Ex: Ho - μ = 1,65 m
H1 - μ 1,65 m
EXISTEM DOIS TIPOS DE ERRO DE HIPÓTESE
Erro tipo 1 - rejeição de uma hipótese verdadeira;
Erro tipo 2 – aceitação de uma hipótese falsa.
As probabilidades desses dois tipos de erros são designadas α e β.
A probabilidade α do erro tipo I é denominada “nível de significância” do teste.
LÓGICA DO TESTE DE SIGNIFICÂNCIA
• ATRIBUEM-SE BAIXOS VALORES PARA α, GERALMENTE 5%;
• FORMULA-SE Ho COM A PRETENSÃO DE REJEITÁ-LA, DAÍ O NOME 
DE HIPÓTESE NULA;
• SE O TESTE INDICAR A REJEIÇÃO DE Ho TEM-SE UM INDICADOR 
MAIS SEGURO DA DECISÃO;
• CASO O TESTE INDIQUE A ACEITAÇÃO DE Ho, DIZ-SE QUE, COM O 
NÍVEL DE SIGNIFICÂNCIA α, NÃO SE PODE REJEITAR Ho.
Tabela de contingência (2x2)
Objetivo: Mostra se existe dependência entre duas variáveis
Se pertencem à mesma população.
a = Indivíduos com fator de risco e doença.
b = Indivíduos com fator de risco, sem doença.
c = Indivíduos sem o fator de risco mas com doença.
d = Indivíduos sem fator de risco e sem doença.
a + b = Todos os Indivíduos com fator de risco.
c + d = Todos os Indivíduos sem fator de risco.
a + c = Todos os Indivíduos com doença.
b + d = Todos os Indivíduos sem doença.
Distribuição na Tabela de Contingência
Exemplo 1: Dois grupos de 100 pacientes foram acompanhados quanto a incidência 
de câncer do pulmão associado ao tabagismo. No grupo de fumantes a incidência de 
câncer foi igual a 28 pacientes, no grupo controle (não-fumantes) foi igual a 8 
pacientes. Qual a distribuição na tabela de contingência?
Exemplo 2: Em um estudo experimental, com 300 pacientes, para testar uma nova
droga contra AIDS, 240 receberam o medicamento A, ao passo que, 60 receberam
um placebo. A taxa de mortalidade em 2 anos foi de 88 e 12 pacientes, 
respectivamente. Qual a distribuição na tabela de contingência?
QUI-QUADRADO (χ2)
Teste mais popular
Denominado teste de adequação ou ajustamento.
Usos
1. Adequação ou Aderência dos dados: freqüência observada adequada a uma 
freqüência esperada);
2. Independência ou Associação entre duas variáveis Comportamento de uma 
variável depende de outra
∑
=
−k
i Fei
FeiFoi
1
2)(χ2 =
INDEPENDÊNCIA OU ASSOCIAINDEPENDÊNCIA OU ASSOCIAÇÇÃO ENTRE DUAS ÃO ENTRE DUAS 
VARIVARIÁÁVEISVEIS
A representaA representaçção das freqão das freqüüências observadas ências observadas éé dada por uma tabela de dupla dada por uma tabela de dupla 
entrada ou tabela de contingência.entrada ou tabela de contingência.
PROCEDIMENTOPROCEDIMENTO
1.1. HoHo: as vari: as variááveis são independentes/ Não Associaveis são independentes/ Não Associaçção /= ;ão /= ;
H1: as variH1: as variááveis são dependentes/ Associaveis são dependentes/ Associaçção /ão /≠≠ ;;
2.2. Fixar Fixar α α. . Escolher a variEscolher a variáável quivel qui--quadrado com quadrado com ϕϕ = (L= (L--1) x (C1) x (C--1), onde 1), onde 
L = nL = núúmero de linhas da tabela de contingência e C+ nmero de linhas da tabela de contingência e C+ núúmero de colunas.mero de colunas.
3.3. Com auxCom auxíílio da tabela calculamlio da tabela calculam--se RA e RCse RA e RC
Objetivo 
Prediz o comportamento de uma variável dependente com base no conhecimento de 
uma ou mais variáveis independentes.
Componentes 
Compara contagens observadas com contagens esperadas.
Cálculo das Contagens Esperadas
Cálculo das Porcentagens
Cálculo do Valor do Qui--Quadrado
Restrições ao uso
• Se o número de classesé k=2, a freqüência esperada mínima deve ser ≥5;
• Se k >2, o teste não deve ser usado se mais de 20% das freqüências esperadas forem 
abaixo de 5 ou se qualquer uma delas for inferior a 1.