Buscar

Apostila - Estatística Inferencial

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 63 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 63 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 63 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Pontifícia Universidade Católica do Rio de Janeiro 
Curso de Ciências Biológicas 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Estatística Inferencial 
 
 
 
 
 
 
 
 
 
 
 
Prof. Alexandre Christo 
 
 
 
 
2011 
PUC-Rio Estatística Aplicada à Biologia I 
 2 
Índice 
 
 
Elementos de Probabilidade......................................................................... 4 
Introdução à teoria das probabilidades ................................................. 4 
Conceitos fundamentais ..................................................................... 5 
Conceitos de probabilidade ................................................................. 6 
Variáveis aleatórias ........................................................................... 8 
Distribuições de probabilidade............................................................. 10 
Distribuição normal ........................................................................... 18 
Estimação de parâmetros............................................................................ 27 
Conceitos fundamentais ..................................................................... 27 
Propriedades dos estimadores............................................................. 29 
Processos de estimação ..................................................................... 30 
Intervalos de confiança............................................................................... 32 
IC para média populacional ................................................................ 32 
IC para diferença entre médias de duas populações................................ 40 
IC para a variância populacional .......................................................... 43 
IC para a proporção populacional ........................................................ 45 
Teste de hipóteses..................................................................................... 48 
Introdução....................................................................................... 48 
Hipóteses estatísticas ........................................................................ 48 
Tipos de erro.................................................................................... 52 
Níveis de significância........................................................................ 53 
Estatística paramétrica e não-paramétrica ............................................ 54 
Chave para escolha de teste estatístico ................................................ 57 
Teste t de Student ..................................................................................... 58 
Introdução....................................................................................... 58 
Conceito.......................................................................................... 58 
Teste t para média de uma amostra..................................................... 59 
Teste t para médias de duas amostras independentes............................. 61 
Teste t para médias de duas amostras relacionadas................................ 64 
Correlação linear simples ............................................................................ 67 
Introdução....................................................................................... 67 
Diagrama de dispersão ...................................................................... 67 
Coeficiente de correlação ................................................................... 67 
PUC-Rio Estatística Aplicada à Biologia I 
 3 
Avaliação qualitativa de r quanto à intensidade...................................... 70 
Teste de hipóteses sobre a correlação .................................................. 71 
Coeficiente de determinação ............................................................... 72 
Regressão linear simples............................................................................. 73 
Introdução....................................................................................... 73 
A reta de regressão linear .................................................................. 73 
Teste de hipóteses sobre a regressão ................................................... 76 
Utilidades da reta de regressão ........................................................... 77 
Requisitos ao uso da regressão linear................................................... 78 
Análise dos resíduos.......................................................................... 78 
Teste do Qui-quadrado ............................................................................... 79 
Introdução....................................................................................... 79 
Teste de aderência............................................................................ 79 
Teste de comparação......................................................................... 81 
Teste de associação .......................................................................... 84 
Condições para uso do teste ............................................................... 86 
Correção para continuidade de Yates.................................................... 86 
Teste de Mann-Whitney .............................................................................. 88 
Introdução....................................................................................... 88 
Estatística do teste............................................................................ 88 
Procedimento para amostras pequenas........................................ 88 
Procedimento para amostras grande ........................................... 91 
Teste de Wilcoxon...................................................................................... 94 
Introdução....................................................................................... 94 
Estatística do teste............................................................................ 94 
Procedimento para amostras pequenas........................................ 94 
Teste de Lilliefors ...................................................................................... 98 
Introdução....................................................................................... 98 
Estatística do teste............................................................................ 98 
Exercícios................................................................................................. 104 
Tabelas estatísticas.................................................................................... 118 
Bibliografia consultada ............................................................................... 125 
 
 
 
PUC-Rio Estatística Aplicada à Biologia I 
 4 
 
Elementos de Probabilidade 
 
 
 
Introdução à teoria das probabilidades 
 
A estatística, desde suas origens até meados do século XIX, se preocupava 
apenas com a organização e a apresentação de dados de observação coletados 
empiricamente. 
 
 Somente com o desenvolvimento da teoria das probabilidades foi possível 
que a estatística se estruturasse organicamente e ampliasse seu campo de ação, 
através da criação de técnicas de amostragem mais adequadas e de formas de 
relacionar as amostras com as populações de onde provieram. 
 
 A probabilidade tem como finalidade a modelagem de fenômenos 
aleatórios. Modelar significa conhecer matematicamente. Uma das funções da 
matemática é a criação de modelos que possibilitem o estudo de fenômenos da 
natureza. Ao estudar um fenômeno, temos sempre o interesse de tornar a 
investigação mais precisa e, para isso, tentamos formular um modelo 
matemático que melhor o explique. 
 
 Dependendo do fenômeno que está sendo estudado, os modelos 
matemáticos podemser de dois tipos: 
 
 
Modelo determinístico: é aquele que ao conhecer as variáveis de entrada, ou 
seja, as condições do experimento, é possível determinar as variáveis de saída, 
isto é, seus resultados. Para os fenômenos determinísticos existe a certeza do 
que o resultado ocorrerá. Na física clássica, a maioria dos fenômenos estudados 
são determinísticos. 
 
Exemplo: se o deslocamento de um objeto é definido pela expressão s = v.t e 
são conhecidas os valores de v (velocidade) e t (tempo), então o valor de s fica 
implicitamente determinado. 
 
 
Modelo estocástico, probabilístico ou aleatório: é aquele em que, mesmo 
conhecendo as condições do experimento, não é possível determinar o seu 
resultado final. Neste modelo, é introduzido um componente aleatório e só é 
possível determinar a chance de ocorrência do resultado. Na biologia, os 
fenômenos são probabilísticos. 
 
Exemplo: o nascimento de um bovino. Não é possível determinar o sexo do 
recém nascido, somente a sua probabilidade de ocorrência: 0,5 para macho e 
0,5 para fêmea. 
 
 
 
PUC-Rio Estatística Aplicada à Biologia I 
 5 
Conceitos fundamentais 
 
 
• Experimento probabilístico ou aleatório: é toda experiência cujos 
resultados podem não ser os mesmos, ainda que sejam repetidos sob 
condições idênticas. Características desses experimentos: 
 
1. cada experimento pode ser repetido indefinidamente sob condições 
inalteradas; 
2. embora não possamos afirmar que o resultado ocorrerá, é sempre 
possível descrever o conjunto de todos os possíveis resultados; 
3. quando o experimento for realizado repetidamente, os resultados 
individuais parecem ocorrer de forma acidental, mas se for repetido um 
grande número de vezes uma configuração definida ou regularidade 
surgirá. 
 
 
• Espaço amostral (S): é o conjunto de todos os possíveis resultados de 
um experimento aleatório. A cada experimento aleatório está associado 
um conjunto de resultados possíveis ou espaço amostral. 
 
Exemplos: 
 
S1 = {1, 2, 3, 4, 5, 6} → enumerável e finito 
S2 = {1, 2, 3, 4, ...} → enumerável e infinito 
S3 = {reis de ouro, reis de copa, ..., ás de paus} → enumerável e finito 
S4 = {t; t≥ 0} → contínuo e infinito 
 
 
• Evento ou ocorrência: é todo conjunto particular de resultados de S, ou, 
ainda, todo o subconjunto de S. Geralmente é designado por uma letra 
maiúscula (A, B, C). A todo evento será possível associar uma 
probabilidade. 
 
Exemplo: 
 
Se S = {1, 2, 3, 4, 5, 6}, então são eventos de S: 
 
A = {1, 2, 3} 
B = ocorrência de faces pares 
C = {5} 
 
 
 
• Ponto amostral: é qualquer resultado particular de um experimento 
aleatório. Todo espaço amostral e todo evento são constituídos por pontos 
amostrais. 
 
 
 
 
 
PUC-Rio Estatística Aplicada à Biologia I 
 6 
 
Conceitos de probabilidade 
 
A probabilidade pode ser conceituada, usando o bom senso, como o grau 
de crença que podemos ter na ocorrência de qualquer acontecimento eventual. 
 
 
 
Conceito clássico ou probabilidade “a priori” 
 
 Como a teoria das probabilidade está historicamente ligada aos jogos de 
azar, esta associação gerou, inicialmente, um conceito chamado clássico ou 
probabilidade “a priori”, devido a Pierre-Simon Laplace (1749-1827). 
 
Definição: seja E um experimento aleatório e S o espaço amostral a ele 
associado, com n pontos amostrais, todos equiprováveis. Se existe, em S, m 
pontos favoráveis à realização de um evento A, então a probabilidade de A, 
indicada por P(A), será: 
 
S
A
n
m
AP
#
#
)( == 
 
 
Exemplo: 
Consideramos duas urnas, A e B, cada qual contendo 200 bolas de igual tamanho 
e mesmo material, distribuídas sem qualquer regularidade em seu interior. A 
respeito dessas urnas temos a informação que a urna A, possui 100 bolas pretas 
e 100 bolas brancas, já a urna B possui 199 bolas pretas e 1 bola branca. 
Podemos dizer que existem n = 200 casos igualmente possíveis para cada urna. 
No caso da urna A, desses 200 casos, 100 são favoráveis à extração de uma bola 
preta e outros 100 são favoráveis à extração de uma bola branca. Deste modo 
temos: 
 
5,0
2
1
200
100
)( ====
n
m
AP , ou 50% 
 
Já no caso da urna B, teremos a probabilidade de extrair uma bola preta: 
 
995,0
200
199
)( ===
n
m
AP , ou 99,5% 
 
E de se extrair uma bola branca será: 
 
005,0
200
1
)( ===
n
m
AP , ou 0,05% 
 
 
 
 
 
PUC-Rio Estatística Aplicada à Biologia I 
 7 
Frequência relativa ou probabilidade “a posteriori” 
 
 O conceito de frequência relativa como estimativa de probabilidade ou 
probabilidade “a posteriori” surgiu através de Richard Von Mises (1883-1953). 
 
Definição: seja E um experimento aleatório e A um evento. Se após n 
realizações do experimento E (sendo n suficientemente grande), forem 
observados m resultados favoráveis ao evento A, então uma estimativa da 
probabilidade P(A) é dada pela frequência relativa: 
 
n
m
f = 
 
Este conceito é baseado no princípio estatístico da estabilidade, ou seja, a 
medida que o número de repetições do experimento (n) aumenta, a freqüência 
relativa (f) se aproxima de P(A). O n deve ser suficientemente grande para que 
possa obter um resultado com margem de erro razoável. Define-se o erro desta 
estimativa como: 
erroAPf =− )( 
 
 
A figura abaixo ilustra o princípio da estabilidade, tomando-se por base o 
número crescente de lançamentos de uma moeda e a probabilidade de se obter 
cara. 
 
 
 
Exemplo: 
Em Sobral (CE), observaram-se seis anos de seca no período de 1901-66 
(66 anos). Qual é a probabilidade de ser seco no próximo ano? 
 
A freqüência relativa f será uma estimativa da probabilidade de ocorrer 
seca no próximo ano: 
 
09,0
11
1
66
6
====
n
m
f , ou 9% 
 
PUC-Rio Estatística Aplicada à Biologia I 
 8 
Variáveis aleatórias 
 
 
Introdução e conceito 
 
 Para facilitar a compreensão do conceito de variável aleatória, vamos 
tomar como exemplo o seguinte experimento aleatório. 
 
Exemplo: Lançamento de uma moeda honesta três vezes e observação das faces 
que ocorrem. 
O espaço amostral do experimento é: 
 
S = {ccc, cck, ckc, kcc, kkc, kck, ckk, kkk} 
 
Como a moeda é honesta, a probabilidade de ocorrer cara é igual à 
probabilidade de ocorrer coroa: 
 
5,0
2
1
)()( === kPcP 
 
Para que ocorra o resultado três caras (ccc), é necessário que ocorram, 
sucessivamente, os três eventos: cara no primeiro lançamento, cara no segundo 
lançamento e cara no terceiro lançamento, ou seja, deve ocorrer a interseção 
destes três eventos. Como os lançamentos são independentes entre si, a 
probabilidade de ocorrer cara é a mesma em todos eles: 
 
2
1
)( =cP 
 
 Logo, a probabilidade de ocorrer três caras P(ccc), é dado pelo produto 
das probabilidades de ocorrer cara em cada lançamento: 
 
8
1
2
1
2
1
2
1
)()()()( =××=++= cPcPcPcccP 
 
 De forma análoga, obtemos as probabilidades de todos os demais 
resultados possíveis: 
8
1
2
1
2
1
2
1
)()()()( =××=++= kPcPcPcckP 
... 
 
8
1
2
1
2
1
2
1
)()()()( =××=++= kPkPkPkkkP 
 
 Podemos observar, então, que: 
 
8
1
)()()()()()()()( ======== kkkPckkPkckPkkcPkccPckcPcckPcccP , 
O que torna o espaço amostral equiprovável. 
 
PUC-Rio Estatística Aplicada à Biologia I 
 9 
Observamos, também, que o espaço amostral é formado pela união dos 
eventos (ccc), (cck), (ckc), (kcc), (kkc), (kck), (ckk) e (kkk), que são todos 
mutuamente exclusivos. Sendo assim, a probabilidade do espaço amostral, P(S), 
é dada pela soma das probabilidades de cada evento: 
 
)()()()()()()()()( kkkPckkPkckPkkcPkccPckcPcckPcccPSP +++++++= 
 
1
8
1
8
1
8
1
8
1
8
1
8
1
8
1
8
1
)( =+++++++=SP 
 
 
 
Seja X a variável que representa o número de caras ocorridonos três 
lançamentos, quais são os possíveis valores de X? 
 
X = {0, 1, 2, 3} 
 
 
X(ccc) = 3 
X(cck) = 2 
X(ckc) = 2 
X(kcc) = 2 
X(kkc) = 1 
X(kck) = 1 
X(ckk) = 1 
X(kkk) = 0 
 
 
Através de X foi possível transformar um conjunto não numérico com oito 
pontos amostrais em um conjunto numérico com quatro pontos. 
 
 A partir deste exemplo podemos definir: 
 
 
Variável aleatória → é uma função (ou regra) que transforma um espaço amostral 
qualquer em um espaço amostral numérico que será sempre subconjunto do conjunto dos 
números reais. 
 
 No exemplo anterior, se X fosse a variável que representa o número de coroas, os 
conjuntos seriam os mesmos, mas a função seria outra, pois a correspondência é outra. 
 
 
 
 
PUC-Rio Estatística Aplicada à Biologia I 
 10 
 De modo geral, uma variável aleatória pode ser representada pelo esquema abaixo: 
 
 
 
 
 
Distribuições de probabilidade 
 
Uma distribuição de probabilidade é essencialmente um modelo de 
descrição probabilística de uma população, entendendo por população o conjunto 
de todos os valores de uma variável aleatória. As idéias de população e 
distribuição de probabilidade são, deste modo, indissociáveis e serão, a partir de 
agora, tratadas como sinônimos. As distribuições de probabilidade formam a 
espinha dorsal da metodologia estatística, uma vez, que pela sua natureza, a 
estatística somente trabalha com variáveis cujos valores não ocorrem de modo 
determinístico. 
 
No estudo de uma variável aleatória é importante saber: 
- o tipo de distribuição de probabilidade da variável; 
- a função de probabilidade da variável; 
- os parâmetros da distribuição; 
- as medidas descritivas da distribuição (média, variância, assimetria). 
 
Existem inúmeros modelos descrevendo o comportamento probabilístico 
de variáveis discretas e contínuas. Nas seções a seguir serão discutidos os 
principais tipos de distribuições discretas e contínuas. 
 
 
 
Distribuições de probabilidade de variáveis discretas 
 
 
Distribuição de Bernoulli 
 
Definição → modelo de descrição probabilística dos resultados de um experimento de 
Bernoulli. O experimento (ou ensaio) é definido como o experimento aleatório que possui 
apenas dois resultados possíveis. 
 
 
PUC-Rio Estatística Aplicada à Biologia I 
 11 
Exemplos: 
 
Experimento 1. Uma lâmpada é colocada na luminária. 
 
S = {acende, não acende} 
 
Vamos considerar um dos resultados como sucesso, por exemplo, sucesso = 
acender. Definimos, então, a variável X como o número de sucessos em uma 
repetição do experimento. 
 
X = número de sucessos 
 
A variável X só poderá assumir dois valores, sendo SX = {0, 1} 
 





=
,1
,0
X 
se a lâmpada não acender 
 
 
se a lâmpada acender 
 
 
Experimento 2. Uma semente é colocada para germinar. 
 
S = {germina, não germina} 
 
Se sucesso = germinar, então, a variável X = número de sucessos, será: 
 
 
Sendo SX = {0, 1} 
 





=
,1
,0
X 
se a semente não germinar 
 
 
se a semente germinar 
 
 
Se for conhecido o poder germinativo do lote de sementes, por exemplo, 87%, 
então, podemos concluir que a probabilidade da semente germinar é 0,87. como 
o evento “não germinar” é complemento do evento “germinar”, a probabilidade 
de não germinar será: 1 – 0,87. 
 
Temos, então: 
 
X = x 0 1 Σ 
P(X=x) 0,13 0,87 1 
 
 
Experimento 3. o nascimento de um bovino. 
 
S = {macho, fêmea} 
 
Se sucesso = fêmea, então, a variável X = número de sucessos, será: 
Sendo SX = {0, 1} 
PUC-Rio Estatística Aplicada à Biologia I 
 12 
 





=
,1
,0
X 
se nascer macho 
 
 
se nascer fêmea 
 
 
Sabe-se que a probabilidade de nascer fêmea é a mesma de nascer macho, logo 
temos: 
 
X = x 0 1 Σ 
P(X=x) 0,5 0,5 1 
 
 
Função de probabilidade 
 
- Representação tabular 
 
X = x 0 1 Σ 
P(X=x) (1 - π) π 1 
 
- Representação analítica 
 
xx
xXP
−−== 1)1()( ππ , para { }1,0=XS 
 
onde: 
π = probabilidade de sucesso 
(1 - π) = probabilidade de fracasso 
 
 
 
Distribuição binomial 
 
Definição → modelo que descreve probabilisticamente os resultados de uma 
sequência de experimentos de Bernoulli independentes, ou seja, onde a 
probabilidade de sucesso é sempre a mesma. 
 
Podemos dizer que, se 
 
X = Y1 + Y2 + ... + Yn, 
 
onde: 
 
Yi ~ Ber(π) e Yi’s são independentes, então X tem distribuição binomial. 
 
Exemplo: 
 
Em uma estância 60% dos bovinos foram vacinados contra uma determinada 
doença. Se um bovino dessa estância for escolhido ao acaso, então, teremos um 
experimento de Bernoulli com: 
S = {vacinado, não vacinado} 
PUC-Rio Estatística Aplicada à Biologia I 
 13 
 
onde: 
 
P(vacinado) = 0,6 e P(não vacinado) = 0,4 
 
Se três bovinos forem escolhidos ao acaso, então teremos uma sequência de três 
experimentos de Bernoulli independentes, uma vez que, a cada escolha, a 
probabilidade de sucesso permanecerá inalterada. O espaço amostral deste 
experimento será: 
 
S = {VVV, VVN, VNV, NVV, NNV, NVN, VNN, NNN} 
 
onde: 
 
V = vacinado e N = não vacinado 
 
Se a variável X é definida como número de sucessos em n experimentos de 
Bernoulli independentes, com probabilidade de sucesso igual a π, então, no 
exemplo, onde n = 3 e π = 0,6 (se considerarmos sucesso = vacinado), o espaço 
amostral da variável X será SX = {0, 1, 2, 3} e as probabilidades P(X=x) será: 
 
064,04,06,01)1(1)0(
3030 =××=−××== ππXP 
 
288,04,06,03)1(3)1(
2121 =××=−××== ππXP 
 
432,04,06,03)1(3)2(
1212 =××=−××== ππXP 
 
216,04,06,01)1(1)3(
0303 =××=−××== ππXP 
 
 
Sendo assim, a distribuição de probabilidade da variável X será: 
 
X = x 0 1 2 3 Σ 
P(X=x) 0,064 0,288 0,432 0,216 1 
 
 
Função de probabilidade 
 
- Representação analítica 
 
xnxxnx
nPxXP
−− −== )1()( , ππ , para { }nS X ,...,2,1,0= 
onde: 
π = probabilidade de sucesso 
(1 - π) = probabilidade de fracasso 
n = número de repetições do experimento de Bernoulli 
 
 
 
 
 
PUC-Rio Estatística Aplicada à Biologia I 
 14 
Distribuição hipergeométrica 
 
Definição → modelo que descreve probabilisticamente os resultados de uma 
sequência de experimentos de Bernoulli dependentes. Refere-se a experimentos 
que se caracterizam por retiradas sem reposição, ou seja, onde a probabilidade 
de sucesso se altera a cada retirada. 
 
 Tais experimentos podem ser descritos genericamente da seguinte forma: 
 
Consideremos uma população de tamanho N, dividida em duas sub-
populações de tamanho N1 e N2. Suponha que desejamos retirar dessa população 
um grupo de n elementos, um a um, sem reposição. Se a variável aleatória X é 
definida como número de elementos da sub-população de tamanho N1, observa-
se uma relação de dependência entre os elementos retirados, pois, como não há 
reposição, a probabilidade de sucesso (retirar elemento da sub-população de 
tamanho N1) muda a cada retirada. 
 
 
 
X = número de elementos da sub-população (de interesse) de tamanho N1 
 
 
Exemplo: 
 
Dentre 10 painéis solares apresentados numa exposição, sete são do tipo placa 
plana e três são do tipo concentrador. Uma pessoa que visita a exposição 
escolhe, ao acaso, três painéis para observar. Se a variável aleatória X é definida 
como o número de painéis do tipo placa plana observados, construa a 
distribuição de probabilidade de X. 
 
 
 
S = {C1C2C3, C1C2P1, C1C2P2, ..., P5P6P7} 
 
PUC-Rio Estatística Aplicada à Biologia I 
 15 
3
10# CS = 
 
X = número de painéis do tipo placa plana observados 
 
SX = {0, 1, 2, 3} 
 
 
008333,0
120
1
120
11
)0(
3
10
3
3
0
7 ==
×
===
C
CC
XP 
 
175,0021
120
37
)1(
3
10
2
3
1
7 ==
×
===
C
CC
XP 
 
525,0
120
63
120
321
)2(
3
10
1
3
2
7 ==×
===
C
CC
XP 
 
2917,0
120
35
120
135
)3(
3
10
0
3
3
7 ==
×
===
C
CC
XP 
 
 
Sendo assim, a distribuição de probabilidade da variável X será: 
 
X = x 0 1 2 3 Σ 
P(X=x) 1/120 21/120 63/120 35/120 1 
 
 
Função de probabilidade 
 
- Representação analítica 
 
n
N
xn
N
x
N
C
CC
xXP
−
== 21)( , para { }),min(),...,,0max( 12 NnNnS X −= 
onde: 
N = tamanho da população 
N1 = número de elementos da sub-população de interesse 
n = número de elementos retirados (repetições do experimento de Bernoulli) 
 
 
 
Distribuição de Poisson 
 
Definição → modelo que descreve probabilisticamente a sequência de um 
grande número de fenômenos independentes entre si, cada um com 
probabilidade de sucesso muito pequena. 
 
Esta distribuição é importante no estudo de variáveis aleatórias de 
ocorrência rara em relação ao número total de ocorrências, como por exemplo: 
 
PUC-Rio Estatística Aplicada à Biologia I 
 16 
- número de peças defeituosas observadas em uma linha de produção num 
determinado período de tempo; 
- número de partículas radioativas emitidas numa unidade de tempo; 
- número de cultivares selecionadas num processo de melhoramento; 
- número de acidentes de trabalho ocorrido numa grande empresa num 
determinado período de tempo; 
- número de ciclones ocorridos em certa região num determinado período de 
tempo. 
 
 A distribuição de Poisson tem inúmeras aplicações na simulação de 
sistemas modelando o número de eventos ocorridos num intervalo de tempo, 
quando os eventos ocorrem a uma taxa constante. 
 
 
Função de probabilidade 
 
- Representação analítica 
 
!
)(
x
exXP
xλλ−== , para { },...2,1,0=XS 
onde: 
x = número de sucessos 
e = número base dos logaritmos neperiados = 2,718 (constante) 
λ = número médio de sucessos (> 0) 
 
 
 
Distribuições de probabilidade de variáveis contínuas 
 
 
Distribuição uniforme 
 
Definição → seja X uma variável aleatória contínua que assume valores no intervalo 
[ ]βα , . Se a probabilidade de X assumir valores num subintervalo é a mesma que 
para qualquer outro subintervalo de mesmo comprimento, então, esta variável 
tem distribuição uniforme. 
 
 
 
 
 
 
PUC-Rio Estatística Aplicada à Biologia I 
 17 
Função de probabilidade 
 
- Representação analítica 
 







−
=
,0
,
1
)(
αβ
xf 
 
para βα ≤≤ x 
 
 
em caso contrário 
 
onde: 
α = menor valor para o qual a variável X está definida 
β = maior valor para o qual a variável X está definida 
 
 
 
Distribuição exponencial 
 
Definição → seja X uma variável contínua que só assume valores não negativos. Se esta 
variável é o tempo decorrido entre ocorrências sucessivas de um processo de Poisson, 
então ela tem distribuição exponencial. 
 
 
 
Na distribuição de Poisson, a variável aleatória é definida como o número 
de ocorrências (sucessos) em determinado período de tempo, sendo a média das 
ocorrências no período definida como λ. Na distribuição exponencial, a variável 
aleatória é definida como tempo entre duas ocorrências, sendo a média de 
tempo entre ocorrências igual a 1/λ. 
 
Por exemplo, se a média de atendimentos no caixa de uma loja é de λ = 6 
clientes/min., então o tempo médio entre atendimentos é 1/λ = 1/6 de minuto 
ou 10 segundos. 
 
A distribuição exponencial é muito utilizada no campo da confiabilidade 
para a modelagem do tempo até a ocorrência de falha em componentes 
eletrônicos, bem como do tempo de espera em sistemas de filas. 
PUC-Rio Estatística Aplicada à Biologia I 
 18 
Função de probabilidade 
 
- Representação analítica 
 





=
−
,0
,
)(
xe
xf
λλ
 
para 0>x 
 
 
em caso contrário 
 
onde: 
λ = número médio de ocorrências em determinado período de tempo (λ>0) 
 
 
 
Distribuição normal 
 
 A distribuição normal (ou distribuição de Gauss) é uma distribuição 
especialmente importante na metodologia estatística. Sua importância advém 
das suas propriedades, do número de fenômenos (variáveis) que podem, pelo 
menos aproximadamente, ser modelados através dela e da quantidade de 
métodos e técnicas que são derivados tendo-a como pressuposição básica. Esse 
conjunto de métodos e técnicas forma a chamada Estatística Clássica ou 
Estatística Paramétrica. 
 
 
Definição → é uma distribuição teórica de frequências, onde a maioria das observações 
se situa em torno da média (centro da distribuição) e diminui gradual e simetricamente no 
sentido dos extremos. A distribuição normal é representada graficamente pela curva normal 
(também chamada curva de Gauss) que tem a forma de sino e é simétrica em relação ao 
centro, onde se localiza a média (µ). 
 
 
 
 
 
 
PUC-Rio Estatística Aplicada à Biologia I 
 19 
Função de probabilidade 
 
- Representação analítica 
 
2
2
2
)(
2
1
)( σ
µ
πσ
−
=
x
exf , +∞<<∞− X 
 
Parâmetros 
 
A distribuição normal tem dois parâmetros: 
 
µ = média (determina o centro da distribuição) 
2σ = variância (determina a dispersão da distribuição) 
 
Dizemos, então, que: 
),(~
2σµNX 
 
Cada vez que um dos parâmetros muda de valor, temos uma curva normal 
diferente. 
 
 
Populações normais com médias 
diferentes e mesma variância 
Populações normais com mesma 
média e variância diferentes 
 
 Como conseqüência, existe um número infinito de curvas normais. Na 
figura abaixo, podemos observar alguns exemplos de curvas. 
 
 
 
PUC-Rio Estatística Aplicada à Biologia I 
 20 
Medidas descritivas 
 
- Média ou valor esperado: ∫==
XS
dxxxfXE )()( µ 
 
∫ 







==
−
XS
x
dxexXE
2
2
2
)(
2
1
)( σ
µ
πσ
µ 
 
 
- Variância: ∫ −==
XS
dxxfxXV )()()( 22 µσ 
 
∫ 







−==
−
XS
x
dxexXV
2
2
2
)(
22
2
1
)()( σ
µ
πσ
µσ 
 
 
 
 
Propriedades da distribuição normal 
 
 
1. O máximo da função densidade de probabilidade se dá no ponto x = µ. 
 
 
2. A distribuição é simétrica em relação ao centro onde coincidem a média, a 
moda e a mediana. 
 
MdMo ==µ 
 
 
3. Os pontos de inflexão (onde a curva passa de convexa para côncova) são 
exatamente µ - σ e µ + σ 
 
 
4. Verifica-se na distribuição normal que: 
 
6825,0)( =+<<− σµσµ XP 
 
9544,0)22( =+<<− σµσµ XP 
 
9974,0)33( =+<<− σµσµ XP 
 
 
Considerando que a área sob a curva no intervalo de interesse é que 
corresponde a probabilidade, utilizamos as curvas abaixo para ilustrar esta 
propriedade. 
 
 
PUC-Rio Estatística Aplicada à Biologia I 
 21 
 
 
 
 Vimos que, para cada valor de µ e de σ, existe uma distribuição normal 
diferente. Daí existirem infinitas distribuições (e curvas) normais, pois basta que 
mude um dos parâmetros para termos outra distribuição. Deste modo, o cálculo 
de áreas sob a curva normal, frequentemente necessário, deverá ser feito 
sempre em função dos particulares valores de µ e σ. Para evitar a trabalhosa 
tarefa de calcular essas áreas todas as vezes que desejássemos obter as 
probabilidades associadas a uma variável X, foi determinada uma distribuição 
padrão ou reduzida. Através da distribuição normal padrão é possível estudar 
qualquer variável que tenha distribuição normal, com quaisquer valores para µ e 
σ. 
 
 
Distribuição normal padrão 
 
É definida como a distribuição normal de uma variável Z que tem média 
igual a zero (µ = 0) e desvio padrão igual a um (σ = 1). Para a variável Z, a 
função densidade de probabilidade resulta: 
 
2
2
2
1
)(
z
ezf
π
= , +∞<<∞− Z 
 
 A função densidade de probabilidade mais simplificada da distribuição 
normal padrão, facilitou o cálculo das áreas sob a curva. Assim, a curva normal 
padrão foi dividida em pequenas tiras, cujas áreas foram calculadas a 
apresentadas numa tabela.Na tabela da distribuição normal padrão, podemos 
encontrar as áreas correspondentes aos intervalos de 0 a Z. 
PUC-Rio Estatística Aplicada à Biologia I 
 22 
 
 
 Os valores negativos não são apresentados na tabela porque a curva é 
simétrica, portanto, as áreas correspondentes a estes valores são exatamente 
iguais às dos seus simétricos positivos, por exemplo: P(-1<Z<0) = P(0<Z<1). 
Podemos observar também, na tabela de distribuição normal padrão, que os 
valores de Z vão de 0 a 3,99. Este limite é estabelecido com base na quarta 
propriedade da distribuição normal, como podemos observar na figura abaixo: 
 
 
 
 
 Sabemos que no intervalo [µ - 3σ; µ + 3σ], que na normal padrão 
corresponde ao intervalo [-3; 3], temos 99,74% dos valores de Z. Portanto, 
verificar na tabela, a área compreendida entre 0 e 3,99 já é aproximadamente 
0,5. 
 
 Veremos agora como a distribuição normal padrão e sua tabela podem ser 
utilizadas para a obtenção de probabilidades correspondentes a qualquer variável 
X que tenha distribuição normal. 
 
 A distribuição de uma variável X, com quaisquer valores para µ e σ, pode 
ser obtida pela transformação da variável X na variável Z, através da expressão: 
 
σ
µ−
=
X
Z 
 
PUC-Rio Estatística Aplicada à Biologia I 
 23 
 Assim, se x1 e x2 são valores de X com distribuição normal e z1 e z2 são 
valores de Z, tais que: 
 
σ
µ−
= 11
X
Z 
 
σ
µ−
= 22
X
Z 
 
então, )()( 2121 zZzPxXxP <<=<< 
 
 A relação é evidente, uma vez que a transformação muda as variáveis, 
mas não altera a área sob a curva, como podemos verificar na figura a seguir: 
 
 
 
 
),(~
2σµNX 
 
 
 
 
 
)()( 2121 zZzPxXxP <<=<< 
 
 
 
 
)1,0(~ NZ 
 
 
 Sendo assim, para utilizarmos os valores da tabela, devemos transformar 
X em Z: 
 
 
),(~
2σµNX 
 
 transformar 
σ
µ−
=
X
Z 
 
)1,0(~ NZ 
 
 
 Após a transformação, podemos procurar na tabela a área compreendida 
entre 0 e z, que corresponderá à área entre µ e x. 
 
PUC-Rio Estatística Aplicada à Biologia I 
 24 
Exemplo: 
 
Sabendo que as notas de 450 alunos estão normalmente distribuídas, com média 
µ = 3,9 e desvio padrão σ = 0,28, determine: 
 
a) a probabilidade de um aluno ter nota maior que 4,27; 
b) o número de alunos que têm nota superior a 4,27. 
 
Resolução: 
 
a) sabendo que a probabilidade de ocorrer um valor dentro de um 
determinado intervalo corresponde à área sob a função densidade dentro 
do intervalo. Sendo assim, para determinar a probabilidade de ocorrer 
uma nota maior do que 4,27, devemos encontrar a área localizada à 
direita de 4,27 na curva normal. 
 
 
 
Para encontrar essa área, vamos utilizar a tabela da distribuição normal padrão. 
Inicialmente fazemos a transformação da variável X para a variável Z, através da 
expressão: 
σ
µ−
=
X
Z 
 
Desta forma, determinamos o valor de Z que corresponde ao valor X = 4,27. 
 
 
 
PUC-Rio Estatística Aplicada à Biologia I 
 25 
Assim, temos: 
32,1
28,0
9,327,4
=
−
=Z 
 
 
 
 
Sabemos que a tabela fornece a área entre 0 e z, portanto, o valor 0,4066, 
encontrado na tabela para z = 1,32, expressa a área compreendida entre 0 e 
1,32. como a área que nos interessa é a área à direita de 1,32 e sabemos que a 
área corresponde à metade da curva é 0,5, podemos encontrar a área de 
interesse calculando a diferença entre essas duas áreas. 
 
 
 
 
 
Assim, fazemos: 
 
0934,04066,05,0)32,10()0()32,1( =−=<<−>=> ZPZPZP 
 
 
 
PUC-Rio Estatística Aplicada à Biologia I 
 26 
 
 
 
Sabendo que a área à direita de z = 1,32 e igual à área à direita de x = 4,27, 
concluímos que a probabilidade de Z ser maior que 1,32 é igual à probabilidade 
de X ser maior que 4,27. sendo assim, a probabilidade de um aluno tirar uma 
nota acima de 4,27 é de 0,0934 ou 9,34%, ou seja, P(X > 4,27) = 0,0934. 
 
 
 
 
 
b) Para determinar o número de indivíduos que têm nota superior a 4,27, 
devemos saber qual é o percentual da população que têm nota acima de 
4,27. no item a, vimos que este percentual é de 9,34% de uma população 
de 450 estudantes. Esse valor pode ser obtido facilmente multiplicado o 
tamanho da população pela probabilidade de ocorrer uma nota maior que 
4,27. assim, temos: 
03,420934,0450 =× 
 
Concluímos, então, que, dos 450 estudantes, 42 têm nota superior a 4,27. 
 
 
 
 
 
 
 
 
 
 
 
 
 
PUC-Rio Estatística Aplicada à Biologia I 
 27 
 
 
Estimação de parâmetros 
 
 
Conceitos fundamentais 
 
É de fundamental importância a compreensão e o domínio de alguns 
termos que serão usados com bastante freqüência na Estatística inferencial. 
Veremos, a seguir, os conceitos de parâmetro, estimador e estimativa. 
 
 
Parâmetro → são valores (medidas) calculados diretamente da população e 
servem para caracterizá-la. Os parâmetros geralmente são valores 
desconhecidos, sempre são constantes, e são representados, genericamente, 
pela letra grega teta (θ ). São exemplos de parâmetros: a média da população 
( µ ) e a variância da população ( 2σ ). 
 
 
Estimador → são valores (medidas) calculados em uma amostra com o objetivo 
de obter informação sobre os parâmetros e sobre a própria população. Todos os 
estimadores são estatísticas, uma vez que são valores amostrais. Sendo 
estatísticas, são também variáveis aleatórias, pois podem assumir diferentes 
valores dependendo da amostra. Os estimadores são representados, 
genericamente, pela letra teta com uma barra (
_
θ ). Dentre os exemplos de 
estimadores podemos citar a média da amostra (
_
X ) e a variância da amostra 
( 2S ). 
 
 
Estimativa → valor particular que o estimador assume. 
 
8 
 
 Consideremos como exemplo a seguinte população constituída por quatro 
valores (N = 4): 
 
X = x 1 2 3 4 
P(X = x) 0,2 0,3 0,3 0,2 
PUC-Rio Estatística Aplicada à Biologia I 
 28 
Onde: µ = 2,5 e σ2 = 1,05. 
 
Desta população tiramos uma amostra aleatória de tamanho dois (n = 2), 
[X1, X2]. 
 
 Assim, podemos calcular o número de diferentes amostras de tamanho 
dois que podem ser extraídas desta população de tamanho quatro: 
 
k = Nn = 42 = 16 amostras 
 
Sendo possível obter 16 mostras diferentes, para cada um dos parâmetros 
µ e σ2, será possível obter 16 estimativas. Na tabela a seguir temos todas as 
possíveis estimativas de cada um desses parâmetros. 
 
 
Parâmetro 5,2=µ 05,12 =σ 
Estimador 
n
X
X
i∑=
_
 
1
)( 2
_
2
−
−
= ∑
n
XX
S
i 
amostra 1: (1,1) 1
2
11_
1 =
+
=X 0
12
)11()11( 222
1 =−
−+−
=S 
amostra 2: (1,2) 5,1
2
21_
2 =
+
=X 5,0
12
)5,12()5,11( 222
2 =−
−+−
=S 
amostra 3: (1,3) 2
_
3 =X 2
2
3 =S 
amostra 4: (1,4) 5,2
_
4 =X 5,4
2
4 =S 
amostra 5: (2,1) 5,1
_
5 =X 5,0
2
5 =S 
amostra 6: (2,2) 2
_
6 =X 0
2
6 =S 
amostra 7: (2,3) 5,2
_
7 =X 5,0
2
7 =S 
amostra 8: (2,4) 3
_
8 =X 2
2
8 =S 
amostra 9: (3,1) 2
_
9 =X 2
2
9 =S 
amostra 10: (3,2) 5,2
_
10 =X 5,0
2
10 =S 
amostra 11: (3,3) 3
_
11 =X 0
2
11 =S 
amostra 12: (3,4) 5,3
_
12 =X 5,0
2
12 =S 
amostra 13: (4,1) 5,2
_
13 =X 5,4
2
13 =S 
amostra 14: (4,2) 3
_
14 =X 2
2
14 =S 
amostra 15: (4,3) 5,3
_
15 =X 5,0
2
15 =S 
Estimativas 
amostra 16: (4,4) 4
_
16 =X 0
2
16 =S 
 
PUC-Rio Estatística Aplicada à Biologia I 
 29 
 Devemos considerar também que podem existir vários estimadores para 
um mesmo parâmetro. Por exemplo, a média aritmética simples (
_
X ) e a média 
aritmética ponderada ( pX
_
), calculadas na amostra, bem como qualquer 
elemento em particular de uma amostra aleatória( iX ), são todos estimadores 
da média populacional ( µ ). 
 
n
X
X
i∑=
_
 
∑
∑=
i
ii
p
p
pX
X
_
 
iX 
 
 
 
 estimadores de µ 
 
 Da mesma forma, as variâncias 2S (com denominador n – 1) e 2nS (com 
denominador n), calculadas na amostra, são dois estimadores da variância 
populacional ( 2σ ). 
 
1
)( 2
_
2
−
−
= ∑
n
XX
S
i 
n
XX
S
i
n
2
_
2
)(∑ −= 
 
 
 estimadores de σ2 
 
 Para escolher o melhor dentre todos os estimadores de um mesmo 
parâmetro, devemos optar pelo que tem melhores propriedades. 
 
 
 
Propriedades dos estimadores 
 
 
Imparcialidade ou não tendenciosidade 
 
Um estimador 
_
θ é um estimador imparcial do parâmetro θ se o valor 
esperado de 
_
θ for igual a θ . 
 
Exemplos: 
 
• 
_
X é um estimador imparcial de µ , pois µ=)(
_
XE 
• pX
_
 é um estimador imparcial de µ , pois µ=)(
_
pXE 
• 2S é um estimador imparcial de 2σ , pois 22 )( σ=SE 
 
 
PUC-Rio Estatística Aplicada à Biologia I 
 30 
Eficiência ou variância mínima 
 
 Se dois ou mais estimadores de um mesmo parâmetro são imparciais, é 
mais eficiente aquele que possui a menor variância. 
 
Exemplo: 
 
Dentre todos os estimadores imparciais de µ (
_
X e pX
_
), a média simples (
_
X ) é 
o mais eficiente porque tem a menor variância. 
 
 
Consistência 
 
 Um estimador é consistente se à medida que o tamanho da amostra 
aumenta, o valor do estimador se aproxima do parâmetro. 
 
θθ  → →Nn
_
 
 
Exemplo: 
 
2
nS é um estimador consistente de 
2σ . 
 
Com base nessa propriedade, podemos concluir que: 
• Se a amostra for pequena, devemos utilizar 2S para estimar 2σ 
• Se a amostra for grande, devemos utilizar 2S ou 2nS para estimar 
2σ 
 
 
Processos de estimação 
 
 Um parâmetro pode ser estimado de duas formas: por ponto ou por 
intervalo. 
 
Estimação por ponto 
 
 É o processo através do qual obtemos um único ponto, ou seja, um único 
valor para estimar o parâmetro. 
 
Exemplo: 
 
Amostra (1, 3, 2) 
 
2
3
231_
=
++
== ∑
n
X
X
i → estimativa pontual de µ 
 
1
13
)22()23()21(
1
)( 2222
_
2 =
−
−+−+−
=
−
−
= ∑
n
XX
S
i
→ estimativa pontual de σ2 
 
 
PUC-Rio Estatística Aplicada à Biologia I 
 31 
Estimação por intervalo 
 
 É um processo que permite obter um intervalo onde, com uma 
determinada probabilidade (nível de confiança), podemos esperar encontrar o 
verdadeiro valor do parâmetro. 
LSLI << θ 
 
 As estimativas por intervalo são preferíveis às estimativas por ponto 
porque indicam a precisão, ou seja, sabemos a probabilidade do intervalo conter 
o parâmetro. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
PUC-Rio Estatística Aplicada à Biologia I 
 32 
 
 
Intervalos de confiança 
 
Um intervalo de confiança (IC) é um intervalo estimado de um parâmetro 
de interesse de uma população. Em vez de estimar o parâmetro por um único 
valor, é dado um intervalo de estimativas prováveis. O quanto estas estimativas 
são prováveis será determinado pelo coeficiente de confiança (1-α ). 
Intervalos de confiança são usados para indicar a confiabilidade de uma 
estimativa. Por exemplo, um IC pode ser usado para descrever o quanto os 
resultados de uma pesquisa são confiáveis. Sendo todas as estimativas iguais, 
uma pesquisa que resulte num IC pequeno é mais confiável do que uma que 
resulte num IC maior. 
Se U e V são estatísticas (isto é, funções da amostra) cuja distribuição de 
probabilidade dependa do parâmetro θ, e αθ −=<< 1)( VUP , então o intervalo 
aleatório (U,V) é um intervalo de confiança 100(1-α)% para θ. Portanto, 
podemos interpretar o intervalo de confiança como um intervalo que contém os 
valores "plausíveis" que o parâmetro pode assumir. Assim, a amplitude do 
intervalo está associada a incerteza que temos a respeito do parâmetro. 
 
 
Intervalo de confiança para a média populacional (µµµµ) 
 
Para a construção do intervalo de confiança devemos levar em conta se 
conhecemos a variância populacional. Sendo assim, duas situações serão 
consideradas: 
 
Situação 1: Quando a variância da população ( 2σ ) é conhecida. 
 
 Considere que desejamos estimar a média µ de uma população X. 
 
Para determinar o intervalo de confiança (IC) para µ, utilizamos o 
estimador 
_
X que, como já foi mencionado, é o melhor estimador de µ. 
 
Se X ~ N(µ, σ2), então, 





n
NX
2_
,~
σ
µ . 
Padronizando 
_
X , temos: 
n
X
n
X
XV
XX
Z
X
σ
µ
σ
µµ
σ
µ −
=
−
=
−
=
−
=
_
2
_
_
__
)(
_
, 
 
PUC-Rio Estatística Aplicada à Biologia I 
 33 
sendo que Z tem distribuição normal com média igual a zero e variância igual a 
um, ou seja, 
)1,0(~
_
N
n
X
Z
σ
µ−
= 
 
De acordo com a figura abaixo, vemos que α−1 é a probabilidade de que 
a variável Z assumo um valor entre 2/αz− e 2/αz e α é a probabilidade de Z não 
estar entre 2/αz− e 2/αz . 
 
 
 
Daí, temos: α
σ
µ
αα −=<
−
<− 1)( 2/
_
2/ z
n
X
zP 
 
Como o objetivo é construir um intervalo de confiança para a média da 
população, devemos isolar µ na expressão. Podemos alcançar este objetivo 
manipulando a expressão: 
 
α
σ
µ
αα −=<
−
<− 1)( 2/
_
2/ z
n
X
zP 
 
α
σ
µ
σ
αα −=<−<− 1)( 2/
_
2/
n
zX
n
zP 
 
α
σ
µ
σ
αα −=+−<−<−− 1)( 2/
_
2/
_
n
zX
n
zXP 
 
α
σ
µ
σ
αα −=+−<−<−− 1)][( 2/
_
2/
_
n
zX
n
zXP 
 
PUC-Rio Estatística Aplicada à Biologia I 
 34 
α
σ
µ
σ
αα −=−>>+ 1)]( 2/
_
2/
_
n
zX
n
zXP 
 
 Daí resulta a expressão do intervalo de confiança para a média de uma 
população: 
α
σ
µ
σ
αα −=+<<− 1)( 2/
_
2/
_
n
zX
n
zXP 
 
 Este intervalo de confiança também pode ser expresso da seguinte forma: 
 
n
zXIC
σ
αµ α 2/
_
:)1;( ±− 
 
onde: 
_
X → é o estimador de µ ; 
2/αz → é o valor da variável Z que delimita a área 1−α ; 
n → é o tamanho da amostra; 
σ → é o desvio padrão da população (parâmetro). 
 
 
É importante salientar que µ é um parâmetro (constante) e os limites do 
intervalo é que são aleatórios. Assim, a interpretação do intervalo ao nível de 
95% de confiança, por exemplo, deve ser da seguinte maneira: se pudéssemos 
construir uma quantidade grande de intervalos, todos baseados em amostras de 
tamanho n, 95% deles conteriam o parâmetro µ, como ilustra a figura seguinte. 
 
Observemos que, escolhida uma amostra e encontrada sua média 0
_
X , 
podemos construir o intervalo 





+−
n
zX
n
zX
σσ
αα 2/
_
02/
_
0 ; , mas este intervalo 
pode ou não conter o parâmetro µ . A probabilidade de que contenha o 
parâmetro µ é α−1 . 
 
 Podemos verificar também que todos os intervalos com o mesmo nível de 
confiança tem mesma amplitude 
n
z
σ
α 2/ . 
 
 Na maioria dos casos não conhecemos, de fato, o parâmetro σ, pois não 
estudamos a população inteira. Entretanto, com base na propriedade de 
consistência dos estimadores, quando a amostra tem tamanho grande, a 
estimativa de um parâmetro é considerada suficientemente próxima do 
parâmetro. Assim, quando trabalhamos com grandes amostras a estimativa de σ, 
que é S (desvio padrão da amostra), pode ser usada no lugar do parâmetro. 
Consideramos a amostra suficientemente grande para utilizar a variável Z 
quando n é maior que 30. 
 
PUC-Rio Estatística Aplicada à Biologia I 
 35 
 
 
 
 Duas pressuposições devem ser atendidas para utilização desta 
metodologia: 
 
1. A variável em estudo tem distribuição normal, ),(~ 2σµNX 
2. A variância populacional é conhecida ou o tamanho da amostra é 
suficientemente grande para obtenção de uma estimativa aproximada da 
variação populacional (σ). 
 
 
Exemplo:Uma amostra de 100 antas (Tapirus terrestris) de cinco meses de idade 
apresentou peso médio de 65,5 kg e desvio padrão de 4,8 kg. Obtenha o 
intervalo de confiança, ao nível de 95%, para o verdadeiro peso médio das antas 
e conclua. 
 
Variável em estudo: X = peso de antas (kg) 
 
Pressuposições: 
 - A variável em estudo tem distribuição normal; 
 - A amostra tem tamanho suficiente para estimar σ. 
 
 
 
 
PUC-Rio Estatística Aplicada à Biologia I 
 36 
Resolução: 
 
Estimativas: 
 
kgx 5,65
_
= 
σ≅= kgs 8,4 
100=n antas 
96,1025,02/ == zzα 
Intervalo de confiança: 
 
n
zXIC
σ
αµ α 2/
_
:)1;( ±− 
100
8,4
96,16,65:)95,0;( ±µIC 
941,06,65:)95,0;( ±µIC 
 
56,64941,06,65inf =+=L 
44,66941,06,65sup =−=L 
 
95,0)44,6656,64( =<< µP 
 
Concluímos que o intervalo de confiança, ao nível de 95%, para o verdadeiro 
peso das antas de cinco meses de idade é de 64,56 a 66,44 kg. 
 
 
 
Situação 2: Quando a variância da população ( 2σ ) é desconhecida. 
 
 Quando a amostra é pequena, não podemos supor que o desvio padrão da 
amostra (s) seja uma estimativa suficientemente aproximada do parâmetro σ. 
Como não conhecemos a variância populacional, não podemos utilizar a variável 
Z, que tem distribuição normal padrão, para construir o intervalo de confiança 
para µ. 
 
 Nesse caso, em vez de Z, utilizarmos a estatística T que não tem 
distribuição normal e si distribuição t de Student, com parâmetroν (g.l.): 
 
)(~
_
ν
µ
t
n
S
X
T
−
= 
onde: 
_
X → é a média da amostra (estimador de µ ); 
S → é o desvio padrão da amostra (estimador de σ ); 
n → é o tamanho da amostra; 
1−= nν → é o número de graus de liberdade associado à variância da 
amostra 2S . 
 
 
Sob o ponto de vista das aplicações, podemos definir a estatística T de 
uma forma mais genérica: 
)(~
)(
_
_
ν
θ
θθ
t
S
T
−
= 
PUC-Rio Estatística Aplicada à Biologia I 
 37 
onde: 
θ → é o parâmetro que está sendo estimado; 
_
θ → é o estimador do parâmetro; 
)(
_
θS → é o estimador do desvio (ou erro) padrão de 
_
θ . 
 
 
Nota: Grau de liberdade é o número de determinações independentes (dimensão 
da amostra) menos o número de parâmetros estatísticos a serem avaliados na 
população. É um estimador do número de categorias independentes num teste 
particular. Encontram-se mediante a fórmula n-1, onde n é o número de 
elementos na amostra. 
 
 
 
Distribuição t 
 
 
 Em 1908, o pesquisador inglês Willian Gosset, ao tentar resolver 
problemas relativos a pequenas amostras, descobriu a distribuição t. 
 
A distribuição t tem formato de campânula, é simétrica em torno da média 
(µ = 0) que está localizada no centro da distribuição e varia de ∞− a ∞+ . Sua 
curva se assemelha à da distribuição normal padrão, sendo um pouco mais 
achatada no centro. 
 
 Como o parâmetro da distribuição t é o número de graus de liberdade 
( 1−= nν ), o formato da curva se altera toda vez que muda o tamanho da 
amostra (n). 
 
 A distribuição t se aproxima da normal padrão à medida que o n cresce. 
Isto ocorre porque quando o tamanho da amostra se aproxima do tamanho da 
população ( Nn → ), o estimador S se aproxima do parâmetro σ ( σ→S ) e, 
consequentemente, a estatística T se aproxima da variável Z ( ZT → ). 
 
 Na prática, com 30 graus de liberdade a distribuição t é aproximadamente 
igual à normal padrão e com 120 graus é exatamente igual, ou seja, as curvas se 
sobrepõem. Por essa razão, o tamanho 30 é adotado como referência para 
considerarmos uma amostra grande ou pequena. Quando n é menor ou igual a 
30, a amostra é considerada pequena para utilizarmos a variável Z, devemos, 
portanto, utilizar a distribuição t para construir o intervalo. 
 
 Como já foi visto para a variável Z, na figura a seguir podemos observar 
que α−1 é a probabilidade de que a variável T assuma um valor entre 2/αt− e 
2/αt e α é a probabilidade de T não estar entre 2/αt− e 2/αt . 
 
 
 
PUC-Rio Estatística Aplicada à Biologia I 
 38 
 
 
Daí, temos: ααα −=<<− 1)( 2/2/ tTtP 
 
 Sabendo que 
n
S
X
T
µ−
=
_
 e fazendo a substituição, temos: 
α
µ
αα −=<
−
<− 1)( 2/
_
2/ t
n
S
X
tP 
Donde resulta: 
n
S
tXIC 2/
_
:)1;( ααµ ±− , 
 
sendo 2/αt o valor da estatística T que delimita a área 2/α . Este valor é 
encontrado na tabela da distribuição t de Student, a partir dos valores de ν e de 
α . 
 
 Para a utilização desta metodologia a seguinte pressuposição deve ser 
atendida: 
1. A variável em estudo tem distribuição normal: ),(~ 2σµNX . 
 
Devido à aproximação com a distribuição normal padrão a partir de 30=ν , a 
estatística T, que tem distribuição t de Student, poderá ser utilizada para 
construir intervalos de confiança para a média, também quando a amostra for 
grande. 
 
 
Exemplo: 
 
 Através da amostra de tamanho 15 que segue, procura-se estimar o 
verdadeiro comprimento médio de papagaios verdadeiros (Amazona aestiva, 
Psittacidae), medido em centímetros (cm): 
 
26,7; 25,8; 24,0; 24,9; 26,4; 
25,9; 24,4; 21,7; 24,1; 25,9; 
27,3; 26,9; 27,3; 24,8; 23,6. 
 
 
 
PUC-Rio Estatística Aplicada à Biologia I 
 39 
Resolução: 
 
Variável em estudo: X = comprimento de papagaios verdadeiros (cm). 
 
Pressuposição: a variável em estudo tem distribuição normal. 
 
Obtenção das estimativas: 
 
cmx 31,25
15
6,23...8,257,26_
=
+++
= 
 
2
222
2 492,2
115
)31,256,23(...)31,258,25()31,257,26(
cms =
−
−++−+−
= 
 
cms 579,1493,2 == 
 
 
Sendo µθ = , temos 
31,25
__
== Xθ 
 
4076,0
15
579,1
)()(
__
====
n
S
XSS θ 
 
141151 =−=−= nν 
 
145,2)(2/ =ναt 
 
 
Intervalos de confiança: 
 
)(:)1;(
_
2/
_
θθαθ α StIC ±− 
 
4076,0145,231,25:)95,0;( ×±µIC 
 
874,031,25:)95,0;( ±µIC 
 
44,24874,031,25:inf =−L 
 
18,26874,031,25:sup =+L 
 
95,0)18,2644,24( =<< µP 
 
Concluímos que a probabilidade do intervalo 24,44cm a 26,18cm conter a 
verdadeira média de comprimento do papagaio verdadeiro é de 0,95. 
 
 
 
PUC-Rio Estatística Aplicada à Biologia I 
 40 
 
Intervalo de confiança para diferença entre médias de duas 
populações (µµµµ1 - µµµµ2) 
 
 
 Para utilizar a estatística T no estudo de uma variável X em duas 
populações distintas, três pressuposições devem ser atendidas: 
 
1. A variável em estudo tem distribuição normal ),(~ 2σµNX 
2. As variâncias das populações são iguais )( 22 σσ = 
3. As amostras retiradas das populações são independentes. 
 
 
 
Atendidas as pressuposições, desejamos comparar as médias das 
populações, estimada por intervalo, o parâmetro 21 µµθ −= . Utilizamos, então, a 
variável aleatória T. 
)(~
)(
_
_
ν
θ
θθ
t
S
T
−
= 
onde: 
21 µµθ −= 
2
_
1
__
XX −=θ 
)()( 2
_
1
__
XXSS −=θ 
2)1()1( 2121 −+=−=−= nnnnν 
 
Vejamos como se obtém a estimativa do desvio (ou erro) padrão de 
_
2
_
1
_
XX −=θ , o desvio padrão 
_
θ é obtido extraindo a raiz quadrada da variância da 
diferença entre as média, ou seja, 
)()()( 2
_
1
_
2
2
_
1
__
XXSXXSS −=−=θ 
 
Como as variáveis 
_
1X e 
_
2X são independentes, podemos utilizar a 
propriedade de que a variância da soma ou diferença de variáveis é igual à soma 
das variâncias dessas variáveis. Daí, temos: 
PUC-Rio Estatística Aplicada à Biologia I 
 41 
)()()( 2
_
2
1
_
2
2
_
1
_
2
XSXSXXS −=− 
 
Como a variância da média é 
n
XV
2_
)(
σ
, então, o estimador desta variância 
será 
n
S
XS
2_
2 )( . Como conseqüência, temos: 
2
2
2
1
2
1
2
_
2
1
_
2 )()(
n
S
n
S
XSXS +=− 
 
 Sendo as variâncias amostrais 21S e 
2
2S , estimativas da mesma variância 
( 2σ ), é possível combiná-las através da média. Assim, em vez de duas 
estimativas( 21S e 
2
2S ), utilizarmos 
2S que é a medida das variâncias das 
amostras, ponderada pelos seus respectivos graus de liberdade, ou seja: 
 
)1()1(
)1()1(
21
2
2
21
2
12
−+−
−+−
=
nn
nSnS
S 
 
Daí resulta que: 
 
2
212
2
1
2
2
2
2
1
2
1 11 S
nnn
S
n
S
n
S
n
S






+=+=+ 
 
Assim, o estimador do erro padrão de 
_
θ é dado por: 
 
2
21
2
_
1
__ 11
)()( S
nn
XXSS 





+=−=θ , onde 
)1()1(
)1()1(
21
2
2
21
2
12
−+−
−+−
=
nn
nSnS
S 
 
 
 Sabemos que, de modo geral, o intervalo de confiança para um parâmetro 
θ é assim definido: 
)(:)1;(
_
2/
_
θθαθ α StIC ±− 
 
 Para o caso particular de 21 µµθ −= , temos: 
 
2
21
2/2
_
1
_
21
11
)1;( S
nn
tXXIC 





+±−=−− ααµµ 
 
Exemplo: 
 
 Dez cobaias adultas criadas em laboratório, foram separadas, 
aleatoriamente, em dois grupos: um foi tratado com ração normalmente usada 
no laboratório (padrão) e outro grupo foi submetido a uma nova ração 
PUC-Rio Estatística Aplicada à Biologia I 
 42 
(experimental). As cobaias foram pesadas no início e no final do período de 
duração do experimento. Os ganhos de peso (em gramas) observados foram os 
seguintes: 
 
Ração padrão 200 180 190 190 180 
Ração experimental 220 200 210 220 210 
 
Construa o intervalo de confiança, ao nível de 99%, para a diferença entre 
as médias das duas populações. 
 
Resolução: 
 
Variável em estudo: X = ganho de peso (g) 
 
Pressuposições: 
 - A variável em estudo tem distribuição aproximadamente normal. 
 - As variâncias das populações são iguais ( 22
2
2
1 σσσ == ) 
 - As amostras retiradas das populações são independentes 
 
 
 
 
Estimativas: 
 
Amostra 1: 





=
=
=
70
188
5
2
1
_
1
1
S
X
n
 Amostra 2: 





=
=
=
70
212
5
2
2
_
2
2
S
X
n
 
 
Sendo 21 µµθ −= , temos: 
 
242121882
_
1
__
−=−=−= XXθ 
 
70
44
470470
)1()1(
)1()1(
21
2
2
21
2
12 =
+
×+×
=
−+−
−+−
=
nn
nSnS
S 
 
PUC-Rio Estatística Aplicada à Biologia I 
 43 
292,570
5
1
5
111
)()( 2
21
2
_
1
__
=




 +=





+=−= S
nn
XXSS θ 
844)1()1( 21 =+=−+−= nnν 
 
36,3)(2/ =ναt 
 
)(:)1;(
_
2/
_
θθαθ α StIC ±− 
 
292,536,324:)99,0;( 21 ×±−− µµIC 
 
78,1724:)99,0;( 21 ±−− µµIC 
 
78,4178,1724inf −=−−=L 
 
22,678,1724sup −=+−=L 
 
99,0)22,678,41( 21 =−<−<− µµP 
 
 
 
 
 
 Concluímos que a probabilidade que o intervalo de -41,78 a -6,22 
contenha a verdadeira diferença entre o ganho de peso médio da população que 
recebeu a ração padrão e o ganho de peso médio da população que recebeu a 
ração experimental é de 0,99. Como o valor zero está fora do intervalo podemos 
concluir que as médias não são iguais. 
 
 
 
Intervalo de confiança para a variância populacional (σσσσ2) 
 
 
 Sabemos que o estimador não tendencioso de σ2 é S2. No entanto, para se 
construir um intervalo de confiança para σ2 é necessário ainda conhecer como 
este estimador S2 se comporta, ou seja, qual é a sua distribuição de 
probabilidade. Considerando uma população com distribuição normal, com média 
µ e variância σ2, e que desta população seja selecionada uma amostra aleatória 
de tamanho n, então: 
)(~
)1(
)(
2
2
2
2
1
2
_
ν
σσ
X
Sn
Xx
Q
n
i
i −
=
−
=
∑
= , 
 
ou seja, a variância da amostra (S2) é uma variável que tem distribuição 2X com 
parâmetro 1−= nν graus de liberdade. Assim, a distribuição 2X é a base para 
inferências a respeito da variância σ2. 
 
0 -6,22 -41,78 
PUC-Rio Estatística Aplicada à Biologia I 
 44 
 De acordo com a figura abaixo, vemos que α−1 é a probabilidade de que 
a variável Q assuma um valor entre 2/'αq e 2/αq e α é a probabilidade de Q não 
estar entre 2/'αq e 2/αq . 
 
 
 
 Daí, temos 
ααα −=<< 1)'( 2/2/ qQqP 
 
Sendo 
2
2)1(
σ
Sn
Q
−
= , ao substituirmos Q na expressão acima, obtemos: 
 
α
σ αα
−=<
−
< 1)
)1(
'( 2/2
2
2/ q
Sn
qP 
 
A manipulação algébrica desta desigualdade resulta no intervalo de 
confiança para 2σ : 
 
ασ
αα
−=




 −
<<
−
1
'
)1()1(
2/
2
2
2/
2
q
Sn
q
Sn
P 
 
onde: 
2S → é o estimador da variância populacional; 
n → é o tamanho da amostra 
1−= nν → é o número de graus de liberdade associado à variância; 
2/'αq → é o valor da distribuição qui-quadrado, com ν graus de liberdade, que 
delimita a área 2/α à esquerda (Tabela qui-quadrado); 
2/αq → é o valor da distribuição qui-quadrado, com ν graus de liberdade, que 
delimita a área 2/α à direita (Tabela qui-quadrado). 
 
 Assim, os limites do intervalo de confiança para a variância populacional ( 2σ ) são 
dados por: 





 −−
2/
2
2/
2
'
)1(
;
)1(
αα q
Sn
q
Sn
 
 
PUC-Rio Estatística Aplicada à Biologia I 
 45 
Para determinar um intervalo de confiança para o desvio padrão 
populacional (σ ) basta tomar a raiz quadrada positiva dos limites do intervalo 
para a variância populacional: 
 







 −−
2/
2
2/
2
'
)1(
;
)1(
αα q
Sn
q
Sn
 
Exemplo: 
 
 Uma das maneiras de manter sob controle a qualidade de um produto é 
controlar sua variabilidade. Uma máquina de encher garrafas de óleo de babaçu 
(Orrbignya speciosa (Mart.) Barb. Rodr., Arecaceae) está regulada para enchê-
las conforme uma distribuição normal com média de 200 ml. Colheu-se uma 
amostra de 11 garrafas e observou-se uma variância de 8,38 ml2. construa o 
intervalo, ao nível de 90% de confiança, para a variância populacional e um 
intervalo de mesma confiabilidade para o desvio padrão da população. 
 
Resolução: 
 
 Devemos, inicialmente, determinar os valores da distribuição 2X com 10 
graus de liberdade, de modo que 2/'αq e 2/αq tenham uma área igual a 0,05 à 
sua esquerda e à sua direita, respectivamente. Esses valores são: 94,3' 2/ =αq e 
31,18' 2/ =αq . 
 
 Assim, o intervalo de confiança para a variância será: 
 
[ ]27,21;58,4
94,3
38,8)111(
;
31,18
38,8)111(
'
)1(
;
)1(
2/
2
2/
2
=




 ×−×−
=




 −−
αα q
Sn
q
Sn
 
 
E o intervalo de confiança para o desvio padrão será: 
 
[ ]61,4;14,2
94,3
38,8)111(
;
31,18
38,8)111(
'
)1(
;
)1(
2/
2
2/
2
=




 ×−×−
=







 −−
αα q
Sn
q
Sn
 
 Concluímos, com uma confiança de 90%, que os intervalos 4,58 a 21,27 
ml2 e 2,14 a 4,61 ml cobrem, respectivamente, a verdadeira variância e o 
verdadeiro desvio padrão da população. 
 
 
 
Intervalo de confiança para a proporção populacional (ππππ) 
 
 
 Se o objetivo é estimar a proporção de uma população (π), através de 
uma amostra aleatória desta população, utilizamos como estimador a proporção 
da amostra (P). 
 
PUC-Rio Estatística Aplicada à Biologia I 
 46 
 De acordo com o teorema central do limite, quando 5>np e 5)1( >− pn , a 
distribuição amostral P se aproxima da distribuição normal com a média πµ =P e 
desvio padrão 
n
P
)1( ππ
σ
−
= . 
 
 Deste modo, podemos utilizar a distribuição normal para construir o 
intervalo de confiança para a proporção populacional. Lembramos que α−1 é a 
probabilidade de que a variável Z assuma um valor entre 2/αz− e 2/αz e α é a 
probabilidade de Z não estar entre 2/αz− e 2/αz . 
 
 
 
 Assim, temos que: 
ααα −=<<− 1)( 2/2/ zZzP 
 
Como 
n
PP
Z
P
P
)1( ππ
π
σ
µ
−
−
=
−
= , substituímos Z na expressão acima e obtemos: 
 
α
ππ
π
αα −=<
−
−
<− 1)
)1(
( 2/2/ z
n
P
zP 
 
A manipulação algébrica desta desigualdade resulta no intervalo de 
confiança para π : 
α
ππ
π
ππ
αα −=
−
+<<
−
− 1)
)1()1(
( 2/2/
n
zP
n
zPP 
 
onde: 
P → é o estimador da proporção populacional π ; 
n → é o tamanho da amostra; 
2/αz → é o valor da variável Z que delimita a área 2/α(Tabela distribuição normal 
padrão). 
 
 
 
 
 
PUC-Rio Estatística Aplicada à Biologia I 
 47 
Exemplo: 
 
 Foi realizada uma pesquisa para verificar a atitude da população frente à 
reciclagem do lixo nas residências. Para isso, foi colhida uma amostra de 300 
residências, das quais 180 afirmaram realizar a separação do lixo doméstico 
passível de ser reciclado. Encontre o intervalo ao nível de 99% de confiança para 
a proporção da população que realiza a separação do lixo. 
 
Resolução: 
 
 A estimativa por ponto para a proporção populacional será: 60,0
300
180
==p 
 
 Como o nível de confiança adotado é de 99%, temos 01,0=α . Assim, o 
valor de Z que delimita a área 005,02/ =α à direita é 2,575. 
 
 Então, o intervalo de confiança de 99% para a proporção populacional 
será: 
 
n
PP
zPIC
)1(
:)99,0;( 2/
−
± απ 
300
)60,01(60,0
575,260,0:)99,0;(
−
±πIC 
0283,0575,260,0:)99,0;( ×±πIC 
0728,060,0:)99,0;( ±πIC 
 
5272,00728,060,0:inf =−L 
 
6728,00728,060,0:sup =+L 
 
99,0)6728,05271,0( =<< πP 
 
 Concluindo, pode afirmar, com uma confiança de 99%, que o intervalo de 
0,53 a 0,67 contém a proporção populacional de residências que realizam a 
separação do lixo para fins de coleta seletiva. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
PUC-Rio Estatística Aplicada à Biologia I 
 48 
 
 
Teste de hipóteses 
 
 
Introdução 
 
Os trabalhos científicos são realizados com objetivos bem estabelecidos, 
expressos por meio de afirmações que os pesquisadores desejam verificar. Tais 
afirmações provisórias são denominadas hipóteses. Após formulá-las 
adequadamente, os investigadores realizam o levantamento de dados e os 
analisam estatisticamente, buscando resultados que confirmem ou não essas 
hipóteses. Como, na maioria das vezes, os dados provém de amostras, a decisão 
final a respeito de uma hipótese científica está relacionada a uma probabilidade 
de erro. O erro de decisão não pode ser evitado, mas sua probabilidade pode ser 
controlada ou mensurada, obtendo-se assim uma medida de validade das 
conclusões obtidas. 
 
 
 
Hipóteses estatísticas 
 
Hipóteses estatísticas são suposições feitas sobre o valor dos parâmetros 
nas populações. Sempre comparam dois ou mais parâmetros, seja afirmando sua 
igualdade ou não. Podem ser de dois tipos: 
 
Hipótese nula (H0): estabelece a ausência de diferença entre os parâmetros. É 
sempre a primeira a ser formulada. 
 
Hipótese alternativa (H1): é a hipótese contrária à hipótese nula. Geralmente, 
é a que o pesquisador quer confirmar. 
 
 
 A verificação das hipóteses estatísticas se dará com certeza se for 
estudada toda a população, isto é, se µ for conhecido. Como o mais comum é se 
desconhecer µ, as decisões vão ser tomadas com base nos dados obtidos em 
amostras e envolverão um risco máximo admitido para o erro de afirmar que 
existe uma diferença, quando ela efetivamente não existe (α). O biólogo 
estabelece tal risco antes de realizar o teste de hipóteses. 
 
 O teste de hipótese é um procedimento estatístico pelo qual se rejeita ou 
não uma hipótese, previamente formulada, associando à conclusão um risco 
máximo de erro. 
 
 Devido à maneira como os testes são elaborados, a hipótese testada é 
sempre H0. Se for rejeitada, a H1 é automaticamente aceita. 
 
 
 
 
 
PUC-Rio Estatística Aplicada à Biologia I 
 49 
Decisão de um teste 
 
Hipótese alternativa bilateral - 0: 211 ≠− µµH 
 
 
 
 
Hipótese alternativa unilateral direita - 0: 211 >− µµH 
 
 
 
 
Hipótese alternativa unilateral direita - 0: 211 <− µµH 
 
 
 
 
 
PUC-Rio Estatística Aplicada à Biologia I 
 50 
Exemplo 1 – Teste bilaterais: 
 
Deseja estudar o efeito da droga M sobre a pressão arterial. Sabe-se que a 
pressão arterial média para humanos é de 128 mmHg. Em um experimento no 
qual o biólogo ministrou a droga em uma amostra aleatória desta população 
composta por 60 indivíduos, verificou que a média da pressão arterial foi de 135 
mmHg com desvio-padrão de 24 mmHg. Em uma amostra aleatória de 60 
indivíduos é razoável (em termos probabilísticos) obter uma média da amostra 
de 135 mmHg na qual essa não difere da média da população? 
 
Resolução: 
 
1) Estabelecimento das hipóteses estatísticas: 
 
Parte da suposição de que a média da população é igual à média da amostra que 
recebeu a droga, logo: 
 
H0: não existem diferenças entre a média da população e da amostra; 
HA: existem diferenças entre a média da população e da amostra. 
 
00 : µµ =AH ou 0: 00 =− µµ AH 
01 : µµ ≠AH ou 0: 01 ≠− µµ AH 
 
2) Escolha do nível de significância: 
 
Neste exemplo vamos admitir que o erro deve ser de, no máximo, 5%. 
 
05,0=α 
 
3) Determinação do valor crítico do teste: 
 
Tomando-se 05,0=α , 
2/5,0 α−=P 
)2/05,0(5,0 −=P 
4750,0=P 
96,1)4750,0( →=PZ 
 
logo: 96,105,0 =z , então, um desvio de até 1,96 erros padrão é admitido como 
não-significativo, isto é, casual. 
 
4) Determinação do valos calculado do teste: 
 
26,2
1,3
7
60
24
1281350
_
==
−
=
−
=
n
X
zcalc σ
µ
 
 
 
 
PUC-Rio Estatística Aplicada à Biologia I 
 51 
5) Decisão: 
 
Se αzzcalc < , não se rejeita H0 
Se αzzcalc ≥ , rejeita-se H0 
 
Como 96,126,2 05,0 =>= zzcalc , rejeita-se H0. 
 
6) Conclusão: 
 
A média amostral (135 mmHg) difere significativamente, no nível de 5% 
(α = 0,05), do parâmetro de referência (128 mmHg); portanto, as médias das 
duas populações não são iguais. A pressão arterial sistólica (PAS) da população 
de indivíduos tratados com a droga M é mais elevada do que a PAS população de 
não-tratados (controle). 
 
 
Exemplo 2 – Teste unilaterais: 
 
Está sendo proposta uma dieta que visa reduzir o nível de colesterol 
sanguíneo. De uma população que o nível médio é 262 mg/dL e o desvio padrão, 
70 mg/dL, é selecionada uma amostra de 20 pessoas que se submetem a esta 
dieta. Ao final de certo tempo, o nível de colesterol é medido nessas pessoas e a 
média é de 233 mg/dL. Pode-se afirmar que a dieta produziu realmente uma 
redução no colesterol sanguíneo (α = 0,05) ou a diferença deve ser atribuída ao 
acaso? 
 
Resolução: 
 
1) Estabelecimento das hipóteses estatísticas: 
 
Como o teste é unilateral, a significância do teste só é válida se a diferença entre 
µA - µ0 seja negativa, ou seja, que a região de rejeição da hipótese nula esteja 
localizada na cauda esquerda da distribuição.Assim, temos: 
 
H0: a dieta não produziu uma redução no nível de colesterol sanguíneo; 
HA: a dieta produziu uma redução no nível de colesterol sanguíneo. 
 
00 : µµ ≥AH 
01 : µµ <AH 
 
2) Escolha do nível de significância: 
 
Neste exemplo vamos admitir que o erro deve ser de, no máximo, 5%, sendo 
unilateral e à esquerda. 
 
05,0=α 
 
 
 
PUC-Rio Estatística Aplicada à Biologia I 
 52 
3) Determinação do valor crítico do teste: 
 
Tomando-se 05,0=α , 
α−= 5,0P 
05,05,0 −=P 
4500,0=P 
64,1)4500,0( −→≅PZ 
 
logo: 64,105,0 −=z , então, um desvio de até -1,64 erros padrão é admitido como 
não-significativo, isto é, casual. 
 
4) Determinação do valos calculado do teste: 
 
85,1
65,15
29
20
70
2622330
_
−=
−
=
−
=
−
=
n
X
zcalc σ
µ
 
 
5) Decisão: 
 
Se αzzcalc < , não se rejeita H0 
Se αzzcalc ≥ , rejeita-se H0 
 
Como 64,185,1 05,0 =>= zzcalc , rejeita-se H0. 
 
6) Conclusão: 
 
A média do coleterol nas pessoas submetidas à nova dieta é 
significativamente menor do que 262 mg/dL; portanto, essa dieta reduz os níveis 
de coleterol sanguíneo. 
 
 
Erro do tipo I e do tipo II 
 
 Todo teste de hipóteses tem sua conclusão sujeita a erro. O erro de 
afirmar que existe uma diferença quando ela efetivamente não existe (isto é, 
rejeitar incorretamentea hipótese nula) é chamado de erro do tipo I e tem 
probabilidade de ocorrer igual a α. 
 
 No entanto, também é possível cometer-se o erro de aceitar H0 quando 
não se deveria, ou seja, afirmar uma igualdade quando o correto seria afirmar 
uma diferença. A este erro denomina-se erro do tipo II e é muito difícil calcular 
sua probabilidade, pois para tanto, seria necessário conhecer o valor do 
parâmetro (µA) na população amostrada (lembre-se que é exatamente por não 
conhecer µA que os experimentos são realizados). 
 
 A probabilidade de cometer um erro do tipo II é chamada de β. Como a 
probabilidade complementar desse erro representa a probabilidade de afirmar 
PUC-Rio Estatística Aplicada à Biologia I 
 53 
corretamente que existe uma diferença quando ela realmente existe, diz-se (1 - 
β) é o poder do teste estatístico de detectar uma diferença real. 
 
 O erro do tipo II é um conceito utilizado quando se deseja calcular o 
tamanho amostral necessário para se atingir um determinado objetivo. Pode 
também ser usado para, após a realização da pesquisa, determinar que poder 
tem a amostra estudada de detectar uma diferença estipulada pelo pesquisador. 
Na tabela abaixa um resumo dos erros do tipo I e II. 
 
 
Conclusão do teste 
Afirmação 
Aceita-se H0 Rejeita-se H0 
H0 é verdadeira 
Decisão correta 
Probabilidade: 1 - α 
Decisão errada, erro tipo I 
Probabilidade: α 
H0 é falsa 
Decisão errada, erro tipo II 
Probabilidade: β 
Decisão correta 
Probabilidade: 1 - β 
(poder do teste) 
 
Nota: para o teste estatístico, é fundamental saber-se como variam os valores 
de x, isto é, qual o valor do desvio padrão (σ), pois ele está envolvido no cálculo 
do erro padrão da média )(
_
Xσ , usado no teste. Uma situação bastante comum é 
ter-se uma idéia da média da população tomada como referência (µ0), mas se 
conhecer o desvio padrão populacional (σ). Não conhecendo σ, se desconhece 
também o erro padrão, o que impede a realização do teste de hipóteses. A 
solução é substituir o desvio padrão populacional pelo seu estimador, o desvio 
padrão amostral (S), e obter, assim, um erro padrão estimado (EP) PA a média: 
 
n
S
n
S
EP ==
2
 
 
Níveis de significância 
 
Intuitivamente, somo levados a dizer que um valor p de 0,01 seria 
estatisticamente mais significante do que um valor p de 0,005, mas tal não é 
correto. A partir do momento em que é definido o nível de confiança, todos os 
resultados são "estatisticamente significantes" ou "estatisticamente não 
significantes". 
 
No entanto, há autores que fazem uma distinção do grau de significância 
utilizando símbolos, mas estas denominações e notações não estão 
padronizadas. 
 
Exemplo: 
 
Valor de p Descrição Notação 
> 0,05 Não significante ns 
0,01 a 0,05 Significante * 
0,001 a 0,01 Muito significante ** 
< 0,001 Extremamente significante *** 
PUC-Rio Estatística Aplicada à Biologia I 
 54 
Estatística paramétrica e não-paramétrica 
 
• Paramétricos: Exigem que as amostras tenham uma distribuição normal, 
especialmente se tiverem uma dimensão inferior a 30. Nas amostras de 
dimensão superior a 30, a distribuição aproxima-se da distribuição normal 
e também se aplicam os testes paramétricos. 
 
• Não-paramétricos: Não necessitam de requisitos tão fortes, como a 
normalidade, como os testes paramétricos, para serem usados. são 
também indicados quando as amostras são pequenas. São usados quando 
a amostra tem uma distribuição que não é normal ou quando, apesar da 
amostra ter uma dimensão superior a 30, se opta por conclusões mais 
conservadoras. A desvantagem destes testes é que não são tão potentes 
quantos os testes paramétricos, ou seja, com os testes não paramétricos 
não se encontram tantas diferenças entre os dados, quando essas 
diferenças realmente existem. 
 
 
Requisitos para utilização de testes paramétricos: 
 
Quando se pretende empregar um teste t de Student ou uma análise da 
variância para fazer comparações entre amostras (testes paramétricos), existe 
uma lista de requisitos que inclui, entre outros: 
 
1. a variável tenha sido mensurada num nível mínimo intervalar; 
2. a distribuição seja simétrica e mesocúrtica; 
3. a característica estudada (variável) tenha distribuição normal numa 
dada população. 
 
Sempre que não se pode, honestamente, admitir a simetria e a 
normalidade de distribuição, ou os dados foram recolhidos num nível de 
mensuração inferior ao intervalar, devemos recorrer a testes que não incluem a 
normalidade da distribuição ou nível intervalar de mensuração. Esses testes 
chamam-se não paramétricos. 
 
 
 Paramétricos Não-paramétricos 
Distribuição assumida 
 Normal Qualquer uma 
Variância assumida 
 
Homogênea Qualquer uma 
Tipos de variáveis 
normalmente usadas 
 
Intervalar Ordinal ou nominal 
Medidas de localização 
central normalmente usadas Média Mediana 
 
 
Vantagens dos testes não-paramétricos 
 
Podem ser utilizados, mesmo quando os seus dados só podem ser medidos 
num nível ordinal, isto é, quando for apenas possível ordená-los por ordem de 
PUC-Rio Estatística Aplicada à Biologia I 
 55 
grandeza, podem ser utilizados mesmo quando os seus dados são apenas 
nominais, ou seja, quando os sujeitos podem apenas ser classificados em 
categorias. 
 
 
Poder de um teste 
 
O poder de um teste é a probabilidade de rejeitarmos a H0 quando ela é 
realmente nula. 
 
Os testes mais poderosos (os que têm maior probabilidade) de rejeição de 
H0, são testes que possuem pré-requisitos mais difíceis de satisfazer (testes 
paramétricos como t e F). 
 
As alternativas não paramétricas exigem muito menos pré-requisitos mas 
produzem testes de significância com menos poder que os correspondentes 
paramétricos. 
 
Ao rejeitar-se a H0 sem preencher as exigências mínimas dos testes 
paramétricos, é mais provável que essa rejeição seja falsa (se rejeitar a H0 
quando ela é verdadeira comete um erro de tipo I; se aceitar a H0 quando ela é 
falsa comete um erro de tipo II). Quando os requisitos de um teste paramétrico 
são violados, torna-se impossível conhecer o seu poder e a sua dimensão (α). 
 
O teste ideal seria aquele que α = 0 e β = 1, o que implicaria que o teste 
conduziria sempre à decisão correta, contudo este teste ideal raramente existe. 
 
A probabilidade do erro do tipo I deve ser reduzida, fixando α teórico em 
0,1; 0,05 ou 0,01. O valor fixado para α depende da importância que se dá ao 
fato de rejeitar a H0 quando esta é verdadeira. 
 
Uma ilustração deste ponto de vista pode ser feita com o seguinte exemplo: 
 
Uma pessoa é inocente até que se prove o contrário: 
 
• H0: a pessoa é inocente 
• H1: a pessoa é culpada 
 
Erro I: A pessoa é condenada, mas está inocente 
Erro II: A pessoa é absolvida, mas é culpada 
 
Naturalmente a justiça procura reduzir a possibilidade de ocorrer o erro do 
tipo I, pois entende-se que é mais grave condenar inocentes que absolver 
criminosos. 
 
Para certos sistemas judiciais um α = 0,1 é demasiado elevado, optando 
por α = 0,01; em outros sistemas judiciais pode admitir que α = 0,05 é um valor 
razoável. 
 
Portanto, fixada a probabilidade do erro de tipo I (dimensão do teste), o 
teste mais potente é aquele em que a escolha da região critica minimiza a 
PUC-Rio Estatística Aplicada à Biologia I 
 56 
probabilidade do erro do tipo II. Diz-se também que esta região critica é a mais 
potente. 
 
Facilmente se conclui que o teste mais potente é aquele que, uma vez 
fixada a probabilidade de rejeitar a H0, quando ela é verdadeira, maximiza a 
potência ou a capacidade para rejeitar a mesma hipótese quando esta é falsa. 
 
Pressupostos: 
 
Se os resultados de um teste paramétrico, não cumpriram com os 
requisitos (no mínimo dados intervalares; distribuição

Continue navegando