Apostila - Unidade 2

Estatística I

•
Engenharias

ivanildo marinho
06/10/2021
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 42 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 42 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 42 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Estatística I

56.977 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
CÁLCULO DAS PROBABILIDADES E
ESTATÍSTICA I
Tatiene Souza
28 de abril de 2021
1 Probabilidade
A ideia de probabilidades está associada tanto com raciocínio indutivo e julgamen-
tos tais como ‘Provavelmente Pedro é feliz’ ou ‘Você provavelmente será aprovado em
Estatística’, quanto a experimentos físicos repetitivos tais como o arremesso de uma
moeda ou de um dado.
Fenômeno (experimento) aleatório está associado à situação ou acontecimento
que não pode ser previsto com certeza. Por exemplo, quando arremessamos uma mo-
eda - honesta ela pode cair com a face Cara ou Coroa voltada para cima. Assim o ar-
remesso de uma moeda é um evento aleatório. Da mesma maneira nosso tempo de
vida, o decaimento radioativo ou o resultado da loteria também são fenômenos alea-
tórios. Os resultados de um experimento envolvendo um fenômeno aleatório são cha-
mados eventos. Espaço amostral (ω) de um experimento é o conjunto dos resultados
do experimento. Por exemplo, lançamento de um dado, o espaço amostral é dado por
ω= {1,2,3,4,5,6}.
1.1 Operações com eventos aleatórios
Considere um espaço amostral ω = {e1,e2, . . . ,en}. Sejam A e B dois eventos. Repre-
sente graficamente: A∪B ; A∩B ;Ac ; A−B ; B − A.
Exemplo 1.1. Seja ω= {(c,c); (c,r ); (r,c); (r,r )}, A = {(c,c); (r,r )} e B = {(c,r ); (c,c)}.
(a)A ∪B ; (b)A ∩B ; (c)Ac ; (d)B c ; (e)Ac ∩B c ; (f )Ac ∪B c ; (g)B − A; (h)A −B ; (i)Ac ∩B ;
(j)B c ∩ A.
É a função P que associa a cada evento F um número real pertencente ao intervalo
[0,1], tal que P (ω) = 1 e P (A∪B) = P (A)+P (B), se A e B forem mutuamente exclusivos.
1
TEOREMA:(i) Se os eventos A1, A2, . . . , An formam uma partição do espaço amostral,
então
∑n
i=1 P (Ai ) = 1; (ii) Se ; é o evento impossível, então P (;) = 0; (iii) P (A)+P (Ac ) =
1; (iv)P (A∪B) = P (A)+P (B)−P (A∩B).
Exemplo 1.2. O seguinte grupo de pessoas está em uma sala, a saber: 5 rapazes com
mais de 21 anos, 4 rapazes com menos de 21 anos; 6 moças com mais de 21 anos e 3
moças com menos de 21 anos. Uma pessoa é escolhida ao acaso dentre as 18. Consi-
dere os seguintes eventos:
A: a pessoa tem mais de 21 anos;
B : a pessoa tem menos de 21 anos;
C : a pessoa é um rapaz;
D : a pessoa é uma moça.
Apresente P (A),P (B),P (C ),P (D);P (B ∪D) Resposta: {11/18; 7/18; 9/18; 9/18; 13/18}
1.2 Probabilidade Condicional
Considere o exemplo a seguir:
Considere 250 alunos que cursam o primeiro período de uma faculdade. Destes
alunos 100 são homens (H) e 150 são mulheres (M), 110 cursam física (F) 140 cursam
química (Q). A distribuição dos alunos é a seguinte:
XXXXXXXXXXXXSexo
Disciplina
Física Química TOTAL
Homens 40 60 100
Mulheres 70 80 150
TOTAL 110 140 250
Pergunta: Qual a probabilidade de que o aluno esteja cursando química dado que é
mulher? 80150 . Qual a probabilidade de mulher e de química?
80
250 . Qual a probabilidade
de ser mulher? 150250 .
Sejam A ⊂ ω e B ⊂ ω. Definimos probabilidade condicional de A dado que B
ocorre (A/B) é dada por:
P (A/B) = P (A∪B)
P (B)
,se P(B) 6= 0.
Também:
P (B/A) = P (B ∪ A)
P (A)
,se P(A) 6= 0.
2
Exemplo 1.3. Duas bolas serão retiradas de uma urna que contém 2 bolas brancas, 3
pretas e 4 verdes. Qual a probabilidade de que ambas sejam verdes? Resposta: {1/6}.
Qual a probabilidade de que sejam da mesma cor? Resposta: {5/18}.
Sejam A ⊂ω e B ⊂ω. Definimos A e B são independentes se P (A∩B) = P (A)P (B).
Os eventos A e B são mutuamente excludentes se P (A∩B) =;.
Exemplo 1.4. Sejam A e B eventos tais que P (A) = 0.2, P (B) = p, P (A∪B) = 0.6. Calcule
p considerando que A e B são mutuamente excludentes e independentes. Resposta: {0.4;
0.5}.
Exemplo 1.5. Uma urna contém 3 bolas brancas e 2 amarelas. Uma segunda urna
contém 4 bolas brancas e 2 amarelas. Escolhe-se, ao acaso, uma urna e dela retira-se,
também ao acaso, uma bola. Qual a probabilidade de que seja branca?
Seja (B): bola branca e (A): bola amarela.
URNA
II
A −→ P (I I ∩ A) = 12 · 2626
B −→ P (I I ∩B) = 12 · 46
4
6
1
2
I
A −→ P (I ∩ A) = 12 · 2525
B −→ P (I ∩B) = 12 · 35
3
5
1
2
Ou seja,
P (B) = P (B ∩ I )+P (B ∩ I I ) = P (I )P (B/I )+P (I I )P (B/I I )
1.3 Variáveis Aleatórias
Muitos experimentos aleatórios produzem resultados não-numéricos. Por exemplo,
considere o caso de um questionário, em que uma pessoa é indagada a respeito de
uma proposição e as respostas possíveis são SIM ou NÃO. Podemos definir uma variá-
vel que tome dois valores, 1 ou 0, por exemplo, correspondentes às respostas SIM ou
NÃO. Portanto antes de analisar esse tipo de experimento, é conveniente transformar
seus resultados em números, o que é feito através da variável aleatória, que é uma re-
gra de associação de um valor numérico a cada ponto do espaço amostral. A Variável
3
aleatória pode ser Discreta: se assume valores num conjunto enumerável, com certa
probabilidade; Contínua: se seu conjunto de valores é qualquer intervalo dos números
reais, o que seria um conjunto não enumerável.
Definição 1.1. Função de probabilidade é a função que associa a cada valor assumido
pela variável aleatória a probabilidade do evento corresponde, i.e.,
P (X = xi ) = P (Ai ), i = 1, . . . ,n.
É importante verificar que para que haja uma distribuição de probabilidade de uma
variável aleatória X é necessário que
∑n
i=1 P (X = xi ) = 1.
Definição 1.2. Seja X uma variável aleatória discreta, a esperança matemática é um
número real. É também uma média aritmética ponderada, ou seja, E(X ) =∑ni=1 xi P (X =
xi ).
Definição 1.3. Seja X uma variável aleatória contínua. A função densidade de proba-
bilidade (f.d.p.), f (x), é dada por
P (a ≤ X ≤ b) =
∫ b
a
f (x)d x.
É importante verificar que para que haja função densidade, é importante que f (x) ≥ 0
e
∫ ∞
−∞ f (x) = 1.
Definição 1.4. Seja X uma variável aleatória contínua, a esperança matemática é dada
por E(X ) = ∫ ∞−∞ x f (x)d x.
Exemplo 1.6. Uma variável aleatória tem função de densidade de probabilidade dada
por: f (x) = kx,0 < x < 1. (a) Obtenha o valor de k; (b) Obtenha P [0 ≤ X < 1/2]; (c)
E(X ); (d) Obtenha P [X ≤ 1/2/1/3 ≤ X ≤ 1/2/]. resposta: 2;1/4;2/3;5/12
2 Distribuição Binomial
Suponha que n experimentos independentes, ou ensaios, são executados, onde n é um
número fixo, e que cada experimento resulta em sucesso (com probabilidade p) ou em
fracasso (com probabilidade 1−p). O número total de sucessos, X , é uma variável ale-
atória com parâmetros n e p, ou seja, X ∼B(n, p). Por exemplo, uma moeda é lançada
10 vezes e o número total de caras é contado (aqui ‘cara’ é o sucesso). A probabilidade
que X = k, denotada por P (X = k), pode ser encontrada como:
P (X = k) =
(
n
k
)
pk (1−p)n−k .
A média de um variável aleatória Binomial é np e a variância é np(1−p).
4
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Exemplo 2.1. Numa criação de coelhos, 40% são machos. Qual a probabilidade de que
nasçam pelo menos 2 coelhos machos em um dia em que nasceram 20 coelhos?
Note que X é o número coelhos machos, i.e., X : 0,1, . . . ,20, a probabilidade de sucesso,
p, é 0.40. Portanto, P (X ≥ 2) = 1−P (X < 2) = 1− [P (X = 0)+P (X = 1)], em que
P (X = 0) =
(
20
0
)
(0.40)0(0.60)(20−0) e P (X = 1) =
(
20
1
)
(0.40)1(0.60)(20−1).
Portanto, P (X ≥ 2) = 1−P (X < 2) = 1− [0.00003+0.00049] = 0.99948. Observe que se
20 coelhos forem selecionados, é esperado que 8 deles seja macho, ou seja, E(X ) =
20×0.40.
5
3 Distribuição Normal
Dizemos que a variável aleatória X segue distribuição normal com parâmetros µ e σ2,
se sua função densidade é dada por:
f (x) = 1p
2πσ2
exp−
(x−µ)2
2σ2 ,−∞< x <∞
Notação: Usaremos a notação X ∼ N (µ,σ2) para indicar que X segue distribuição
normal com parâmetros µ e σ2.
Os parâmetros µ e σ2 representam a média e a variância, respectivamente, a va-
riável aleatória X que segue distribuição normal. Assim quando indicamos que X ∼
N (µ,σ2), segue imediatamente que E(X ) =µ e Var(X ) =σ2.
Considere:
P (a É X É b) =
∫ b
a
1p
2πσ2
exp−
(x−µ)2
2σ2 d x
Entretanto a integral acima só pode ser resolvida de modo aproximado e por métodos
numéricos.Por essa razão as probabilidades para o modelo Normal são calculadas
com o auxílio de tabelas. Utiliza-se uma transformação que conduz sempre ao cálculo
de probabilidades com uma variável de parâmetros (0,1), i.e., média 0 e variância 1.
Considere X ∼ N (µ,σ2) e defina uma nova variável Z = X−µσ . Pelas propriedades
do valor esperado e da variância, segue que:
E(Z ) = E
(
X −µ
σ
)
= 1
σ
[E(X )−µ] = 0
Var(Z ) = Var
(
X −µ
σ
)
= 1
σ2
[Var(X )] = 1
Para determinar a probabilidade de X ∈ [a,b], faremos:
P (a ≤ X ≤ b) = P (a −µ≤ X −µ≤ b −µ) =
P
(
a −µ
σ
≤ X −µ
σ
≤ b −µ
σ
)
= P
(
a −µ
σ
≤ Z ≤ b −µ
σ
)
Para tabelas que disponibilizam valores para P (0 ≤ Z ≤ z), z ≥ 0, devido a simetria,
podemos calcular valores de probabilidades em outros intervalos. Note que a simetria
também implica que a probabilidade de estar acima (ou abaixo) de zero é 0.5.
6
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Exemplo 3.1. A concentração de um poluente em água liberada por uma fábrica tem
distribuição N (8,1.5). Qual a chance, de que num dado dia, a concentração do polu-
ente exceda o limite regulatório de 10 ppm?
A solução do problema resume-se em determinar a proporção da distribuição que está
acima de 10 ppm, i.e., P (X > 10). Usando a estatística z temos:
P (X > 10) = P
(
Z > 10−8
1.5
)
= P (Z > 1.33) = 1−P (Z ≤ 1.33) = 0.09
Portanto, espera-se que a água liberada pela fábrica exceda os limites regulatórios
cerca de 9% do tempo.
EXERCÍCIOS - LISTA 1
1. Uma variável aleatória tem função de densidade de probabilidade dada por: f (x) =
kx,0 < x < 5. (a) Obtenha o valor de k; (b) Obtenha P [X < 2]; (c) Obtenha
P [1,5 < X ≤ 3]; (d) Obtenha P [X ≥ 2,5]. resposta: 0.08; 0.16; 0.27; 0.75
2. A distribuição da altura de uma determinada planta segue distribuição normal
com média 29.7 cm e desvio-padrão 2.7 cm. A probabilidade de uma planta apre-
sentar altura:
a) entre 29.7 e 32 cm;
b) acima de 32 cm;
c) entre 27 e 32 cm;
d) entre 25 e 27 cm.
3. Considerando a distribuição normal padrão, obtenha as áreas abaixo:
a) Qual a área entre 0 e 1.73?
b) Qual a área entre -1.73 e 0?
c) Qual a área acima de 1.73?
d) Qual a área entre 1 e 3?
e) Qual a área entre -1 e 1?
4. Os escores obtidos em um exame de proficiência se distribuem segundo a dis-
tribuição normal com média 400 e desvio padrão 45. (a) qual a porcentagem de
pessoas com escores acima de 370? (b) qual a porcentagem de pessoas com es-
cores entre 380 e 430? (c) qual valor deve ter 30% dos escores acima dele? (d)
mantendo-se o desvio padrão, qual deveria ser o escore médio para que 10% dos
escores estejam acima de 500? Resposta: {0.7475; 0.4191; 423.6; 442.3}
7
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
5. Suponha que 5% de uma população sofre de hipertensão e que, de entre estes,
75% ingerem bebidas alcoólicas. De entre os que não são hipertensos 50% in-
gerem bebidas alcoólicas. Suponha que um indivíduo é escolhido ao acaso da
população. (a) Calcule a probabilidade de o indivíduo escolhido ingerir bebi-
das alcoólicas. (b) Sabendo que o indivíduo escolhido ingere bebidas alcoólicas,
calcule a probabilidade de sofrer de hipertensão. Resposta: {0.5125; 0.0732}
6. O peso de um certo tipo de semente de soja (expresso como peso de 1000 se-
mentes) possui média de 170g e desvio padrão de 12g . Tomando-se um lote de
1000 sementes calcule: (a) a probabilidade de que o peso esteja acima 150g ; (b)
a probabilidade de que o peso esteja entre 170 e 180g ; (c) a probabilidade de que
o peso esteja entre 165 e 180g ; (d) a probabilidade de que o peso esteja acima
190g ; (e) o valor cuja probabilidade de estar acima dele seja de 0,15; (f) Supondo
o mesmo desvio padrão, qual deveria ser o peso médio tal que a probabilidade
do lote estar abaixo de 150g fosse no máximo de 0.5%? Resposta: {: 0.9522; 0.2977;
0.4592; 0.0478; 182.4; 180.9}
7. A nota média em um exame é 74, e o desvio-padrão é 7. Se 12% da classe recebe
nota A (maiores notas), e as notas são ajustadas para seguir uma distribuição
normal, qual é o A mais baixo possível (valor inteiro) e o B mais alto possível
(valor inteiro)?
8. Em janeiro de 2003 o trabalhador norte-americano passou em média 77 horas
conectado à internet enquanto se encontrava no trabalho. Suponha que a média
populacional é de 77 horas e que os tempos estejam normalmente distribuídos
e que o desvio-padrão seja 20 horas.
a) Qual é a probabilidade de um trabalhador escolhido aleatoriamente ter pas-
sado menos de 50 horas conectados à internet? b) Qual a porcentagem de tra-
balhadores passou mais de 100 horas conectados à internet? c) Uma pessoa é
classificada como usuário intensivo se estiver entre os 20% que fazem mais uso.
Quantas horas um trabalhador deve se manter conectado à internet para ser
classificado como usuário intensivo?
9. Em uma pesquisa publicada em 2003 o hábito de assistir TV atingiu o tempo
médio diário de 8,35 horas por espectador. Utilize a distribuição normal com
desvio-padrão de 2,5 horas para responder às seguintes perguntas sobre o tempo
diário assistindo TV. a) Qual a probabilidade de que um espectador assista TV
durante 5 a 10 horas por dia? b) Por quantas horas um espectador deve assistir
TV para estar entre os 3% que mais assistem TV dentre todos os espectadores? c)
Qual é a probabilidade de que um telespectador assista TV por mais de 3 horas
por dia?
8
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
4 Questões/Motivação - Estatística Descritiva
1. O que é estatística?
2. Para que serve a estatística?
3. Onde podemos utilizar a estatística?
4. ...?
Estatística é um conjunto de métodos usados para se analisar dados. A Estatística
pode ser aplicada em praticamente todas as áreas do conhecimento humano. A pa-
lavra ‘Estatística´ tem pelo menos três significados, a saber: coleção de informações
numéricas ou dados; medidas resultantes de um conjunto de dados; métodos usados
na coleta e interpretação de dados.
5 Tipos de dados
• Dados qualitativos ou categóricos que podem ser: (a) nominais, por exemplo
sexo; (b) ordinais, i.e. categorias ordenadas, tais como, salinidade: baixa, média,
alta.
• Dados quantitativos ou numéricos (a) discretos, i.e. contagens ou número intei-
ros, por exemplo, número de ovos postos pela tartaruga marinha; (b) contínuos,
i.e. medidas numa escala contínua, por exemplo, peso.
6 Medidas
Média, variância e desvio padrão servem para resumir dados quantitativos. A média é
dada por:
x =
∑n
i=1 xi
n
= (x1 + . . .+xn)
n
,
em que x1, . . . , xn são os valores dos dados e n é o tamanho da amostra. A variância é
definida como o ‘desvio quadrático médio’ da média e é calculada de uma amostra de
dados através de
S2 =
∑n
i=1(xi −x)2
n −1 =
∑n
i=1 x
2
i −nx2
n −1 ,
o desvio padrão é dado pela raiz quadrada da variância, i.e, s =
p
s2. O coeficiente
de variação amostral (CV ) é definido como a razão do desvio padrão, s, pela média,
9
X . O coeficiente de variação é interpretado como a variabilidade dos dados em re-
lação à média. Quanto menor o CV mais homogêneo é o conjunto de dados. Usual-
mente expresso em porcentagem, indicando o percentual que o desvio padrão é menor
(100%CV< 100%) ou maior (100%CV > 100%) do que a média.
Exemplo 6.1. Sete homens foram pesados, e os resultados em kg foram: 57.0, 62.9,
63.5, 64.1, 66.1, 67.1, 73.6.
A média, x, é 454.3/7 = 64.9 kg , a variância, S2, é (29635.05-7*4212.01)/6 = 25.16 kg 2,
portanto, o desvio padrão é 5.02 kg e o coeficiente de variação é de aproximadamente
7.77%.
Uma outra forma de sumarizar dados é em termos dos quantis ou percentis. Essas
medidas são particularmente úteis para dados não simétricos. A mediana (ou percen-
til 50) é definida como o valor que divide os dados ordenados ao meio, i.e. metade dos
dados têm valores maiores do que a mediana, a outra metade tem valores menores do
que a mediana.
Adicionalmente, os quartis inferior e superior, Q1 e Q3, são definidos como os
valores abaixo dos quais estão um quarto e três quartos, respectivamente, dos dados.
Estes três valores são frequentemente usados para resumir os dados juntamente com
o mínimo e o máximo. Eles são obtidos ordenando os dados do menor para o maior,
e então conta-se o número apropriado de observações: ou seja, é (n +1)/4, (n +1)/2 e
3(n+1)/4 para o quartil inferior, mediana e quartil superior, respectivamente. Para um
número par de observações, a mediana é a média dos valores do meio (e analogamente
para os quartis inferior e superior). A medida de de dispersão é a amplitude inter-
quartis , IQR =Q3 −Q1, i.e., é a diferença entre o quartil superior e o inferior.
Exemplo 6.2. O número de crianças em 19 famílias foi 0, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4,
5, 6, 6, 7, 8, 10. A mediana é o décimo valor ((19+1) / 2), i.e., 3 crianças. O quartil infe-
rior e superior são 2 e 6 crianças (a quinta e décima quinta criança, respectivamente),
portanto amplitude inter-quartil é de 4 crianças. Note que 50% dos dados estão entre
os quartis inferior e superior.
Nem todos os conjuntos de dados são suficientemente balanceados para o cálculo
da média ou mediana. Algumas vezes, especialmente para dados de contagem, um
único valor domina a amostra. A medida de locação apropriada é então a moda, a
qual é o valor que ocorre com maior frequência. A proporção da amostra a qual toma
este valor modal deveria ser utilizada no lugar de uma medida formal de dispersão.
7 Histograma
É o método mais comum de apresentação de dados numéricos. As áreas dos retân-
gulos resultantes devem ser proporcionais à frequência. Algumas vezes é conveniente
agregar classes de frequência nos extremos da distribuição de forma que os intervalos
10
tenham larguras diferentes. Cuidado ao fazer isso - um intervalo que é duas vezes a
largura de um outro deve tem altura igual à metade de sua frequência (para preservar
a área contida dentro do intervalo). Da mesma forma um intervalo que é três vezes a
largura dos outros deve ter um terço da altura de sua frequência observada. No eixo
horizontal do histograma temos os valores dos intervalos, e as frequências absolutas
dos valores contidos nos intervalos são apresentadas no eixo vertical.
Exemplo 7.1. 150 peixes mortos foram encontrados vítimas de contaminação do rio
e seus comprimentos foram medidos em milímetros. As medidas foram expressas na
forma de tabela de frequência
Comprimento do peixe (mm) Frequência
100-109 7
110-119 16
120-129 19
130-139 31
140-149 41
150-159 23
160-169 10
170-179 3
Apresente o histograma referente aos dados dos peixes.
8 Box-plot
Box-plots são simples representações diagramáticas dos cinco números sumários: (mí-
nimo, quartil inferior, mediana, quartil superior, máximo).
A linha central do retângulo representa a mediana da distribuição, as bordas supe-
rior e inferior do retângulo representam o primeiro e terceiro quartil, respectivamente.
A altura deste retângulo é a amplitude inter-quartis (IQR), i.e., é a diferença entre o
quartil superior e o inferior. A maior parte das definições considera que pontos acima
do valor do terceiro quartil somado a 1.5 vezes a IQR, ou seja, LS =Q3+1.5(Q3−Q1) ou
os pontos abaixo do valor do primeiro quartil subtraído de 1.5 vezes a (IQR), ou seja,
LI =Q1 −1.5(Q3 −Q1) são considerados outlier.
Exemplo 8.1. Considere a varável i d ade que assume os seguintes valores: i d ade =
(21,22,24,18,19,27,22,22,23,21,23,21). Apresente o box-plot.
Resposta:
> summary(Idade)
Min. 1st Qu. Median Mean 3rd Qu. Max.
18.00 21.00 22.00 21.92 23.00 27.00
11
Portanto, temos que o primeiro quartil é 21 anos, isto quer dizer que pelo menos 25%
dos indivíduos dessa amostra tem no máximo 21 anos. Dado que o segundo quartil
é 22, temos que pelo menos 50% da amostra está acima de 22 e pelo menos 50% está
abaixo de 22. Por fim, tem que pelo menos 75% da amostra tem no máximo 23 anos. O
valor máximo da idade é 27, e o mínimo, 18. Os valores dos limites inferiores e superi-
ores são 18 e 26, respectivamente. Há um outlier que é a idade igual 27.
●
18
20
22
24
26
Boxplot: Idade
Exemplo 8.2. O conjunto de dados ‘cats’ do pacote MASS do R contém dados de gatos
adultos, pesando mais de 2 kg. Vamos considerar as variáveis peso corporal (Bwt) e
sexo (Sex) para construir o box-plot comparativo.
> summary(cats$Bwt)
Min. 1st Qu. Median Mean 3rd Qu. Max.
2.000 2.300 2.700 2.724 3.025 3.900
> table(cats$Sex)
F M
47 97
12
F M
2.
0
2.
5
3.
0
3.
5
Boxplot Comparativo: Peso x Sexo
EXERCÍCIOS - LISTA 2
1. O conjunto de dados studentdata do pacote LearnBayes do programa R contém
os registros de 657 questionários aplicados à estudantes. Os dados a seguir mos-
tra os 10 primeiros registros dos questionários.
Est. Altura Sexo Sapatos Numero Dvds Dormiu Acordou Cabelo Trab. Bebida
1 1 67 female 10 5 10 -2.5 5.5 60 30.0 water
2 2 64 female 20 7 5 1.5 8.0 0 20.0 pop
3 3 61 female 12 2 6 -1.5 7.5 48 0.0 milk
4 4 61 female 3 6 40 2.0 8.5 10 0.0 water
5 5 70 male 4 5 6 0.0 9.0 15 17.5 pop
6 6 63 female NA 3 5 1.0 8.5 25 0.0 water
7 7 61 female 12 3 53 1.5 7.5 35 20.0 water
8 8 64 female 25 4 20 0.5 7.5 25 0.0 pop
9 9 66 female 30 3 40 -0.5 7.0 30 25.0 water
10 10 65 male 10 7 22 2.5 8.5 12 0.0 milk
Est.: número do estudante
Altura: altura em polegadas
Sexo: sexo (masculino/feminino)
Sapatos: número de pares de sapato que possui
Numero: um número escolhido entre 0 e 10
13
DVDs: número de DVD's de filmes que possui
Dormiu: hora que foi dormir na noite anterior (em relação à meia noite)
Acordou: hora que acordou na manha seguinte
Cabelo: custo do ultimo corte de cabelo
Trab.: número de horas (semanais) de trabalho
Bebida: bebida usual na janta (água, leite, suco/refrigerante)
Classifique as variáveis apresentadas.
2. Os números abaixo mostram as notas de um grupo de alunos em duas avalia-
ções:
Aluno: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Prova A : 35 39 50 47 33 17 17 80 23 51 2 21 20 12 81 98 47 34
Prova B: 65 63 80 72 65 35 62 72 50 60 32 59 40 68 79 85 80 55
(a) Calcule média, variância e coeficiente de variação das notas em cada avalia-
ção;
(b) Calcule mediana, quantis, amplitude e amplitude interquartílica de cada ava-
liação;
(c) Faça box-plot para comparar as notas das duas avaliações;
(d) Usando os resultados das medidas obtidas compare o rendimento dos alunos
nas duas provas.
3. A distribuição de frequência apresentada a seguir é referente ao número de mi-
nutos que 50 assinantes da internet gastaram durante a conexão. Considerando
a distribuição de frequência, apresente:
Tabela 1: Distribuição de frequência para o tempo de uso da internet (em minutos)
Comprimento do peixe (mm) Frequência
7-18 6
19-30 10
31-42 13
43-54 8
55-66 5
67-78 6
79-90 2
a) frequência acumulada; b) frequência relativa; c) frequência acumulada rela-
tiva; d) qual o intervalo que apresenta maior e menor frequência, respectiva-
mente; e) Qual o percentual de assinantes que gastam mais do que 42 minutos
na internet? f) Qual o percentual que utiliza mais do que 78 minutos?
14
9 Questões/Motivação - Inferência Estatística
1. O que é inferência estatística?
2. Para que serve a inferência estatística?
3. O que estimação pontual?
4. O que é estimação intervalar?
5. O que testede hipótese?
A estimação pontual (por ponto) consistirá simplesmente em adotar a estimativa
disponível como sendo o valor do parâmetro. A ideia é simples, contudo a qualidade
dos resultados irá depender fundamentalmente da conveniente escolha do estimador.
Assim, dentre os vários estimadores razoáveis que poderemos imaginar para um de-
terminado parâmetro, devemos ter a preocupação de escolher aquele que melhor sa-
tisfaça às propriedades de um bom estimador.
A principal restrição da estimação pontual é que quando estimamos um parâmetro
através de um único valor numérico toda a informação presente nos dados é resumida
através deste número. É importante encontrar também um intervalo de valores plau-
síveis para o parâmetro. A ideia é construir um intervalo em torno da estimativa pon-
tual de modo que ele tenha uma probabilidade conhecida de conter o verdadeiro valor
do parâmetro. Tipicamente as distribuições amostrais de estimadores dos parâmetros
desconhecidos serão utilizadas.
10 Inferência estatística - alguns conceitos
Inferência estatística é o processo pelo qual extraímos conclusões acerca da popula-
ção usando informação de uma amostra.
A população se refere a todos os casos ou situações as quais o pesquisador quer
fazer inferências ou estimativas. Uma amostra é um subconjunto da população usado
para obter informação acerca do todo.
Pergunta: Mas exatamente por quê tomamos uma amostra? (a) custo alto para obter
informação da população toda; (b) tempo muito longo para obter informação da po-
pulação toda; (c) algumas vezes impossível, por exemplo, estudo de poluição atmosfé-
rica.
Características de uma população que diferem de um indivíduo para outro e as
quais temos interesse em estudar são chamadas variáveis, por exemplo, comprimento,
idade, temperatura, entre outros.
15
Ivanildo Marinho N
Realce
Utilizamos estimativas de uma amostra como nosso ‘chute’ para os verdadeiros va-
lores populacionais. Exemplos: a média amostral e o desvio padrão amostral que esti-
mam a verdadeira média e o desvio padrão da população (que são desconhecidos). Os
verdadeiros (desconhecidos) valores populacionais são chamados parâmetros.
11 Teorema Central do Limite
É um resultado estatístico fundamental em aplicações práticas, pois este teorema ga-
rante que mesmo que os dados não sejam distribuídos conforme uma distribuição
normal, a média dos dados converge para a distribuição normal conforme o número
de dados aumenta.
Para amostras grandes, a distribuição amostral da média pode ser aproximada pela
distribuição normal. Ou seja, considere uma amostra aleatória simples de tamanho n
retirada de uma população com média µ e variânciaσ2 (note que o modelo da variável
aleatória não é apresentado). Representando tal amostra por n variáveis aleatórias
independentes X1, · · · , Xn , e denotando sua média por X , temos pelo teorema central
do limite, que quando n for grande, a variável Z dada por
X −µ
σ/
p
n
tem distribuição aproximadamente normal com média 0 e variância 1 (N(0,1)).
Exemplo 11.1. Os camarões macho da espécie A, para serem considerados adultos,
devem apresentar um comprimento total maior ou igual a 22 mm. Suponha que numa
população de camarões machos adultos a média dos comprimentos seja igual a µ =
27,3 e desvio padrãoσ= 7,8. Pergunta-se: Qual a probabilidade de que numa amostra
de n = 35 camarões, obtenhamos uma média de X < 22.
12 Distribuição amostral da média
Estender a noção de uma distribuição amostral a situações em que amostramos de
uma distribuição normal. Considere X1, · · · , Xn uma amostra aleatória de uma distri-
buição normal com média µ e desvio padrão σ.
Suponha que estamos interessados em estimar quantas horas adicionais de sono
são garantidas a um indivíduo após ingerir uma determinada droga. Além disso, su-
ponha que a droga é testada em 20 indivíduos de modo que a média amostral X = 0,8
horas. Porém, se o estudo for repetido com outros 20 participantes podemos ter outros
resultados para a média amostral. Por exemplo, podemos ter X = 1,3. E, repetindo o
estudo novamente, poderíamos ter X = 0,2. Em termos estatísticos, haverá variação
entre as médias amostrais.
16
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Este problema poderia ser resolvido se repetíssemos o estudo muitas vezes, po-
rém isto é inviável. Quando as observações são amostradas aleatoriamente de uma
distribuição normal, a média amostral também tem uma distribuição normal. Isto
é, quando n observações são amostradas aleatoriamente de uma distribuição normal
com média µ e variância σ2, a média amostral tem distribuição normal com média µ e
variância σ2/n.
Para amostras casuais simples X1, . . . , Xn retiradas de uma população com média
µ e variância σ2, a distribuição amostral da média X se aproxima de uma distribuição
normal com média µ e variância σ2/n, quando n tende a infinito. Desta forma:
? E(X ) =µ e Var(X ) =σ2/n.
? Se X ∼ N(µ,σ2) ⇒ X ∼ N(µ,σ2/n)
Exemplo 12.1. Seja X ∼N (100,100). Seja X a média de uma amostra de 16 elementos
retirados desta população, calcule P (90 < X < 110).
Exemplo 12.2. Uma industria elétrica fabrica lâmpadas que têm vida útil distribuída
aproximadamente normal, com média igual a 800h e desvio-padrão de 40 horas. De-
termine a probabilidade de que uma amostra aleatória de 16 lâmpadas apresente vida
útil menor do que 775 horas.
Exemplo 12.3. Um importante processo industrial produz componente cilíndricos
para a industria automotiva. É importante que o processo produza peças que tenham
uma média de 5 milímetros. O engenheiro envolvido supõe que a média da população
é de 5 milímetros. Um experimento é conduzido, no qual 100 peças produzidas pelo
processo são selecionadas aleatoriamente e têm seu diâmetro medido. Sabe-se que
o diâmetro médio da amostra é de X = 5,027 milímetros. A informação da amostra
parece apoiar ou não a suposição do engenheiro?
Suponha que temos duas populações diferentes, a primeira com médiaµ1 e variân-
cia σ21, e a segunda com média µ2 e variância σ
2
2. Considere as médias amostrais, X 1 e
X 2 de tamanho n1 e n2, respectivamente. Em grandes amostras, X 1 ∼N (µ1,σ1/pn1)
e X 2 ∼N (µ2,σ2/pn2), portanto, X 1 −X 2 ∼N (µ1 −µ2,σ1/pn1 +σ2/pn2).
Exemplo 12.4. Os tubos de imagem de aparelhos de televisão fabricados pela indus-
tria A tem vida útil de 6,5 anos e desvio-padrão de 0,9 ano, enquanto aqueles fabricados
pela industria B têm vida útil de 6 anos e desvio-padrão de 0,8 ano. Qual é a probabili-
dade de que uma amostra aleatória de 36 tubos do fabricante A tenha vida útil média
de pelo menos uma ano a mais do que a vida útil média de uma amostra de 49 tubos
do fabricante B? Considere as seguintes informações: µ1 = 6,5;σ1 = 0,9;n1 = 36;µ2 =
6,0;σ2 = 0,8;n2 = 49
17
13 Distribuição amostral da proporção
A noção de uma distribuição amostral é talvez mais fácil de explicar e ilustrar quando
trabalhamos com a distribuição binomial. Para exemplificar, suponha que queremos
determinar a proporção de adultos com idade superior aos 40 que sofrem de artrite.
Logo, podemos definir uma variável aleatória X da seguinte maneira
X = 1,se o indivíduo é portador de artrite
X = 0,se o indivíduo não é portador de artrite
logo, temos que X é uma variável discreta, com distribuição de Bernoulli tal que
µ= E(X ) = p, σ2 =V ar (X ) = p(1−p).
Retirada uma amostra aleatória X1, X2, ..., Xn sem reposição de tamanho n dessa
população, e indicando por Yn o total de indivíduos portadores de artrite nessa amos-
tra, sabemos que Yn ∼B(n, p), ou seja,
P (Yn = k) =
(
n
k
)
pk (1−p)n−k .
Vamos definir por p̂ a proporção de indivíduos portadores de artrite, ou seja, p̂ =
Yn
n .
A distribuição amostral de p̂ é obtida da distribuição de Yn . Observamos que
Yn = X1 +X2 + . . .+Xn ,
em que cada Xi tem distribuição de Bernoulli com média µ= p e variância σ2 = p(1−
p) com p desconhecido. Desta forma, podemos escrever que
Yn =
n∑
i=1
Xi = n
n∑
i=1
Xi
n
= nX
Pelo Teorema Central do Limite, X terá distribuição aproximadamente normal,com média p e variância p(1−p)/n, ou seja, X ∼ N
(
p, p(1−p)n
)
. Logo, a transformação
Yn = nX terá a distribuição
Yn ∼ N (np,np(1−p)).
Podemos observar que X , na expressão acima, é a própria variável p̂ e, desse modo,
para n grande podemos considerar a distribuição amostral de p como aproximada-
mente normal
18
p̂ ∼N
(
p,
p(1−p)
n
)
Exemplo: Suponha que queremos saber a porcentagem de casamentos que terminam
em divórcio entre casais que vivem em João Pessoa. Como não temos recursos sufi-
cientes para checar todos os arquivos, vamos estimar esta porcentagem baseados em
alguns dados disponíveis. Suponha que temos dados sobre 10 casais:
X1 = 1, X2 = 0, X3 = 0, X4 = 0, X5 = 1, X6 = 0, X7 = 0, X8 = 0, X9 = 0, X10 = 1.
Isto é, o primeiro casal se divorciou, os próximos três não se divorciaram, o quinto
casal se divorciou e assim por diante. O número de divórcios entre estes casais é
10∑
i=1
Xi = 1+0+0+0+1+0+0+0+0+1 = 3,
A probabilidade estimada de um divórcio é
p̂ = 3
10
= 0,3.
Note que para a distribuição binomial, se sabemos a real probabilidade de divórcio,
p, poderíamos calcular a probabilidade de termos p̂ = 0,3 baseados em uma amostra
de tamanho 10. Quando n = 10, esta é justamente a probabilidade de observamos 3
divórcios, ou seja,
P (X = 3) =
(
10
3
)
p3(1−p)7.
Se, por exemplo, p = 0,4, então P (X = 3) = 0,215. Isto é, a probabilidade de tomarmos
p̂ = 0,3 é 0,215.
Suponha que a taxa de divórcio de uma população é p = 0,3. Imagine agora 1000
equipes de pesquisadores e suponha que cada equipe estima a taxa de divórcio base-
ada em dados de 10 casais. Neste caso, diferentes equipes de pesquisadores consegui-
rão resultados diferentes. Por exemplo, a primeira equipe consegue p̂ = 0,5, a segunda
equipe consegue p̂ = 0,1, e assim por diante. A distribuição amostral de p̂ se refere a
distribuição dos valores de p̂ que as equipes de pesquisadores conseguiriam ao con-
duzir o mesmo estudo.
Exemplo 13.1. Sabe-se que 20% das peças de um lote são defeituosas. Sorteiam-se 8
peças, com reposição, e calcula-se a proporção de peças defeituosas na amostra. Qual
será a distribuição de p̂?
19
14 Nível de confiança, precisão, tamanho da amostra e
Intervalo de Confiança
A pesquisa com adolescentes na volta às aulas em 1998 incluiu a afirmação: margem
de erro ±3.1%. A maioria das pesquisas é acompanhada por alguma afirmação se-
melhante. Além de margem de erro, podemos encontrar também: erro amostral, erro
máximo da pesquisa, erro estatístico, entre outros.
Tecnicamente a margem de erro é o termo adicionado e subtraído do estimador
para formar um intervalo de confiança. Por exemplo, usando um nível de confiança
de 95%, a margem de erro para proporção p̂, assim, margem é igual 1,96
√
p̂(1− p̂)/n.
De forma geral, podemos escrever do valor do erro amostral máximo como:
emax = Zt ab
σp
n
Diferentes pesquisadores, selecionando amostras de uma mesma população, po-
derão obter estimativas obter estimativas pontuais diferentes para o mesmo parâme-
tro populacional. Isto está relacionado com o que denominamos de variabilidade
amostral do estimador pontual. Uma forma mais apropriada seria construir um es-
timador que levasse em consideração essa variabilidade. Este seria o estimador por
intervalo que combina o estimador pontual com o erro amostral máximo esperado.
Os limites inferir (LI) e o superior (LS) de um intervalo de confiança para um parâ-
metro θ é dado por: LI = θ̂−emax e LS = θ̂+emax.
Podemos estar nos perguntando: Por que seguir um nível de confiança de 95%
quando de pode chegar a um nível de 99%? Porque o ‘preço pago’ pelo nível de con-
fiança maior é um intervalo mais largo. Em virtude do intervalo de 95% estender-se
1,96σ/
p
n a cada lado de X , a amplitude do intervalo é 2(1,96)σ/
p
n = 3,92σ/pn. De
maneira semelhante, a amplitude do intervalo de confiança de 99% é 2(2,58)σ/
p
n =
5,16σ/
p
n. Isto é, teremos mais confiança no intervalo de 99% exatamente porque ele
é mais largo. Assim quanto maior o grau de confiança desejado, mais largo é o intervalo
resultante.
Se imaginarmos a amplitude do intervalo como a especificação de sua precisão ou
acurácia, então o nível de confiança estará inversamente relacionado a sua precisão.
Dessa forma, não podemos dizer que o intervalo de 99% será preferível a um intervalo
de 95% porque o ganho na confiabilidade exige perda na precisão.
14.1 Intervalo de confiança para média populacional
Aqui precisamos considerar dois casos:
1. Desvio padrão da população é conhecido (usar tabela da normal);
20
Ivanildo Marinho N
Realce
2. Desvio padrão da população não é conhecido (usar tabela da distribuição t ).
Consideremos uma amostra aleatória simples X1, ..., Xn obtida de uma população
com distribuição Normal, com média µ e variância σ2 conhecida. Desta forma, a dis-
tribuição amostral da média também é Normal com média µ e variância σ2, ou seja
X ∼ N
(
µ,
σ2
n
)
.
Assim, temos que
Z = X −µσp
n
∼ N (0,1),
isto é, a variável Z tem distribuição Normal padronizada.
Consideremos que a probabilidade da variável Z tomar valores entre −Zα/2 e Zα/2
é 1−α.
Então, temos que
P [−Zα/2 ≤ Z ≤ Zα/2] = (1−α)
ou seja,
P
[
−Zα/2 ≤ X −µσp
n
≤ Zα/2
]
= (1−α)
o que implica que
P
[
X −Zα/2 σp
n
≤µ≤ X +Zα/2 σp
n
]
= 1−α.
Com isso, o intervalo de confiança da média com desvio-padrão conhecido é dado por
IC (µ,1−α) =
(
X −Zα/2 σp
n
; X +Zα/2 σp
n
)
.
Exemplo 14.1. A distribuição dos pesos de pacotes de sementes de milho, enchidos
automaticamente por uma certa máquina, é normal com desvio padrão, σ, conhecido
e igual a 0,20kg. Uma amostra de 15 pacotes retirada ao acaso apresentou os seguintes
pesos, em kg: 20,05;20,10;20,25;19,78;19,69;19,90;20,20;19,89;19,70;20,30;19,93;
20,25;20,18;20,01;20,09. Construir os intervalos de confiança de 95% e 99% para o
peso médio dos pacotes de sementes de milho.
Exemplo 14.2. Uma amostra aleatória simples de 50 itens de uma população com
desvio-padrão populacional igual a 6, resultou em uma média amostral igual a 32.
Apresente o intervalo de confiança de 90%, 95% e 99% para média populacional.
21
Exemplo 14.3. Sabe-se que o intercalo de confiança de 95% para uma média popu-
lacional é de 152 a 160. Se σ = 15, qual o tamanho amostral que foi utilizado nesse
estudo?
Em muitas situações quando desenvolvemos a estimativa intervalar de uma média
populacional, geralmente não temos boa estimativa do desvio padrão populacional.
Nesses casos, nós precisamos usar a mesma amostra para estimar µ e σ. Essa situação
representa o caso de σ desconhecido. Quando o desvio padrão amostral, s, é utilizado
para obter a margem de erro e a estimativa intervalar da média populacional se baseia
em uma distribuição de probabilidade conhecida por distribuição t que depende do
parâmetro conhecido como graus de liberdade. À medida que o número de graus de li-
berdade aumenta, a diferença entre a distribuição t e normal se torna cada vez menor.
O intervalo de confiança da média com desvio-padrão desconhecido é dado por:
IC (µ,1−α) =
(
X − tα/2 sp
n
; X + tα/2 sp
n
)
,
em que s é o desvio-padrão amostral dado por s =
√∑n
i=1(Xi−X )2
n−1 , (1−α) é o coeficiente
de confiança, tα/2 é o valor t que produz uma área igual a α/2 na cauda superior da
distribuição t , com n −1 graus de liberdade.
Exemplo 14.4. Uma amostra do tempo de treinamento, em dias, de 20 funcionários
da empresa A foi selecionada, a saber: 52, 59, 54, 42, 44, 50, 42, 48, 55, 54, 60, 55, 44, 62,
62, 57, 45, 46, 43, 56. Apresente a estimativa pontual da média amostral, a margem de
erro e a estimativa intervalar para média ao nível de 95% de confiança.
Exemplo 14.5. Encontre os valores t para os seguintes casos: a) Área da cauda superior
igual a 0,025 com 12 graus de liberdade; b) Área da cauda inferior igual a 0,05 com 50
graus de liberdade; c) Área da cauda superior igual a 0,01 com 30 graus de liberdade.
Exemplo 14.6. Uma amostra aleatória simples com n = 54 produziu a média amostral
igual a 22,5 e o desvio padrão amostral igual a 4,4. Apresente ointervalo de confiança
de 90%, 95% e 99% para média amostral. O que ocorre com a margem de erro e o
intervalo de confiança quando o grau de confiança é aumentado?
Se X 1 e X 2 são médias de amostras aleatórias independentes de tamanho n1 e n2
de populações com variâncias conhecidas σ21 e σ
2
2, respectivamente, o intervalo de
confiança de 100(1−α)% para µ1 −µ2 é dado por:
IC (µ1 −µ2,1−α) =
(X 1 −X 2)− zα/2
√
σ21
n1
+ σ
2
2
n2
; (X 1 −X 2)+ zα/2
√
σ21
n1
+ σ
2
2
n2
 ,
22
Ivanildo Marinho N
Realce
14.2 Intervalo de confiança da proporção
O parâmetro de p é a proporção de todos os indivíduos na população com a caracte-
rística de interesse. A estimativa de p é a proporção amostral p̂, a proporção de in-
divíduos incluídos na pesquisa com aquela característica. Quando n é grande, temos
que a distribuição de p̂−pp
p(1−p)/n é aproximadamente N (0,1). Portanto, o intervalo de
confiança para proporção é dado por p̂ ± ztabep(p̂), em que ep = zα/2
√
p̂(1− p̂)/n.
Exemplo 14.7. Suponha que queremos estimar a proporção da população portadora
de hepatite B, usando uma amostra aleatória dessa população. Queremos que o ta-
manho da amostra seja grande o suficiente, de modo que a margem de erro de nossa
estimativa seja aceitável, digamos, não maior do que 3%.
Lembrem-se: sabemos que o intervalo de confiança da proporção é dado por: p̂ ±
ztabep(p̂). Portanto, queremos que ztabep(p̂) < 0,03.
Note que não temos informações sobre p̂. Neste caso é razoável fazermos p̂ = 0.5.
Então, considerando os dados da questão, temos:
O tamanho mínimo da amostra é aproximadamente 1067 ((1,96/0,03)2x0,5x0,5).
Pergunta: O que você achou o valor do tamanho amostral encontrado? Grande?
Nota: O uso de p = 0.5 é uma ‘é uma adivinhação segura’ que garante que uma margem
de erro não maior do que o emax. Se você soubesse que a verdadeira proporção está
próxima de 0 ou 1, usar p = 0.5 lhe conduzirá a tomar uma amostra muito maior (mais
cara) do que o estritamente necessário.
Exemplo 14.8. Considerando os dados da questão anterior, obtenha o tamanho amos-
tral necessário quando: a) p = 0,3; n ∼= 896 b) p = 0,9 n ∼= 384.
Exemplo 14.9. Uma amostra aleatória simples de 400 pessoas apresentou 100 res-
postas ‘SIM’. Qual a estimativa pontual da proporção da população populacional que
apresentou resposta ‘SIM’? Qual a estimativa do desvio padrão da população? Apre-
sente a estimativa intervalar para populacional ao nível de confiança de 95%?
EXERCÍCIOS - LISTA 2
1. Uma a.a. de tamanho n = 100 observações é selecionada a partir de uma popu-
lação com média igual a 30 e desvio padrão igual a 16. Apresente as seguintes
probabilidades:
a) P (X ≥ 28) (0.8944)
23
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
b) P (22.1 ≤ X ≤ 26.8) (0.0228)
c) P (X ≤ 28.2) (0.1292)
d) P (X ≥ 27) (0.9699)
2. Um fabricante de baterias de automóveis alega que a distribuição de vida útil das
baterias tem média de 54 meses e do desvio-padrão de 6 meses. Recentemente,
o fabricante recebeu muitas reclamações de clientes insatisfeitos cujas baterias
pararam de funcionar antes do esperado. Suponha que o grupo de consumidores
decida checar a alegação do fabricante comparando uma amostra de 50 dessas
baterias e sujeitando-as a testes para determinar sua vida útil.
a) Presumindo que a alegação do fabricante seja verdadeira, descreva a distribui-
ção amostral da média de vida útil da amostra de 50 baterias. (N (54,0.72))
b) Presumindo que a alegação do fabricante seja verdadeira, qual a probabili-
dade que a amostra do grupo de consumidores tenha uma média de 52 ou menos
meses? (0.0094)
3. Em um teste de matemática os estudantes tiveram um média de mudanças na
pontuação de +19 pontos, com desvio-padrão de 65 pontos. Em uma amostra
aleatória de 100 alunos que pagam um tutor particular para melhorar suas notas,
qual a probabilidade de que a mudança na pontuação média seja menor que 10
pontos? (0.0838)
4. Uma candidata politica recebeu 60% dos votos na ultima eleição. Ela agora quer
avaliar a opinião publica sobre várias questões e quer para isto, extrair uma amos-
tra aleatória de n eleitores. Umas das questões que ela levantará é se eles votaram
nela na última eleição.
a) Qual é a distribuição amostral aproximada da proporção de eleitores na amos-
tra que votam nessa candidata? Resposta: p̂ ∼N (0,60;0,60.0,40/n)
b) Se n = 200, qual é a probabilidade de se obter uma amostra na qual pelo me-
nos 50% votaram nela? Resposta: 0,9977
5. Um importador japonês acabou de fazer um pedido de compra de mexilhões,
cujos pesos têm média 100g e um desvio padrão de 15g. Os mexilhões são aco-
modados em caixa de 50 para serem fretados para o Japão. Cada caixa será pe-
sada na chegada e rejeitada se o peso médio dos mexilhões na caixa for inferior
a 97g. Que percentagem de caixa seria rejeitada?
Resposta: 0,9207
6. Os tempos de atendimento de fregueses no caixa de um supermercado são va-
riáveis aleatórias independentes com valor esperado de 3,1 minutos e desvio pa-
drão de 1,2 minuto. Uma amostra de 50 fregueses é selecionada. Qual é a proba-
24
bilidade de que o tempo médio de serviço para estes 50 fregueses seja inferior a
3,3 minutos?
Resposta: 0,8810
7. A probabilidade de um paciente se recuperar de uma delicada operação cardíaca
é de 0,9. Dos próximo 100 pacientes operados, qual é a probabilidade de que:
a) entre 84 e 95, inclusive, sobrevivam? Resposta: 0,9297
b) pelo menos 86 sobrevivam? Resposta:0,0917
8. Um processo de encher garrafas de vinho fornece 10% de garrafas com volume
abaixo do especificado. Extraída uma amostra de 400 garrafas enchidas por esse
processo, qual a probabilidade de que a proporção amostral de garrafas com vo-
lume abaixo do especificado estar entre 0.09 e 0.11? Resposta: 0.4972
9. Sabe-se que num processo de industrialização de pêssegos em latas, a probabi-
lidade de apresentar peso drenado fora dos padrões é 0.05. Qual a probabilidade
de, em uma amostra de 500 latas, apresentarem-se fora dos padrões:
a) 6% ou mais das latas? Resposta: 0.1515
b) 4% ou menos das latas? Resposta: 0.1515
10. Camarões machos para serem considerados adultos, devem apresentar um com-
primento total maior ou igual a 22 mm. Suponha que numa população de ca-
marões machos adultos a média dos comprimentos seja igual a 3 mm e desvio
padrão 7.8 mm. Pergunta-se:
a) Qual a probabilidade de que numa amostra de n = 35 camarões, obtenhamos
uma média menor que 22 mm? Resposta: 0.00003
b) Qual deve ser o valor da média do comprimento total, µ, tal que P (X̄ ≥ 22) =
0.05 ? Resposta: 24.2 mm
11. Um grande lote de frangos vem sendo tratado com uma determinada ração. Sa-
bendo que o desvio padrão de ganho de peso no período de um mês é de 2 Kg,
qual a probabilidade de que a média de uma amostra aleatória de 25 desses fran-
gos, difira da média de todo o lote em 0.5 Kg ou mais, i.e., P (|X̄ −µ| ≤ 0.5) Resposta:
0.2112 mm
12. Cerca de 75% de todos os pacientes que têm corações femininos transplantados
vão sobreviver no mínimo três anos. Noventa pacientes com corações femininos
transplantados são escolhidos aleatoriamente. Qual é a probabilidade de que a
proporção de amostra para sobrevivência por no minimo três anos seja menor
que 70%? Resposta: 0.1357
13. Foram escolhidos ao acaso 500 animais (bovinos) de uma região para estimar a
proporção de com propensão à uma certa doença. Destes, 120 testaram positivo.
(a) Obtenha a estimativa pontual do percentual de susceptíveis na população.
25
(b) Obtenha a estimativa intervalar (com confiança de 95%) do percentual de
susceptíveis na população. (c) Repita o item anterior considerando a confiança
de 80%. (d) Para obter uma margem de erro de 1,5% para 95% de confian ça.
Quantos animais adicionais devem ser selecionados e testados? resposta: 0,24;
(0,203;0,277); (0,216;0,264); 3115
14. Qual o tamanho amostral deve ser selecionado para produzir um intervalo de
confiança de 95% com a margem de erro igual a 10? Suponha que o desvio-
padrão populacional seja de 40. resposta:15. Qual o tamanho amostral deve ser selecionado para produzir um intervalo de
confiança de 95% com a margem de erro igual a 10? Suponha que o desvio-
padrão populacional seja de 40. resposta:
16. Considerando o desvio-padrão populacional igual a 4, qual o tamanho amostral
fornece uma margem de erro igual a 3 se o nível de confiança for de 95%? Qual
seria o tamanho da amostra se a margem de erro for igual a 2? O que você pode
concluir? resposta: 35; 78
17. O custo médio e um galão de álcool na região A foi relatado como sendo 2,41
reais. Durante o período que os preços se modificam rapidamente, o jornal uma
amostragem nos postos de gasolina e prepara relatórios sobre os preços de galão
de álcool. Suponha que o desvio-padrão seja de 0,15 centavos de reais, reco-
mende o tamanho amostral amostral para o jornal utilizar, caso deseje relatar
uma margem de erro com confiança de 95%. a) Suponha que a margem de erro
seja de 0,07; b) Suponha que a margem de erro seja de 0,05 e c) Suponha que a
margem de erro seja de 0,03. resposta: 18;35;97
18. Uma empresa de consultoria conduziu um estudo por telefone envolvendo 2000
adultos com a finalidade de saber sobre as principais preocupações econômicas
relacionadas ao futuro. Dos adultos entrevistados, 1760 acreditam que o futuro
equilíbrio do Seguro Social é uma importante preocupação econômica. Apre-
sente o intervalo de confiança de 90% e 95% para proporção de adultos que acre-
ditam que o futuro equilíbrio do Seguro Social é uma importante preocupação
econômica. O que você pode concluir sobre a margem de erro considerando os
níveis de confiança de 90% e 95%? resposta: [0,88±0,0120]; [0,88±0,0142].
19. A porcentagem de pessoas que não tinham cobertura de seguro saúde em 2003
era de 15,6%. Um comitê do Congresso foi encarregado de realizar uma pesquisa
para obter informações mais atuais. Qual o tamanho amostral você recomenda
se o objetivo do comitê for obter a estimativa da proporção atual de indivíduos
que de indivíduos que não têm seguro saúde com a margem de erro de 0,03,
considere os níveis de confiança de 95% e 99%? resposta: 562; 971.
26
20. Uma pesquisa realizada com 369 pais trabalhadores, revelou que 200 deles dis-
seram dedicar pouquíssimo tempo aos filhos em razão dos compromissos de
trabalho. Qual a estimativa pontual da proporção populacional de pais traba-
lhadores que afirmam se dedicar pouco tempo aos filhos? Qual a margem de
erro e a estimativa intervalar ao nível de confiança de 95%? resposta: 0,5420; 0,0508,
[0,4912;0,5928].
21. Ao entrevistar 49 membros de uma categoria profissional, um pesquisador en-
controu um salário médio de R$820,00. O desvio padrão dos salários dessa ca-
tegoria é de R$140,00. Construa o intervalo de confiança para média. Adote a
confiança de 80% e de 90%. O que você pode observar nos dois intervalos cons-
truídos? Qual o tamanho amostral necessário para que mantidos os 90% de con-
fiança, a margem de erro seja de no máximo 20? Resposta: [794,4; 845,6]; [787,1;852,9];
133
22. Uma amostra aleatória de 100 proprietários de automóveis mostra que, no Es-
tado da Virgínia, im automóvel é dirigido a uma média de 23500 quilômetros por
ano, com desvio-padrão de 3900 quilômetros. Assuma a distribuição das medi-
das como sendo aproximadamente normal.
a) Construa um intervalo de confiança de 99% para o número médio de quilô-
metros que um automóvel percorre anualmente no Estado da Virgínia. Resposta:
[22497,7;24502,3]
b) O que podemos afirmar com 99% de confiança sobre o tamanho possível de
nosso erro se estimarmos o número médio de quilômetros percorridos pelos
proprietários de automóveis como sendo 23500 quilômetros por ano? Resposta:
1002,3
23. Uma amostra aleatória de 200 eleitores é selecionada e 114 apoiam um processo
de anexação. Determine o intervalo de confiança de 96% para fração da popu-
lação de eleitores que votam a favor do processo. Resposta: [0,498; 0,641] O que
podemos afirmar com 96% de confiança sobre o possível tamanho do erro se es-
timarmos a fração de eleitores a favor anexação como sendo 0,57? Resposta: 0,007
24. Assuma que a porosidade do hélio (em porcentagem) das amostras de carvão
tiradas de qualquer junta específica seja normalmente distribuída com desvio
padrão igual a 0,75.
a) Calcule o IC de 95% da porosidade média real de uma junta, caso a porosidade
média de 20 especie seja 4,85. Resposta: (4,52;5,18)
b) Calcule o IC de 98% da porosidade média real de outra junta com base 16
especies com média amostral de porosidade de 4,56. Resposta: (4,12;5,00)
c) Que tamanho de amostra é necessário para estimar a porosidade média real
dentro de 0,2 com confiança de 99%? Resposta: 93
27
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
25. Em certo lago, uma amostra aleatória de 1000 peixes acusou 290 tilápias. Cons-
trua um intervalo de 95% de confiança para a verdadeira proporção de tilápias
na população piscosa do lago. Interprete o intervalo de confiança. Adote a con-
fiança de 95% Resposta: [0,26; 0,32].
26. Em uma pesquisa publicada relatou que em n = 48 tentativas em um laborató-
rio específico, 16 resultaram em ignição de um tipo específico de substrato por
um cigarro aceso. Seja p a proporção no longo prazo de todas as tentativas que
resultariam em ignição. Qual a estimativa da proporção? Qual o intervalo de
confiança de p com nível de confiança de 95%? Resposta: 0,333; [0,20; 0,47].
28
Ivanildo Marinho N
Realce
7
Estatística Aplicada
Larson Farber
Teste de hipóteses
Seção 7.1
Uma hipótese estatística é uma alegação
sobre uma população.
A hipótese alternativa Ha 
contém uma afirmativa de 
desigualdade, tal como
< , ou >.
A hipótese nula H0
contém uma alternativa de 
igualdade, tal como
, = ou .
Afirmativas complementares
Se eu sou verdadeiro, 
você é falso.
Se eu sou falso, 
você é verdadeiro.
Uma revista de consumidores alega que a proporção 
das chamadas telefônicas via celular feitas durante as 
tardes e os fins de semana é de no máximo 60%.
Estabeleça uma alegação sobre a população. Em seguida, estabeleça 
seu complemento. Cada hipótese, tanto a nula quanto a alternativa, 
pode representar a alegação.
Um hospital alega que o tempo de resposta de sua 
ambulância é inferior a dez minutos.
Estabelecendo hipóteses
(alegação)
(alegação)
H0
Ha
H0
Ha
0,60
0,60
min
min
Antes de mais nada, admita que a condição de igualdade na hipótese 
nula é verdadeira. Não importa se a alegação está representada pela 
hipótese nula ou pela alternativa. 
Estratégia para o
teste de hipóteses
Colha os dados de uma amostra aleatória, retirada da 
população, e calcule as estatísticas amostrais cabíveis.
Se a estatística amostral tiver baixa probabilidade de ser
extraída de uma população na qual a hipótese nula seja 
verdadeira, você rejeitará H0. (Em conseqüência, você 
aceitará a hipótese alternativa.) 
Se a probabilidade não for baixa o bastante, você não poderá 
rejeitar H0.
Erro do tipo I: A hipótese nula é realmente 
verdadeira, mas optou-se por rejeitá-la.
Nível de significância, 
Probabilidade máxima de se cometer um erro do 
tipo I.
Verdade real de H0
Erros e nível de significância
H0 verdadeira H0 falsa
Não 
rejeitar H0
Rejeitar H0
Decisão
correta
Decisão
correta
Erro do 
tipo II
Erro do 
tipo I
Teste monocaudal 
direito
Teste bicaudal
Teste monocaudal 
esquerdo
Tipos de teste de hipóteses
Ha é mais provável.
Ha é mais provável.
Ha é mais provável.
Ha
Ha
valor
valor
valorHa
O valor P é a probabilidade de se obter uma estatística 
amostral com um valor tão ou mais extremo que o 
determinado pelos dados da amostra. 
Se z é negativo, P 
é o dobro da área 
da cauda 
esquerda.
Se z é positivo, P é 
o dobro da área da 
cauda direita.
Valores P
Valor P = área indicada
z z
zz
Área na
cauda 
esquerda.
Área na
cauda 
direita.
Em um teste monocaudal esquerdo. Em umteste monocaudal direito.
Em um teste bicaudal.
Determinando valores P: 
teste monocaudal
A estatística teste para um teste monocaudal direito é z = 
1,56. Determine o valor P.
A área à direita de z = 1,56 é 1 0,9406 = 0,0594.
Logo, o valor P é 0,0594.
z = 1,56
Área na cauda direita.
A estatística teste para um teste bicaudal é z = 2,63. 
Determine o correspondente valor P.
A área à esquerda de z = 2,63 é 0,0043.
O valor P é 2(0,0043) = 0,0086.
Determinando valores P: 
teste bicaudal
z = 2,63
Decisões baseadas no valor P
Após comparar o valor P ao valor de , o nível de 
significância do teste, podemos decidir se há 
evidência suficiente para rejeitar a hipótese nula.
Se , não rejeite a hipótese nula.
Se , rejeite a hipótese nula.P
P
O valor P de um teste de hipóteses é 0,0749. Tome sua 
decisão a um nível de significância de 0,05.
Compare o valor P a . Como 0,0749 > 0,05, não rejeite H0.
Se P = 0,0246, qual será sua decisão se:
1) Como , rejeite H0.
2) Como 0,0246 > 0,01, não rejeite H0.
Usando os valores P
0,05 0,01
0,05,0,0246
Há evidência 
suficiente para 
rejeitar a 
alegação.
Alegação
Interpretando a decisão
A alegação é H0 A alegação é Ha
Rejeite H0
Não 
rejeite H0
Não há 
evidência 
suficiente para 
rejeitar a 
alegação.
Há evidência 
suficiente para 
aceitar a 
alegação.
Não há 
evidência 
suficiente para 
aceitar a 
alegação.
1. Estabeleça as hipóteses alternativa e nula.
2. Estabeleça o nível de significância.
3. Identifique a distribuição amostral.
Escreva H0 e Ha como afirmativas matemáticas. 
Lembre que H0 sempre contém o símbolo =.
Ele representa a probabilidade máxima de se rejeitar a 
hipótese nula, caso ela seja a realmente verdadeira (ou 
seja, de se cometer um erro do tipo I).
A distribuição amostral é a distribuição da estatística 
teste, supondo-se que a condição de igualdade na H0 
seja verdadeira e que o experimento foi repetido infinitas 
vezes. 
Etapas do teste de hipóteses
4. Determine a estatística teste e padronize-a.
Faça os cálculos para padronizar sua estatística amostral.
5. Calcule o valor P da estatística teste.
Ele representa a probabilidade de se obter a estatística 
teste (ou outro valor mais extremo) na distribuição 
amostral.
Se o valor P for menor que (o nível de 
significância), rejeite H0. 
Se o valor P for maior que , não rejeite H0.
6. Tome sua decisão.
7. Interprete sua decisão.
Se a alegação for a hipótese nula, você poderá rejeitá-la 
ou determinar que não há evidência suficiente para isso.
Se a alegação for a hipótese alternativa, você poderá 
aceitá-la ou determinar que não há evidência suficiente 
para isso.
Seção 7.2
O teste z para 
determinar a média
O teste z é um teste estatístico capaz de determinar a média 
populacional. Ele pode ser usado:
(1) se a população é normal e s é conhecido ou
(2) quando o tamanho da amostra, n, é de pelo menos 30. 
A estatística teste é a média amostral e a estatística teste 
padronizada é z.
Quando n 30, use s no lugar de .
onde
Um fabricante de cereais alega que a média de sódio em cada 
porção de seu produto não passa de 230 mg. Você trabalha 
para um serviço nacional de saúde e precisa testar essa 
alegação. Em uma amostra aleatória de 52 porções, você 
encontrou uma média de 232 mg de sódio, com um desvio 
padrão de 10 mg. Sendo = 0,05, você tem evidência 
suficiente para rejeitar a alegação do fabricante?
1. Escreva as hipóteses nula e alternativa.
2. Estabeleça o nível de significância. = 0,05
3. Determine a distribuição amostral.
Como o tamanho da amostra é maior que 30, a distribuição amostral será 
normal.
O teste z para determinar
a média (valor P)
HaH0 mg mg(alegação)
4. Determine a estatística teste e padronize-a.
5. Calcule o valor P para a estatística teste.
Como se trata de um teste monocaudal 
direito, o valor P será a área encontrada 
à direita de z = 1,44 na distribuição 
normal. A partir da tabela, temos que P 
= 1 0,9251
n = 52
s = 10
Estatística teste
z = 1,44
Área na cauda 
direita.
P = 0,0749.
1,387
1,44
1,387
6. Tome sua decisão.
7. Interprete sua decisão.
Compare o valor P a . 
Como 0,0749 > 0,05, não rejeite H0.
Não há evidência suficiente para rejeitar a alegação do 
fabricante de que a média de sódio em cada porção de 
cereal não passa de 230 mg.
Distribuição amostral de 
A região de rejeição é o intervalo de valores para os 
quais a hipótese nula não é provável. Ela fica sempre 
na direção da hipótese alternativa e sua área é igual 
a . 
Um valor crítico separa as regiões de rejeição e de 
não-rejeição.
Regiões de rejeição
Região de rejeição
Valor crítico z0z z0
Um valor crítico z0 separa as regiões de rejeição e de 
não-rejeição. A área da região de rejeição é .
Determine z0 para um teste 
monocaudal esquerdo com = 0,01. 
Determine z0 e z0 para um teste bicaudal com = 0,01. 
z0 = 2,33 z0 = 2,575 
e z0 = 2,575
z0 = 1,645
Valores críticos
z0 z0
Região de
rejeição
Região de
rejeição
z0z0
Região de
rejeição
Região de 
rejeição
Determine z0 para um teste 
monocaudal direito com = 0,05.
1. Estabeleça as hipóteses nula e alternativa.
2. Estabeleça o nível de significância.
3. Identifique a distribuição amostral.
Escreva H0 e Ha como afirmativas matemáticas. 
Lembre-se de que H0 sempre contém o símbolo =.
Ele representa a probabilidade máxima de se rejeitar a 
hipótese nula, caso ela seja a realmente verdadeira (ou 
seja, de se cometer um erro do tipo I).
A distribuição amostral é a distribuição da estatística 
teste, supondo-se que a condição de igualdade na H0 é 
verdadeira e que o experimento foi repetido infinitas 
vezes. 
Usando o valor crítico para tomar decisões
6. Determine a estatística teste.
5. Determine a região 
de rejeição.
4. Determine o valor 
crítico. 
O valor crítico separa 
as regiões de rejeição 
e de não-rejeição. A 
área da região crítica é 
igual ao nível de 
significância do teste.
Faça os cálculos para padronizar sua estatística amostral.
z0
Região de rejeição
7. Tome sua decisão.
8. Interprete sua decisão.
Se a estatística teste cair na região crítica, rejeite H0. 
Caso contrário, não rejeite H0. 
Se a alegação for a hipótese nula, você pode rejeitá-la 
ou determinar que não há evidência suficiente para isso.
Se a alegação for a hipótese alternativa, você pode 
aceitá-la ou determinar que não há evidência 
suficiente para isso.
Um fabricante de cereais alega que a média de sódio em cada porção 
de seu produto não passa de 230 mg. Você trabalha para um serviço 
nacional de saúde e precisa testar essa alegação. Em uma amostra 
aleatória de 52 porções, você encontrou uma média de 232 mg de 
sódio, com um desvio padrão de 10 mg. 
Sendo = 0,05, você tem evidência suficiente para rejeitar a 
alegação do fabricante?
2. Estabeleça o nível de significância. = 0,05
3. Determine a distribuição amostral.
Como o tamanho da amostra é maior que 30, a distribuição amostral 
será normal.
Usando o teste z para 
determinar a média
1. Escreva as hipóteses nula e alternativa.
H0 mg mg(alegação) Ha
n = 52 = 232 s = 10
7. Tome sua decisão.
6. Determine a estatística teste e padronize-a.
8. Interprete sua decisão.
5. Determine a região de 
rejeição.
Região de
rejeição
Como Ha contém o símbolo >, trata-se de um teste monocaudal 
direito.
z = 1,44 não cai na região de rejeição, portanto não rejeite H0.
Não há evidência suficiente para rejeitar a alegação do fabricante de 
que a média de sódio em cada porção de cereal não passa de 230 mg.
1,645
4. Determine o valor 
crítico. 
z0
Usando o valor P de um teste
para comparar áreas
z0
Região de rejeição 
0,05
z0 = 1,645
z
z = 1,23
Para tomar uma decisão com base no valor crítico, descubra se 
z está na região de rejeição.
Em caso positivo, rejeite H0 e, em caso negativo, não rejeite H0.
= 0,05
Para tomar uma decisão com base no valor P, compare as 
áreas.
Se , rejeite H0. Se , nãorejeite H0.
P = 0,1093
Seção 7.3
Determine o valor crítico t0 para um teste monocaudal 
esquerdo, dados = 0,01 e n = 18.
Determine os valores críticos t0 e t0 para um teste 
bicaudal, dados 
g.l. = 18 1 = 17
t0
t0 = 2,567 
g.l. = 11 1 = 10
t0 = 2,228 e t0 = 2,228 
A distribuição amostral t
= 0,05 e n = 11.
Área na 
cauda 
esquerda
t0 t0
Uma universidade diz que o número médio de horas-aula por 
semana, nos cursos de período integral, é 11,0. Uma amostra 
aleatória do número de horas-aula por semana, nos cursos de 
período integral, está relacionada a seguir. Solicitam a você, 
que trabalha em uma organização estudantil, que teste essa 
alegação. Sendo = 0,01, você tem evidência suficiente para 
rejeitar a alegação da universidade?
11,8 8,6 12,6 7,9 6,4 10,4 13,6 9,1 
1. Estabeleça as hipóteses nula e alternativa.
2. Estabeleça o nível de significância. = 0,01
3. Determine a distribuição amostral.
Como o tamanho da amostra é 8, a distribuição amostral 
é uma distribuição t com 8 1 = 7 g.l.
Testando em uma
amostra pequena
HaH0 (alegação)11,0 11,0
t = 1,08 não cai na região de rejeição, portanto não rejeite H0 a = 0,01
n = 8 = 10,050 s = 2,485
7. Tome sua decisão.
6. Determine a estatística teste e padronize-a.
8. Interprete sua decisão.
Não há evidência suficiente para rejeitar a alegação da 
universidade de que o curso tem uma média de 11 horas-aula 
semanais. 
5. Determine a região de 
rejeição.
Como Ha -se de um teste 
bicaudal.
4. Determine os valores críticos. 
3,499 3,499
t0t0
0,878
10,050 11,0 0,95
1,08
2,485
Teste t para determinar a média
Test of = 11.000 vs not = 11.000
Variable N Mean StDev SE Mean T P
Hours 8 0.050 2.485 0.879 1.08 0.32
Escolha teste t no menu STAT.
O Minitab registra a estatística t e o valor P.
Como o valor P é maior que o nível de 
significância (0,32 > 0,01), você não deve 
rejeitar a hipótese nula a um nível de 
significância de 0,01.
Solução no Minitab
Seção 7.4
p é a proporção populacional de sucessos. A 
estatística teste é .
Se e , a distribuição amostral de é normal.
Teste para 
determinar proporções
A estatística teste 
padronizada é:
(a proporção de sucessos na amostra)
Teste para 
determinar proporções
Um porta-voz do setor de comunicações alega que 
mais de 40% dos norte-americanos têm celular próprio 
ou, pelo menos, têm alguém na família com celular. Em 
um levantamento aleatório de 1.036 norte-americanos, 
456 disseram que eles ou alguém da família tinham um 
celular. Teste a alegação do porta-voz a = 0,05. O 
que você pode concluir?
1. Escreva as hipóteses nula e alternativa.
2. Estabeleça o nível de significância.
= 0,05
H0 Ha0,40 0,40 (alegação)
3. Determine a distribuição amostral.
7. Tome sua decisão.
6. Determine a estatística teste e padronize-a.
8. Interprete sua decisão.
z = 2,63 cai na região de rejeição, portanto rejeite H0.
Há evidência suficiente para aceitar a alegação de que mais de 40% dos norte-
americanos têm celular próprio ou, pelo menos, têm alguém na família com 
celular.
1.036(0,40) > 5 e 1.036(0,60) > 5. A distribuição amostral é normal.
n = 1.036 x = 456
4. Determine o valor crítico. 
1,645
5. Determine a região de rejeição.
Região de
rejeição
1.036
0,44
0,44 0,40 0,04
0,01522
2,63
1.036
(0,40) (0,60)
EXERCÍCIOS - LISTA 3
1. Suponha que um alergologista deseja testar a hipótese de que pelo menos 30%
das pessoas são alérgicas a alguns produtos feitos de queijo. Explique como o
alergologista poderia cometer o erro tipo I e o erro tipo II.
2. Uma grande indústria está sendo acusada de práticas discriminatórias em seu
processo de contração. Que hipótese está sendo testada se o júri comete on erro
tipo I ao concluir que a empresa é culpada? Que hipótese está sendo testada se
o júri comete on erro tipo II ao concluir que a empresa é culpada?
3. Uma amostra de cem registros de mortes nos EUA durante o ano passado mos-
trou uma expectativa de vida de 71,8 anos. Assumindo um desvio padrão de 8,9
anos, isso parece indicar que a média da expectativa de vida hoje é maior do que
70 anos de idade? Adote α= 5%.
RESPOSTA:H0 :µ= 70; H1 :µ> 70; Zcal = 2.02; p-valor=0.0217; Rejeita-se H0.
4. Uma pesquisa na Escola de Medicina da Universidade da Califórnia afirmou que
ratos com média de vida de 32 meses viveriam por mais ou menos 40 meses se
40% das calorias de suas refeições fossem substituídas por vitaminas e proteínas.
Há alguma razão para acreditarmos que µ < 40 se 64 ratos colocados sob essa
dieta têm uma média de vida de 38 meses com desvio padrão de 5,8 meses?
RESPOSTA: Zcal =−2.76; p-valor=0.0029
5. Acredita-se que uma droga comumente prescrita para aliviara a tensão nervosa
tem apenas 60% de eficácia. Resultados experimentais com uma nova droga ad-
ministrada em uma amostra aleatória de cem adultos que sofrem de tensão ner-
vosa mostraram que 70 deles sentiram alívio. Isso é evidência suficiente para
concluirmos que a nova droga é superior à droga comumente prescrita?
RESPOSTA: Zcal = 2.04; p-valor=0.0207
6. Uma propaganda de certa marca de cigarros afirma que não há mais do que
18mg de nicotina por cigarro, em média. Num teste com 12 cigarros obteve-
se uma média amostral de 19,1 mg de nicotina, com desvio padrão amostral de
1,9mg. Você acha que essa afirmação é verdadeira?
7. A associação de proprietários de indústrias metalúrgicas está preocupada com
o tempo perdido em acidentes de trabalho, cuja média nos últimos tempo tem
39
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
Ivanildo Marinho N
Realce
sido de ordem 60horas/homem por ano e o desvio padrão de 20 horas/homens.
Tentou-se um programa de prevenção de acidentes e, após o mesmo, tomou-
se uma amostra aleatória de 9 indivíduos e verificou-se que foram perdidas 50
horas/homem. Você diria, ao nível de 5%, que há evidências de melhoria?
8. Uma fábrica de automóveis anunciou que seus carros consomem em média 11
litros de combustível pro cada 100 Km rodados. Uma revista resolve testar essa
afirmação e analisa uma amostra de 25 automóveis dessa marca, obtendo 11,3
litros por 100 Km como consume médio e 0,8 litro por 100 Km de desvio padrão.
O que a revista pode concluir sobre o anúncio da fábrica ao nível de significância
de 10%? Considere que a população segue distribuição normal.
40
 
 
 
 
 
 
 
 
 
 
 Área na cauda superior 
gl 0,25 0,10 0,05 0,025 0,01 0,005 0,0025 0,001 0,0005 
1 1,000 3,078 6,314 12,71 31,82 63,66 127,3 318,3 636,6 
2 0,816 1,886 2,920 4,303 6,965 9,925 14,09 22,33 31,60 
3 0,765 1,638 2,353 3,182 4,541 5,841 7,453 10,21 12,92 
4 0,741 1,533 2,132 2,776 3,747 4,604 5,598 7,173 8,610 
5 0,727 1,476 2,015 2,571 3,365 4,032 4,773 5,894 6,869 
6 0,718 1,440 1,943 2,447 3,143 3,707 4,317 5,208 5,959 
7 0,711 1,415 1,895 2,365 2,998 3,499 4,029 4,785 5,408 
8 0,706 1,397 1,860 2,306 2,896 3,355 3,833 4,501 5,041 
9 0,703 1,383 1,833 2,262 2,821 3,250 3,690 4,297 4,781 
10 0,700 1,372 1,812 2,228 2,764 3,169 3,581 4,144 4,587 
11 0,697 1,363 1,796 2,201 2,718 3,106 3,497 4,025 4,437 
12 0,695 1,356 1,782 2,179 2,681 3,055 3,428 3,930 4,318 
13 0,694 1,350 1,771 2,160 2,650 3,012 3,372 3,852 4,221 
14 0,692 1,345 1,761 2,145 2,624 2,977 3,326 3,787 4,140 
15 0,691 1,341 1,753 2,131 2,602 2,947 3,286 3,733 4,073 
16 0,690 1,337 1,746 2,120 2,583 2,921 3,252 3,686 4,015 
17 0,689 1,333 1,740 2,110 2,567 2,898 3,222 3,646 3,965 
18 0,688 1,330 1,734 2,101 2,552 2,878 3,197 3,610 3,922 
19 0,688 1,328 1,729 2,093 2,539 2,861 3,174 3,579 3,883 
20 0,687 1,325 1,725 2,086 2,528 2,845 3,153 3,552 3,850 
21 0,686 1,323 1,721 2,080 2,518 2,831 3,135 3,527 3,819 
22 0,686 1,321 1,717 2,074 2,508 2,819 3,119 3,505 3,792 
23 0,685 1,319 1,714 2,069 2,500 2,807 3,104 3,485 3,768 
24 0,685 1,318 1,711 2,064 2,492 2,797 3,091 3,467 3,745 
25 0,684 1,316 1,708 2,060 2,485 2,787 3,078 3,450 3,725 
26 0,684 1,315 1,706 2,056 2,479 2,779 3,0673,435 3,707 
27 0,684 1,314 1,703 2,052 2,473 2,771 3,057 3,421 3,689 
28 0,683 1,313 1,701 2,048 2,467 2,763 3,047 3,408 3,674 
29 0,683 1,311 1,699 2,045 2,462 2,756 3,038 3,396 3,660 
30 0,683 1,310 1,697 2,042 2,457 2,750 3,030 3,385 3,646 
35 0,682 1,306 1,690 2,030 2,438 2,724 2,996 3,340 3,591 
40 0,681 1,303 1,684 2,021 2,423 2,704 2,971 3,307 3,551 
45 0,680 1,301 1,679 2,014 2,412 2,690 2,952 3,281 3,520 
50 0,679 1,299 1,676 2,009 2,403 2,678 2,937 3,261 3,496 
z 0,674 1,282 1,645 1,960 2,326 2,576 2,807 3,090 3,291 
 Nota: A coluna em destaque é a mais usada. 
 
Tabela 5 Distribuição t de Student 
 
0 t 
Área 
indicada 
(Valor tabulado) 
BARBETTA, P. A. - Estatística aplicada às Ciências Sociais. 7 ed. 
Florianópolis: Editora da UFSC, 2010
	Probabilidade
	Operações com eventos aleatórios
	Probabilidade Condicional
	Variáveis Aleatórias
	Distribuição Binomial
	Distribuição Normal
	Questões/Motivação - Estatística Descritiva
	Tipos de dados
	Medidas
	Histograma
	Box-plot
	Questões/Motivação - Inferência Estatística
	Inferência estatística - alguns conceitos
	Teorema Central do Limite
	Distribuição amostral da média
	Distribuição amostral da proporção
	Nível de confiança, precisão, tamanho da amostra e Intervalo de Confiança
	Intervalo de confiança para média populacional
	Intervalo de confiança da proporção