Buscar

Apostila Gerson

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 41 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 41 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 41 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

1 
 
Probabilidade 
1-Espaço amostral 
 
O conjunto de todos os possíveis resultados de um experimento é o espaço amostral Ω. Onde 
n(Ω) é o número de elementos do conjunto Ω, ou o número de resultados possíveis. 
Ω = {w1, w2,, w3, .....wn} w = são os pontos amostrais. 
 
O espaço amostral referente a um lançamento de um dado é: 
Ω = {1, 2, 3, 4, 5, 6} 
 
O espaço amostral referente a um lançamento de uma moeda é: 
Ω = {cara, coroa} 
 
2- Eventos 
 
Chama-se de evento qualquer subconjunto do espaço amostral Ω de um experimento 
aleatório, ou seja, qualquer resultado do espaço amostral. 
 
n(E) é o número de resultados associados ao evento E. 
Exemplo: No lançamento de uma moeda Ω={cara, coroa}. Um evento de interesse E pode ser 
“obter cara no lançamento de uma moeda” e n(E)=1. 
 
É possível encontrar a probabilidade P(E) de qualquer subconjunto E de Ω (do espaço 
amostral). A probabilidade de E, anotada por P(E), lê-se pê de E, é definida como sendo: P(E) 
= m / n. Isto é, a probabilidade do evento A é o quociente entre o número “m” de casos 
favoráveis e o número “n” de casos possíveis. 
 
Probabilidade de um evento: Seja E um evento. A probabilidade deste evento ocorrer é 
dada por P(E), que é um número entre 0 e 1. Quanto mais próxima a probabilidade estiver de 
1, maior será sua chance de ocorrência. A um evento impossível atribui-se probabilidade 0, 
enquanto que um evento certo tem probabilidade 1. A probabilidade de um evento é medida 
por valores entre 0 e 1.Logo, 0 ≤ P(E) ≤ 1. 
 
 É mais provável que um evento ocorra se sua probabilidade estiver próxima a 1. A 
probabilidade do evento certo de ocorrer é 1 e a probabilidade do evento impossível é 
zero. 
P(EVENTO CERTO) =1, ou seja, P(Ω) =1 
P(EVENTO IMPOSSÍVEL)= 0 , ou seja, para o conjunto vazio - P(ø) = 0 
 
Se E for qualquer evento de Ω então: P(E) = ∑ P(wi) 
 i 
 
Ex. Uma moeda é jogada 2 vezes. Se c indica cara e r coroa então O espaço amostral é: 
Ω = { w1, w2,, w3, w4} onde w1 = (c,c) ; w2 = (c,r); w3 = (r,c); w4 = (r,r) 
 
Cada ponto wi = tem a probabilidade ¼ de ocorrer. 
 Se as faces são iguais nos 2 lançamentos tem-se: 
P(E)= P (w1, w4) = ¼ +1/4 = ½ 
A soma é entendida a todos os pontos 
amostrais wi que pertencem a E. 
2 
 
Há três maneiras diferentes de calcular ou estimar probabilidades: 
1) o método clássico, envolve a determinação da probabilidade de qualquer evento a priori 
(antes de ocorrer). Está associada a jogos de azar ou às chances de um jogo. 
 
Definição: P(E) = Número de maneiras que o evento pode ocorrer 
 Número total de resultados possíveis 
 
Ex. Qual é a probabilidade de se retirar um ás de um baralho. 
P(ás) = Número de maneiras que o evento pode ocorrer = 4/52 
 Número total de resultados possíveis 
 
2) o método subjetivo, que utiliza estimativas pessoais de probabilidade, baseadas num certo 
grau de crença. 
 
Ex; A probabilidade que uma mulher brasileira vá ao espaço num foguete, é um exemplo. 
Como não há dados do passado devemos avaliar as nossas opiniões e crenças para obter 
uma estimativa subjetiva. 
 
3) o método empírico ou freqüência relativa, que observa a freqüência com que algum evento 
ocorreu no passado e estima a probabilidade dele novamente ocorrer, fundamentada nos 
dados históricos. 
 
Definição: P(E) = Número de vezes que o evento ocorreu 
 Número total de observações 
 
Exemplo: No último mês ocorreu 50 nascimentos no hospital do bairro em que mora. Trinta e 
dois bebês recém nascidos eram meninas. A probabilidade de que um próximo nascimento 
(ou qualquer nascimento escolhido aleatoriamente) seja menina é? 
 
Definição: P(meninas) = Número de meninas nascidas no último mês = 32/50 
 Número total de nascimentos no último mês 
 
3- Cálculo das probabilidades 
 
Muitas aplicações da estatística exigem a determinação da probabilidade de combinações dos 
eventos. Pode ser necessário determinar a probabilidade de ambos os eventos acontecerem 
P(A e B), a interseção, ou a probabilidade de um deles, A ou B, ou seja, P(A ou B), ou a 
união. 
 
A interseção de A e B é o conjunto de todos os elementos que estão em ambos os 
conjuntos A e B. 
O diagrama de Venn é uma ferramenta útil para representar a relação entre dois conjuntos. 
 
 
 
 
 
 Ω 
 
 (A ∩ B) = A interseção B 
3 
 
Para A ∩ B ocorrer, ambos A e B devem ocorrer. Os eventos A e B são chamados 
associados. 
 
A união de A e B, ou seja, A U B consiste dos elementos que estão em A ou B ou em ambos. 
 
União de A e B é o conjunto de todos os elementos que estão em A ou em B. 
 
A regra da adição leva em conta a ocorrência do evento A ou do evento B ou de ambos os 
eventos e é denotada por P(A∪B). 
 
 
 
 A B 
 
 Ω 
 
 P(A ou B) = P(A) + P(B) – P(A e B) 
 
Dois eventos são ditos mutuamente exclusivos (excludentes) se a ocorrência de um 
evento proíbe a ocorrência do outro. Ex. A ocorrência de cara e coroa em um único 
lançamento de moeda. Se cara ocorre, coroa não pode ocorrer. 
Quando os eventos são mutuamente excludentes (não tem elementos em comum), então a 
probabilidade de ambos é nula e o termo P(A e B) será zero. Então, A ∩ B = ø e P (A ∩ B) = 0 
 
Se A e B são mutuamente excludentes -------- P(A ou B) = P(A) + P(B) 
 
 
 
 A B 
 
 Ω 
 
 
Eventos Complementar 
 
São aqueles que se um não ocorrer o outro deve ocorrer certamente. 
EX. Se o evento A é sair a face par no lançamento de um dado (2, 4 ou 6), o complementar é 
sair a face ímpar ( 1, 3 ou 5). 
O complementar é escrito como Ā ou AC. 
 
É claro que eventos complementares formam uma coleção completa porque se A não ocorre, 
precisa Ā ocorrer. Então tem-se: 
 
 P(A) + P (Ā) = 1 e P(A) = 1- p(Ā) 
 
 
 Ω - A = Ā A 
 
 
 Ω 
4 
 
Eis as seguintes operações com conjuntos: 
 
a) (A ∩ B)C = AC U BC 
b) (A U B)C = AC ∩ BC 
c) (A ∩ Ø) = Ø e A ∩ Ω = A 
d) ØC = Ω ; ΩC = Ø 
e) A ∩ AC= Ø 
f) A U AC = Ω 
g) A U Ø = A ; A U Ω= Ω 
h) A ∩ (B U C) = (A ∩ B) U (A ∩ C) 
Exemplo: Em um experimento aleatório os eventos A e B associados tais que: P(A) = 1/2 e a 
P(B)= 1/3 e P(A ∩ B) = 1/4 .Calcule: 
 
a) P(AC) = 1 – P(A) = 1 – 1/2 = 1/2 
b) P(A U B) = P(A) + P(B) - P(A ∩ B) = 1/2 + 1/3 – 1/4 = 7/12 
c) P(AC ∩ BC) = P [(A U B)C] = 1- P (A U B) = 1 – 7/12 = 5/12 
d) P(AC U BC) = P [(A ∩ B)C] = 1- P (A ∩ B) = 1 – 1/4 = ¾ 
e) P(AC ∩ B) = é a probabilidade que ocorra em B, mas não ocorra em A. Podemos escrever: 
 
B= (A ∩ B) U (AC ∩ B) 
 
P(B) = P(A ∩ B) + P(AC ∩ B) 
 
Decorre: P(AC ∩ B) = P(B) - P(A ∩ B) = 1/3 – 1/4 = 1/12 
 
Ou: P(AC ∩ B) = P(B - A) = P(B) - P(A ∩ B) = 1/12 
 
f) P(AC U B) = P(AC) + P(B) - P(AC ∩ B) = 1/2 + 1/3 – 1/12 = ….. 
 
Probabilidade Condicional - Regra da multiplicação 
Freqüentemente queremos determinar a probabilidade de um evento sabendo-se, ou sobre a 
condição, de que outro evento ocorreu. Isso é chamada probabilidade condicional e á 
denominada de P(A|B) lido com a “probabilidade de A dado B”. 
A probabilidade condicional é a probabilidade de que o evento A ocorra dado, ou sob a 
condição de que o evento B já tenha ocorrido. Assim, para doiseventos quaisquer A e B 
sendo P(B) > 0 definimos a probabilidade condicional de A e B, como sendo: 
 
P(A|B) = P(A ∩ B) = P (A) . P(B|A) 
 P(B) P(B) 
 
Considerando-se dois eventos A e B de um mesmo espaço amostral, a probabilidade 
de A e B ocorrerem P(A∩B) é dada por: 
 
 
 
 
 A B 
 
 Ω 
5 
 
Quando a probabilidade de B ocorrer não depender de A ter ocorrido, dizemos que A e 
B são independentes, e P(B|A)=P(B) ou P(A) = P (A|B). 
Se A e B são independentes ---------- P(A ∩ B)=P(A) . P(B) probabilidade de eventos 
 independentes. 
 
Se os eventos são dependentes, então por definição precisaremos considerar o primeiro 
evento para determinar a probabilidade do segundo; isto é, a probabilidade do evento B 
depende da condição de A já ter ocorrido. Logo, o princípio da probabilidade condicional de vê 
ser usado. A probabilidade conjunta dos eventos A e B é: 
 
 P(A ∩ B) = P(A) . P(B|A) 
 
Onde P(B|A) é a probabilidade de B ocorrer dado que A já tenha ocorrido. 
 
RESUMO; 
 
1- A regra da multiplicação é usada para calcular a probabilidade de “A e B”, P (A∩ B), e 
a regra da adição é usada para calcular a probabilidade de “A ou B”, P (A U B). 
 
2 - Regras de probabilidade 
P(A ou B), Para eventos não mutuamente excludentes: 
P(A ou B ou ambos) = P(A) + P(B) – P(A e B) 
 
Para eventos mutuamente excludentes: 
P(A ou B) = P(A) + P(B) 
 
P(A e B), para eventos independentes: 
P(A e B) = P(A) . P(B) 
 
Para eventos dependentes 
P(A e B) = P(B).P(A/B) ou P(A).P(B/A) 
 
Teorema de Bayes 
 
Definição: Seja Ω um espaço amostral e A1 , A2 , ..., Ak , eventos. Diz-se que A1 , A2 , ..., Ak 
formam uma partição de Ω se: 
 
Ai ≠ ∅, onde i= 1, 2, ..., k 
 
 k 
 U = Ω 
 i 
 
Ai ∩ AJ = ∅ i≠j 
 
 
 
 
 
6 
 
Diagrama representativo do Teorema de Bayes 
 
 
 
 
 
 
 
 
 
 
 
 
 
 A1 , A2 , A3 , ...........Ak , onde formam uma partição de Ω. 
 
 
Seja B um evento qualquer de Ω, onde: 
 
B = (B ∩ A1 ) U (B ∩ A2 ) U ...U (B ∩ AK) 
 
 k 
P(B) = ∑ P(AJ) . P(B/AJ) onde j= 1,2,3,....k (eq. 1) 
 J=1 
 
 
P(B ∩ Ai) = P(Ai) . P(B/Ai) onde i = 1, 2, ..., k (eq. 2) 
 
Como: 
 
 
P(Ai/B) = P(B ∩ Ai) / P(B) (EQ.3) 
 
substituindo as equações (1) e (2) na equação (3) temos: 
 
 k 
P(Ai/B) = [P(Ai) . P(B/Ai)] / ∑ P(AJ) . P(B/AJ) onde j= 1,2,3...k 
 J=1 
 
Exemplo: 
 
Suponha que uma peça é escolhida aleatoriamente, onde existem duas máquinas com as 
mesmas características. A probabilidade de ser produzida pela máquina A é P(A) = 0,60 e de 
ser da máquina B é P(B)= 0,40. 
A qualidade dos produtos de não terem defeitos que vem da máquina A é a probabilidade 
condicional P(DC/A) = 0,98, logo a probabilidade de ter uma peça com defeito é P(D/A)=0,02. 
As probabilidades condicionais para B revelam que a probabilidade de não ser defeituosa 
dado que a peça veio da máquina B é P(DC/B)=0,96, logo a probabilidade de ser defeituosa 
dado que veio de B é P(D/B)= 0,04. 
 Ω 
A1 A2 
 
 
A3 A5 AK 
A4 
B 
7 
 
Diagrama de árvore: 
O primeiro ramo indica qual máquina produziu a peça. O segundo ramo indica qualidade da 
peça e nos diz se veio da máquina A pode ser defeituosa ou não. 
 
 Probabilidade que uma peça veio de A é não é defeituosa 
 P(A ∩ DC) = P (A) . P(DC/A)= 0,60 . 0,98 = 0,588 
 P(DC/A)= 0,98 
 Unidade não defeituosa A 
 
MÁQUINA A 
P(A)=0,60 
 P(A ∩ D) = P (A) . P(D/A)= 0,60 . 0,002 = 0,0012 
. P(D/A) = 0,02 
 Unidade defeituosa de A 
 P(B ∩ DC) = P (B) . P(DC/B)= 0,40 . 0,96 = 0,384 
 P(DC/B)= 0,96 
MÁQUINA B Unidade não defeituosa B 
P(B)=0,40 
 
 
 P(D/B)= 0,04 
 Unidade defeituosa B P(B ∩ D) = P (B) . P(D/B)= 0,40 . 0,04 = 0,016 
 
Assim, existem 4 resultados possíveis para o experimento de selecionar uma unidade da 
produção. 
 
Suponha que se tenha uma peça seja defeituosa e nós queremos saber a probabilidade desta 
vir da máquina A? (AGORA SE TEM VÁRIAS PEÇAS DEFEITUOSAS TANTO DA MÁQ. A 
QUANTO DA MÁQ. B E QUE SE QUER DETERMINAR DE QUE MÁQ. VEIO) 
Agora queremos determinar a P(A/D)? 
 
Regra da probabilidade condicional: 
 
P(A/D) = P(A ∩ D) / P(D) = P(A) . P(D/A) EQ 1 
 P(D) 
 
Contudo P(D) não foi obtido. É aqui que entra o teorema de Bayes. Há 
duas maneiras de uma peça ser defeituosa. Ela pode vir da máquina 
A e ser defeituosa ou ser da máquina B e ser defeituosa. 
Usando a regra da adição: 
P(D)= P(A ∩ D) + P(B ∩ D) = P(A) . P(D/A) + P(B) . P(D/B) EQ 2 
 
Se substituirmos a EQ 2 na EQ 1 teremos o resultado. Pelo teorema de Bayes tem-se: 
 
P(A/D) = P(A ∩ D) / P(A ∩ D) + P(B ∩ D) = 
 
 
8 
 
 
P(A) . P(D/A) 
P(A) . P(D/A) + P(B) . P(D/B) 
 
 
Podemos encontrar P(A/D) = 0,0012 / (0,012+0,016) = 0,429 
 
Enquanto a P(A) = 0,60 , P(A/D) = 0,429. Note que a P(A/D) < P(A), pois a máquina A produz 
uma porcentagem menor de defeitos do que a máquina B. 
 
 
Técnicas de Contagem 
 
Se dois subconjuntos são considerados diferentes devido a diferenças na ordem, eles são 
vistos como permutações. 
Se dois subconjuntos são vistos como idênticos e constituem o mesmo subconjunto porque 
ambos possuem os mesmos elementos, independente da ordem, eles são chamados 
combinações. 
Dado um conjunto com n elementos, o no. de permutações, cada uma de tamanho r é 
determinado por: 
 
 
 
No de permutações de n Elementos tomados r por vez: nPr = n! 
 (n-r)! 
 
n!= n fatorial....por definição: 4! = 4x3x2x1- 24 e 0!= 1 
 
 
O no. de combinações de n elementos tomados r por vez é: 
 
O número de combinações de n elementos tomados r por vez: CN,n = N! 
 n! (N-n)! 
 
Ou pode ser representado por: 
 
 N = N! 
 n n! (N-n)! 
 
 
Exemplo: De 4 empreendimentos uma pessoa tem capital para investir em apenas 2 
requerendo o mesmo capital. Sabe-se que 2 empreendimentos vão falhar e 2 serão bem 
sucedidos. Se selecionar 2 empreendimentos ao a caso qual é a probabilidade da pessoa 
selecionar pelo menos um empreendimento bem sucedido? 
 
O experimento envolve uma solução ao acaso de 2 de 4 empreendimentos e cada possível 
par de empreendimentos representada um ponto amostral. Onde S1 e S2 são 
empreendimentos bem sucedidos e F1 e F2 empreendimentos mal sucedidos. Quantas 
situações podem ser feitas? 
N= 4 e n=2 
9 
 
 
 N = N! 
 n n! (N-n)! 
 
 
 
 4 
 = 4! = 4 3 2 1 = 6 
 22! 2! (2 1) x (2 1) 
 
 
 As combinações possíveis são: (S1, S2) (S1,F1) (S1,F2) (S2,F1) (S2,F2) (F1,F2) 
 
 Selecionar um empreendimento bem sucedido inclui todos os pontos menos (F1,F2) 
 
P(SELECIONAR PELOS MENOS UM EMPREENDIMENTO) = P(S1, S2)+ P(S1,F1)+P(S1,F2)+ 
P(S2,F1)+P(S2,F2) 
 
P(SELECIONAR PELOS MENOS UM EMPREENDIMENTO) = 1/6+ 1/6+1/6+1/6+1/6+1/6= 
5/6 
 
Exemplo: Suponha que num lote com 20 peças existem 5 defeituosas. Se escolhermos 4 
peças do lote ao acaso, ou seja, uma amostra de 4 elementos, de modo que a ordem dos 
elementos seja irrelevantes. Qual é a probabilidade de se escolher duas peças defeituosas? 
 
P(DUAS PEÇAS DEFEITUOSAS) = Número de todos os subconjuntos com 2 peças (m) 
 Número total de possibilidades (n) 
 Peças c/ Peças s/ 
 Defeitos defeitos 
 
m = 5 x 15 no. de maneiras que podemos escolher 2 peças c/ defeitos e 2 s/ 
 2 2 defeitos. 
 
 
n= 20 é no. de pontos do espaço amostral. 
 4 
 
 
P(DUAS PEÇAS DEFEITUOSAS) = C5,2 . X C15,2 = 
 
 C20,4 
 
 
5! X 15! 
2! (3)! 2! (13)! = 70/323 = 0,217 
 
 20! 
 4! (16)! 
 
 
10 
 
DISTRIBUIÇÃO DA PROBABILIDADE 
 
Variável aleatória: pode ser discreta ou contínua. 
 
Discreta: pode assumir certos valores, usualmente nos. Inteiros e resultam basicamente de 
contagens. Ex. o no. de caras no lançamento de uma moeda. 
 
Contínua: resulta de uma medida e pode assumir qualquer valor dentro de um dado intervalo. 
Ex. O peso de um garrafão de água mineral, que pode assumir qualquer valor entre 10 e 25 
quilos. 
Distribuição da probabilidade: é uma lista de todos os resultados possíveis de um experimento 
e também das probabilidades associadas a cada um dos resultados. 
Ex: Após lançar uma moeda 3 vezes determinar a probabilidade de: obter nenhuma cara; 
obter uma cara; obter duas caras e obter 3 caras? 
 
Distribuição discreta de probabilidade para o lançamento das moedas 
RESULTADOS (CARAS) PROBABILDIADE 
0 1/8 
1 3/8 
2 3/8 
3 1/8 
TOTAL1 1 
 
Onde pode ser representado por: 
c= cara e r= coroa 
Ω = {(r,r,r); (c,r,r); (c,c,r); (c,c,c); (r,c,r); (r,r,c); (c,r,c); (r,c,c)} 
 
A distribuição de probabilidades para lançamentos da moeda 
 
 
 
4/8 
 
3/8 
 
2/8 
 
1/8 
 
 
 0 1 2 3 xi 
 
 
A probabilidade de uma variável aleatória X assuma um valor específico xi é denotada por 
P(X = xi). Assim, a probabilidade de que no lançamento de 3 moedas o resultado seja duas 
caras é P(X = 2) = 3/8. 
 
Note que ; 0 ≤ P(X= xi) ≥ 1 e ∑P(X= xi) =1 
 
 
11 
 
Média e Variância da Destruição discreta 
A média de uma distribuição de probabilidades é chamada de esperança matemática de X, 
E(X). É encontrada multiplicando-se cada resultado possível pela sua respectiva 
probabilidade e somando essas quantidades. 
 
Média ou esperança de uma distribuição de probabilidade discreta 
μ = E(X) = ∑ [ (xi) P(xi)] 
 
Distribuição discreta de probabilidade para o lançamento das moedas 
RESULTADOS (XI) PROBABILDIADE P(xi) (xi) P(xi) (xi – μ)2 .P(xi) 
1 1/6 1/6 (1-3,5)2 1/6 = 1.042 
2 1/6 2/6 (2-3,5)2 1/6 = 0.375 
3 1/6 3/6 (3-3,5)2 1/6 = 0.042 
4 1/6 4/6 (4-3,5)2 1/6 = 0.042 
5 1/6 5/6 (5-3,5)2 1/6 = 0.375 
6 1/6 6/6 (6-3,5)2 1/6 = 1.042 
 2,92 = σ2 
TOTAL1 1 3,5 = μ = E(X) 
 
Isso quer dizer que se lançarmos um dado podemos obter o resultado 3,5? Não, isso quer 
dizer que se lançarmos várias vezes um dado (teoricamente um no. infinito de vezes) a 
média dos resultados será 3,5. 
 
A variância de uma distribuição discreta é: 
 
σ2 = ∑ [xi – μ)2 .P(xi)] 
 
o desvio padrão é : σ = σ2 = 2,92= 1,71 
o desvio padrão mede a dispersão dos resultados ao redor da média. 
 
Distribuição Binomial 
 
A distribuição binomial tem 4 propriedades: 
1-existem dois resultados possíveis (sucesso ou fracasso) 
2-a probabilidade de um sucesso, π, permanece constante de uma tentativa para a 
próxima, assim como a probabilidade de um fracasso 1- π 
3-a probabilidade de um sucesso em uma tentativa é totalmente independente de 
qualquer outra tentativa 
4-o experimento pode ser repetido muitas vezes. 
 
Ex. o lançamento de uma moeda pode ser considerado um exemplo de uma distribuição 
binomial. 
 
Distribuição Binomial P(X=x) = n ! πx (1- π)n-x 
 x! (n-x)! 
 
ou n πx (1- π)n-x 
 x 
12 
 
Onde, n = no. de ensaios; π = probabilidade de sucesso em qualquer dos ensaios, (1- 
π)= a probabilidade de um fracasso em qualquer dos ensaios; P(X) = a probabilidade de 
x sucessos em n ensaios. 
Uma gerente de crédito da American Express descobriu que 10% (π) dos usuários dos 
cartões da companhia não pagam o total de suas dívidas em um mês. Ela quer determinar a 
probabilidade que de 20 contas (n) aleatoriamente selecionadas, 5 delas (x) não sejam pagas. 
 
Isso pode ser escrito como P(X=5 | n= 20, π = 0,10) e lê-se a probabilidade de 5 sucessos em 
20 tentativas com probabilidade de sucesso em qualquer tentativa de 10%. 
 
Com n= 20, X=5 e π = 0,10 tem-se: 
 
P(X= 5) = 20 ! (0,1)5 (1- 0,1)20-5 = 20 . 19. 18 . 17 . 16 . 15! x(0,1)5 (1- 0,1)20-5 
 5! (20-5)! 5. 4.3.2.1 . 15! 
 
= (15504) (0,00001) (0,2058911) = 0,0319 
 
Assim a probabilidade de uma conta qualquer não ser totalmente paga é π = 0,10, então 
existe 3,19 % de chance de que exatamente 5 das 20 contas escolhidas aleatoriamente 
tenham essa característica. 
 
Usando a tabela posso Tb achar b(x; n, π) = b(5; 20;0,10). Primeiro entro com n = 20 
depois com x= 5 e vou até π = 0,10 e acho o valor da probabilidade de 0,0319. 
 
A tabela binomial inclui valores de π abaixo de 0,5. 
 
Suponha que 70% dos moradores de SP tenham internet na sua casa. Qual é a 
probabilidade que de 10 moradores selecionados aleatoriamente 6 estejam 
conectados? 
 
Como π > 0,5 não se pode usar a Tabela sem fazer alguns ajustes. 
 
Se a probabilidade de sucesso de um morador conectado na internet é P(S) = 0,70 e de não 
estar P(S) = 0,30. 
Se 6 dos 10 moradores são usuários da Internet, então 4 não são. Assim, 6 sucesso de π = 
0,70 é o mesmo que 4 fracassos de π=0,30. 
 
Então pode-se escrever que P(X=6 | n= 10, π = 0,70) = P(X=4 | n= 10, π = 0,30) e da tabela 
se tem o valor aproximado de 0,2001. 
 
Média e variância da Distribuição Binomial 
 
Média é determinada por: 
 
 E(X) = μ = n . π 
 
 
Variância da Distribuição Binomial: σ2 = n . π (1- π) 
 
13 
 
Do exemplo anterior tem-se: 
n=10 E(X) = (10) (0,70) = 7 . Das 10 pessoas escolhidas aleatoriamente, espera-se 
que 7 estejam conectadas à internet. A variância é σ2 = (10) (0,70) (0,30) = 2,1. 
Distribuição Binomial Acumulada 
 
Vamos ver como é aplicado na prática. 
De acordo com o jornal americano 40% dos formandos do ensino médio, nos EUA trabalham 
durante o verão para ganhar dinheiro para pagar as mensalidades do semestre na faculdade. 
Se 7 formados foram selecionados qual é a probabilidade de que 3 ou menos estudantes 
trabalham? 
 
A probabilidade do evento é A (0 a 3 trabalham) é P(A) = P (X ≤ 3) 
 
EVENTO A 
 
0 1 2 3 4 5 6 7 ESTUDANTES FORMADOS (π = 0,40) 
 
PODEMOS ENCONTRAR O RESULTADO PELA SOMA DE : P(X= 0) + P(X= 1) + P(X= 2) + 
P(X= 3) = 0,0280+ 0,1306+ 0,2613+ 0,2903= 0,7102 
 
Estas somas podem ser obtidas diretamente da tabela Binomial Acumulada P(X ≤ 3 | n = 7, π 
= 0,40) = 0,7102. 
 
Distribuição Hipergeométrica 
 
A distribuição binomial só é apropriadase a probabilidade de sucesso de um evento 
permanece constante em cada tentativa, e isso ocorre se a amostra é feita com reposição ou 
com uma população infinita (ou muito grande). 
Caso a população seja pequena e a amostragem for feita sem reposição, a probabilidade de 
um sucesso varia, a distribuição hipergeométrica será usada. 
 
P(x) = r N-r 
 x n-x 
 
 N 
 n 
 
Onde N = é o tamanho da amostra 
 r = é o no. de elementos na população identificados como sucesso 
 n = é o tamanho da amostra; 
 x = é o no. de elementos de na amostra identificados como sucesso 
 
Assuma que um estábulo tem N= 10 cavalos e r = 4 deles têm uma doença contagiosa. Qual 
é a probabilidade de selecionar uma amostra de n= 3 em que x= 2 sejam cavalos doentes? 
 
P(x) = r N-r 
 x n-x 
 N 
 n 
14 
 
 
 
 
P (X =2) = 4 10-4 
 2 3-2 
 
 10 
 3 
 
Obs: 
 
 N = N! 
 n n! (N-n)! 
 
 
 P (X =2) = 6 x 6 = 0,30 
 120 
Há 30 % de probabilidade de selecionar 3 cavalos, dos quais 2 estão doentes. 
 
Média e variância 
E(X) = n . r 
 N 
 
 
σ2 = n r . N -n 
 N N-1 
 
Distribuição de Poisson 
 
A distribuição de Poisson é uma variável discreta, que é utilizada para medir a freqüência 
relativa de um evento durante um período ou determinado espaço. 
É usada para calcular: o no. de fregueses que entram por hora numa loja; no. de acidentes 
por mês; no. de ligações defeituosas feita pela empresa de Luz; no. máquinas que estão 
quebradas esperando o conserto..... 
 
Para aplicar a distribuição de Poisson temos que assumir: 
 
1- A probabilidade da ocorrência de um evento é constante para qualquer intervalo de tempo 
ou espaço; 
2- a ocorrência de um evento em qualquer intervalo, é independente da ocorrência em 
qualquer outro intervalo; 
 
P (X ) = μx e - μ 
 x ! 
 
onde: x = é o no. de ocorrências do evento; 
 μ = é o no. médio de ocorrências por unidade de tempo ou espaço; 
 e = 2,71828 a base do sistema natural de logaritmos 
 
 
15 
 
Exemplo: 
Suponha que estejamos interessados na probabilidade de que exatamente cinco fregueses 
cheguem na loja na próxima hora (ou qualquer hora). Uma observação das últimas 80 horas 
mostra que 800 fregueses entraram na loja. 
 
Assim, μ = 800/80 = 10 Fregueses por hora 
 
P (X ) = μx e - μ 
 x ! 
 
P (X = 5) = (10)5 2,71828 -10 = 0,0378 
 5! 
 
Pode-se usar a tabela para achar esse valor, como segue: b(x; μ) ou b(x=5; μ = 10) 
 
Procure no topo da tabela μ = 10 e desça nessa coluna até encontrar x = 5. Então vai 
encontrar o valor 0,0378, isto é, 3,78 % de chance de que exatamente cinco fregueses entrem 
na loja na próxima hora. 
 
Média e variância 
E(X) = σ2 = μ 
 
Distribuição exponencial 
 
A distribuição exponencial é uma distribuição contínua. Ela mede o tempo entre duas 
ocorrências, ou seja, estima o espaço de tempo entre duas chegadas. A probabilidade de que 
o espaço de tempo seja menos ou igual a uma certa quantidade x é: 
 
P (X ≤ x) =1- e - μ t 
 
Onde : t= é o espaço de tempo; 
 e= é base dos sistema natural de logaritmos, 2,71828 
 μ= é a taxa media de ocorrência 
 
A distribuição de uma variável aleatória exponencial é mostrada na figura abaixo. A 
declividade contínua da curva mostra que quanto maior o espaço de tempo x, menor é a 
probabilidade. 
 
Distribuição exponencial 
minutos 
16 
 
A probabilidade de que 30 minutos seja o tempo entre duas ocorrências excede a 
probabilidade de que o espaço de tempo seja 40 minutos: P (X ≤ 30) > P (X ≤ 40 ). Isso ocorre 
porque 30 minutos deve sempre vir antes que 40 minutos. 
 
Assuma no problema anterior que a taxa média de chegada é μ= 1,5 por hora e queremos 
saber a probabilidade de que não mais do que duas horas seja o espaço de tempo entre 
chegadas. 
 
Então: P (X ≤ 2) =1- e - μ t = 1- e – (1,5) (2) = 1 - e – 3 = 
 
 
e – 3 = 1 / e 3 = 0,0498 
 
P (X ≤ 2) =1- 0,0498 = 0,9502 
 
Pela tabela: Escolha x = 0 e ignore o sinal negativo de μ. Com o valor de 3 para o expoente e 
x= 0 da tabela de distribuição de Poisson obtém o valor de 0,0498 ( que é o valor de e -3). 
 
Há 95,02 % de chances de que um segundo freguês entre no período de duas horas a partir 
da entrada do primeiro, se a média de chegada for de 1,5 por hora. 
 
Distribuição Uniforme 
 
As variáveis aleatórias contínuas (V.A.C) possuem uma distribuição uniforme de probabilidade 
se a distribuição em que todos os resultados possíveis são iguais. 
Ex. O lançamento de um dado, onde os seis resultados possíveis têm 1/6 de probabilidade 
de ocorrência. 
 
Suponha que uma V.A.C. x possa assumir valores apenas em um intervalo c ≤ x ≤ d. Então a 
função freqüência uniforme tem um formato retangular conforme abaixo. 
 
Distribuição uniforme 
 
 f(x) 
 1/ (d-c) 
Freqüência 
relativa 
 
 
 
 c a b d x 
Observamos que nem todos os valos possíveis de x constituem de todos os pontos no 
intervalo entre o ponto c e o ponto d. A altura de f(x) é constante no intervalo e é igual a 
1/(d-c). Por isso a área total sob f(x) é dada por: 
área total do retângulo = base vezes altura = (d-c) . 1/ (d-c) = 1 
 
A função densidade de probabilidade é: 
 
f(x) = 1/ (d-c) c ≤ x ≤ d 
17 
 
A função de distribuição da probabilidade é: 
P ( a ≤ x ≤ b) = (b-a ) / (d –c) c ≤ a < b ≤ d 
 
A média de uma distribuição uniforme é: 
 
E(X) = μ = (a+b)/2 
 
Variância de uma Distribuição uniforme é: 
 
σ2 = (b-a )2/12 
 
Suponha que os conteúdos das latas de frutas de 450 gramas produzidas pela Alumini variem 
de 410 gramas a 490 gramas e sejam uniformemente distribuídas. A empresa deseja 
encontrar a probabilidade de que uma lata pese entre 450 a 470 gramas. 
 
Uma distribuição uniforme de produtos enlatados 
 f(x) 
 
 1/80 
 
 
 
 
 
 410 μ = 450 470 490 
 
μ = (410+450)/2 = 450 gramas 
 
 
e a altura é = 1/ (490-410) = 1/80 
 
 
P (X1 ≤ X ≤ X2) = (X1 – X2) / AMPLITUDE 
 
P (X1 =450 < X < X2 = 470) = (470 – 450) / 490 -410 = 0,25 
 
Distribuição Normal 
 
A curva da distribuição normal possui a forma de um sino e é usada para refletir a distribuição 
de variáveis como: altura, peso, distância e etc. Tais variáveis contínuas geralmente são o 
resultado de medidas. Diz-se que a Variável Aleatória de X possui distribuição normal com 
parâmetros μ e σ2, onde -∞ < μ < +∞ e 0 < σ2 < + ∞. A função densidade de probabilidade 
da distribuição normal com média μ e variância σ2 é assim definida como: 
ou pode-se escrever: 
f(x, μ,σ2) = 1 e - (x – μ)2 / 2 . σ2 -∞ < μ < +∞ 
 σ 2π 
http://pt.wikipedia.org/wiki/Fun%C3%A7%C3%A3o_densidade_de_probabilidade
http://pt.wikipedia.org/wiki/M%C3%A9dia
http://pt.wikipedia.org/wiki/Vari%C3%A2ncia
18 
 
A curva Normal determinada por valores particulares de μ e σ2 é representada por: 
 
 Função densidade de uma V. A. X ~ N(μ,σ2) com média μ e desvio padrão σ. 
 f (x) 
 0 X 
 μ-2σ μ-1σ μ μ+1σ μ+2σ 
Observações: 
f(x, μ,σ2) --0 QUANDO x --- -/+∞ . Para x = μ éo ponto máximo de f(x, μ,σ2) e o valor 
máximo é 1 / σ 2π. A densidade f(x, μ,σ2) é simétrica em relação a reta x= μ, isto é, f(μ +x; 
μ, σ2) = f(μ – x; μ,σ2) para todo x = real. 
Denominamos a densidade normal por f(x) e escrevemos: X ~ n (μ,σ2). 
 
A Função de Distribuição Acumulada de uma variável aleatória x é dada por: 
 
 F(x) 
 X 
 μ-2σ μ-1σ μ μ+1σ μ+2σ 
Pode-se afirmar que: 
 
E(X) = μ 
Var (X) = σ2 
 
Se μ = 0 e σ = 1, a distribuição é chamada de distribuição normal padrão ou reduzida, e 
representada por N(0,1). 
 
Z2 
0,1 
0,2 
0,3 
0,4 
0,5 
 0 
1,0 
19 
 
Assim, a função de densidade de probabilidade reduz-se a: 
 
f(Z)= 
1
σ√2π
 e
-𝑧2 /2
 -∞ < Z < +∞ 
 
ou 
 
O gráfico da Normal Padrão é: 
 
Função densidade de probabilidade de uma V.A. Normal Padrão Z ~ N (0,1) 
 f(Z) 
 
 -1 0 +1 Z 
 
A conversão das distribuições normais para a distribuição normal padrão é feita pela forma de 
conversão abaixo: 
 
Z = X - μ 
 σ 
 
Onde Z é desvio normal e X é algum valor específico para uma variável aleatória. A média da 
conversão é Zero e a variância é 1. Assim, independe de quais sejam a média e o desvio 
padrão medidos na distribuição original 
 
Suponha que X ~ N (μ, σ2) e queremos calcular a probabilidade de: 
 
 b 
P ( a < X < b ) = f(X) dx 
 
 a 
 
onde f (x) é dada por: 1 e - (x – μ)2 / 2 . σ2 
 σ 2π 
 
 
A ilustração gráfica da P ( a < X < b ) para um V.A. Normal é: 
20 
 
 f(x) 
 
 a b 
 
A integral não pode ser calculada analiticamente e probabilidade indicada só pode ser obtida 
por meio de integração numérica. 
 
Um meio de obter as probabilidades é usando a tabela própria da distribuição Normal. 
 
P (0 ≤ Z ≤ ZC) onde Z ~ N (0,1) 
 f(Z) 
 
 0 ZC Z 
 
Exemplo: Em uma loja de modas a Moderna Fashion fez uma pesquisa em relação a altura 
dos seus consumidores. A média é μ = 170 cm e o desvio padrão é σ = 3 cm. O eixo X 
mede as alturas em metros e o eixo inferior reflete essas alturas em termos de valores de Z. 
a)Tom tem 170 cm de altura, então o valor de Z associado é? X= 170? 
 
Z= X – μ = 170 – 170 = 0 
 σ 3 
 no. consumidores 
 
 
 
 
 
 μ = 170 174,5 X (ALTURA EM METROS) 
 
 Tom= 0 1,5 = luiz Z 
 
b) Luiz tem 174,5 cm de altura e convertendo para o Z valor ele tem? 
 
21 
 
Z= X – μ = 174,5 – 170 = 1,5 
 σ 3 
 
O Z valor de Luiz é 1,5. Ele está 4,5 cm, ou 1,5 desvios padrões acima da média de 170 cm. 
 
c) Suponha que a Moderna Fashion que determinar qual é a probabilidade de apenas um 
consumidor ter entre 170 e 175 cm de altura? 
 
P ( 170 ≤ X ≤ 175) = P ( 170 - 170 ≤ X – μ ≤ 175-170 ) 
 3 σ 3 
 
P ( 0 ≤ Z ≤ 1,67) = 0,4525 
 μ = 170 175 X 
Na tabela a área desejada é para Z-valor de 1,67 vai ser: 
 0 1,67 Z 
O valor de 0,4525. 
Há 45,25 % de chance que um consumidor escolhido aleatoriamente tenha entre 170 a 175 
cm de altura. 
 
d) Suponha que se queira determinar a probabilidade de que um consumidor tenha mais do 
que 175 cm de altura. 
 
P (X ≥ 175) = P ( X – μ ≥ 175-170 ) = P( Z ≥ 1,67) = 
 σ 3 
Sabemos que 50 % de todos os consumidores estão 
acima da média de 170 cm. 
 μ = 170 175 X 
 
 0 1,67 Z 
45,25 % de todos os consumidores têm entre 170 a 175 cm de altura. 
Logo: 
0,5000 – 0, 4525 = 0,0475. 
Há 4,75 de chance que numa escolha aleatória um consumidor tenha pelo menos 175 cm de 
altura. 
 
e) Suponha que se queira determinar a probabilidade de que um consumidor tenha ente 166 a 
177 cm de altura. 
 
 
 
 
 166 μ = 170 177 X cm 
 
 -1,33 0 2,33 Z-valores 
P ( 166 ≤ X ≤ 177) = P ( 166 - 170 ≤ X – μ ≤ 177-170 ) 
 3 σ 3 
P ( -1,33 ≤ Z ≤ 2,33) = 0,4082+0,4901 = 0,8983 
A probabilidade de um consumidor ter entre 166 e 177 cm de altura é de 89,83%. 
 
22 
 
Exemplo: Suponha que se queira criar um programa social para ajudar pessoas carentes, ou 
seja, os 15 % mais pobres da nação. A questão levantada é qual a renda que separa os 15% 
mais pobres do restante da população? Suponha que em 2002 a média de renda individual 
medida em 1999 era de R$ 13.812,00 anual. Assuma um desvio padrão de R$ 3.550,00. 
Assuma que as rendas sejam normalmente distribuídas. 
 σ = 3.550 
 área de 0,35 
 
 
 
 0,15 0,50 
 X= ? μ = 13.812 X RENDA EM 1999 
 
 - 1,04 0 Z 
 
Embora estejamos interessados no valor de 0,15 (não se consegue ter a área de 0,15 
diretamente na tabela) devemos procurar por 0,3500 (0,5 – 0,15), pois apenas a área a partir 
da média até um valor determinado acima ou abaixo da média é dada na tabela. 
Então vamos procurar na tabela a área de 0,35, e o valor mais próximo que encontramos é 
0,3508, que corresponde a um Z-valor de 1,04. 
 
Como: 
Z= X – μ 
 σ 
 
 - 1,04= X – 13.812 = 10.120,00 
 3.550 
Qualquer um com renda anual de R$ 10.120,00 ou algum valor menor receberá ajuda 
governamental. 
 
Aproximação Normal para a Distribuição Binomial 
 
Uma distribuição Binomial envolve uma série de n tentativas, onde a probabilidade de 
sucesso é dada por π. Se n for muito grande pode exceder a capacidade de qualquer tabela e 
o ser cálculo difícil. Pode-se usar a distribuição normal como uma aproximação da distribuição 
binomial se for considerado que: nπ ≥ 5 e n(1 – π) ≥ 5 e se π estiver próximo de 0,50. 
 
Exemplo: Um sindicato dos trabalhadores em que 40 % dos membros estão a favor de uma 
greve. Se 15 membros são escolhidos aleatoriamente, qual é a probabilidade de que 10 % 
apóiem a greve? 
Da tabela binomial encontramos: 
 
P (X = 10 |N= 15, π = 0,40) = 0,0245 
 
Para usar a distribuição normal devemos encontrar a média μ e o desvio padrão da normal σ 
como: 
 
μ= n π = 15 . 0,40 = 6 
 
σ = n (π) (1- π) = 15 (0,40) (0,60) = 1,897 
23 
 
Como existe um número infinito de valores numa distribuição norma (como em 
qualquer distribuição contínua), a probabilidade de uma variável aleatória ser 
exatamente igual a um valor específico como 10 é zero. Quando se usa uma distribuição 
contínua para estimar a probabilidade de uma variável aleatória discreta precisa de um ajuste. 
Este ajuste é chamado de fator de correção de continuidade e requer que tratemos a 
probabilidade de exatamente 10 membros como se fosse o intervalo de 9,5 a 10,5 
membros. 
 
A probabilidade de que exatamente 10 membros estejam a favor da greve mostrada pela área 
do retângulo centrado em 10. 
 
 Probabilidade 
 
 
 
 0 1 2 3 4 5 6 10 no. de membros 
 9,5 10,5 
 
Usando a distribuição normal para calcular P (9,5 ≤ X ≤10,5) tem-se: 
 
Z = 9,5 – 6 = 1,85 
 1,897 
 
Z= 10,5 – 6 = 2,37 
 1,897 
 
P (9,5 ≤ X ≤10,5) = 0,4911 – 0,4678 = 0,0233 que é próximo a 0,0245 encontrada na tabela 
da distribuição binomial. 
 
Distribuições Amostrais 
 
As populações em geral são muito grandes para serem estudadas por inteiro, logo é 
preciso selecionar uma amostra de um tamanho possível para se manipular. Para se 
confiar em alguma conclusão a partir de uma amostra ou inferência sobre a população ou 
sobre o correspondente parâmetro, necessitamos da inferência estatística. 
 
O erro amostral é a diferença entre o parâmetro e a estatística da amostra usada para 
estimá-lo. 
0,02 
0,01 
 0,1 
0,15 
0,20 
24 
 
A distribuição amostral é uma lista de todos os valores para uma amostra estatística e suas 
respectivas probabilidades. 
 
Exemplo: 
Temos uma população N = 4 mensalidades para quatro colégios. Essas mensalidades são 
R$100; $200; $300; e $400 para cada colégio. A mensalidade média pode ser calculada como 
μ = R$ 250,00. 
 
Para simplificar o nosso exemplo decidimos selecionar uma amostra n =2 observações para 
estimar a média μ “desconhecida” da população. Pode-se selecionar aleatoriamente uma das 
4C2 = 6 amostras possíveis. 
 4 
 = 4! = 4.3.2! 12/2=6 
 2 2! (4-2)! 2! . 2! 
 
Assim, todas as amostras possíveis de tamanho n=2 de uma população com N=4 
mensalidades, ou seja, as 6 amostras diferentes e suas médias que podem ser selecionadas 
são: 
 
AMOSTRAS ELEMENTOS DA AMOSTRA Xi Média da Amostra 𝐗 
1 100,200 150 
2 100,300 200 
3 100,400 250 
4 200,300 250 
5 200,400 300 
6 300,400 350 
 
Assumindo que cada amostra é igualmente provável de ser escolhida, a probabilidade de 
selecionar uma amostra com 𝐗 igual à média da população (R$ 250,00) é de somente 2/6 = 
33,33% (amostras no. 3 e 4 na tabela). Assim, quatro das seis amostras resultarão num erro 
no processo de estimação, onde este erro amostral é a diferença entre μ e a média da 
amostra que usamos para estimá-la (𝐗 – μ). 
Desta forma, podemos tirar uma amostra de n=2 observações consistindo nos valores de R$ 
100 e $ 300 (amostra no. 2 na tabela). A média resultante 𝐗 = $ 200 produz um erro amostral 
em relação a população de $ 250-200 = $50. Se a média da população for desconhecida 
nunca será possível calcular o erro exatamente da amostra. 
 
A distribuição amostral com as suas respectivas probabilidades para a população N=4 
mensalidades é: 
 
Média Amostral 𝐗 NÚMERO DE 
AMOSTRAS 
Probabilidade 𝐏 
 
150 1 1/6 
200 1 1/6 
250 2 2/6 
300 1 1/6 
350 1 1/6 
TOTAL 6 1 
 
25 
 
A distribuição amostral para n = 2 de uma população com N=4 mensalidades é: 
 
 P(𝐗) 
 
 2/6 
 
 
 
 1/6 
 
 
 150 200 250 300 350 𝐗 
 
 
Média das amostras 
 
A distribuição amostral de 𝐗 é uma lista de todas as possíveis médias amostrais e essa lista 
possui uma média chamada de médias das médias ou grande média. Ela é calculada como a 
soma das médias amostrais 𝐗 e dividida pelo número de observações (amostras K). 
 
Média das médias amostrais; X̿ = 
∑ X̅
K
 
 
Onde K é o número de amostras na distribuição amostral. 
 
No exemplo anterior para as 6 amostras, tem-se: 
 
X̿ = 150 +200+250+250+300+350 = 250 
 6 
 
Note que a média da distribuição amostral X̿ é igual à média da população original 𝜇 = 250 e 
isto não é coincidência. A distribuição amostral da média sempre terá média igual à da 
população (𝐗 = 𝝁). 
 
Não confunda no n (número de observações em cada amostra) com K (número de amostras 
na distribuição amostral). Assim, a partir de uma população N= 4 mensalidades com amostras 
de tamanho n=2 que geram 4C2= K = 6 amostras diferentes na distribuição amostral. 
 
Variância e o erro padrão da distribuição amostral 
 
A variância mede a dispersão das observações individuais (médias amostrais) ao redor de 
sua média (a grande média) e ela é calculada por; 
 
Variância da distribuição amostral da média amostral σX̅
2 = 
∑(�̅�−�̿�)
2
𝐾
 = 
∑(�̅�−𝜇)2
𝐾
 
 
Para o problema tem-se: 
 
σX̅
2 = (150-250)2+(200-250)2+(250-250)2+(250-250)2+(300-250)2+(350-250)2= 4167 reais quadrados 
 6 
26 
 
O erro padrão da distribuição amostral da média amostral é: 
σX̅ = √𝜎�̅�
2 
 
Então: 
 
σX̅ = √4167 = 64,55 
O erro padrão da distribuição amostral é uma medida de dispersão das médias amostrais em 
torno de μ, ou seja, mede a dispersão de cada observação individual ao redor de sua média. 
 
Uma aproximação para o cálculo da variância da distribuição amostral pode ser feita a partir 
da variância da população: 
 
σX̅
2 = 
𝜎2
𝑛
 
 
E o erro é: 
 
σX̅ = 
𝜎
√𝑛
 (População Infinita) 
Onde n é o número total da amostra e σ2 variância da população. 
Quando n cresce o erro σX̅ decresce, e o fato do erro amostral diminuir quando o tamanho da 
amostra cresce será importante no estudo inferência estatística. 
Usando a aproximação para o exemplo anterior: 
Para a população σ ̅
2 = 
∑(𝑋𝑖 −𝜇)
2
𝑁
 
σ ̅
2 = (100 – 250)2+(200- 250)2+(300- 250)2+(400-250)2= 50000/4 =12500 
 4 
σ = √12500 = 111,8 desvio padrão da população 
 
σX̅ = 
𝜎
√𝑛
 = 
111,8
√6
 = 45,63 não é muito próximo, mas chega perto. 
 
As equações acima são apropriadas quando a amostra é feita com reposição, ou se a 
amostra é retirada de uma população muito grande (teoricamente infinita). Isso requer que a 
variância da população seja conhecida. 
 
Se a amostragem for feita sem reposição e se o tamanho da amostra for maior que 5% da 
população, então: n > 0,05N o fator de correção para uma população finita (fcp) precisa ser 
aplicado. 
O fcp é √
𝑁−𝑛
𝑁−1
 
O erro usando o fcp é: σX̅ = 
𝜎
√𝑛
√
𝑁−𝑛
𝑁−1
 (População Finita) 
 
Se n é relativamente pequeno em relação a N ,menos que 5%, o fcp se aproxima de 1 e 
portanto não altera o valor do erro padrão. 
27 
 
Teorema do Limite Central 
 
É possível coletar muitas amostras de mesmo tamanho de qualquer população, e se a 
população é normalmente distribuída, então a distribuição amostral da média também será 
normalmente distribuída. 
 
Na figura abaixo o gráfico superior mostra a distribuição das observações individuais de X i de 
uma população normalmente distribuída com média μ = 500e desvio padrão σ = 50. Note que 
os valores das observações XI estão no eixo horizontal. O gráfico inferior representa a 
distribuição da média amostral obtida como resultado da coleta de todas as amostras de 
tamanho n = 25. 
 
Note que os valores das médias amostrais 𝐗, estão no eixo horizontal. As médias são 
normalmente distribuídas e centradas ao redor da média da população X̿ = μ = 500, isto é, a 
média das médias amostrais é igual à média da população. 
A dispersão da população original σ = 50 é maior do que a média das médias amostrais σX̅ = 
𝜎
√𝑛
 = 
50
√25
 = 10. As observações Xi são muito mais espalhadas do que a média amostral 𝐗𝐒 
desde que σX̅ = 
𝜎
√𝑛
 . 
 
Teorema do Limite central: Quando n cresce a distribuição da média amostral 
aproxima-se de uma normal com média 𝐗 = μ e erro padrão 𝛔𝐗 = 
𝝈
√𝒏
 . 
 
O que pode acontecer com a forma da distribuição das médias amostrais se a população 
original não se distribuir como uma normal? 
A resposta é fornecida pelo TEOREMA DO LIMITE CENTRAL, que afirma que para qualquer 
população, quando n cresce, a distribuição das médias amostrais aproxima-se de uma 
distribuição normal com média X̿ = μ e erro padrão σX̅ = 
𝜎
√𝑛
 . 
 
σ = 50 
σX̅ = 
𝜎
√𝑛
 = 
50
√25
 = 10 
n = 25 
𝐗 = μ = 500 
 
28 
 
Usando uma distribuição amostral 
 
Muitas decisões são tomadas com base nos dados amostrais. A distribuição amostral da 
média será normalmente distribuída por que: 
1- A amostra foi coletada de uma população normal; ou 
2- n ≥ 30 e o teorema do Limite Central garante a normalidade no processo de amostragem, 
sendo que desvio padrão pode ser usado para garantir a informação essencial no processo 
de tomada de decisão. 
 
Desta forma, a distribuição amostral 𝐗 pode ser usada para fornecer informações 
probabilísticas a respeito da diferença entre a média da amostra e a média da população. 
 
Exemplo: Numa empresa com 2500 gerentes possui uma média anual salarial de R$ 
51.800,00 e σANUAL de R$ 4.000,00. Com a média populacional de R$ 51.800,00, o diretor de 
pessoal quer saber qual é a probabilidade de 𝐗 estar entre R$ 51.300,00 e R$ 52.300,00, 
(estar numa faixa de variação de R$ 500,00 para cima ou para baixo em relação da média 
população) usando uma amostra aleatória de 30 gerentes? 
 
n/N = 30/2500 = 0,012 Uma vez que o tamanho da amostra é menor que 5% da população, 
então pode-se ignorar o fcp finitas. 
 
σX̅= 
𝜎
√𝑛
 = 
4000
√30
 = 730,3 
 
Uma vez que a distribuição da amostral está normalmente distribuída, com média de R$ 
51.800,00 e erro padrão da média igual a 730,3, podemos suar a tabela de áreas da 
distribuição normal para calcular a probabilidade. 
 
Z= (51.300 – 51.800/ 730,3 = - 0,68 a área é 0,2517 
 
Z = (52.300 – 51.800/ 730,3 = + 0,68 a área é 0,2517 
 
A probabilidade de uma média amostral deve estar dentro de R$ 500 da média da população. 
 
 Distribuição amostral de 𝐗 
 σX̅ = 730,3 
 
 área 0,2417 área 0,2517 
 
 
 
 51.300 μ =51.800 52.300 𝐗 
 
Logo a probabilidade do valor da média estar entre 51.300 e 52.800 é dado por P (51.300 ≤ 𝐗 
≤ 52.300) = 0,2517 + 0,2517 = 0,5034. 
 
Assim, existe 1 - 0,5034 = 0,4966 de que a diferença entre a média da amostra 𝐗 e a média 
da população μ = R$ 51.800,00 ser maior que R$ 500,00, e talvez um tamanho da amostra 
maior deva ser considerada. 
 
29 
 
Observação: 
O valor de 𝐗 = μ é independente do tamanho da amostra, porém com o aumento do 
tamanho da amostra o erro da média decresce. 
 
 n= 100 𝛔𝐗 = 400 
 
 n= 30 𝛔𝐗 = 730,3 
 
 
 
 μ = 51.800 𝐗 
 
Distribuição amostral para Proporções 
 
Muitos assuntos de negócios referem-se à proporção da população π, e não a média. Uma 
empresa deseja saber se um cliente compra (opção 1) ou não compra um produto (opção 2). 
A proporção amostral p é suada para estimar o parâmetro desconhecido π (de sucesso). A 
partir de qualquer população é possível retirar muitas amostras diferentes de um mesmo 
tamanho. Cada amostra terá sua própria proporção de sucessos, p. Semelhante às médias o 
valor da distribuição amostral da proporção será igual à proporção de sucessos na população: 
P̅ = E(p) = π. 
Para uma amostra aleatória simples de uma população grande, o valor de P̅ é uma variável 
aleatória binomial, que indica o no. de elementos contidos na amostragem que possuem a 
característica de interesse. Uma distribuição binomial pode ser aproximada por meio de uma 
distribuição normal sempre que o tamanho da amostra for grande, para satisfazer as duas 
condições: np ≥ 5 e n (1- p) ≥ 5. 
 
O valor Esperado da Distribuição Amostral (média) é: 
 
E (p) = 
∑ p
K
 
 
O erro padrão é: 
 
σp = √
(π)(1−π)
n
 só uso se n/N ≤ 0,05 (população infinita) 
 
Se n > 0,05 N, o fcp é necessário e o erro padrão torna-se: 
 
σp = √
(π)(1−π)
n
 √
N−n
N−1
 (população finita) 
 
30 
 
O desvio normal à distribuição para proporções é dado por: 
 
Z= 
P−π
σP
 
Exemplo 1: A loja Pop perguntou a toda a população de clientes N=4 se eles viram seu 
anuncio no jornal nesta manhã. Uma resposta sim é considerada sucesso e não fracasso. Os 
quatro clientes responderam S1, N2, N3 e S4. A proporção de sucesso na população é de π = 
0,50. 
Por que: π = x/ N ♦♦♦ onde x é o no. de elementos contidos na amostra que possuem a 
característica de interesse. E N é o tamanho da população. 
π = 2 (S1 e S4)/4 = 0,5. 
 
As amostras de tamanho n = 2 foram consideradas e as proporções de sucesso encontradas 
encontram tabeladas abaixo: 
 
Distribuição Amostral da População 
Xi Números de Sucesso p (proporção de sucessos) 
S1, N2 1 0,5 
S1, N3 1 0,5 
S1, S4 2 1,00 
N2, N3 0 0 
N2, S4 1 0,5 
N3, S4 1 0,5 
 3,00 
 
O valor Esperado da Distribuição Amostral (média) é: 
 
P̅ = E (p) = 
∑ p
K
 = 3/6 = 0,50 
P̅ = E(p) = π 
 
Se n > 0,05 N,  2 > 0,05 X 4  2 > 0,2 Logo, o fcp é necessário e o erro padrão torna-se: 
 
σp = √
(π)(1−π)
n
 √
N−n
N−1
 = √
(0,50)(1−0,5)
2
 √
4−2
4−1
 = 0,289 
O gerente desta loja que saber qual é a probabilidade de obter um valor de p que se situe no 
intervalo de 0,05 da proporção populacional de clientes que disseram que viram o anuncio, ou 
seja, qual é a probabilidade de obter uma amostra com uma proporção amostral p que se 
situe entre 0,45 (0,5-0,05) a 0,55(0,5+0,05)? 
 
np ≥ 5 e n (1- p) ≥ 5 para este caso 𝐏 não se aproxima da normal. 
 
Somente neste caso para efeito didático, vamos supor uma distribuição normal de P̅ com 
média igual a 0,50 e desvio padrão da proporção σp = 0,289 
Para P̅ = 0,45 tem-se : Z= ( 0,45 -0,50)/0,289 = - 0,1730 cuja área é = 0,0675 
Para P̅ = 0,55 tem-se : Z= ( 0,55 -0,50)/0,289 = 0,1730 cuja área é = 0,0675 
Deste modo, a probabilidade de selecionar uma amostra que forneça uma proporção amostral 
P̅ dentro de 0,05 da proporção populacional é 0,0675 + 0,0675 = 0,135. 
 
31 
 
Exemplo: A Bells obtém componentes para os seus telefones celulares em lotes de 200 de 
uma firma em Manaus. Um componente tem uma taxa de defeito de 10 %. As normas 
recentes estabelecidas pela Bells, para os próximos carregamentos são: 
 
a) Se houver mais de 12 % de defeituosos, implicará em constatar um novo fornecedor. 
b) Se houver de 10 a 12% de defeituosos, implicará em considerar um novo fornecedor. 
c) Se houver de 5 a 10 % de defeituosos, implicará em continuarcom fornecedor. 
Qual é decisão mais provável que a Bells poderá tomar? 
 
Obs: O tamanho da população N não é fornecido, e é razoável que a Bells compre muitos 
componentes e a amostra de tamanho n = 200 é menor que 0,05 N, logo o fcp é 
desnecessário. 
O erro padrão é: 
σp = √
(π)(1−π)
n
 
Logo, 
σp = √
(0 ,1) (0,9)
200
 = 0,021 
a) P (p > 0,12) 
 
 0,4913 0,3289 
 0,087 0,1711 
 0,05 0,1 0,12 
Z= 
P−π
σP
 
 
Z= 
0,12−0,10
0 ,021
 = 0,95 CORRESPONDE A UAM ÁREA DE 0,3289 
P (p > 0,12) = 0,500 – 0,3289 = 0,1711 ...Significa que têm 17,11 % a probabilidade de vir 
com + de 12 % de peças defeituosas. 
 
b) P (0,10 ≤p ≤ 0,12) 
Z= 
P−π
σP
 
 
Z= 
0,12−0,10
0 ,021
 = 0,95 CORRESPONDE A UAM ÁREA DE 0,3289. Significa que têm 32,89 % 
a probabilidade de vir entre 10 % a 12 % peças defeituosas. 
 
c) P (0,005 ≤p ≤ 0,10) 
Z= 
P−π
σP
 
 
Z= 
0,05−0,10
0 ,021
 = - 2,38 CORRESPONDE A UAM ÁREA DE 0,4913. Significa que tem 49,13 
% a probabilidade de vir entre 5 % a 10 % peças defeituosas. Como o item c forneceu a maior 
probabilidade, a Bell permanecerá com o mesmo fornecedor. 
 
 
 
32 
 
Tipos de amostragem (para leitura complementar) 
Existem vários procedimentos amostrais apropriados e, portanto apenas alguns serão 
abordados. 
 
a) Amostragem Aleatória Simples 
É o método básico de amostragem aleatória, pela sua facilidade de selecionar amostras, 
analisar dados e reduzir erros de amostragem, mas ele não pode ser aplicado sempre, e não 
é sempre o mais apropriado. O método se fundamenta no princípio de que todos os membros 
de uma população têm a mesma probabilidade de serem incluídos na amostra. Fases do 
método: 
a) listagem da população; 
b) determinação do tamanho da amostra; 
c) uso de números aleatórios (tabela ou algoritmos computacionais). 
Existem fórmulas e tabelas para estabelecer o tamanho das amostras e as estimativas, de 
acordo com: 
• tamanho da população; 
• o nível de confiabilidade desejável; 
• o índice de precisão escolhido; 
• o grau de dispersão; 
• a taxa de ocorrência. 
 
b)Amostragem Sistemática 
Aqui os membros da população que participam da amostra são determinados a partir de 
intervalos fixos, e não há a utilização de tabelas de números aleatórios. 
Por exemplo, numa população de 100 peças, para obtermos 10 amostras sistemáticas 
podemos retirar as peças de número 10, 20, 30, e assim por diante, até completarmos 10 
amostras sistematicamente colhidas. Para encontrarmos os pontos onde faremos as coletas 
sistemáticas das amostras, podemos seguir os seguintes passos (conforme exemplo): 
Define-se o tamanho da população: N= 1600. Define-se o tamanho da amostragem total: n= 
100 
 
N
n
 = 1600/100 = 16 
Faz-se então: Sorteia-se um número de 1 a 16, que será o primeiro número da amostra, logo 
as próximas amostras serão retiradas de 16 em 16. As vantagens são: 
1. Facilidade de determinação dos elementos da amostra; 
2. Não precisa usar números aleatórios; 
3. Mais rapidez para grandes populações. 
As desvantagens são: 
1. Cuidados com o fator “posição” na lista dos componentes da população; 
2. Cuidado com fenômenos sazonais. 
 
c) Amostragem Estratificada 
Consiste em dividir a população em subgrupos mais homogêneos (estratos) e retirar amostras 
aleatórias simples dos subgrupos. Por exemplo: Deseja-se estudar a aceitação de 
determinados métodos de controle de natalidade em uma determinada cidade. Solução: 
Aspectos relevantes nesta aceitação: região do país e situação socioeconômica; Uma 
identificação sugerida: região do país; norte, nordeste, centro-oeste, sudeste e sul. Uma 
identificação sugerida - a classe social: alta, média e baixa. Estratos que poderiam ser 
formados: 
33 
 
• Norte de classe alta; 
• Norte de classe média; 
• Norte de classe baixa; 
• Nordeste de classe alta; 
• Nordeste de classe média; 
• Nordeste de classe baixa; 
• Centro-oeste de classe alta; 
• Cetro-oeste de classe média; 
• Centro-oeste de classe baixa 
• Suldeste de classe alta; 
• Suldeste de classe média; 
• Suldeste de classe baixa; 
• Sul de classe alta; 
• Sul de classe média; 
• Sul de classe baixa 
Retiramos amostras aleatórias simples de cada estrato, usando o processo já sugerido 
(listagem, números aleatórios); Juntar numa só amostra a fim termos uma amostra de toda a 
população; A idéia básica é que: “um grupo homogêneo requer amostra menor que um grupo 
heterogêneo”. As amostras estratificadas são divididas em três tipos: 
1. Uniforme: Na amostragem estratificada uniforme sorteia-se igual número de elementos de 
cada estrato. 
2. Proporcional: Na amostra estratificada proporcional, o número de elementos em cada 
estrato é proporcional ao número de elementos existentes no estrato. 
3. Ótima: Na amostra estratificada ótima, quando se toma em cada estrato um número de 
elementos proporcional ao número de elementos do estrato e também à variação da variável 
de interesse no estrato, medida pelo seu desvio padrão. A técnica de estratificar é bastante 
útil, quando a população apresenta muita diversidade nos seus valores individuais, datas, etc; 
assim estabelecem-se estratos de modo que a variância do valor do item seja o menor 
possível dentro de cada estrato. 
 
d) Amostragem por Conglomerados 
É um método muito utilizado por motivos de ordem prática e econômica, onde divide-se uma 
população em pequenos grupos e sorteia-se um número suficiente desses pequenos grupos 
(conglomerados), cujos elementos constituirão a amostra. Neste método, existem pelo menos 
dois níveis de amostragem que são empregados: 
Nível 1 – Unidade de Amostragem; 
Nível 2 – Elementos Amostrados (dentro de cada conglomerado). 
Exemplo: Deseja-se entrevistar uma amostra representativa de pessoas que vivem numa 
grande área da cidade. Extrair uma amostra aleatória simples, ou sistemática ou estratificada 
de pessoas espalhadas numa grande área implicaria em muitas viagens, alto custo e muito 
tempo. Solução: Tomar, por exemplo, quarteirões da cidade como unidade primária de 
amostragem ou conglomerado. 
a) Listar os quarteirões 
b) Sortear uma amostra aleatória simples de quarteirões (números aleatórios); 
c) Entrevista-se as residências dos quarteirões selecionados. 
Alguns aspectos da representatividade de uma amostra probabilística: 
1. A amostra não deve ter preconceito ou tendência; 
2. Cada item da população deve ter uma chance conhecida de ser selecionado; 
3. Seu tamanho deve ser grande o bastante de modo a minimizar o risco da amostra atípica. 
 
34 
 
Estimando com Intervalos de Confiança 
 
As populações são muito grandes para serem estudadas, e consequentemente requer que 
amostras sejam selecionadas. 
Há dois tipos de estimativas usadas: estimativa pontual e estimativa intervalar. 
Estimativa pontual: usa uma estatística para estimar o parâmetro com um único valor ou 
ponto. Ex: O gerente de uma loja pode escolher uma amostra de n=500 fregueses e encontrar 
a média de gastos de 𝐗 = R$ 37,00. Esse valor serve como uma estima pontual para a média 
da população. 
 
Estimador intervalar: determina a amplitude dentro da qual um parâmetro desconhecido 
pode estar. Ex. O gerente pode decidir que a média da população fique entre R$ 35,00 e R$ 
38,00. Cada intervalo é geralmente acompanhado de uma declaração de confiança desse 
intervalo. Por isso é chamado de intervalo de confiança. 
 
Intervalo de confiança: fornece uma amplitude dentro da qual o parâmetro pode ser 
encontrado e o grau de confiança com que o intervalo pode conter o parâmetro. 
 
Existem três graus usuais de confiança associados aos intervalos de confiança, que são: 
99, 95 e 90 %. Esses três graus de confiança são chamados de coeficientes de confiançae 
são simplesmente convencionais. Se quisermos podemos calcular um intervalo de confiança 
de 82%. 
Obs: Por causa do erro amostral provavelmente a média 𝐗 não será igual à média população 
μ. 
Como a distribuição amostral mostra como os valores de 𝐗 estão distribuídos nas 
proximidades da média populacional μ, a distribuição amostral de 𝐗 fornece 
informações sobre as possíveis diferenças entre 𝐗 e μ. Usando a tabela de áreas da 
distribuição normal padrão, pode-se afirmar que 95% dos valores de qualquer variável 
aleatória normalmente distribuída está dentro de +/- 1,96 desvio padrão da média. 
Desse modo, quando a distribuição amostral de 𝐗 está normalmente distribuída, 95 % 
dos valores de 𝐗 devem estar dentro de +/- 1,96𝛔𝐗 da média μ. 
 
Um intervalo de confiança tem um limite inferior de confiança (LIC) e um limite superior de 
confiança (LSC). Esses limites são uma quantidade somada em relação a 𝐗, logo tem-se que 
saber a média da amostra. 
De qualquer população pode-se pegar várias amostras de um determinado tamanho com 
cada uma com a sua respectiva média (uma Distribuição Amostral). 
 
Exemplo: Se pegarmos seis amostras com as suas respectivas médias pode-se construir os 
intervalos de confiança com dois erros padrões acima e abaixo dessa média. Assim, se tem a 
certeza que 95,5% de certeza que o intervalo construído possui a média desconhecida da 
população. 
Observa-se no gráfico que apenas a 𝐗3 e 𝐗5 estão afastados da média população, cujo 
intervalo de +/- 2 erros padrões não inclui a média da população. 
 
35 
 
 
Conclusão: Se a média da população tem 95,5% (95,5%/2 = 0,4775) de chance de estar no 
intervalo de dois erros padrões de todas as médias amostrais, então, dada qualquer amostra 
pode-se ter 95,5% de certeza que o intervalo de 2 erros padrões ao redor da média dessa 
amostra contém a média desconhecida da população. 
 
Se desejarmos uma estimativa intervalar para a média da população com uma grande 
amostra (n ≥ 30) pode-se construir um intervalo mais convencional de 95 % em vez de 95,5%, 
logo quantos erros padrões devemos colocar acima e abaixo da média amostral? 
 
Como a tabela Z contém valores apenas para a área acima ou abaixo da média, devemos 
dividir então 95% por dois, que resulta em 0,4750. 
 
O Z-valor correspondente a uma área de 0,4750 é Z= 1,96. O intervalo é -1,96 𝛔𝐗 para baixo 
da média amostral e +1,96 𝛔𝐗 para cima. 
 
Intervalo de confiança de 95% para a 
média da população 
 
 
 0,95 
 
 
 0,4750 0,4750 
 μ = ? 𝐗s 
 
 -1,96 𝛔𝐗 +1,96 𝛔𝐗 
 
Intervalo de confiança para média da população – Amostra grande 
 
O intervalo de confiança para μ quando σ é conhecido é dado por: 
 
I. C. para μ = 𝐗 +/- Z 𝛔𝐗 
 
36 
 
Exemplo: Considere um empreendedor imobiliário que pretende construir um grande 
shopping. Ele pode estimar a renda média familiar anual na área como um indicador das 
vendas futuras. Uma amostra de n= 100 famílias resultou em 𝐗 = R$ 35.500,00. 
 
Assuma que o desvio padrão seja σ = R$ 7200,00. Dado que σX̅= 
𝜎
√𝑛
 um intervalo de 95 % é 
estimado como: 
 
I. C. para μ = 35.500 +/- (1,96) 
𝟕.𝟐𝟎𝟎
√𝟏𝟎𝟎
 
 
 = R$ 34.088.80 ≤ μ ≤ R$ 36.911,20 
O intervalo de confiança pode ser interpretado de duas maneiras: A primeira e a mais usada 
declara que o empreendedor tem 95% de certeza que a verdadeira e desconhecida média da 
população está entre R$ 34.088.80 e R$ 36.911,20. Embora o verdadeiro valor para a média 
da população permaneça desconhecido, este tem 95 % de certeza que ela se encontra entre 
esses dois valores. 
 
A segunda interpretação reconhece que vários intervalos de confiança podem ser 
construídos, ou seja, outra amostra produzirá uma média amostral diferente por causa do erro 
amostral. Com um 𝐗 diferente o intervalo terá outro limite superior e inferior. Assim, é que se 
todos os NCn intervalos de confiança forem construídos, 95% deles irão conter a 
desconhecida média da população. 
 
Isso significa que 5% dos intervalos estariam errados, ou seja, eles não conteriam a média da 
população. Esses 5 % calculados como 1 – coeficiente de confiança é chamado de Alfa Valor 
e represente a probabilidade de erro. 
 
Alfa Valor é a probabilidade de erro ou a probabilidade de que um dado intervalo não 
contenha a média desconhecida da população. 
 
Intervalo de Confiança quando σ é desconhecido 
 
Se σ é desconhecido então deve ser substituído pelo desvio padrão da amostra, conforme 
abaixo: 
 
Intervalo de confiança para μ quando σ é desconhecido é dado por: 
 
I. C. para μ = 𝐗 +/- Z 𝐬𝐗 
 
Onde 𝐬𝐗 = 
𝐒
√𝐧
 
 
Exemplo: Um contador acabou de completar o imposto de renda de seus clientes e ele quer 
estimar a quantidade média que eles devem à Receita Federal. Dos 50 clientes que ele 
escolheu para sua amostra, a quantidade média devida é R$ 652,68. Como o desvio padrão σ 
para todos os seus clientes é desconhecido, este deve estimar σ com o desvio padrão da 
amostra de s = R$ 217,43. Se um grau de confiança de 99% é desejado, o valor de Z-valor 
apropriado é 0,99/2 = 0,4950. Da tabela Z para uma área de 0,4950 revela Z = 2,58. 
Usando a equação acima tem-se: 
37 
 
I. C. para μ = 𝐗 +/- Z 𝐬𝐗 
 = 652,68 +/- 2,58 
217,43
√50
 
 = 573,35 ≤ μ ≤ 732,01 
 
O contador pode estar 99% certo de que a quantidade média devida por seus clientes é 
algum valor entre R$ 573,35 e R$ 732,01. 
 
O que aconteceria com esse intervalo se o contado aceitasse um intervalo de confiança de 
95? 
 = 652,68 +/- 1,96 
217,43
√50
 
 = 592,41 ≤ μ ≤ 712,96 
 
O resultado é bom ou ruim em comparação ao anterior? O intervalo de confiança de 95 % é 
mais estreito e dá maior precisão. Logo, quanto menor o intervalo, mais significativo. 
Porém, o contador tem apenas 95 % de certeza de que o intervalo realmente contém μ. 
Embora o intervalo seja mais preciso (estreito) a probabilidade de que ele contenha μ 
caiu de 99% para 95%. Assim, o contador abriu mão da confiança pela precisão. 
 
Controlando o tamanho da amostra 
 
Existem dois modos de construir um intervalo mais preciso: 1- diminuindo o grau de 
confiança e 2- aumentando o tamanho da amostra. 
 
1- Diminuindo o grau de confiança 
 
Um aumento de precisão pode ser ganho aceitando um grau de confiança menor. 
Para o exemplo anterior o intervalo de confiança de 99 % variava de R$ 573,00 a R$ 732,00, 
enquanto o intervalo de confiança de 95$ era menor variando de R$ 592,00 a R$ 712,00. 
Existe uma perda envolvida nesse aumento de precisão, ou seja, o grau de confiabilidade de 
95% resulta em 5% de probabilidade de erro em vez do 1% de erro associado ao intervalo de 
confiança de 99%. 
 
2- Aumentando do tamanho da amostra 
 
O modo de encurtar o intervalo sem perda de confiança é aumentando o tamanho da 
amostra, pois se diminui o erro padrão σX̅= 
𝜎
√𝑛
 . 
No exemplo acima se a amostra é aumentada para 80, o intervalo de 99% exibe um grau de 
precisão similar ao do intervalo mais curto de 95% sem perder a confiabilidade. 
Como n = 80, o intervalo de 99% tem-se: 
 
I. C. para μ = 𝐗 +/- Z 𝐬𝐗 
 
 = 652,68 +/- 2,58 
217,43
√80
 
 = 589,96 ≤ μ ≤ 715,39 
Essa vantagem não é ganha sem pagar um preço, ou seja, amostra maior significa maior 
tempo e mais dinheiro para coletar. 
38 
 
Intervalos de Confiança para proporções da PopulaçãoGeralmente as decisões dependem de parâmetros binários, ou seja duas categorias de 
respostas. Ex. uma empresas que saber qual a proporção de seus consumidores pagam com 
cartão de crédito e quantos pagam em dinheiro. 
 
Para que a proporção amostral seja normal quando nπ e n(1-π) for maior que 5. Então a 
distribuição amostral terá média igual a proporção da população. P̅ = E(p) = π 
 
O erro padrão da Distribuição da Proporção da Amostra será dado por: 
 
σp = √
(π)(1−π)
n
 
 
O parâmetro que se deseja estimar é π, e usa-se a proporção amostral p como um estimador 
para π que pode ser escrito como: 
 
sp = √
(p)(1−p)
n
 
 
O intervalo de confiança é: 
 
I. C. para π = p +/- Z 𝐬𝐩 
 
Exemplo: O gerente de uma estação de televisão deve determinar qual a porcentagem de 
moradias da cidade que tem mais de um aparelho de televisão. Uma amostra aleatória de 500 
casas revelou que 275 delas têm dois ou mais aparelhos. Qual é o intervalo de confiança de 
90% para a proporção de casas com dois ou mais aparelhos? 
Temos p = 275/500 = 0,55 
sp = √
(p)(1−p)
n
 = √
(0,55)(1−0,55)
500
 = 0,022 
 
A tabela da distribuição normal fornece para um intervalo de confiança de 90 % para π um 
valor de Z de 1,65. 
 
I. C. para π = p +/- Z 𝐬𝐩 
 
π = 0,55 +/- (1,65) (0,022) 
= 0,55 +/- 0,036 
 
0,514 ≤ π ≤ 0,586 
 
O gerente pode ter 90 % de certeza que entre 51,4 % a 58,6 % das casas da cidade têm mais 
de um aparelho de TV em casa. 
 
Intervalo de confiança para média da população com amostra pequena – Distribuição t 
 
Quando a amostra for pequena (n menor que 30 elementos) deve ser usada uma distribuição 
que não a normal chamada de distribuição t de Student (distribuição t). A distribuição t é 
39 
 
usada: 1- amostra é pequena; 2) σ é desconhecido; e 3 – a população é normalmente 
distribuída ou quase. 
 
Características da distribuição t: tem zero como média (igual a distribuição Z); é simétrica em 
relação à média, e sua amplitude varia de -∞ a + ∞. 
A variância da distribuição t é maior do que 1, e portanto mais achatada e dispersa que 
a distribuição Z (variância da distr. Z é σ2 = 1). 
 
Variância para distribuição t σ2 = 
𝐧−𝟏
𝐧−𝟑
 
 
Uma família de distribuição t: 
 
A variância depende dos graus de liberdade (g. l.) definidos como o número de 
observações menos o número de restrições impostas a essas observações, onde a 
restrição é algum valor que essas observações devem gerar. 
 
A estatística t é calculada: 
t = 𝐗 – μ onde : sX̅ é desvio padrão da amostra , μ é a média da população, e 𝐗 
 sX̅ é media da amostra. 
Onde 𝐬𝐗 = 
𝐒
√𝐧
 
 
A eq. acima pode ser representada como um intervalo de confiança para μ: 
 
Intervalo de confiança para a Média da População Amostra pequena: 
 
I. C. para μ = 𝐗 +/- t 𝐬𝐗 = 𝐗 +/- t 
𝐒
√𝐧
 
 
O valor de t pode ser encontrado na tabela. 
 
Exemplo: Uma construtora foi acusada de inflacionar os custos em seus comprovantes de um 
contrato com o Governo. O contrato declara que um certo tipo de trabalho deve custar em 
média R $ 11.500,00. Na época apenas 12 diretores de agencias governamentais foram 
chamados para prestar depoimento sobre o caso dos comprovantes. Se através das 
Z ou t com n ≥ 30 
 t com n = 15 ( 20 g.l.) 
 t com n = 10 (10 g.l.) 
40 
 
testemunhas chegou-se à média de R$ 1275,00 com desvio padrão de R$ 235,00, um 
intervalo de confiança de 95 % prova a inocência da construtora? Suponha que os valores 
dos comprovantes são normalmente distribuídos. 
 
Para um intervalo de confiança de 95 % e com g.l. (graus de liberdade) 12 – 1 = 11 (n-1), 
resulta pela Tabela um valor de t de 2,201. 
 
Assim: 
 
I. C. para μ = 𝐗 +/- t 
𝐒
√𝐧
 = 
 
= . 1275 +/- (2,201) 
𝟐𝟑𝟓
√𝟏𝟐
 
 
= 1275 +/- 149,31 
 
R$ 1.125,69 ≤ μ ≤ 1.424,31 
 
Resp. O tribunal pode ter 95 % de certeza de que a média dos valores dos comprovantes está 
entre R$ 1125,00 e R$ 1424,00. O intervalo contém o valor contratado reafirmando a defesa 
da empresa. 
 
Note que o valor t para um intervalo de 95 % é 2,201 (dado g.l. = 11) enquanto uma amostra 
maior usaria um valor Z de 1,96, logo o intervalo baseado num t valor é mais largo. 
 
Determinando o tamanho da amostra 
 
O tamanho da amostra tem um importante papel na determinação da probabilidade de erros, 
bem como da precisão da estimativa. Depois de escolher o grau de confiabilidade dois fatores 
influenciam na escolha do tamanho da amostra: 1- a variância da população σ2 (estar fora do 
controle do pesquisador) e 2- o tamanho do erro tolerado que os pesquisadores estão 
dispostos a aceitar (é possível limitar o tamanho do erro). 
 
a) Tamanho da amostra para μ 
 
A distribuição normal de Z pode ser expressa como: 
 
Z = 
X̅− 𝜇
𝜎�̅�
 = 
X̅− 𝜇
𝜎
√𝑛
 
 
Isso pode ser reescrito como: 
 
n = 
𝑍2𝜎2
(𝑋− 𝜇)
2 Tamanho da amostra p/ intervalos da média da população 
 
Onde a diferença entre a média da amostra e a média da população é o erro (�̅� − 𝜇) . 
 
41 
 
Exemplo: A indústria de disco deseja construir um intervalo de 95% para o tamanho médio da 
peça. Uma amostra piloto ( n ≥ 30) revela um desvio padrão de 6 cm. Qual deve ser o 
tamanho da amostra? Usa-se um intervalo de 95% utiliza um valor Z de 1,96 (erro de 2 
desvios padrão). 
 
n = 
𝑍2𝜎2
(𝑋− 𝜇)
2 
n = 
1,96262
(2)
2 = 34,5 = 35 peças 
 
A indústria deve selecionar uma amostra de 35 peças. Para essa amostra um intervalo de 95 
% pode ser construído para o diâmetro médio. LO intervalo poderia ter um erro menor que 2 
cm. 
 
a) Tamanho da amostra para π 
 
Vimos que: 
 
Z= 
P−π
σP
 
 
Onde o erro padrão é: 
σp = √
(π)(1−π)
n
 
 
Podemos reescrever uma expressão para o tamanho da amostra como: 
 
n = 
𝑍2 (𝜋) (1−𝜋)
(𝑝 − 𝜋)
2 Tamanho da amostra p/ intervalos da proporção da população 
 
Onde a diferença entre a proporção da amostra e a proporção da população é o erro (𝑝 −
 𝜋) . 
 
Como π é o parâmetro desconhecido que desejamos estimar, então tem dois modos de tratar. 
1- Pegar uma amostra piloto para obter um valor de π, ou 2- se pode simplesmente 
considerar π = 0,5 para fins de determinar o tamanho da amostra , o que é mais seguro. O n 
será maximizado se π = 0,5, pois então o numerador da eq acima fica π (1 – π ) = 0,25, pois 
qualquer valor diferente de 0,5 resultará um valor menor que 0,25. 
 
Exemplo:Um candidato está concorrendo para governador e quer uma estimativa com 1 ponto 
percentual de erro para a proporção das pessoas que irão votar nele. Ele também que um 
intervalo de confiança de 95%. Qual deve ser o tamanho da amostra? 
 
n = 
𝑍2 (𝜋) (1−𝜋)
(𝑝 − 𝜋)
2 = 
1,962(0,5) (0,5)
(0,01)
2 = 9.604 votantes 
Uma amostra de 9604 votos permitirá o candidato estime π com 1 ponto percentual de erro 
com intervalo de confiança de 95 %.

Continue navegando