Probabilidade e Estatística

•
UFES

João Vitor Teixeira Ferreti
29/09/2015
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 410 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 410 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 410 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Probabilidade e Estatística

29.454 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
Probabilidade e Estatística
Caroline Cavatti Vieira Bolonini
carolinevieira@ceunes.ufes.br
2014/1
Bibliografia básica:
• Caroline C. Vieira. Notas de aula
• M. N. Magalhães; Antonio C. P. de Lima. Noções de
Probabilidade e Estatística – 4ª ed.
1. Introdução
• Definição de Estatística: é um conjunto de técnicas
que nos permite, de forma sistemática, coletar,
organizar, descrever, analisar e interpretar dados
oriundos de estudos e experimentos.
• Está dividida em duas áreas:
• Estatística Descritiva: é utilizada na etapa inicial da
análise para que possamos nos familiarizar com os
dados, e tirarmos conclusões informais e diretas a
respeito de características de interesse com base nos
dados observados.
• Inferência Estatística: Técnicas que permitem
extrapolar para a população, conclusões tiradas de
subconjuntos ou amostras desta população.
Conceitos:
• População: é um conjunto de dados / pessoas /
objetos / etc. que possuem pelo menos uma
característica em comum de interesse do
pesquisador. Exemplos:
1. a população brasileira.
2. a totalidade dos carros produzidos no Brasil.
3. uma jazida de minério de ferro de determinada
mina.
4. o sangue no corpo de uma pessoa.
• Amostra: é um subconjunto desta população obtida
de acordo com certas regras (técnicas de
amostragem).
1. a população do Paraná.
2. carros produzidos pela Fiat.
3. um testemunho ou porção retirada da mina.
4. uma ampola de sangue colhida para um exame.
Estatística Descritiva
Amostragem
População Amostra
Inferência Estatística
• Dados: Conjuntos de valores, numéricos ou não.
Todo dado se refere à determinada característica
(variável).
Tipos de Variáveis:
• Qualitativas: quando os possíveis valores que
assume representam atributos ou qualidades.
Podem ser:
• Nominais: o conjunto dos possíveis valores não
possui uma ordenação natural. Ex: Sexo, Raça,
Religião, etc.
• Ordinais: é possível ordenar o conjunto dos possíveis
valores. Ex: Classe Social, Escolaridade do chefe da
família, etc.
• Quantitativas: quando os possíveis valores que
assume são de natureza numérica. Podem ser:
• Discretas: em geral são fruto de uma contagem. O
conjunto de possíveis valores é enumerável. Ex:
Número de filhos na família, número de pessoas
chegando em uma fila, número de caras obtidas
em 5 lançamentos de uma moeda etc.
• Contínuas: assumem valores em intervalos dos
números reais. Ex: peso, altura, idade, etc.
2. Estatística descritiva
• Apresentação dos dados: organizar os dados
de maneira prática e racional para o melhor
entendimento do fenômeno que se está
estudando. Pode ser por meio de tabelas e
gráficos.
2.1. Construção de Tabelas
• O conjunto de informações disponíveis após
tabulação de questionário ou pesquisa de campo é
denominado tabela de dados brutos.
• Nela são listados individualmente cada elemento da
população ou amostra, com os valores de todas as
variáveis estudadas. (Vide anexo 1)
• Apesar de conter muita informação, a tabela de
dados brutos não é prática para respondermos
rapidamente a questões de interesse.
• Assim, a partir da tabela de dados brutos
normalmente construímos uma nova tabela
denominada tabela de frequência.
• A tabela de frequência mais simples é aquela que
lista os valores observados para determinada
variável, e o número de ocorrências (ou frequência
absoluta) de cada um destes valores. Exemplos:
 
Sexo fi 
F 37 
M 13 
total 50 
 
 
Turma fi 
A 25 
B 25 
total 50 
 
 
• fi – Freq. absoluta: nº de elementos pertencentes a
uma classe.
Outras Freqüências:
• Freqüência acumulada (fa):
fa = freq. absoluta da classe + freq. absoluta das
classes anteriores
• Freqüência relativa (fr):
• Freqüência relativa acumulada (fra):
fra = freq. relativa da classe + freq. relativa das classes
anteriores
𝑓𝑟 =
𝑓𝑟𝑒𝑞. 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎 𝑑𝑎 𝑐𝑙𝑎𝑠𝑠𝑒
𝑓𝑟𝑒𝑞. 𝑡𝑜𝑡𝑎𝑙
 
Exemplo:
Idade fi fa fr (%) fra (%) 
17 9 9 18 18
18 22 31 44 62
19 7 38 14 76
20 4 42 8 84
21 3 45 6 90
22 0 45 0 90
23 2 47 4 94
24 1 48 2 96
25 2 50 4 100
Total 50 100
• No caso da variável discreta assumir muitos
valores e no caso das variáveis contínuas, os
dados serão classificados em grupos,
possuindo diversos valores numa classe.
Exemplo:
Peso PMi fi fa fr fra
44 |- 52 48 11 11 0,22 0,22
52 |- 60 56 19 30 0,38 0,60
60 |- 68 64 7 37 0,14 0,74
68 |- 76 72 7 44 0,14 0,88
76 |- 84 80 1 45 0,02 0,90
84 |- 92 88 4 49 0,08 0,98
92 |- 100 96 1 50 0,02 1,00
Total 50 1
Definições:
• Limite inferior da classe (LI): é o valor mínimo que a
variável alcança.
• Limite superior da classe (LS): é o valor máximo que a
variável alcança.
• Amplitude da classe (h): é a diferença entre o LS e o
LI de uma mesma classe.
• Amplitude total (R): é a diferença entre o maior e o
menor valor observado.
• Ponto médio da classe (PM): é obtido somando-se o
LI e o LS de uma mesma classe, e dividindo-se o
resultado por 2.
2.2. Procedimento para construção de
tabelas
1. Calcular a amplitude total (R).
2. Estipular o número de classes da tabela (k).
Em geral varia de 5 a 20.
• Critério para escolher k: seja n o número de 
dados
- se 𝑛 ≤ 25 → 𝑘 = 5 
- se 𝑛 > 25 → 𝑘 ≈ 𝑛 
3. Calcular a amplitude das classes (h), de forma que
as classes tenham a mesma amplitude. Para isso,
toma-se:
• OBS: h deve ser tomado com número de casa
decimais igual ou menor que os dados; e seu valor
deve, sempre, ser arredondado para cima.
𝑕 = 𝑅 𝑘 
• Exemplo: as notas de 32 estudantes de uma classe
estão descritas a seguir.
0,0 0,0 1,0 1,5 2,0 2,0 2,5 3,5
3,5 4,0 4,0 4,0 4,5 4,5 4,5 5,0
5,0 5,0 5,0 5,0 5,5 5,5 6,0 6,0
6,0 6,5 6,5 7,0 7,0 7,0 8,0 8,5
1. 𝑅 = 8,5 − 0,0 = 8,5 
2. 𝑘 = 32 ≈ 5,66 ≈ 6 
3. 𝑕 = 8,5 6 ≈ 1,42 ≈ 1,5 
• Construir a tabela de freqüência.
Notas fi fa fr (%) fra (%) 
0,0 |- 1,5 3 3 9 9
1,5 |- 3,0 4 7 13 22
3,0 |- 4,5 5 12 16 38
4,5 |- 6,0 10 22 31 69
6,0 |- 7,5 8 30 25 94
7,5 |- 9,0 2 32 6 100
Total 32 100
2.3. Construção de Gráficos
• Gráfico de Barras: Para cada valor da variável,
desenha-se no eixo horizontal (ou vertical) uma barra
com altura correspondente a sua freq. absoluta (ou
relativa).
• Este tipo de gráfico se adapta melhor às variáveis
quantitativas discretas ou qualitativas.
• Ex: Gráfico de barras para a variável Idade.
0
5
10
15
20
25
17 18 19 20 21 22 23 24 25
F
rq
. 
A
b
so
lu
ta
Idade
• Diagrama circular, disco ou pizza: Tipo de gráfico
muito utilizado para representação de variáveis
qualitativas.
• Consiste num círculo dividido em setores, cujos
tamanhos são proporcionais às freq. absolutas ou
porcentagens correspondentes.
• É útil quando o número de classes é pequeno.
• Ex: Gráfico de pizza para a variável OpTV.
• Histograma: Este é um gráfico que parte de uma
tabela de freqüência de dados agrupados.
• Este gráfico consiste de retângulos contíguos cuja
base é igual à amplitude da classe correspondente e
área igual à freqüência relativa de cada classe.
• A altura de cada retângulo é chamada de densidade
da classe. A densidade da classe i é o valor dado por:
𝑑𝑖 =
𝑓𝑟𝑒𝑞. 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 𝑑𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝑖
𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒 𝑑𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝑖
 
• No caso da primeira classe da tabela de freq. da
variável peso temos:
𝑑𝑖 = 0,22 8 = 0,0275 
• Obs: o histograma pode ainda ser representado por
retângulos contíguos cuja base é igual à amplitude
da classe correspondente e altura igual à freqüência
absoluta (ou relativa) de cada classe.
• Ex: histograma da variável peso.
• Polígono de Frequência: Este gráficoé obtido
unindo-se os pontos médios de cada classe por
segmentos de reta.
• Este gráfico fornece uma melhor idéia da forma de
distribuição dos dados.
• OBS: Devem-se acrescentar classes com freqüência
zero em ambos os extremos da distribuição para ligar
o gráfico ao eixo horizontal.
0
0,005
0,01
0,015
0,02
0,025
0,03
0,035
0,04
0,045
0,05
48 56 64 72 80 88 96
D
e
n
si
d
a
d
e
Peso - Ponto Médio
• Ogiva: Representação gráfica das freqüências
acumuladas de uma tabela de freqüências de dados
agrupados.
• É uma linha poligonal que parte do eixo horizontal no
limite inferior da 1ª classe e para cada limite superior
indica a freqüência acumulada de sua classe.
0
11
30
37
44 45
49 50
0
10
20
30
40
50
60
44 52 60 68 76 84 92 100
Fr
e
q
. a
cu
m
u
la
d
a
Pesos
2.4. Medidas
• Medidas são resumos ou sumários da informação
trazida pela população (ou amostra) em um único
número.
• Existem diferentes classes de medidas, sendo as mais
conhecidas as medidas de posição e dispersão.
Definições:
• Parâmetro: Resumo de uma característica obtido a
partir de todos os elementos de uma população. Ex:
média populacional (µ), desvio-padrão populacional
(σ).
• Estatística: Resumo da característica de interesse
levando-se em conta apenas os elementos da
amostra. Ex: média amostral ( ), desvio-padrão
amostral (s).
𝑋 
2.4.1. Medidas de posição
• Tendem a representar os elementos comuns
da população (ou amostra). Ex:
média, moda, mediana, quartis, etc.
Medidas de 
posição
Medidas de tendência central
Medidas Separatrizes
Média
Mediana
Moda
Quartis
Percentis
• Média amostral ( ): É um valor que representa o
centro de massa ou ponto de equilíbrio da
distribuição (histograma). É calculado por:
𝑿 
X =
X1 +X2 + ¢ ¢ ¢+Xn
n
=
Pn
i=1Xi
n
• Para melhor compreensão do conceito de média
como centro de massa, imagine uma amostra com os
seguintes valores {8, 9, 5, 5, 4, 3, 6, 4}.
• Façamos um Diagrama de pontos, que é um gráfico
útil para visualização de pequenas amostras.
• Para tanto simplesmente plotamos um ponto para
cada valor da amostra sobre um segmento de que
contenha todos os valores. Se houver repetições
plotamos um ponto sobre o outro.
R
• Note que a média pode ser pensada como um centro
de massa porque se cada ponto tivesse a mesma
massa, digamos 1kg, o triângulo representando a
média equilibraria exatamente estes pesos.
Média = 5,5
• Se os dados estiverem dispostos em tabela de
freqüência como no exemplo abaixo,
Variável fi
X1 f1
X2 f2
... ...
... ...
Xk fk
Total n
fazemos:
𝑋 =
𝑋1𝑓1 + 𝑋2𝑓2 + ⋯ + 𝑋𝑘𝑓𝑘
𝑛
=
 𝑋𝑖𝑓𝑖
𝑘
𝑖=1
𝑛
 
• Se conhecermos a freqüência relativa, o cálculo da
média passa a ser:
𝑋 = 𝑋1
𝑓1
𝑛
+ ⋯ + 𝑋𝑘
𝑓𝑘
𝑛
= 𝑋1𝑓𝑟1 + ⋯ + 𝑋𝑘𝑓𝑟𝑘 = 𝑋𝑖
𝑘
𝑖=1
𝑓𝑟𝑖 
• Exemplo: Para calcularmos a média dos dados
abaixo:
X fi fr
1 3 0,3
2 4 0,4
3 2 0,2
5 1 0,1
Total 10 1
• Pelos dados brutos:
𝑋 =
1 + 1 + 1 + 2 + 2 + 2 + 2 + 3 + 3 + 5
10
=
22
10
= 2,2 
• Pela freqüência absoluta:
𝑋 =
1 × 3 + 2 × 4 + 3 × 2 + 5 × 1
10
= 2,2 
• Pela freqüência relativa:
𝑋 = 1 × 0,3 + 2 × 0,4 + 3 × 0,2 + 5 × 0,1 = 2,2 
• Dados agrupados em classe: Para calcularmos
a média nestes casos devemos inicialmente
calcular o ponto médio de cada
classe, denotando-o por PMi.
• A partir disto calculamos a média utilizando uma das
seguintes expressões:
𝑋 =
 𝑃𝑀𝑖𝑓𝑖
𝑘
𝑖=1
𝑛
 
𝑋 = 𝑃𝑀𝑖𝑓𝑟𝑖
𝑘
𝑖=1
 
• Vamos calcular a nota média dos 32 alunos de
nosso exemplo a partir da tabela de
distribuição de frequências, incluindo o ponto
médio de cada classe.
• Assim, pela freq. absoluta:
𝑋 = 153 32 = 4,78 
• Já pela freq. relativa:
𝑋 = 4,77 
Notas PMi fi PMi*fi fr PMi*fr
0,0 |- 1,5 0,75 3 2,25 0,09 0,0675
1,5 |- 3,0 2,25 4 9 0,13 0,2925
3,0 |- 4,5 3,75 5 18,75 0,16 0,6
4,5 |- 6,0 5,25 10 52,5 0,31 1,6275
6,0 |- 7,5 6,75 8 54 0,25 1,6875
7,5 |- 9,0 8,25 2 16,5 0,06 0,495
Total 32 153 1 4,77
• Em certas situações, os valores de um conjunto de
dados têm graus de importância diferentes, o que
nos leva a calcular uma média ponderada.
• Em tais casos, calculamos a média ponderada
atribuindo pesos (w) diferentes aos diversos valores.
Assim,
X =
w1 x1 +w2 x2 + ¢ ¢ ¢+ wn xn
w1 + w2 + ¢ ¢ ¢+wn
=
Pn
i=1wi xiPn
i=1wi
• Exemplo: média ponderada de 3 avaliações.
w1 = 1 x1 = 7
w2 = 1 x2 = 8
w3 = 2 x3 = 6
X =
1£ 7 + 1£ 8 + 2£ 6
4
= 6; 75
Média Global:
• Sejam as médias aritméticas de k
conjuntos de elementos, respectivamente.
A média aritmética da série formada pelo conjunto dos
elementos é dada por:
X1; X2; : : : ; Xk
n1;n2; : : : ;nk
n1 + n2 + ¢ ¢ ¢+ nk
X =
n1X1 + ¢ ¢ ¢+ nkXk
n1 + ¢ ¢ ¢+ nk
=
Pk
i=1 niX i
Pk
i=1 ni
• Exemplo: 2 turmas de determinada disciplina.
Turma 1: 40 alunos; média final ( ) = 8,5.
Turma 2: 55 alunos; média final ( ) = 7,0.
Turma 1 + Turma 2 = 95 alunos
X1
X2
X =
40£ 8; 5 + 55£ 7; 0
95
= 7; 63
Observações:
• A média é uma medida afetada por valores
extremos.
• Se calcularmos o valor médio de uma variável para
toda a população, teremos a média
populacional, normalmente designada pela letra
grega µ (mi). Onde:
𝜇 =
 𝑋𝑖
𝑁
𝑖=1
𝑁
 
• Mediana: É o valor que divide o conjunto de
dados ao meio, de tal forma que 50% dos
valores observados são menores ou iguais à
mediana e 50% são maiores ou iguais a ela.
Notação: md ou Md.
Procedimento para calcular a mediana:
1. Ordenar os dados.
2. Localizar a posição central. Para isto calcula-se:
3. Se o número de observações (n) for ímpar, a
mediana será a observação central; e se n for par, a
mediana será o ponto médio entre as duas
observações centrais.
2
1n
Exemplos:
• quando n é par: { 1; 1; 1; 3; 3; 5; 3; 3; 2; 2}.
1. {1; 1; 1; 2; 2; 3; 3; 3; 3 ;5}; 
2. (10 + 1) 2 = 11 2 = 5,5 
1 1 1 2 2 3 3 3 3 5
• Os dois candidatos a md são o 2 e o 3.
Então, tomamos o ponto médio entre eles
como a mediana:
𝑚𝑑 =
2 + 3
2
= 2,5 
• quando n é ímpar: { 1; 1; 1; 3; 3; 4; 4; 5; 5}.
Posição - (9 + 1) 2 = 10 2 = 5 
Neste caso, 𝑚𝑑 = 3. 
• Observação: a mediana não é afetada por valores
extremos.
1 1 1 3 3 4 4 5 5
Moda:
• A moda de um conjunto de dados é o valor
que ocorre com maior freqüência. Notação:
mo ou Mo.
• Exemplo: { 1; 1; 3; 3; 5; 3; 3; 2}.
𝑚𝑜 = 3. 
• Em um conjunto de dados pode haver mais de uma
moda.
•
Exemplo: { 1; 1; 1; 1; 3; 3; 3; 3; 5}. 𝑚𝑜1 = 1 e 𝑚𝑜2 = 3. 
Neste caso se diz que o conjunto é bimodal. 
• Se houver mais de duas modas diz-se que o conjunto
é multimodal. Por outro lado se nenhum valor se
repete o conjunto não tem moda.
Dados agrupados em classe (Método Czuber)
• Uma das formas de se calcular a moda para dados
agrupados é utilizando o Método de Czuber. Esse
método consiste nos seguintes passos:
1. Localize a classe de maior freqüência (classe
MODAL) e os limites superior (L) e inferior (l) desta
classe.
2. Encontre as seguintes freqüências:
– : freqüência absoluta da classe modal;
– : freqüência absoluta da classe anterior à
classe modal;
– : freqüência absoluta da classe posterior à
classe modal;
fmo
fant
fpos
3. Aplique a fórmula de Czuber:
mo = l+ (L¡ l)
fmo¡ fant
2fmo¡ (fant + fpos)
• O método de Czuber determina a moda por
interpolação usando a hipótese que leva seu nome:
“A moda divide o intervaloda classe modal em
distâncias proporcionais às diferenças entre a freqüência
da classe modal com a freqüência das classes
adjacentes".
• A partir daí, utilizando os conceitos de semelhança
dos triângulos e observando o histograma abaixo
vemos que:
¢1 = fmo ¡ fant
¢2 = fmo ¡ fpos
X =mo ¡ l
• Resolvendo a equação para X, temos:
• Dessa Forma,
X
h¡X
=
¢1
¢2
(onde h = L¡ l)
X =
¢1
¢1 +¢2
h
mo = l+ (L¡ l)
fmo¡ fant
2fmo¡ (fant + fpos)
• Exemplo: Para acharmos a moda da variável peso
fazemos:
Peso fi
44 |- 52 11
52 |- 60 19
60 |- 68 7
68 |- 76 7
76 |- 84 1
84 |- 92 4
92 |- 100 1
Total 50
C
la
ss
e
 M
o
d
al
mo = 52 + (60¡ 52)
19¡ 11
2£ 19¡ (11 + 7)
mo = 55; 2
fmo = 19 fant = 11 fpos = 7
Medidas de tendência central – Propriedades:
1. Se somarmos uma constante c a todos os valores de
um conjunto de dados, a moda, média e mediana
ficam também acrescidas dessa constante.
2. Se multiplicarmos uma constante c a todos os
valores de um conjunto de dados, a moda, média e
mediana ficam também multiplicadas dessa
constante.
Percentil (Pα):
• O percentil de ordem α de um conjunto de
dados é um valor Pα% tal que α% dos valores
são inferiores ou iguais a ele e (100 - α)% dos
valores são maiores ou iguais a ele.
Observações:
• A mediana é o percentil de ordem 50.
• Os percentis de ordem 25, 50 e 75 são chamados
respectivamente de 1º Quartil, 2º Quartil e 3º
Quartil.
Procedimento para calcular o percentil Pα :
1. Ordenar os dados de forma crescente.
2. Localizar a posição do percentil Pα. Para isto calcula-
se:
Se Rα for um número inteiro então a posição de Pα
será dada por Rα+ 0,5. Caso contrário, a posição de
Pα será dada pelo primeiro inteiro maior que Rα.






 nR
100


3. Encontre o valor correspondente a classificação 
obtida no passo 2.
• Exemplo: Calcule o 1º e 3º quartis do conjunto de 
dados a seguir.
{10 1 6 2 8 4 6 4 13 7 4 15 10 2 1}
1. {1 1 2 2 4 4 4 6 6 7 8 10 10 13 15}
2.
Posição do 1º quartil = 4.
Posição do 3º quartil = 12.
75,315
100
25
25 R

25,1115
100
75
75 R

3. Portanto, o 1º e 3º quartis são os valores que
ocupam a 4ª e 12ª posições respectivamente.
{1 1 2 2 4 4 4 6 6 7 8 10 10 13 15}
Q1 Q2 Q3
Como calcular o percentil Pα para dados agrupados:
1. Localizar a classe a qual pertence o percentil Pα
observando:
Lα – limite superior da classe do percentil Pα.
lα – limite inferior da classe do percentil Pα.
2. Encontrar a frequência relativa da classe que 
contém o percentil Pα. Denote-a por𝑓𝑟𝛼 . 
3. Encontrar a frequência relativa acumulada até a 
classe anterior à classe do percentil Pα. Denote-a por 
𝑓𝑟𝑎𝑎 . 
4. Calcule a diferença 𝛼 − 𝑓𝑟𝑎𝑎 . Esta diferença é a 
frequência relativa da classe (lα |- Pα). 
l® L®
P®
®%
fraa%
5. O valor da mediana é obtido resolvendo-se a
seguinte regra de três:
𝐿𝛼 − 𝑙𝛼 → 𝑓𝑟𝛼 
 𝑃𝛼 − 𝑙𝛼 → 𝛼 − 𝑓𝑟𝑎𝑎 
𝑃𝛼 = 𝑙𝛼 + (𝐿𝛼 − 𝑙𝛼)
(𝛼 − 𝑓𝑟𝑎𝑎 )
𝑓𝑟𝛼
 
 
Exemplo: Para acharmos a mediana e o 1º quartil das
notas dos alunos de nosso exemplo fazemos:
• Mediana (P50):
1. Classe 4,5|- 6,0.
2. 𝑓𝑟50 = 0,31. 
3. 𝑓𝑟𝑎𝑎 = 0,38. 
Assim, 50% dos alunos tiraram notas inferiores a 5,1.
4. 𝛼 − 𝑓𝑟𝑎𝑎 = 0,5 − 0,38 = 0,12. 
5. 𝑃50 = 4,5 + 6,0 − 4,5 
 0,12 
0,31
≅ 5,1 
• 1º quartil (P25):
1. Classe 3,0|- 4,5.
2. 𝑓𝑟25 = 0,16. 
3. 𝑓𝑟𝑎𝑎 = 0,22. 
4. 𝛼 − 𝑓𝑟𝑎𝑎 = 0,25 − 0,22 = 0,03. 
5. 𝑃25 = 3,0 + 4,5 − 3,0 
 0,03 
0,16
≅ 3,3. 
Assim, 25% dos alunos tiraram notas inferiores a 3,3.
2.4.2. Medidas de variabilidade
• Medem o espalhamento ou dispersão dos
dados. Complementam importantes
informações escondidas pelas medidas de
posição.
• Exemplo: Desempenho de dois alunos em 5
avaliações:
Aluno 1: {55; 57; 60; 62; 66}. 𝑋 = 60 e 𝑚𝑑 = 60. 
Aluno 2: {38; 49; 60; 72; 81}. 𝑋 = 60 e 𝑚𝑑 = 60. 
• Amplitude total (R):
• A amplitude total de um conjunto de dados é
definida como a diferença entre o maior e o menor
valor observado.
Ex: - Aluno 1: 𝑅 = 11. 
 - Aluno 2: 𝑅 = 43. 
•
• A variância é uma medida de dispersão que leva em
conta todas as observações feitas. Ela mede a
dispersão dos dados em torno da média amostral .
• Considere as observações X1, X2, ... , Xn:
Variância amostral (𝑺𝟐): 
• Temos
 
 
 
• Assim define-se a variância amostral como:
𝑆2 =
 (𝑋𝑖 − 𝑋 )
2𝑛
𝑖=1
𝑛 − 1
 
Ex: - Aluno 1: 
𝑆2 =
 55 − 60 2 + 57 − 60 2 + ⋯ + 66 − 60 2
𝑛 − 1
 
 
𝑆2 =
25 + 9 + 0 + 4 + 36
4
=
74
4
= 18.5 
- Aluno 2: 
𝑆2 =
 38 − 60 2 + 49 − 60 2 + ⋯ + 81 − 60 2
𝑛 − 1
 
 
𝑆2 =
484 + 121 + 0 + 144 + 441
4
=
1190
4
= 297.5 
• Observação: Se calcularmos a variância de uma
população de tamanho N, teremos a variância
populacional, normalmente designada pela letra
grega σ (sigma). Onde:
𝜎2 =
 𝑋𝑖 − 𝜇 
2𝑁
𝑖=1
𝑁
 
• Inconvenientes da variância:
1. As unidades de medida da variância amostral são o
quadrado da unidade original da variável (m2 para
altura, kg2 para peso, etc).
• Para evitar-se este desconforto estabeleceu-se o
desvio padrão amostral definido por:
que mostra a variabilidade medida na unidade
original da variável analisada.
𝑆 = 𝑆2 = 
 (𝑋𝑖 − 𝑋 )2
𝑛
𝑖=1
𝑛 − 1
 
•
2. Não permite comparar a variabilidade de dados
medidos em diferentes unidades de medida ou
medidos na mesma unidade mas com médias
diferentes.
Ex: - Aluno 1: 𝑆 = 18,5 = 4,3. 
- Aluno 2: 𝑆 = 297,5 = 17,2. 
• Aqui a solução foi a criação de uma medida chamada
coeficiente de variação que não sofre influência nem
da média nem da unidade de medida. O coeficiente
de variação é definido como:
• Amostra –
• População –
𝐶𝑉 = (𝑆 𝑋 ) × 100 
𝐶𝑉 = (𝜎 𝜇) × 100 
• Exemplo: Em qual grupo há mais variação em torno
da média:
CVa =
p
0; 0025
1; 70
£ 100 = 2; 9%
CVp =
p
2; 25
60
£ 100 = 2; 5%
Variável média variância
altura 1,70 m 0,0025 m2
peso 60 kg 2,25 kg2
• Fórmula da variância amostral abreviada:
𝑆2 =
1
𝑛 − 1
 𝑋𝑖
2
𝑛
𝑖=1
−
 𝑋𝑖
𝑛
𝑖=1 
2
𝑛
 
• Se os dados estiverem dispostos em tabela de
freqüência como no exemplo abaixo,
Variável fi
X1 f1
X2 f2
... ...
... ...
Xk fk
Total n
fazemos:
• Ou ainda,
 
1
1
2 
2



 
n
fXX
S
k
i ii
 












  n
fX
fX
n
S
k
i iik
i ii
2 
1
1
22
1
1
• Dados agrupados em classes: Para calcular a
variância nestes casos, considere o ponto médio de
cada classe e faça
𝑆2 =
 (𝑃𝑀𝑖 − 𝑋 )
2 ∙ 𝑓𝑖
𝑘
𝑖=1
𝑛 − 1
 
ou 
𝑆2 =
1
𝑛 − 1
 𝑃𝑀𝑖
2𝑓𝑖
𝑘
𝑖=1
−
 𝑃𝑀𝑖
𝑘
𝑖=1 𝑓𝑖 
2
𝑛
 
• Exemplo:
Freq. cardíaca PMi fi PMi*fi PMi
2*fi
60 |- 65 62,5 11 687,5 42968,75
65 |- 70 67,5 35 2362,5 159468,75
70 |- 75 72,5 68 4930 357425
75 |- 80 77,5 20 1550 120125
80 |- 85 82,5 12 990 81675
85 |- 90 87,5 10 875 76562,5
90 |- 95 92,5 1 92,5 8556,25
95 |- 100 97,5 3 292,5 28518,75
Total 160 11780 875300
• Assim,
𝑋 = 11780 160 = 73,6 
 
𝑆2 =
1
159
 875300 −
 11780 2
160
 = 50,3 
 
𝑆 = 50,3 = 7,1 
• Observação: A variância também é afetada por
valores extremos.
Variância – Propriedades:
1. Se somarmos uma constante c a todos os valores de
um conjuntode dados, a variância não sofre
alteração.
2. Se multiplicarmos uma constante c a todos os
valores de um conjunto de dados, a variância fica
multiplicada pela constante ao quadrado (c2).
2.5. Assimetria
Definição:
– Uma distribuição é simétrica quando a metade
esquerda da mesma é a imagem-espelho da
metade direita.
– Uma distribuição de dados é assimétrica quando
um dos lados da mesma apresenta-se mais
prolongado que o outro.
• Distribuição simétrica:
moda =mediana =m¶edia
X=mo =md
¹=Mo =Md
• Tipos de assimetria
– Assimetria à direita ou positiva: a distribuição
apresenta uma cauda mais acentuada à direita.
moda ·mediana ·m¶edia
– Assimetria à esquerda ou negativa: a distribuição
apresenta uma cauda mais acentuada à esquerda.
m¶edia ·mediana ·moda
3. Probabilidade
3.1. Conceitos iniciais
• Probabilidade é a medida de incerteza sobre
algum fenômeno aleatório de interesse.
• Fenômeno Aleatório: é um acontecimento cujo
resultado não pode ser previamente previsto com
certeza. Um experimento aleatório pode fornecer
diferente resultados, mesmo que seja repetido
sempre da mesma maneira. Exemplos:
1. O resultado do seu time no próximo jogo do
Campeonato Brasileiro;
2. A altura do aluno sorteado ao acaso nesta sala;
3. A taxa de inflação do mês subseqüente;
4. O resultado do lançamento de um dado.
• Espaço amostral (Ω ou S): é o conjunto de
todos os resultados possíveis de um
fenômeno ou experimento aleatório. Pode ser
finito ou infinito, de acordo com a quantidade
de possíveis resultados.
• O espaço amostral de cada um dos exemplos
anteriores é:
1. Ω = {derrota, empate, vitória};
2. Ω = (0; );
3. Ω =
4. Ω = {1, 2, 3, 4, 5, 6}
1. Ω = {derrota, empate, vitória}; 
2. Ω = {0; 
1
}; 
3. Ω = ; 
4. Ω = {1, 2, 3, 4, 5, 6}. 
R
1
• Evento (A; B; C; ... ; Z): é qualquer subconjunto do
espaço amostral (Ω). Exemplos:
1. Seu time não perde A = {empate, vitória};
2. A altura do aluno está entre 1,40 e 1,60 B = (1,40;
1,60);
3. A taxa de inflação do mês subseqüente é menor
ou igual a 10% C = (- ; 0,10];
4. Ocorre uma face par D = {2; 4; 6}.
1
• Evento elementar: é um resultado ou evento que não
pode mais ser decomposto em componentes mais
simples.
Eventos especiais:
• Evento impossível ( ): é o evento que nunca ocorre.
• Evento certo (Ω): é o evento que sempre ocorre.
∅ 
•
União de eventos (𝑨 ∪ 𝑩): representa a ocorrência de 
pelo menos um dos eventos A ou B, ou seja, A ou B ou 
ambos. 
Ω
EX: Experimento: lançamento de um dado.
• Evento A: ocorre face par.
• Evento B: ocorre face inferior a 4.
𝐴 ∪ 𝐵 = {1, 2, 3, 4, 6} 
•
Interseção de eventos (𝑨 ∩ 𝑩): representa a 
ocorrência simultânea de A e B. 
Ω
EX: no nosso exemplo anterior.
• Evento A: ocorre face par.
• Evento B: ocorre face inferior a 4.
𝐴 ∩ 𝐵 = {2} 
•
Eventos disjuntos ou mutuamente exclusivos: São 
eventos que não podem ocorrer simultaneamente. A 
e B são disjuntos se e somente se 𝐴 ∩ 𝐵 = ∅. 
Ω
EX: Experimento: lançamento de um dado.
• Evento A: ocorre face inferior a 4.
• Evento B: ocorre face 5.Eventos disjuntos ou mutuamente exclusivos: São 
eventos que não podem ocorrer simultaneamente. A 
e B são disjuntos se e somente se 𝐴 ∩ 𝐵 = ∅. 
•
Eventos complementares (𝑨 ou 𝑨𝒄, ou 𝑨′ ): O evento 
𝐴 ocorre se o evento A não ocorre. É formado por 
todos os pontos de Ω que não estão em A. A e 𝐴 são 
complementares se, e somente se, 𝐴 ∩ 𝐴 = ∅ e 
𝐴 ∪ 𝐴 = Ω. 
Ω
• No lançamento de um dado, se A é o evento
“ocorrer face par”, então o evento complementar de
A é o evento “ocorrer face ímpar”.
• Observação: É importante relembrar as leis de
Morgan:
(𝐴 ∪ 𝐵) = 𝐴 ∩ 𝐵 e (𝐴 ∩ 𝐵) = 𝐴 ∪ 𝐵 
}5, 3, 1{A e }6 ,4 ,2{A 
3.2. Interpretações de probabilidade
•
Probabilidade é uma função 𝑃(∙) definida do 
conjunto de todos os possíveis subconjuntos de Ω em 
[0;1]. Esta função atribui chances de ocorrência de 
cada evento de Ω. 
•
Definição clássica de probabilidade: Seja um 
experimento aleatório com espaço amostral finito 
Ω = {𝜔1 , 𝜔2 , ⋯ , 𝜔𝑛}. Se tivermos evidências de que 
todos os resultados têm a mesma chance de 
acontecer, define-se: 
𝑃 𝜔𝑖 =
1
𝑛
 𝑖 = 1, ⋯ , 𝑛 
•
Para 𝐴 ⊂ Ω defini-se: 
 
𝑃 𝐴 =
# 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑑𝑒 𝐴
# 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑑𝑒 Ω
=
𝑛(𝐴)
𝑛(Ω)
 
 
Neste caso dizemos que os resultados 𝜔𝑖 são 
equiprováveis. 
Exemplos:
1. Qual e a probabilidade de se extrair um ás de um 
baralho bem misturado de 52 cartas?
A = extrair um ás de um baralho.
n(A) = 4; n(Ω) = 52 
 
𝑃 𝐴 =
4
52
=
1
13
≅ 0,08 
2. Ɛ – lançar duas moedas e observar a configuração
obtida. c = cara; k = coroa.
Ω = {cc; ck; kc; kk}
• Qual a probabilidade de se obter zero caras? E uma
cara?
A – zero caras → A = {kk} → 𝑃 𝐴 = 1 4 . 
B – uma cara → B = {ck; kc} → 𝑃 𝐵 = 2 4 . 
Aproximação da probabilidade pela freqüência
relativa.
• Realize (ou observe) um experimento aleatório Ɛ um
grande número de vezes.
• Registre quantas vezes o evento A ( ) ocorre
efetivamente.
A½ Ð
• Então, a probabilidade de ocorrência do evento A é
estimada como se segue
𝑃 𝐴 =
# 𝑜𝑐𝑜𝑟𝑟ê𝑛𝑐𝑖𝑎𝑠 𝑑𝑒 𝐴
# 𝑟𝑒𝑝𝑒𝑡𝑖çõ𝑒𝑠 𝑑𝑜 𝑒𝑥𝑝𝑒𝑟𝑖𝑚𝑒𝑛𝑡𝑜
 
• Lei dos Grandes Números: Ao se repetir um
experimento um grande número de vezes, a
probabilidade pela freqüência relativa de um evento
tende para a probabilidade teórica.
• A lei dos Grandes Números afirma que a
aproximação pela freqüência relativa tende a
melhorar quando o número de observações
aumenta.
• Formalmente, tem-se que: Considere n repetições
“independentes” de um experimento aleatório Ɛ.
Seja A um evento qualquer. Defina:
• A probabilidade frequencial de A é então dada por:
𝑃𝑛 𝐴 =
# 𝑜𝑐𝑜𝑟𝑟ê𝑛𝑐𝑖𝑎𝑠 𝑑𝑒 𝐴
# 𝑟𝑒𝑝𝑒𝑡𝑖çõ𝑒𝑠 𝑑𝑜 𝑒𝑥𝑝𝑒𝑟𝑖𝑚𝑒𝑛𝑡𝑜
 
𝑃 𝐴 = lim
𝑛→∞
𝑃𝑛 𝐴 
Exemplos:
1. Num lançamento de um dado, a probabilidade de
ocorrência da face i é dada por:
• Quando o número de lançamentos é muito
grande, fri se estabiliza. Daí, toma-se fri como a
probabilidade de ocorrência da face i.
𝑓𝑟𝑖 =
# 𝑜𝑐𝑜𝑟𝑟ê𝑛𝑐𝑖𝑎𝑠 𝑑𝑎 𝑓𝑎𝑐𝑒 𝑖
# 𝑙𝑎𝑛ç𝑎𝑚𝑒𝑛𝑡𝑜𝑠 𝑑𝑜 𝑑𝑎𝑑𝑜
 
2. Suponha que temos uma linha de produção em
grande escala. Retiramos n itens desta linha de
produção, e a cada retirada contamos o número de
itens defeituosos (A = item defeituoso)
• Podemos então afirmar que a probabilidade
frequencial de um item defeituoso nesta linha
de produção é 0,05.
3.3. Regras básicas de probabilidade
1. 𝑃 Ω = 1. 
2. 𝑃 ∅ = 0. 
3. 0 ≤ 𝑃(𝐴) ≤ 1, para qualquer evento A. 
 
 
4. Regra da adição: 
𝑃 𝐴 ∪ 𝐵 = 𝑃 𝐴 + 𝑃 𝐵 − 𝑃(𝐴 ∩ 𝐵) 
 
Se A e B forem disjuntos, então: 
𝑃 𝐴 ∪ 𝐵 = 𝑃 𝐴 + 𝑃 𝐵 
•
5. 𝑃 𝐴 = 1 − 𝑃(𝐴). 
 
Como A e 𝐴 são complementares temos 𝐴 ∩ 𝐴 = ∅ 
e 𝐴 ∪ 𝐴 = Ω. Então, pela regra da adição, 
𝑃 Ω = 𝑃 𝐴 ∪ 𝐴 = 𝑃 𝐴 + 𝑃 𝐴 e pela regra 1, 
𝑃 𝐴 + 𝑃 𝐴 = 1, logo 𝑃 𝐴 = 1 − 𝑃 𝐴 . 
• Exemplo: Distribuição de alunos segundo o sexo e a
escolha do curso.
Curso
Sexo
Total
Homens (H) Mulheres (M)
Matemática Pura (P) 70 40 110
Matemática Aplicada (A) 15 15 30
Estatística (E) 10 20 30
Computação (C) 20 10 30
Total 115 85 200
- 𝑃 𝑃 ∪ 𝐸 = 𝑃 𝑃 + 𝑃 𝐸 =
110
200
+
30
200
=
140
200
= 0,7 
 
- 𝑃 𝐴 ∪ 𝑀 = 𝑃 𝐴 + 𝑃 𝑀 − 𝑃(𝐴 ∩ 𝑀) 
=
30
200
+
85
200
−
15
200
=
100
200
= 0,5 
 
- 𝑃 𝐶 = 1 − 𝑃 𝐶 = 1 −
30
200
=
170
200
=0,85 
3.4. Probabilidade condicional
•
Para dois eventos A e B do espaço amostral 
definimos: 
 
Definição: A probabilidade condicional de um evento 
A dado um evento B, denotada por 𝑃(𝐴|𝐵), é, 
𝑃 𝐴 𝐵 =
𝑃(𝐴 ∩ 𝐵)
𝑃(𝐵)
 𝑝𝑎𝑟𝑎 𝑃(𝐵) ≠ 0 
•
• A probabilidade condicional de A dado B revela a
incerteza que se tem sobre o evento A supondo
conhecida a verdade sobre o evento B. Podemos
interpretá-la como a chance relativa de A restrita ao
fato de que B ocorreu.
Exemplos:
1. Uma urna contém 2 bolas brancas (B) e 3 bolas
vermelhas (V). Suponha que são sorteadas duas
bolas ao acaso, sem reposição.
2. As informações abaixo se referem aos candidatos
que prestaram vestibular na UFES em 2010:
Homem (H) Mulher (M) Total
Aprovado (A) 8 14 22
Reprovado (R) 4 6 10
Total 12 20 32
• Um aluno é sorteado ao acaso. Qual é a
probabilidade de:
• Ser mulher e ter sido aprovado?
• Se é mulher, ter sido aprovada?
• Ser mulher dado que foi aprovado?
•
Soluções: 
a. 𝑃 𝑀 ∩ 𝐴 = 14 32 ≅ 0,44 
 
b. 𝑃 𝐴 𝑀 =
𝑃(𝐴∩𝑀)
𝑃(𝑀)
=
14 32 
20 32 
=
14
20
= 0,70 
 
c. 𝑃 𝑀 𝐴 =
𝑃(𝐴∩𝑀)
𝑃(𝐴)
=
14 32 
22 32 
=
14
22
≅ 0,64 
•
Propriedades: 
1. 𝑃 Ω|B = 1 
2. 𝑃 ∅|B = 0 
3. 0 ≤ 𝑃(𝐴|𝐵) ≤ 1, para qualquer evento A. 
4. 𝑃 𝐶 ∪ 𝐷|𝐵 = 𝑃 𝐶|𝐵 + 𝑃 𝐷|𝐵 − 𝑃(𝐶 ∩ 𝐷|𝐵) 
5. 𝑃 𝐶 ∪ 𝐷|𝐵 = 𝑃 𝐶|𝐵 + 𝑃 𝐷|𝐵 ⇔ 𝐶 ∩ 𝐷 = ∅ 
6. 𝑃 𝐴 |𝐵 = 1 − 𝑃(𝐴|𝐵) 
3.5. Regra da multiplicação
• A definição de probabilidade condicional pode ser
reescrita para fornecer uma expressão geral para a
probabilidade da interseção de dois eventos:
𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐴 𝐵 𝑃 𝐵 = 𝑃 𝐵 𝐴 𝑃(𝐴) 
Exemplo:
• Acredita-se que na população do ES 20% de seus
habitantes sofrem algum tipo de alergia, sendo
classificados como alérgicos para fins de saúde
pública. Sendo alérgico, a probabilidade de ter
reação a certo antibiótico é de 0,5. Para os não
alérgicos esta probabilidade é de apenas 0,05.
• Escolhendo-se uma pessoa ao acaso da população do
ES, qual a probabilidade de que ela:
a. Seja do grupo dos alérgicos e tenha alergia ao
ingerir o antibiótico?
b. Seja do grupo dos não alérgicos e não tenha
alergia ao ingerir o antibiótico?
•
Solução: Se fizermos A → ser do grupo dos alérgicos e 
B → ter reação, temos: 
 
a. 𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐵 𝐴 𝑃 𝐴 = 0,5 × 0,2 = 0,10 
b. 𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐵 𝐴 𝑃 𝐴 = 0,95 × 0,8 = 0,76 
3.6. Independência
• Definição: Dois eventos A e B são independentes se a
ocorrência de um não afeta a probabilidade de
ocorrência do outro. Assim, tem-se que:
1. 𝑃 𝐴 𝐵 = 𝑃(𝐴) 
2. 𝑃 𝐵 𝐴 = 𝑃(𝐵) 
• Dessa forma, para dois eventos independentes a
regra da multiplicação reduz-se a:
𝑃 𝐴 ∩ 𝐵 = 𝑃(𝐴) × 𝑃(𝐵) 
Exemplos: 
 
1. Urna → 2 bolas brancas (B) e 3 bolas vermelhas (V). 
Sorteia-se 2 bolas ao acaso, com reposição. 
2. Considere os sistemas com dois componentes
apresentados na figura a seguir.
• No sistema da figura (a) os componentes estão
ligados em série. Neste caso, o sistema funcionará se
os componentes 1 e 2 funcionarem
simultaneamente. Se um dos componentes falhar, o
sistema também falhará.
• Se os componentes estiverem ligados em paralelo,
como na figura (b), então o sistema funcionará se
pelo menos um dos dois componentes funcionar.
• Denotemos por F o evento “o sistema funciona” e
por Ai o evento “o componente i funciona”, i = 1, 2.
• Supondo que os componentes de ambos os sistemas
funcionem independentemente, e se pi for a
probabilidade de o componente i (i = 1, 2)
funcionar, então:
• A probabilidade do sistema da figura (a) funcionar
será
• Já a probabilidade do sistema da figura (b) funcionar
será
212121 )()()()( ppAPAPAAPFP 
2121212121 )()()()()( ppppAAPAPAPAAPFP 
3.7. Regra da probabilidade total
• A regra da multiplicação é útil para
determinarmos a probabilidade de um evento
que depende de outros eventos.
Exemplo:
• Em uma fábrica de parafusos, as máquinas A e B
produzem 2/3 e 1/3 da produção
total, respectivamente. Da produção de cada
máquina 2% e 0,8%, respectivamente, são parafusos
defeituosos. Escolhendo-se aleatoriamente um
parafuso, qual a probabilidade que ele seja
defeituoso?
• Claramente a resposta depende de qual máquina
produziu aquele parafuso.
•
Se chamarmos A → parafuso produzido pela máquina 
A, B → parafuso produzido pela máquina B e D → 
parafuso é defeituoso podemos afirmar que: 
𝐷 = 𝐷 ∩ 𝐴 ∪ (𝐷 ∩ 𝐵) 
Ω
•
E como 𝐷 ∩ 𝐴 e (𝐷 ∩ 𝐵) são disjuntos podemos 
escrever que: 
 
𝑃 𝐷 = 𝑃 𝐷 ∩ 𝐴 + 𝑃 𝐷 ∩ 𝐵 
= 𝑃 𝐷 𝐴 𝑃 𝐴 + 𝑃 𝐷 𝐵 𝑃 𝐵 
 
𝑃 𝐷 = 0,02 × 2 3 + 0,008 × 1 3 = 0,016 
• Para generalizarmos o conceito da probabilidade
total, definimos:
• Definição: Dizemos que os eventos {A1; A2; ... ; An}
formam uma partição do espaço amostral se:
1. 𝐴𝑖 ∩ 𝐴𝑗 = ∅ 𝑝𝑎𝑟𝑎 𝑖 ≠ 𝑗 
2. 𝐴𝑖
𝑛
𝑖=1 = Ω 
• Podemos assim enunciar o Teorema da
Probabilidade Total:
• Seja {A1; A2; ... ; An} uma partição do espaço amostral
e seja B um evento qualquer, então,
𝑃 𝐵 = 𝑃 𝐵 ∩ 𝐴1 + 𝑃 𝐵 ∩ 𝐴2 + ⋯ + 𝑃 𝐵 ∩ 𝐴𝑛 
𝑃(𝐵) = 𝑃 𝐵 𝐴1 𝑃 𝐴1 + 𝑃 𝐵 𝐴2 𝑃 𝐴2 + ⋯ + 𝑃 𝐵 𝐴𝑛 𝑃 𝐴𝑛 
𝑃(𝐵) = 𝑃 𝐵 𝐴𝑖 𝑃 𝐴𝑖 
𝑛
𝑖=1
 
3.8. Teorema de Bayes
• Partindo da definição de probabilidade
condicional e usando a comutatividade da
interseção podemos escrever:
𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐴 𝐵 𝑃 𝐵 = 𝑃 𝐵 ∩ 𝐴 = 𝑃 𝐵 𝐴 𝑃(𝐴) 
• E agora, usando o segundo e quarto termos da
igualdade vem um resultado útil que nos permite
escrever a probabilidade de A dado B em termos da
probabilidade de B dado A:
𝑃 𝐴 𝐵 =
𝑃 𝐵 𝐴 𝑃(𝐴)
𝑃 𝐵 
 
• Partindo desta expressão, e escrevendo o
denominador usando a regra da probabilidade
total, obtemos o Teorema de Bayes:
• Teorema de Bayes: Se {A1; A2; ... ; An} for uma
partição de Ω e B um evento qualquer, então:
𝑃 𝐴𝑖 𝐵 =
𝑃 𝐵 𝐴𝑖 𝑃(𝐴𝑖)
𝑃 𝐵 𝐴1 𝑃 𝐴1 + ⋯ + 𝑃 𝐵 𝐴𝑛 𝑃 𝐴𝑛 
 
Exemplos:
1. Suponha que um fabricante de sorvetes recebe 20%
de todo o leite que consome da fazenda F1, 30% da
fazenda F2 e o restante da F3.
• A vigilância sanitária inspecionou as fazendas de
surpresa e observou que 20% do leite produzido na
fazenda F1 estava adulterado por adição de água, o
mesmo ocorrendo com 5% e 2% respectivamente
nas fazendas F2 e F3.
• Na indústria de sorvete os galões de leite são
armazenados sem identificação das fazendas
produtoras. Um galão é sorteado ao acaso na
indústria. Calcule:
a. A probabilidade de que o galão esteja adulterado.
b. A probabilidade do galão estando adulterado ter
vindo da fazenda F1.
•
Solução: Seja A → o leite está adulterado e Fi → o 
leite veio da fazenda Fi . 
a. 𝐴 = 𝐴 ∩ 𝐹1 ∪ 𝐴 ∩ 𝐹2 ∪ 𝐴 ∩ 𝐹3 
𝑃 𝐴 = 𝑃 𝐴 ∩ 𝐹1 + 𝑃 𝐴 ∩ 𝐹2 + 𝑃 𝐴 ∩ 𝐹3 
𝑃(𝐴) = 𝑃 𝐴 𝐹1 𝑃 𝐹1 + 𝑃 𝐴 𝐹2 𝑃 𝐹2 + 𝑃 𝐴 𝐹3 𝑃 𝐹3 
Assim: 
𝑃 𝐴 = 0,2 × 0,2 + 0,05 × 0,3 + 0,02 × 0,5 = 0,065 
b. Pelo teorema de Bayes, temos: 
𝑃 𝐹1 𝐴 
=
𝑃 𝐴 𝐹1 𝑃(𝐹1)
𝑃 𝐴 𝐹1 𝑃 𝐹1 + 𝑃 𝐴 𝐹2 𝑃 𝐹2 + 𝑃 𝐴 𝐹3 𝑃 𝐹3 
 
𝑃 𝐹1 𝐴 =
0,2 × 0,2
0,065
≅ 0,615 
2. Das pacientes da clínica de Ginecologia com idade
acima de 40 anos, 60% são ou foram casadas e 40%
são solteiras. Sendo solteira, a probabilidade de ter
tido um distúrbio hormonal no último ano é de
10%, enquanto para as demais esta probabilidade
aumenta para 30%.
• Pergunta-se:
a. Qual a probabilidade de uma paciente escolhida ao
acaso ter tido um distúrbio hormonal no último ano?
b. Se a paciente escolhida tiver tido um distúrbio, qual
a probabilidadedela ser solteira?
•
Solução: Sejam os eventos S → paciente é solteira e 
H → paciente teve distúrbio hormonal no último 
ano. 
 
a. 𝑃 𝐻 = 𝑃 𝐻 𝑆 𝑃 𝑆 + 𝑃 𝐻 𝑆 𝑃 𝑆 
𝑃 𝐻 = 0,1 × 0,4 + 0,3 × 0,6 = 0,22 
 
b. 𝑃 𝑆 𝐻 =
𝑃 𝐻 𝑆 𝑃(𝑆)
𝑃 𝐻 
=
0,1×0,4
0,22
≅ 0,188 
4. Variáveis Aleatórias
• Sabe-se que um espaço amostral (Ω ou S) é o
conjunto de todos os resultados possíveis de um
fenômeno ou experimento aleatório.
• Em muitos casos não estamos interessados na
descrição detalhada de todos os resultados, e é mais
interessante resumirmos o resultado através de
números.
• Definição: Uma variável aleatória (v.a.) é uma função
que confere um número real a cada resultado no
espaço amostral de um experimento aleatório.
• Uma variável aleatória é denotada por uma letra
maiúscula (por ex. X) e os valores que ela pode
assumir como xi.
Exemplos:
1. E – lançar duas moedas. O espaço amostral desta
experiência é Ω = {cc; ck; kc; kk} onde c = cara e k =
coroa. Uma variável aleatória pode ser “número de
caras”, X = {0; 1; 2}.
2. E – jogar um dado duas vezes. X = soma das duas
faces obtidas.
Ω = 
(1; 1) … (1; 6)
⋮ ⋱ ⋮
(6; 1) … (6; 6)
 
• A distribuição de probabilidades de uma
variável aleatória X é uma descrição das
probabilidades associadas com os possíveis
valores de X. Esta descrição pode ser realizada
em forma de tabelas ou gráficos.
• No exemplo 1, onde a v.a. de interesse era “o
número de caras obtidas num lançamento de duas
moedas” temos a seguinte distribuição de
probabilidades:
0 1 2
1/4 1/2 1/4
)( xXP 
X
• Já no exemplo 2, definimos a v.a. X como “a soma das faces
obtidas em dois lançamentos de um dado”. A distribuição
de probabilidades de X é dad por:
2 3 4 5 6 7 8 9 10 11 12
)( xXP 
X
36
1
36
3
36
2
36
4
36
5
36
6
36
4
36
5
36
3
36
1
36
2
Classificação:
• Variável aleatória discreta: assume valores num
conjunto finito ou infinito enumerável. EX: n° de
filhos, n° de peças defeituosas em um lote, bits
transmitidos que foram recebidos com erros.
• Variável aleatória contínua: seu conjunto de
valores é qualquer intervalo dos números
reais, o que seria um conjunto infinito não
enumerável. EX: peso, altura, corrente
elétrica, pressão, temperatura, tempo.
4.1. Variáveis aleatórias discretas
Alguns modelos de variáveis aleatórias discretas:
1. Um sistema de comunicação por voz de uma
empresa possui 48 linhas externas. A cada intervalo
de tempo o sistema é supervisionado e registra-se o
número de linhas em uso. Se fizermos X = número
de linhas em uso. Os valores possíveis de X = {0; 1;
2; ...; 48}.
2. No processo de fabricação de semicondutores o
fabricante deve se preocupar com o número de
partículas contaminantes. Se definirmos a variável
aleatória Y = número de partículas contaminantes
em uma pastilha, os valores possíveis de Y = {0; 1;
2; ...}.
Definição:
• Seja X uma v.a. discreta. A função de
probabilidade de X é uma função fX que
atribui a cada valor possível de X a sua
probabilidade de ocorrência.
• Assim se X é uma variável aleatória assumindo os
valores x1, x2, ... , xn a função de probabilidade
associada a X é:
• São propriedades da função de probabilidade:
1. 0 ≤ 𝑝𝑖 ≤ 1 
2. 𝑝𝑖𝑖 = 1 
      nipxPxXPxf iiiiX ,, 1 , 
• Exemplo: Um empresário pretende estabelecer uma
firma para montagem de um produto composto de
uma esfera e um cilindro. As partes são adquiridas de
fábricas diferentes (A e B), e a montagem consistirá e
juntar as duas peças e pintá-las.
• O produto acabado deve ter o comprimento
(definido pelo cilindro) e a espessura (definida pela
esfera) dentro de certos limites, e isso só poderá ser
verificado após a montagem.
• Para estudar a viabilidade do seu empreendimento, o
empresário quer ter uma idéia da distribuição do
lucro por peça produzida.
• Sabe-se que cada componente pode ser classificado
como bom, longo ou curto, conforme sua medida
esteja dentro da especificação, maior ou menor que
a medida especificada, respectivamente.
• Foram obtidos com os fabricantes, o preço de cada
componente, que é de R$ 5,00, e as probabilidades
de produção de cada componente com as
características bom, longo ou curto. Essas
probabilidades estão apresentadas na tabela abaixo.
Componente
Fábrica A 
(cilindro)
Fábrica B 
(esfera)
Dentro das especificações - bom (B) 0,80 0,70
Maior que as especificações - longo (L) 0,10 0,20
Menor que as especificações - Curto (C) 0,10 0,10
• Se o produto final apresentar algum componente com
a característica curto, ele será irrecuperável, e o
conjunto será vendido como sucata ao preço de R$
5,00.
• Cada componente longo poderá ser recuperado a um
custo adicional de R$ 5,00.
• Se o preço de venda de cada unidade for de R$ 25,00,
como seria a distribuição de probabilidade da variável
X: lucro por unidade montada?
• Primeiramente, vejamos a construção do espaço
amostral para a montagem das unidades segundo as
características de cada componente e seus
respectivos lucros e probabilidades.
• Como os componentes vêm de fábricas diferentes,
vamos supor que a classificação do cilindro e da
esfera, segundo suas características, sejam eventos
independentes.
• Uma representação do espaço amostral em questão
é apresentada pelo diagrama em árvore a seguir.
• Com base no diagrama em árvore, vemos que a v.a. X
pode assumir os seguintes valores:
– 15, se ocorrer o evento A1 = {BB};
– 10, se ocorrer o evento A2 = {BL, LB};
– 5, se ocorrer o evento A3 = {LL};
– -5, se ocorrer o evento A4 = {BC, LC, CB, CL, CC}.
• Cada um desses eventos tem uma probabilidade
associada, ou seja,
.19,0)( ,02,0)(
,23,0)( ,56,0)(
43
21


APAP
APAP
• Dessa forma, a distribuição de probabilidade da
variável aleatória X é dada por:
X P(x)
-5 0,19
5 0,02
10 0,23
15 0,56
Total 1
4.1.1. Média e variância de uma variável 
aleatória discreta
• A média ou valor esperado de uma variável aleatória
discreta X é dada pela expressão:
𝜇 = 𝐸 𝑋 = 𝑥𝑖𝑝𝑖
𝑖
 
• A variância de X é dada pela expressão:
𝜎2 = 𝑉 𝑋 = (𝑥𝑖 − 𝜇)
2𝑝𝑖 = 𝑥𝑖
2𝑝𝑖 − 𝜇
2
𝑖𝑖
 
• O desvio padrão da v.a. X é, então, dado por:
2)(   XDP
• Exemplo: Para o último exemplo, tem-se que o lucro
esperado por unidade montada é igual a:
Ou seja, o empresário espera ter um lucro de 9,85
reais por unidade montada.
.85,956,01523,01002,0519,0)5()(  XE
• Já a variância e o desvio padrão da v.a. X são dados por: 
57,757,23)( 
23,5702,9725,154)(
85,956,01523,01002,0519,0)5(
2
222222



XDP
XV



4.2. Distribuições discretas mais comuns
• Estudaremos nesta seção a distribuição de
probabilidade de algumas variáveis
aleatórias, que por possuírem características
especiais comuns são agrupadas em
“famílias”.
4.2.1. Distribuição Bernoulli
Muitos experimentos são tais que os resultados
apresentam ou não uma determinada característica.
Por exemplo:
• Uma moeda é lançada: o resultado é cara ou não;
• Uma peça é escolhida ao acaso de um lote
contendo 500 peças: essa peça é defeituosa ou
não;
• Em ambos os casos, estamos interessados na
ocorrência de sucesso ou fracasso.
• OBS: A palavra sucesso como usada aqui é arbitrária
e não representa, necessariamente, algo bom
• Definição: Seja X uma variável aleatória que assume
os valores 1 (sucesso) e 0 (fracasso). Diz-se que X tem
distribuição Bernoulli com parâmetro p, onde p é a
probabilidade de sucesso.
• Notação: X ~ Bernoulli(p)
• A função de probabilidade de X é:
𝑃 𝑋 =𝑥 = 𝑝𝑥(1 − 𝑝)1−𝑥 , 𝑥 = 0 𝑜𝑢 1 
• Assim temos:
𝐸 𝑋 = 𝑥𝑃 𝑋 = 𝑥 
1
𝑥=0
= 0𝑃 𝑋 = 0 + 1𝑃 𝑋 = 1 
𝐸 𝑋 = 𝑃 𝑋 = 1 = 𝑝 
 
𝑉 𝑋 = 𝑥2𝑃 𝑋 = 𝑥 
1
𝑥=0
− 𝐸 𝑋 2 
𝑉 𝑋 = 02𝑃 𝑋 = 0 + 12𝑃 𝑋 = 1 − 𝑝2 
𝑉 𝑋 = 𝑃 𝑋 = 1 − 𝑝2 = 𝑝 − 𝑝2 = 𝑝(1 − 𝑝) 
4.2.2. Distribuição Binomial
• Se realizarmos n experimentos de Bernoulli de forma
independente e se cada experimento tem
probabilidade de sucesso igual a p (fixo), então a
variável aleatória que conta o número de sucessos
nestes n experimentos tem distribuição binomial.
Por exemplo:
• Uma moeda é lançada três vezes; qual é a
probabilidade de se obter duas caras?
• Dez peças são extraídas, ao acaso, com reposição, de
um lote de 500 peças; qual é a probabilidade de que
pelo menos duas sejam defeituosas; sabendo-se que
10% das peças do lote são defeituosas?
• Imagine o experimento de Bernoulli (E) em que:
• Vamos realizar n repetições independentes de
E, chamando X do número de sucessos nas n
repetições.
𝐸 = 
𝑠𝑢𝑐𝑒𝑠𝑠𝑜 → 𝑝 
𝑓𝑟𝑎𝑐𝑎𝑠𝑠𝑜 → 1 − 𝑝 
 
O resultado desta experiência é um vetor (𝑥1, ⋯ , 𝑥𝑛) 
em que cada resultado pode ser um sucesso (S) ou um 
fracasso (F). Se quisermos calcular 𝑃(𝑋 = 𝑘) teremos: 
𝑃 𝑆𝑆𝑆𝑆𝑆 ⋯𝑆𝑆𝑆 𝐹𝐹𝐹 ⋯ 𝐹𝐹 = 𝑝𝑘(1 − 𝑝)𝑛−𝑘 
k n - k
•
• Mas quantos vetores de tamanho n com k sucessos e
(n – k) fracassos podem ser formados?
• Para responder a essa pergunta, basta calcularmos o
número de permutações possíveis de n elementos
com k e (n – k) repetições.
• Dessa forma, o número de permutações procurado
é:
𝑛!
𝑘! 𝑛 − 𝑘 !
= 
𝑛
𝑘
 
• Agora é intuitivo ver que a probabilidade procurada
é:
𝑃 𝑋 = 𝑘 = 
𝑛
𝑘
 𝑝𝑘(1 − 𝑝)𝑛−𝑘 . 
Definição: Uma distribuição de probabilidade Binomial
resulta de um experimento que satisfaz os seguintes
requisitos:
1. O experimento tem um número fixo de tentativas;
2. As tentativas devem ser independentes;
3. Cada tentativa deve ter todos os resultados
classificados em duas categorias;
4. A probabilidade de um sucesso em cada
tentativa, denotada por p, permanece constante.
• A variável aleatória X, correspondente ao número
total de sucessos nas n tentativas do
experimento, tem distribuição Binomial com
parâmetros n e p e função de probabilidade:
𝑃 𝑋 = 𝑥 = 
𝑛
𝑥
 𝑝𝑥(1 − 𝑝)𝑛−𝑥 , 𝑥 = 0, 1, 2, ⋯ , 𝑛. 
• Notação X~Binomial(n; p)
Exemplos:
1. Um professor de Psicologia planeja dar um teste
surpresa que consiste em 4 questões de múltipla
escolha, cada uma com 5 alternativas possíveis
(a, b, c, d, e), uma das quais é correta. Suponhamos
que um aluno despreparado faça adivinhações
aleatórias. Qual é a probabilidade de que este aluno
acerte exatamente três questões?
• Solução: Primeiramente, note que esse
procedimento satisfaz os 4 requisitos para uma
distribuição binomial.
Se chamarmos de sucesso o fato da resposta estar 
correta, vemos que 𝑃 𝑆 = 1 5 = 0,2; uma vez que 
para cada questão há 5 respostas possíveis (a, b, c, d, 
e), uma das quais é correta. 
•
• A variável aleatória X, número de respostas corretas
dentre as 4 questões, pode assumir os valores
{0, 1, 2, 3, 4}.
• Dessa forma, X ~ Binomial(4; 0,2).
• Assim, a probabilidade de 3 respostas corretas 
é:
𝑃 𝑋 = 3 = 
4
3
 0,23(1 − 0,2)4−3 
𝑃 𝑋 = 3 =
4!
3! 4 − 3 !
× 0,008 × 0,8 ≅ 0,026 
2. Uma linha de produção em grande escala
produz 6% de itens defeituosos. 30 itens da
produção semanal são observados. Calcular a
probabilidade de se observar pelo menos 2
itens defeituosos?
• Solução: Seja X = número de itens defeituosos dentre
os 30 observados. X = {0, 1, 2, ..., 30}.
• X ~ Binomial(30; 0,06)
𝑃 𝑋 ≥ 2 = 1 − 𝑃 𝑋 < 2 
Onde, 
𝑃 𝑋 < 2 = 𝑃 𝑋 = 0 + 𝑃 𝑋 = 1 
 𝑃 𝑋 < 2 = 
30
0
 0,06 0 0,94 30 + 
30
1
 0,06 1 0,94 29 
 
𝑃 𝑋 < 2 = 0,156256 + 0,299213 = 0,455469 
 
∴ 𝑃 𝑋 ≥ 2 = 1 − 0,455469 ≅ 0,545 
• A figura a seguir mostra exemplo de
distribuições binomiais. Para n fixo (no
exemplo n = 20) à medida que p aumenta de 0
a 0,5 a distribuição se torna mais simétrica. O
mesmo acontece se p diminui de 1 a 0,5.
• Média e variância de uma distribuição
binomial:
𝐸 𝑋 = 𝑛𝑝 
𝑉 𝑋 = 𝑛𝑝(1 − 𝑝) 
• Exemplo: No exemplo anterior da linha de
produção, tem-se que o número esperado de itens
defeituosos dentre os 30 observados è:
• A variância e o desvio padrão são respectivamente:
𝐸 𝑋 = 30 × 0,06 = 1,8 
𝑉 𝑋 = 30 × 0,06 × 0,94 = 1,692 
𝐷𝑃 𝑋 = 1,692 = 1,3 
4.2.3. Distribuição de Poisson
• É útil para descrever as probabilidades do
número de ocorrências num campo ou
intervalo contínuo (em geral tempo ou
espaço).
• Por exemplo, a v.a. de interesse pode ser:
– Nº de peças defeituosas substituídas num veículo
durante o primeiro ano de vida;
– Nº de erros tipográficos por página, em um material
impresso;
– Nº de acidentes por mês, em determinada rodovia;
– Número de clientes que chegam ao caixa de um
supermercado por hora;
• A utilização da distribuição de Poisson baseia-se nas
seguintes hipóteses:
1. A probabilidade de ocorrência é a mesma para dois
intervalos quaisquer de igual comprimento.
2. A probabilidade de duas ou mais ocorrências
simultâneas é aproximadamente zero.
3. O número de ocorrências em qualquer intervalo é
independente do número de ocorrências em outros
intervalos.
• A função de probabilidade de Poisson é
definida pela seguinte equação:
P (X = x) =
e¡¸¸x
x!
Onde,
• - probabilidade de x ocorrências em um
intervalo.
• - base dos logaritmos naturais ( ).
• - taxa de ocorrências no intervalo considerado.
P(X=x)
e e=2;71828
¸
• OBS: o número de ocorrências não tem limite
máximo. Ela é uma v.a. discreta que pode assumir
uma sequência infinita de valores (X = 0, 1, 2, ...).
• Média e variância de uma distribuição de Poisson
𝐸 𝑋 = 𝜆 
𝑉 𝑋 = 𝜆 
Exemplos:
1. Suponha que estejamos interessados no número de
carros que chegam a um caixa automático drive-
thru de um banco durante um período de 15
minutos nas manhãs de fins de semana.
• Considere que a análise dos dados históricos mostre
que o número médio de carros que chegam no
período considerado é igual a 10.
• Determine a probabilidade de:
a) Exatamente 5 carros chegarem em 15 min.?
X = nº de carros que chegam em um período de 
15 min qualquer.
P (X = 5) =
e¡10105
5!
= 0; 0378
b) Um carro chegar em um período de 3 mim.?
Y = nº de carros que chegam em um período de 3 min
qualquer.
Número esperado de carros 
que chegam em um período 
de 3 min
¸= 3£
10
15
= 2 =)
• Portanto,
2. Suponha que os defeitos em fios para tear possam
ser aproximados por um modelo de Poisson com
média de 0,2 defeitos por metro. Inspecionando-se
pedaços de fio de 6 metros de
comprimento, determine a probabilidade de se
encontrar menos de 2 defeitos.
P (Y = 1) =
e¡221
1!
= 0; 2707
¸=6£0;2 = 1;2
P (X · 1) = P (X = 0) + P (X = 1)
=
e¡1;21; 20
0!
+
e¡1;21; 2
1!
= 0; 301 + 0; 3612 = 0; 6622
4.3. Variáveis aleatórias contínuas
• Vimos que uma v.a. contínua é uma função
X, definida sobre o espaço amostral Ω, que assume
valores num intervalo dos números reais.
• Ex: tempo de vida de uma lâmpada, nível de
colesterol no soro sanguíneo, tempo de espera de
um cliente para ser atendido num banco, duração de
uma chamada telefônica, etc.
• Distribuições de probabilidade contínuas: Dado que
uma v.a. contínua X assume um conjunto infinito não
enumerável de valores, torna-se impraticável a idéia
de atribuir uma probabilidade a cada possível valor
deX, como era feito no caso de uma v.a. discreta.
• Agora, o procedimento para a obtenção de
probabilidades levará em conta intervalos de valores
e usará o histograma.
• Considere uma distribuição de freqüências com 9
classes:
Peso fi fr
x0 |- x1 f1 fr1
x1 |- x2 f2 fr2
x2 |- x3 f3 fr3
x7 |- x8 f8 fr8
x8 |- x9 f9 fr9
Total n
  
• Lembre-se que na construção de um histograma, a
altura correspondente a cada retângulo equivale
densidade da classe, onde . Dessa forma, a
área de cada retângulo é igual a freq. relativa da
classe.
• Assim, dado que a soma das freq. relativas é igual a
1, a área total do histograma e do polígono de
freqüências também é 1.
𝑑𝑖 = 𝑓𝑟/𝑕 
di
• Considere o intervalo (x1,x2). Temos que a
probabilidade de um ponto qualquer cair
entre x1 e x2 será aproximadamente igual a
área do retângulo hachurado.
• Se diminuirmos a amplitude dos
intervalos, (aumentando, assim, o número de
intervalos) tornando a mesma infinitamente
pequena, o polígono de freqüências passará a
ser uma curva.
𝑃 𝑎 ≤ 𝑋 ≤ 𝑏 = á𝑟𝑒𝑎 𝑕𝑎𝑐𝑕𝑢𝑟𝑎𝑑𝑎 
di
Essa curva é a representação gráfica de uma função da 
v.a. X, denotada por 𝑓(𝑥) e chamada função de 
densidade de probabilidade. Esta função deve 
satisfazer as seguintes propriedades: 
 
1. 𝑓(𝑥) ≥ 0, para todo 𝑥 ∈ −∞, ∞ ; 
2. A área definida por 𝑓(𝑥) tem que ser igual a 1. •
•
Uma vez que, para v.a. contínuas, as probabilidades 
são definidas para intervalos de valores e são obtidas 
como áreas sob a curva 𝑓(𝑥), temos que: 
 
𝑃 𝑋 = 𝑥 = 𝑃 𝑥 = 0; 
 
Uma vez que só temos uma linha, cuja área é zero. 
• Exemplo: Arqueólogos estudaram certa região e
estabeleceram um modelo teórico para a variável
C, comprimento de fósseis na região (em cm).
Suponha que C é uma variável aleatória contínua
com a seguinte função densidade de probabilidade:
f(c) =
8
<
:
1
40
¡
c
10
+ 1
¢
; se 0 · c · 20
0 caso contr¶ario
• É fácil observar que f(c) é positiva. Integrando a
função densidade em todo o seu domínio podemos
verificar que a área definida por f(c) é igual a 1.
15,05,0
40800
 
40
1
 
400
 1
1040
1
20
0
20
0
2
20
0
20
0
20
0







 
cc
dcdc
c
dc
c
• Dessa forma, concluímos que f(c) é efetivamente
uma função densidade de probabilidade.
• Deseja-se determinar:
a. A probabilidade de um fóssil, escolhido ao acaso
nessa região, apresentar comprimento inferior a
8 cm.
b. O número k tal que .
  8,0 kCP
• Resolução:
a. A probabilidade desejada é obtida integrando-se a
função densidade de probabilidade no intervalo
que vai de 0 a 8. Assim, 
  28,02,008,0
40800
8
 
40
1
 
400
 1
1040
1
8
8
0
8
0
2
8
0
8
0
8
0







 
cc
CP
dcdc
c
dc
c
CP
b. Nesse caso, queremos encontrar o valor k tal que a
área definida por f(c) à direita de K seja igual a 0,8.
Dessa forma,
 
 
016020
8,0
40
5,0
800
5,0
40800
8
 
40
1
 
400
 1
1040
1
8,0
2
220
20
2
202020








 
kk
kkcc
CP
dcdc
c
dc
c
kCP
kk
kkk
Utilizando a fórmula de Bhaskara:
cmk
kk
a
acbb
k
 125,6
125,26 e 125,6
2
25,3220
2
4
21
2






4.3.1. Média e variância de uma variável 
aleatória contínua
• A média ou valor esperado de uma variável aleatória
discreta X é dada pela expressão:
¹ = E(X) =
Z 1
¡1
x f(x) dx
• A variância de X é dada pela expressão:
• O desvio padrão da v.a. X é, então, dado por:
𝜎 = 𝜎2 
¾2 = V (X) =
Z 1
¡1
(x¡ ¹)2 f(x) dx
¾2 = V (X) =
Z 1
¡1
x2 f(x) dx¡ ¹2
• Exemplo: Considerando o exemplo anterior, calcule a
média e a variância da v.a. C, comprimento de fósseis
de certa região (em cm), cuja função densidade de
probabilidade é dada por:
f(c) =
8
<
:
1
40
¡
c
10
+ 1
¢
; se 0 · c · 20
0 caso contr¶ario
Solução:
• Cálculo da média
cm
cc
dc
c
dc
c
dc
c
c
 67,11
3
35
801200
 
40
 
400
 1
1040
1
20
0
2
20
0
3
20
0
20
0
2
20
0







 
• Cálculo da variância e do desvio padrão
 𝑐2𝑓(𝑐)𝑑𝑐
20
0
= 𝑐2
1
40
 
𝑐
10
+ 1 𝑑𝑐
20
0
 
 𝑐2𝑓(𝑐)𝑑𝑐
20
0
= 
1
400
𝑐4
4
 
0
20
+ 
1
40
𝑐3
3
 
0
20
=
500
3
 
𝜎2 =
500
3
− 
35
3
 
2
= 30,56 𝑐𝑚2 
∴ 𝜎 = 30,56 = 5,53 𝑐𝑚 
• Propriedades da média:
1. 𝐸 𝑐 = 𝑐 
2. 𝐸 𝑐𝑋 = 𝑐𝐸(𝑋) 
3. 𝐸 𝑐𝑋 + 𝑏 = 𝑐𝐸 𝑋 + 𝑏 
4. 𝐸 𝑋 + 𝑌 = 𝐸 𝑋 + 𝐸(𝑌) 
• Propriedades da variância:
1. 𝑉 𝑐 = 0 
2. 𝑉 𝑐𝑋 = 𝑐2𝑉(𝑋) 
3. 𝑉 𝑐𝑋 + 𝑏 = 𝑐2𝑉(𝑋) 
4. 𝑉 −𝑋 = 𝑉(𝑋) 
4.4. Distribuições contínuas mais comuns
4.4.1. Distribuição Uniforme
• Definição: Uma v.a. contínua tem uma
distribuição uniforme se todos os valores que
assume são igualmente prováveis.
• Uma v.a. X tem distribuição Uniforme Contínua no
intervalo [a, b], a < b, se sua função densidade de
probabilidade é dada por:
𝑓 𝑥 = 
1
(𝑏 − 𝑎)
 , 𝑠𝑒 𝑎 ≤ 𝑥 ≤ 𝑏
0 , 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜
 
• Notação: X ~ Uniforme[a, b]
• Exemplo: Uma professora planeja a aula tão
cuidadosamente, que a duração de suas aulas é
distribuída uniformemente entre 50 e 52 minutos.
Isto é, qualquer tempo entre 50 e 52 minutos é
possível, e todos esses valores possíveis são
igualmente prováveis.
• Se selecionarmos aleatoriamente uma aula e
designarmos X a v.a. representativa do tempo de
aula, então, X tem uma distribuição definida pela
função densidade
𝑓 𝑥 = 
1
2
 , 𝑠𝑒 50 ≤ 𝑥 ≤ 52
0 , 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜
 
• Ache a probabilidade de uma aula durar mais de 51,5
minutos.
𝑃 𝑋 > 51,5 = á𝑟𝑒𝑎 𝑑𝑎 𝑟𝑒𝑔𝑖ã𝑜 𝑠𝑜𝑚𝑏𝑟𝑒𝑎𝑑𝑎 
𝑃 𝑋 > 51,5 = 0,5 × 0,5 = 0,25 
• Média e variância de uma distribuição Uniforme
Contínua
𝐸 𝑋 = 𝑎 + 𝑏 2 
𝑉 𝑋 = 𝑏 − 𝑎 2 12 
• Exemplo: No exemplo anterior relacionado à duração
de aula de uma determinada professora, designou-se
X a v.a. representativa do tempo de aula (em
min.), onde X seguia uma distribuição
Uniforme[50, 52]. Dessa forma, o tempo esperado de
aula é:
𝐸 𝑋 =
52 + 50
2
= 51 
• A variância e o desvio padrão são respectivamente:
𝑉 𝑋 =
(52 − 50)2
12
=
4
12
≅ 0,333 
𝐷𝑃 𝑋 = 0,333 ≅ 0,578 
4.4.2. Distribuição Exponencial
•
Uma v.a. contínua X, assumindo valores não 
negativos, segue o modelo Exponencial com 
parâmetro 𝛼 > 0 se sua densidade é: 
 
𝑓 𝑥 = 
𝛼𝑒−𝛼𝑥 , 𝑠𝑒 𝑥 ≥ 0
 0 , 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜
 
• Notação: X ~ Exp(α). 
• Para calcular probabilidades com a
exponencial, precisamos resolver a integral
correspondente ao intervalo de interesse. Assim,
𝑃 𝑎 ≤ 𝑋 ≤ 𝑏 = 𝛼𝑒−𝛼𝑥 𝑑𝑥
𝑏
𝑎
= − 𝑒−𝛼𝑥 𝑎
𝑏 = 𝑒−𝛼𝑎 − 𝑒−𝛼𝑏 
• Esta distribuição tem sido amplamente utilizada nas
áreas de física, engenharia, computação e biologia.
• Variáveis como a vida útil de equipamentos, tempos
de falha, tempos de sobrevivência de espécies e
intervalos entre solicitações de recursos são algumas
das quantidades que têm sido modeladas pela
exponencial.
• Média e variância de uma distribuição
Exponencial
𝐸 𝑋 = 1 𝛼 
𝑉 𝑋 = 1 𝛼2 
•
Exemplo: Uma indústria fabrica lâmpadas especiais 
que ficam em operação continuamente. A empresaoferece a seus clientes a garantia de reposição, caso a 
lâmpada dure menos de 50 horas. A vida útil dessas 
lâmpadas é modelada através da distribuição 
Exponencial com parâmetro 1 8000 . Determine a 
proporção de trocas por defeito de fabricação. 
Solução: Representemos pela v.a. T, o tempo de vida da 
lâmpada, e assim T ~ Exp(1 8000 ). A probabilidade 
desejada será: 
𝑃 𝑇 < 50 = 
1
8000
𝑒−
1
8000𝑡 𝑑𝑡
50
0
 
𝑃 𝑇 < 50 = − 𝑒−
1
8000𝑡 
0
50
= 𝑒−
1
8000 ×0 − 𝑒−
1
8000 ×50 
𝑃 𝑇 < 50 = 1 − 𝑒−
50
8000 ≅ 0,006 
• Dessa forma, a proporção de trocas por defeito de
fabricação será de aproximadamente 0,6%.
•
Esse número é relativamente pequeno, o que não é 
surpresa, tendo em vista que, como o parâmetro é 
𝛼 = 1 8000 , a duração média das lâmpadas é 
𝐸 𝑇 = 1 𝛼 = 8000 horas. 
4.4.3. Distribuição Normal
• Dizemos que uma variável aleatória contínua X tem
distribuição Normal com parâmetros  e 2, se sua
função densidade é dada por:
𝑓 𝑥 =
1
𝜎 2𝜋
𝑒𝑥𝑝 −
1
2𝜎2
(𝑥 − 𝜇)2 , 𝑝𝑎𝑟𝑎 − ∞ < 𝑥 < ∞ 
x
µ
• Notação: X ~ N(𝜇, 𝜎
2). 
•
Propriedades da Normal: 
 
1. 𝑓 𝑥 é simétrica em relação a . 
2. 𝑓 𝑥 → 0 quando 𝑥 → ±∞. 
3. O valor máximo de 𝑓 𝑥 ocorre quando 𝑥 = 𝜇. 
• A distribuição Normal é completamente especificada
pela média μ e pela variância σ2 (parâmetros da
distribuição). A figura a seguir mostra exemplo de
distribuições Normais.
• Como calcular Probabilidades para distribuição
Normal ?Z ~ N(0,1) – distribuição Normal Padrão. 
𝑃(𝑍 ≤ 𝑧1) são tabeladas (valores de z entre -3 e 3) 
z1
• Exemplo: Uma empresa de instrumentos científicos
de precisão fabrica termômetros que devem
informar temperaturas de 0°C no ponto de
congelamento da água.
• Testes em uma grande amostra desses instrumentos
revelam que, no ponto de congelamento da
água, alguns termômetros indicam temperaturas
superiores ou inferiores a 0°C.
• Suponha que as leituras desses termômetros sejam
Normalmente distribuídas com média 0°C e desvio
padrão 1°C.
• Um termômetro é selecionado aleatoriamente.
Calcule a probabilidade de que o termômetro
escolhido apresente leitura no ponto de
congelamento da água:
a) inferior a 1,58°.
b) superior a -1,23°C.
c) entre -2,00°C e 1,50°C.
a) A probabilidade de que o termômetro escolhido
apresente leitura inferior a 1,58°C (no ponto de
congelamento da água) corresponde à área
sombreada na figura abaixo.
• A área desejada é obtida diretamente da tabela da
distribuição normal Padrão. Dessa forma, temos que,
b)
A tabela de probabilidade da Normal Padrão
fornece a área à esquerda de -1,23 (área
sombreada em cinza claro).
  .9429,058,1 ZP
 
seguir. a figura na
 escuro cinza em sombreada área23,1 ZP
• Dessa forma, temos que,
    8907,01093,0123,123,1  ZPZP
c)
A tabela de probabilidade da Normal Padrão fornece
a área à esquerda de -2,00 (área sombreada em
cinza claro) e a área à esquerda de 1,50 (área
pontilhada de preto).
 
seguir. a figura na escuro
cinza em sombreada área50,100,2  ZP
• Dessa forma, temos que,
     
9104,00228,09332,0 
00,250,150,100,2

 ZPZPZP
Procedimento para achar escores z a partir de áreas
conhecidas.
1. Desenhe uma curva em forma de sino e identifique
a região sob a curva que corresponde à
probabilidade dada. Se esta região não for uma
região acumulada à esquerda, trabalhe com regiões
conhecidas que sejam acumuladas à esquerda.
• Usando a área acumulada à esquerda, localize a
probabilidade mais próxima no corpo da tabela da
distribuição Normal e identifique o escore z
correspondente.
• Exemplo: Usando os mesmos termômetros do
exemplo anterior, ache a temperatura
correspondente ao percentil 95 (P95).
• A figura a seguir ilustra o escore z que corresponde
ao percentil 95.
• A fim de encontrarmos o P95 devemos procurar a
área mais próxima de 0,95 no corpo da tabela de
probabilidades da Normal Padrão.
P95
• Consultando a tabela observamos que a área de 0,95
está exatamente entre as áreas 0,9495 e 0,9505.
• O escore z procurado é então obtido através do
calculo da média dos escores 1,64 e 1,65.
• Dessa forma, a temperatura correspondente ao
percentil 95 é igual a 1,645°C. Assim, 95% dos
termômetros fabricados pela empresa apresentam
leituras (no ponto de congelamento da água)
inferiores ou iguais a 1,645°C.
• Como calcular probabilidades para uma N(μ,σ2)?
•
A fim de que possamos calcular probabilidades para 
distribuições Normais não-padronizadas, iremos 
transformar uma v.a. X ~ N(𝜇, 𝜎2) em uma v.a. com 
distribuição Normal padrão (Z ~ N(0,1)). 
 
A padronização de x é feita usando-se a fórmula: 
𝑍 =
𝑋 − 𝜇
𝜎
 
•
• Qual a distribuição de X - μ?
• Qual a distribuição de Z = (X-μ)/σ?
•
Resultado Importante: Se X ~ N(𝜇, 𝜎2), então: 
 
𝑍 =
𝑋 − 𝜇
𝜎
 ~ 𝑁(0, 1) 
e 
𝑃 𝑋 ≤ 𝑥 = 𝑃 𝑍 ≤
𝑥 − 𝜇
𝜎
 
• Exemplo: Doentes sofrendo de certa moléstia são
submetidos a um tratamento intensivo cujo tempo
de cura foi modelado por uma densidade Normal, de
média 15 e desvio padrão 2 (em dias).
• Seja X a v.a. que denota o tempo de cura, temos que
X ~ N(15, 4).
• Calcule a probabilidade do tempo de cura:
a. Ser superior a 17 dias?
b. Ser inferior a 20 dias?
c. Estar entre 14 e 17 dias?
• Solução:
a. 𝑃 𝑋 > 17 = 𝑃 𝑍 >
17−15
2
 = 𝑃 𝑍 > 1 
 = 1 − 𝑃 𝑍 ≤ 1 = 1 − 0,8413 = 0,1587 
 
b. 𝑃 𝑋 < 20 = 𝑃 𝑍 <
20−15
2
 = 𝑃 𝑍 < 2,5 = 0,9938 
c. 𝑃 14 < 𝑋 < 17 = 𝑃 
14−15
2
< 𝑍 <
17−15
2
 
 = 𝑃 −0,5 < 𝑍 < 1 
 = 𝑃 𝑍 < 1 − 𝑃(𝑍 < −0,5) 
 ∴ 𝑃 14 < 𝑋 < 17 = 0,8413 − 0,3085 = 0,5328 
• Uma questão interessante seria saber o tempo
máximo necessário para a recuperação de 25% dos
pacientes, ou seja,
𝑃 𝑋 < 𝑥 = 0,25 
𝑃 𝑋 ≤ 𝑥 = 𝑃 𝑍 ≤
𝑥 − 15
2
 = 0,25 
•
A partir da tabela da Normal padrão obtemos: 
𝑥 − 15
2
= −0,67 ⇒ 𝑥 = 13,66 
 
Assim, 25% dos pacientes ficarão curados antes de 14 
dias, aproximadamente. 
 
Dessa forma, 𝑥 = 𝜇 + (𝑧𝜎). 
•
•
4.5. Distribuições amostrais
4.5.1. Distribuição de médias amostrais.
• Considere uma população com parâmetros µ (média)
e σ2 (variância).
• Se tirarmos uma amostra aleatória de tamanho n e
calcularmos sua média, teremos um valor para .
𝑋 
•
Se retirarmos outras amostras de tamanho n da mesma 
população, obteremos outros valores para 𝑋 que serão 
diferentes do primeiro. 
 
Logo 𝑋 é uma variável que muda de valor de amostra 
para amostra. 
•
•
Se associarmos a cada valor de 𝑋 a probabilidade da 
amostra que lhe corresponde, 𝑋 passa a ser uma 
variável aleatória. 
Assim, 𝑋 tem uma distribuição de probabilidade que 
recebe o nome de distribuição amostral de 𝑋 . 
•
• Exemplo: Selecionamos todas as possíveis amostras
de tamanho 2, com reposição, da população
{1, 3, 5, 5, 7}. Existem 5x5 = 25 possibilidades:
1 e 1 1 e 3 1 e 5 1 e 5 1 e 7
3 e 1 3 e 3 3 e 5 3 e 5 3 e 7
5 e 1 5 e 3 5 e 5 5 e 5 5 e 7
5 e 1 5 e 3 5 e 5 5 e 5 5 e 7
7 e 1 7 e 3 7 e 5 7 e 5 7 e 7
• E suas médias são:
1, 2, 3, 3, 4, 2, 3, 4, 4, 5, 3, 4, 5, 5, 6, 3, 4, 5, 5, 6, 4, 5,
6, 6 e 7, respectivamente.
• Como cada amostra tem probabilidade de ocorrência
igual a 1/25, a distribuição amostral de é dada por:𝑋 1 2 3 4 5 6 7 
𝑃(𝑋 = 𝑥 ) 
1
25 
2
25 
5
25 
6
25 
6
25 
4
25 
1
25 
 
• Note que a média e variância populacionaissão, respectivamente:
𝜇𝑋 = 𝐸 𝑋 = 𝑥 𝑖𝑝𝑖 = 4,2
𝑖
 
𝜎𝑋 
2 = 𝑉 𝑋 = 𝑥 𝑖
2𝑝𝑖 − 𝜇𝑋 
2 = 2,08
𝑖
 
𝜇 = 𝐸 𝑋 = 4,2 e 𝜎2 = 𝑉(𝑋) = 4,16, 
•
Verificamos, aqui, dois fatos: 
– primeiro, a média das médias amostrais (𝜇𝑋 ) 
coincide com a média populacional (𝜇); 
– segundo, a variância de 𝑋 é igual à variância de X, 
dividida por n = 2. 
 
Esses dois fatos não são casos isolados. Na realidade, 
temos o seguinte resultado. 
•
Teorema: Seja X uma v.a. com média 𝜇 e variância 𝜎2, 
e seja 𝑋1, ⋯ , 𝑋𝑛 uma amostra aleatória de X. 
Então, 
𝜇𝑋 = 𝐸 𝑋 = 𝜇 e 𝜎𝑋 
2 = 𝑉 𝑋 = 𝜎
2
𝑛 
 
OBS: O desvio padrão de 𝑋 é comumente chamado de 
erro padrão de 𝑋 e denotado por 𝜎𝑋 . 
•
Teorema Central do Limite (TCL)
• Dado:
1. A v.a. X tem uma distribuição (que pode ou não 
ser normal) com média 𝜇 e desvio padrão 𝜎. 
 
2. Amostras aleatórias, todas de tamanho n, são 
selecionadas da população. (As amostras são 
selecionadas de modo que todas as possíveis 
amostras de tamanho n têm a mesma chance de 
serem escolhidas). 
•
Conclusão: 
A distribuição das médias amostrais (𝑋 ) irá se 
aproximar de uma distribuição normal à medida que n 
aumentar. Ou seja, 
𝑋 ~N 𝜇, 𝜎
2
𝑛 . 
Regras práticas comumente utilizadas:
1. Se a população não for normalmente 
distribuída, eis uma diretriz em comum: para 
amostras de tamanho n maior que 30, a 
distribuição de 𝑋 pode ser razoavelmente bem 
aproximada pela distribuição normal. A 
aproximação se torna melhor à medida que o 
tamanho amostral n aumenta. 
• OBS: Populações com distribuições muito
assimétricas, requerem tamanhos de amostra muito
maiores que 30.
2. Se a população for normalmente distribuída, então 
𝑋 será normalmente distribuída para qualquer 
tamanho amostral n. 
• Exemplo: Em uma certa cidade, a duração de
conversas telefônicas em minutos, originárias de
telefones públicos, segue um modelo Exponencial
com parâmetro 1/3. Observando-se uma amostra
aleatória de 50 dessas chamadas, qual será a
probabilidade delas, em média, não ultrapassarem 4
minutos?
•
Solução: Representando por X a duração das 
chamadas, temos que X ~ Exp(1/3). Dessa forma, 
tem-se que: 𝐸 𝑋 = 3 e 𝑉 𝑋 = 9. 
 
Admitindo uma amostra suficientemente grande, pelo 
TCL temos que: 𝑋 ~N(3; 9/50). 
•
• Dessa forma, podemos calcular a probabilidade
desejada da seguinte forma:
• Tendo em vista o alto valor de probabilidade
encontrado, podemos dizer que é praticamente certo
que a media amostral estará abaixo de 4 min.
𝑃 𝑋 ≤ 4 = 𝑃 𝑍 ≤
4 − 3
 9 50 
 = 𝑃 𝑍 ≤ 2,36 = 0,9909 
4.5.2. Distribuição de proporções amostrais
• Uma aplicação do TCL relaciona-se coma distribuição
da proporção amostral. Recorde que a proporção
amostral é definida como a fração de indivíduos com
uma dada característica em uma amostra de
tamanho n, isto é,
𝑝 =
𝑛° 𝑑𝑒 𝑖𝑛𝑑í𝑣. 𝑛𝑎 𝑎𝑚𝑜𝑠𝑡𝑟𝑎 𝑐𝑜𝑚 𝑑𝑎𝑑𝑎 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟í𝑠𝑡𝑖𝑐𝑎
𝑛
 
•
Se construirmos para o i-ésimo indivíduo uma v.a. 
𝑌𝑖 tal que 
𝑌𝑖 = 
1, 𝑠𝑒 𝑜 𝑖𝑛𝑑𝑖𝑣í𝑑𝑢𝑜 𝑎𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑎 𝑎 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟í𝑠𝑡𝑖𝑐𝑎
0, 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜 
 
 
Podemos reescrever a proporção amostral como 
𝑝 =
𝑌1 + 𝑌2 + ⋯ + 𝑌𝑛
𝑛
=
 𝑌𝑖
𝑛
𝑖=1
𝑛
= 𝑌. 
•
•
Logo, a proporção amostral nada mais é do que a média 
de v.a.’s convenientemente definidas. 
 
Assumindo que a proporção de indivíduos com a dada 
característica na população é p e que os indivíduos são 
selecionados aleatoriamente, temos que 𝑌1 , ⋯ , 𝑌𝑛 
formam uma seqüência de v.a.’s independentes com 
distribuição de Bernoulli. 
•
Assim, 𝐸 𝑌𝑖 = 𝑝 e 𝑉 𝑌𝑖 = 𝑝(1 − 𝑝). Logo, 
 
𝐸 𝑝 = 𝐸 
 𝑌𝑖
𝑛
𝑖=1
𝑛
 = 𝑝 
 
𝑉 𝑝 = 𝑉 
 𝑌𝑖
𝑛
𝑖=1
𝑛
 =
𝑝(1 − 𝑝)
𝑛
 •
•
Tendo em vista o TCL temos que para n 
suficientemente grande, 
𝑌 ~ N 𝑝,
𝑝(1−𝑝)
𝑛
 
 
e dessa forma, 
𝑌 − 𝐸(𝑌 )
 𝑉 𝑌 
=
𝑝 − 𝑝
 𝑝(1 − 𝑝) 𝑛 
𝑛→∞
 𝑁(0, 1). 
• Exemplo: Suponha que a proporção de peças fora de
especificação em um lote é de 40%. Tomada uma
amostra de tamanho 30, a probabilidade de esta
amostra fornecer uma proporção de peças
defeituosas menor que 0,50 pode ser calculada de
forma exata pela Binomial e aproximada pelo modelo
Normal.
• Solução: Seja X a v.a. representando o número de
peças defeituosas na amostra. Claramente, X ~
Binomial(30; 0,40). Logo, se representa a proporção
amostral de peças defeituosas, temos que
𝑃 𝑝 < 0,50 = 𝑃 𝑋 30 < 0,50 = 𝑃(𝑋 < 15) 
 = 
30
𝑖
 0,40𝑖 0,6030−𝑖
14
𝑖=0
= 0,825. 
• Considerando agora a aproximação pela
normal, temos, como conseqüência do TCL
𝑝 ~𝑁 0,40; 
0,40 × 0,60
30
 
• Assim,
• Temos, então, mesmo para uma amostra não muito
grande, uma proximidade razoável entre as duas
respostas.
𝑃 𝑝 < 0,50 ≅ 𝑃 𝑍 <
0,50 − 0,40
 0,40 × 0,60 30 
 
𝑃 𝑝 < 0,50 ≅ 𝑃 𝑍 < 1,12 = 0,8686; 
5. INFERÊNCIA ESTATÍSTICA
• Objetiva estudar a população através de
evidências fornecidas pela amostra. No nosso
caso, as amostras serão obtidas por
amostragem aleatória simples (AAS).
5.1. Estimação
Definições:
• Parâmetro: Resumo de uma característica obtido a
partir de todos os elementos de uma população. Ex:
média populacional (µ), desvio-padrão populacional
(σ), proporção populacional (p).
• Estimador: À combinação dos elementos da
amostra, construída com a finalidade de
representar, ou estimar, um parâmetro de interesse.
etc.
• Estimativa: Um valor específico do estimador, obtido
para uma amostra em particular.
Notação: 𝜇 , 𝜎 , 𝑝 , 
5.1.1. Estimação pontual
• Um único valor amostral é usado como
estimativa de um parâmetro da população.
• A seguir encontram-se alguns exemplos de
estimadores pontuais.
Parâmetro Estimador 
µ 𝜇 = 𝑋 =
𝑋1 + 𝑋2 + ⋯ + 𝑋𝑘
𝑛
 
p 𝑝 =
𝑓𝑟𝑒𝑞. 𝑎𝑚𝑜𝑠𝑡𝑟𝑎𝑙 𝑐𝑜𝑚 𝑎 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟í𝑠𝑡𝑖𝑐𝑎
𝑛
 
𝜎2 𝜎2 = 𝑆2 =
 (𝑋𝑖 − 𝑋 )
2𝑛
𝑖=1
𝑛 − 1
 
𝜎 𝜎 = 𝑆 = 𝑆2 
 
5.1.2. Intervalos de Confiança
•
Idéia Básica: Suponha que estamos interessados num 
parâmetro populacional verdadeiro (mas 
desconhecido) 𝜃. Podemos obter uma estimativa 
pontual de 𝜃 (𝜃 ) usando informação de nossa 
amostra. Contudo, sabemos que o valor estimado 
dificilmente será exatamente igual ao valor 
verdadeiro. 
• A partir da estimação pontual, somos incapazes de
julgar qual a possível magnitude do erro que estamos
cometendo.
• Daí, surge a idéia de construir os intervalos de
confiança, que são baseados na distribuição amostral
do estimador pontual.
• Definição: um intervalo de confiança (IC) é
uma faixa (ou um intervalo) de valores usada
para estimar o verdadeiro valor de um
parâmetro populacional.
5.1.3. Intervalos de Confiança para µ
•
Suponha que queiramos estimar a média µ de uma 
população qualquer, e para tanto utilizamos a média 𝑋 
de uma amostra de tamanho n. Do TCL, 
 
𝑋 ~N 𝜇, 𝜎𝑋 
2 
•
E portanto, 
 
𝑒 = 𝑋 − 𝜇 ~ N 0, 𝜎𝑋 
2 , 
 
onde 𝜎𝑋 
2 = 𝑉 𝑋 = 𝜎
2
𝑛 
• Daqui podemos determinar qual a probabilidade de
cometermos erros de determinadas magnitudes. Por
exemplo,
𝑃 𝑒 < 1,96 𝜎𝑋 = 1 − 𝛼 = 0,95 
ou 
𝑃 𝑋 − 𝜇 < 1,96 𝜎𝑋 = 0,95 
•
Que é equivalente a 
𝑃 −1,96 𝜎𝑋 < 𝑋 − 𝜇 < 1,96 𝜎𝑋 = 0,95 
 
E, finalmente, 
𝑃 𝑋 − 1,96 𝜎𝑋 < 𝜇 < 𝑋 + 1,96 𝜎𝑋 = 0,95 
 
Onde 1 − 𝛼 = 0,95