Buscar

Estatística Básica

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 306 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 306 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 306 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Estatística Básica
Caroline Cavatti Vieira Bolonini
caroline.vieira@ufes.br
2015/2
Conteúdo Programático
• Distribuições de frequência
• Representação gráfica
• Medidas estatísticas
• Noções de probabilidade
• Variáveis aleatórias discretas e contínuas
• Distribuição de probabilidade Normal
• Distribuição amostral da média
• Teste de hipóteses
Bibliografia básica:
• Caroline C. Vieira. Notas de aula
• M. N. Magalhães; Antonio C. P. de Lima. Noções de
Probabilidade e Estatística – 2002.
1. Introdução
• Definição de Estatística: é um conjunto de técnicas
que nos permite, de forma sistemática, coletar,
organizar, descrever, analisar e interpretar dados
oriundos de estudos e experimentos.
Conceitos:
• População: é um conjunto de dados / pessoas /
objetos / etc. que possuem pelo menos uma
característica em comum de interesse do
pesquisador.
• Amostra: é um subconjunto desta população obtida
de acordo com certas regras (técnicas de
amostragem).
• Em princípio, a seleção da amostra tenta fornecer um
subconjunto de valores o mais parecido possível com
a população que lhe dá origem.
• Exemplos:
1. A fim de medir o grau de satisfação do brasileiro em
relação ao atual governo Federal, foram
selecionados aleatoriamente 2000 eleitores
brasileiros .
População – Todos os indivíduos brasileiros que
possuem título eleitoral.
Amostra – os 2000 eleitores selecionados
aleatoriamente no país.
2. Deseja-se analisar a composição química de uma
jazida de minério de ferro. Para tal retira-se um
testemunho de 100 kg de minério de ferro dessa
jazida.
População – Toda a extensão da jazida mineral
estudada.
Amostra – A porção de 100 kg de minério de ferro
retirada da jazida.
• Dados: Conjuntos de valores, numéricos ou não.
Todo dado se refere à determinada característica
(variável).
Tipos de Variáveis:
• Qualitativas: quando os possíveis valores que
assume representam atributos ou qualidades.
Podem ser:
• Nominais: o conjunto dos possíveis valores não
possui uma ordenação natural. Ex: Sexo, Raça,
Religião, etc.
• Ordinais: é possível ordenar o conjunto dos possíveis
valores. Ex: Classe Social, Escolaridade do chefe da
família, etc.
• Quantitativas: quando os possíveis valores que
assume são de natureza numérica. Podem ser:
• Discretas: em geral são fruto de uma contagem. O
conjunto de possíveis valores é enumerável. Ex:
Número de filhos na família, número de pessoas
chegando em uma fila, número de caras obtidas
em 5 lançamentos de uma moeda etc.
• Contínuas: assumem valores em intervalos dos
números reais. Ex: peso, altura, idade, etc.
A Teoria Estatística está dividida em duas áreas:
• Estatística Descritiva: é utilizada na etapa inicial da
análise para que possamos nos familiarizar com os
dados, e tirarmos conclusões informais e diretas a
respeito de características de interesse com base nos
dados observados.
• Inferência Estatística: Técnicas que permitem
extrapolar para a população, conclusões tiradas de
subconjuntos ou amostras desta população.
Estatística Descritiva
Amostragem
População Amostra
Inferência Estatística
2. Estatística descritiva
• Apresentação dos dados: organizar os dados
de maneira prática e racional para o melhor
entendimento do fenômeno que se está
estudando. Pode ser por meio de tabelas e
gráficos.
2.1. Construção de Tabelas
• O conjunto de informações disponíveis após
tabulação de questionário ou pesquisa de campo é
denominado tabela de dados brutos.
• Nela são listados individualmente cada elemento da
população ou amostra, com os valores de todas as
variáveis estudadas. (Vide anexo 1)
• Apesar de conter muita informação, a tabela de
dados brutos não é prática para respondermos
rapidamente a questões de interesse.
• Assim, a partir da tabela de dados brutos
normalmente construímos uma nova tabela
denominada tabela de frequência.
• A tabela de frequência mais simples é aquela que
lista os valores observados para determinada
variável, e o número de ocorrências (ou frequência
absoluta) de cada um destes valores. Exemplos:
 
Sexo fi 
F 37 
M 13 
total 50 
 
 
Turma fi 
A 25 
B 25 
total 50 
 
 
• fi – Freq. absoluta: nº de elementos pertencentes a
uma classe.
Outras Freqüências:
• Freqüência acumulada (fa):
fa = freq. absoluta da classe + freq. absoluta das
classes anteriores
• Freqüência relativa (fr):
• Freqüência relativa acumulada (fra):
fra = freq. relativa da classe + freq. relativa das classes
anteriores
𝑓𝑟 =
𝑓𝑟𝑒𝑞. 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎 𝑑𝑎 𝑐𝑙𝑎𝑠𝑠𝑒
𝑓𝑟𝑒𝑞. 𝑡𝑜𝑡𝑎𝑙
 
Exemplo:
Idade fi fa fr (%) fra (%) 
17 9 9 18 18
18 22 31 44 62
19 7 38 14 76
20 4 42 8 84
21 3 45 6 90
22 0 45 0 90
23 2 47 4 94
24 1 48 2 96
25 2 50 4 100
Total 50 100
• No caso da variável discreta assumir muitos
valores e no caso das variáveis contínuas, os
dados serão classificados em grupos,
possuindo diversos valores numa classe.
Exemplo:
Peso PMi fi fa fr fra
44 |- 52 48 11 11 0,22 0,22
52 |- 60 56 19 30 0,38 0,60
60 |- 68 64 7 37 0,14 0,74
68 |- 76 72 7 44 0,14 0,88
76 |- 84 80 1 45 0,02 0,90
84 |- 92 88 4 49 0,08 0,98
92 |- 100 96 1 50 0,02 1,00
Total 50 1
Definições:
• Limite inferior da classe (LI): é o valor mínimo que a
variável alcança.
• Limite superior da classe (LS): é o valor máximo que a
variável alcança.
• Amplitude da classe (h): é a diferença entre o LS e o
LI de uma mesma classe.
• Amplitude total (R): é a diferença entre o maior e o
menor valor observado.
• Ponto médio da classe (PM): é obtido somando-se o
LI e o LS de uma mesma classe, e dividindo-se o
resultado por 2.
2.2. Procedimento para construção de
tabelas
1. Calcular a amplitude total (R).
2. Estipular o número de classes da tabela (k).
Em geral varia de 5 a 20.
• Critério para escolher k: seja n o número de 
dados
- se 𝑛 ≤ 25 → 𝑘 = 5 
- se 𝑛 > 25 → 𝑘 ≈ 𝑛 
3. Calcular a amplitude das classes (h), de forma que
as classes tenham a mesma amplitude. Para isso,
toma-se:
• OBS: h deve ser tomado com número de casa
decimais igual ou menor que os dados; e seu valor
deve, sempre, ser arredondado para cima.
ℎ = 𝑅 𝑘 
• Exemplo: as notas de 32 estudantes de uma classe
estão descritas a seguir.
0,0 0,0 1,0 1,5 2,0 2,0 2,5 3,5
3,5 4,0 4,0 4,0 4,5 4,5 4,5 5,0
5,0 5,0 5,0 5,0 5,5 5,5 6,0 6,0
6,0 6,5 6,5 7,0 7,0 7,0 8,0 8,5
1. 𝑅 = 8,5 − 0,0 = 8,5 
2. 𝑘 = 32 ≈ 5,66 ≈ 6 
3. ℎ = 8,5 6 ≈ 1,42 ≈ 1,5 
• Construir a tabela de freqüência.
Notas fi fa fr (%) fra (%) 
0,0 |- 1,5 3 3 9 9
1,5 |- 3,0 4 7 13 22
3,0 |- 4,5 5 12 16 38
4,5 |- 6,0 10 22 31 69
6,0 |- 7,5 8 30 25 94
7,5 |- 9,0 2 32 6 100
Total 32 100
2.3. Construção de Gráficos
• Gráfico de Barras: Para cada valor da variável,
desenha-se no eixo horizontal (ou vertical) uma barra
com altura correspondente a sua freq. absoluta (ou
relativa).
• Este tipo de gráfico se adapta melhor às variáveis
quantitativas discretas ou qualitativas.
• Ex: Gráfico de barras para a variável Idade.
0
5
10
15
20
25
17 18 19 20 21 22 23 24 25
F
rq
. 
A
b
so
lu
ta
Idade
• Diagrama circular, disco ou pizza: Tipo de gráfico
muito utilizado para representação de variáveis
qualitativas.
• Consiste num círculo dividido em setores, cujos
tamanhos são proporcionais às freq. absolutas ou
porcentagens correspondentes.
• É útil quando o número de classes é pequeno.
• Ex: Gráfico de pizza para a variável OpTV.
• Histograma: Este é um gráfico que parte de uma
tabela de freqüência de dados agrupados.
• Este gráfico consiste de retângulos contíguos cuja
baseé igual à amplitude da classe correspondente e
área igual à freqüência relativa de cada classe.
• A altura de cada retângulo é chamada de densidade
da classe. A densidade da classe i é o valor dado por:
𝑑𝑖 =
𝑓𝑟𝑒𝑞. 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 𝑑𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝑖
𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒 𝑑𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝑖
 
• No caso da primeira classe da tabela de freq. da
variável peso temos:
𝑑𝑖 = 0,22 8 = 0,0275 
• Obs: o histograma pode ainda ser representado por
retângulos contíguos cuja base é igual à amplitude
da classe correspondente e altura igual à freqüência
absoluta (ou relativa) de cada classe.
• Ex: histograma da variável peso.
• Polígono de Frequência: Este gráfico é obtido
unindo-se os pontos médios de cada classe por
segmentos de reta.
• Este gráfico fornece uma melhor idéia da forma de
distribuição dos dados.
• OBS: Devem-se acrescentar classes com freqüência
zero em ambos os extremos da distribuição para ligar
o gráfico ao eixo horizontal.
0
0,005
0,01
0,015
0,02
0,025
0,03
0,035
0,04
0,045
0,05
48 56 64 72 80 88 96
D
e
n
si
d
a
d
e
Peso - Ponto Médio
• Ogiva: Representação gráfica das freqüências
acumuladas de uma tabela de freqüências de dados
agrupados.
• É uma linha poligonal que parte do eixo horizontal no
limite inferior da 1ª classe e para cada limite superior
indica a freqüência acumulada de sua classe.
0
11
30
37
44 45
49 50
0
10
20
30
40
50
60
44 52 60 68 76 84 92 100
Fr
e
q
. a
cu
m
u
la
d
a
Pesos
2.4. Medidas
• Medidas são resumos ou sumários da informação
trazida pela população (ou amostra) em um único
número.
• Existem diferentes classes de medidas, sendo as mais
conhecidas as medidas de posição e dispersão.
Definições:
• Parâmetro: Resumo de uma característica obtido a
partir de todos os elementos de uma população. Ex:
média populacional (µ), desvio-padrão populacional
(σ).
• Estatística: Resumo da característica de interesse
levando-se em conta apenas os elementos da
amostra. Ex: média amostral ( ), desvio-padrão
amostral (s).
𝑋 
2.4.1. Medidas de posição
• Tendem a representar os elementos comuns
da população (ou amostra). Ex:
média, moda, mediana, quartis, etc.
Medidas de 
posição
Medidas de tendência central
Medidas Separatrizes
Média
Mediana
Moda
Quartis
Percentis
• Média amostral ( ): É um valor que representa o
centro de massa ou ponto de equilíbrio da
distribuição (histograma). É calculado por:
𝑿 
X =
X1 +X2 + ¢ ¢ ¢+Xn
n
=
Pn
i=1Xi
n
• Para melhor compreensão do conceito de média
como centro de massa, imagine uma amostra com os
seguintes valores {8, 9, 5, 5, 4, 3, 6, 4}.
• Façamos um Diagrama de pontos, que é um gráfico
útil para visualização de pequenas amostras.
• Para tanto simplesmente plotamos um ponto para
cada valor da amostra sobre um segmento de que
contenha todos os valores. Se houver repetições
plotamos um ponto sobre o outro.
R
• Note que a média pode ser pensada como um centro
de massa porque se cada ponto tivesse a mesma
massa, digamos 1kg, o triângulo representando a
média equilibraria exatamente estes pesos.
Média = 5,5
• Se os dados estiverem dispostos em tabela de
freqüência como no exemplo abaixo,
Variável fi
X1 f1
X2 f2
... ...
... ...
Xk fk
Total n
fazemos:
𝑋 =
𝑋1𝑓1 + 𝑋2𝑓2 + ⋯ + 𝑋𝑘𝑓𝑘
𝑛
=
 𝑋𝑖𝑓𝑖
𝑘
𝑖=1
𝑛
 
• Se conhecermos a freqüência relativa, o cálculo da
média passa a ser:
𝑋 = 𝑋1
𝑓1
𝑛
+ ⋯ + 𝑋𝑘
𝑓𝑘
𝑛
= 𝑋1𝑓𝑟1 + ⋯ + 𝑋𝑘𝑓𝑟𝑘 = 𝑋𝑖
𝑘
𝑖=1
𝑓𝑟𝑖 
• Exemplo: Para calcularmos a média dos dados
abaixo:
X fi fr
1 3 0,3
2 4 0,4
3 2 0,2
5 1 0,1
Total 10 1
• Pelos dados brutos:
𝑋 =
1 + 1 + 1 + 2 + 2 + 2 + 2 + 3 + 3 + 5
10
=
22
10
= 2,2 
• Pela freqüência absoluta:
𝑋 =
1 × 3 + 2 × 4 + 3 × 2 + 5 × 1
10
= 2,2 
• Pela freqüência relativa:
𝑋 = 1 × 0,3 + 2 × 0,4 + 3 × 0,2 + 5 × 0,1 = 2,2 
• Em certas situações, os valores de um conjunto de
dados têm graus de importância diferentes, o que
nos leva a calcular uma média ponderada.
• Em tais casos, calculamos a média ponderada
atribuindo pesos (w) diferentes aos diversos valores.
Assim,
X =
w1 x1 +w2 x2 + ¢ ¢ ¢+ wn xn
w1 + w2 + ¢ ¢ ¢+wn
=
Pn
i=1wi xiPn
i=1wi
• Exemplo: média ponderada de 3 avaliações.
w1 = 1 x1 = 7
w2 = 1 x2 = 8
w3 = 2 x3 = 6
X =
1£ 7 + 1£ 8 + 2£ 6
4
= 6; 75
Observações:
• A média é uma medida afetada por valores
extremos.
• Se calcularmos o valor médio de uma variável para
toda a população, teremos a média
populacional, normalmente designada pela letra
grega µ (mi). Onde:
𝜇 =
 𝑋𝑖
𝑁
𝑖=1
𝑁
 
• Mediana: É o valor que divide o conjunto de
dados ao meio, de tal forma que 50% dos
valores observados são menores ou iguais à
mediana e 50% são maiores ou iguais a ela.
Notação: md ou Md.
Procedimento para calcular a mediana:
1. Ordenar os dados.
2. Localizar a posição central. Para isto calcula-se:
3. Se o número de observações (n) for ímpar, a
mediana será a observação central; e se n for par, a
mediana será o ponto médio entre as duas
observações centrais.
2
1n
Exemplos:
• quando n é par: { 1; 1; 1; 3; 3; 5; 3; 3; 2; 2}.
1. {1; 1; 1; 2; 2; 3; 3; 3; 3 ;5}; 
2. (10 + 1) 2 = 11 2 = 5,5 
1 1 1 2 2 3 3 3 3 5
• Os dois candidatos a md são o 2 e o 3.
Então, tomamos o ponto médio entre eles
como a mediana:
𝑚𝑑 =
2 + 3
2
= 2,5 
• quando n é ímpar: { 1; 1; 1; 3; 3; 4; 4; 5; 5}.
Posição - (9 + 1) 2 = 10 2 = 5 
Neste caso, 𝑚𝑑 = 3. 
• Observação: a mediana não é afetada por valores
extremos.
1 1 1 3 3 4 4 5 5
Moda:
• A moda de um conjunto de dados é o valor
que ocorre com maior freqüência. Notação:
mo ou Mo.
• Exemplo: { 1; 1; 3; 3; 5; 3; 3; 2}.
𝑚𝑜 = 3. 
• Em um conjunto de dados pode haver mais de uma
moda.
•
Exemplo: { 1; 1; 1; 1; 3; 3; 3; 3; 5}. 𝑚𝑜1 = 1 e 𝑚𝑜2 = 3. 
Neste caso se diz que o conjunto é bimodal. 
• Se houver mais de duas modas diz-se que o conjunto
é multimodal. Por outro lado se nenhum valor se
repete o conjunto não tem moda.
Exemplo: Com base na tabela de frequências
abaixo, calcule as medidas de tendência central para a
variável idade (em anos completos).
Idade fi fa
17 9 9
18 22 31
19 7 38
20 4 42
21 3 45
22 0 45
23 2 47
24 1 48
25 2 50
Total 50
𝑚𝑜 = 18 anos 
𝑚𝑑 =
18+18
2
= 18 anos 
Posição da mediana : 50 + 1
2
= 25,5 
𝑋 = 17 ∙ 9 + 18 ∙ 22 + 19 ∙ 7 + 20 ∙ 4 + 21 ∙ 3
+ 23 ∙ 2 + 24 ∙ 1 + 25 ∙ 2 /50 
𝑋 = 18,9 anos 
Percentil (Pα):
• O percentil de ordem α de um conjunto de
dados é um valor Pα% tal que α% dos valores
são inferiores ou iguais a ele e (100 - α)% dos
valores são maiores ou iguais a ele.
Observações:
• A mediana é o percentil de ordem 50.
• Os percentis de ordem 25, 50 e 75 são chamados
respectivamente de 1º Quartil, 2º Quartil e 3º
Quartil.
Como calcular o percentil Pα para dados agrupados:
1. Localizar a classe a qual pertence o percentil Pα
observando:
Lα – limite superior da classe do percentil Pα.
lα – limite inferior da classe do percentil Pα.
2. Encontrar a frequência relativa da classe que 
contém o percentil Pα. Denote-a por𝑓𝑟𝛼 . 
3. Encontrar a frequência relativa acumulada até a 
classe anterior à classe do percentil Pα. Denote-a por 
𝑓𝑟𝑎𝑎 . 
4. Calcule a diferença 𝛼 − 𝑓𝑟𝑎𝑎 . Esta diferença é a 
frequência relativa da classe (lα |- Pα). 
l® L®
P®
®%
fraa%
5. O valor damediana é obtido resolvendo-se a
seguinte regra de três:
𝐿𝛼 − 𝑙𝛼 → 𝑓𝑟𝛼 
 𝑃𝛼 − 𝑙𝛼 → 𝛼 − 𝑓𝑟𝑎𝑎 
𝑃𝛼 = 𝑙𝛼 + (𝐿𝛼 − 𝑙𝛼)
(𝛼 − 𝑓𝑟𝑎𝑎 )
𝑓𝑟𝛼
 
 
Exemplo: Para acharmos a mediana e o 1º quartil das
notas dos alunos de nosso exemplo fazemos:
• Mediana (P50):
1. Classe 4,5|- 6,0.
2. 𝑓𝑟50 = 0,31. 
3. 𝑓𝑟𝑎𝑎 = 0,38. 
Assim, 50% dos alunos tiraram notas inferiores a 5,1.
4. 𝛼 − 𝑓𝑟𝑎𝑎 = 0,5 − 0,38 = 0,12. 
5. 𝑃50 = 4,5 + 6,0 − 4,5 
 0,12 
0,31
≅ 5,1 
• 1º quartil (P25):
1. Classe 3,0|- 4,5.
2. 𝑓𝑟25 = 0,16. 
3. 𝑓𝑟𝑎𝑎 = 0,22. 
4. 𝛼 − 𝑓𝑟𝑎𝑎 = 0,25 − 0,22 = 0,03. 
5. 𝑃25 = 3,0 + 4,5 − 3,0 
 0,03 
0,16
≅ 3,3. 
Assim, 25% dos alunos tiraram notas inferiores a 3,3.
2.4.2. Medidas de variabilidade
• Medem o espalhamento ou dispersão dos
dados. Complementam importantes
informações escondidas pelas medidas de
posição.
• Exemplo: Desempenho de dois alunos em 5
avaliações:
Aluno 1: {55; 57; 60; 62; 66}. 𝑋 = 60 e 𝑚𝑑 = 60. 
Aluno 2: {38; 49; 60; 72; 81}. 𝑋 = 60 e 𝑚𝑑 = 60. 
• Amplitude total (R):
• A amplitude total de um conjunto de dados é
definida como a diferença entre o maior e o menor
valor observado.
Ex: - Aluno 1: 𝑅 = 11. 
 - Aluno 2: 𝑅 = 43. 
•
• A variância é uma medida de dispersão que leva em
conta todas as observações feitas. Ela mede a
dispersão dos dados em torno da média amostral .
• Considere as observações X1, X2, ... , Xn:
Variância amostral (𝑺𝟐): 
• Temos
 
 
 
• Assim define-se a variância amostral como:
𝑆2 =
 (𝑋𝑖 − 𝑋 )
2𝑛
𝑖=1
𝑛 − 1
 
Ex: - Aluno 1: 
𝑆2 =
 55 − 60 2 + 57 − 60 2 + ⋯ + 66 − 60 2
𝑛 − 1
 
 
𝑆2 =
25 + 9 + 0 + 4 + 36
4
=
74
4
= 18.5 
- Aluno 2: 
𝑆2 =
 38 − 60 2 + 49 − 60 2 + ⋯ + 81 − 60 2
𝑛 − 1
 
 
𝑆2 =
484 + 121 + 0 + 144 + 441
4
=
1190
4
= 297.5 
• Observação: Se calcularmos a variância de uma
população de tamanho N, teremos a variância
populacional, normalmente designada pela letra
grega σ (sigma). Onde:
𝜎2 =
 𝑋𝑖 − 𝜇 
2𝑁
𝑖=1
𝑁
 
• Inconvenientes da variância:
1. As unidades de medida da variância amostral são o
quadrado da unidade original da variável (m2 para
altura, kg2 para peso, etc).
• Para evitar-se este desconforto estabeleceu-se o
desvio padrão amostral definido por:
que mostra a variabilidade medida na unidade
original da variável analisada.
𝑆 = 𝑆2 = 
 (𝑋𝑖 − 𝑋 )2
𝑛
𝑖=1
𝑛 − 1
 
•
2. Não permite comparar a variabilidade de dados
medidos em diferentes unidades de medida ou
medidos na mesma unidade mas com médias
diferentes.
Ex: - Aluno 1: 𝑆 = 18,5 = 4,3. 
- Aluno 2: 𝑆 = 297,5 = 17,2. 
• Aqui a solução foi a criação de uma medida chamada
coeficiente de variação que não sofre influência nem
da média nem da unidade de medida. O coeficiente
de variação é definido como:
• Amostra –
• População –
𝐶𝑉 = (𝑆 𝑋 ) × 100 
𝐶𝑉 = (𝜎 𝜇) × 100 
• Exemplo: Em qual grupo há mais variação em torno
da média:
CVa =
p
0; 0025
1;70
£ 100 = 2; 9%
CVp =
p
2; 25
60
£ 100 = 2; 5%
Variável média variância
altura 1,70 m 0,0025 m2
peso 60 kg 2,25 kg2
• Fórmula da variância amostral abreviada:
𝑆2 =
1
𝑛 − 1
 𝑋𝑖
2
𝑛
𝑖=1
−
 𝑋𝑖
𝑛
𝑖=1 
2
𝑛
 
• Se os dados estiverem dispostos em tabela de
freqüência como no exemplo abaixo,
Variável fi
X1 f1
X2 f2
... ...
... ...
Xk fk
Total n
fazemos:
• Ou ainda,
 
1
1
2 
2



 
n
fXX
S
k
i ii
 












  n
fX
fX
n
S
k
i iik
i ii
2 
1
1
22
1
1
Exemplo: Com base na tabela de frequências
abaixo, calcule a variância e o desvio padrão da variável
idade (em anos completos).
Idade fi Xi*fi Xi
2*fi
17 9 153 2601
18 22 396 7128
19 7 133 2527
20 4 80 1600
21 3 63 1323
23 2 46 1058
24 1 24 576
25 2 50 1250
Total 50 945 18063
𝑋 = 18,9 anos 
Temos que:
 
anos 03,213,4
13,4
49
5,202
50
945
18063
49
1
2 
2








S
S
• Observação: A variância também é afetada por
valores extremos.
Dados agrupados em classe
• Neste caso, como a variável está apresentada em
faixas de valores, não temos os valores efetivamente
observados e, portanto, não podemos aplicar as
fórmulas da média e variância.
• Para contornar essa situação e obter resultados
aproximados para as medidas desejadas, tomamos
como representante de cada faixa seu ponto médio
(PMi).
• Dessa forma, o cálculo da média e da variância são
feitos das seguintes formas: 𝑆2 =
 (𝑃𝑀𝑖 − 𝑋 )
2 ∙ 𝑓𝑖
𝑘
𝑖=1
𝑛 − 1
 
ou 
𝑆2 =
1
𝑛 − 1
 𝑃𝑀𝑖
2𝑓𝑖
𝑘
𝑖=1
−
 𝑃𝑀𝑖
𝑘
𝑖=1 𝑓𝑖 
2
𝑛
 
𝑋 =
 𝑃𝑀𝑖𝑓𝑖
𝑘
𝑖=1
𝑛
 
𝑋 = 𝑃𝑀𝑖𝑓𝑟𝑖
𝑘
𝑖=1
 ou
• Exemplo:
Freq. cardíaca PMi fi PMi*fi PMi
2*fi
60 |- 65 62,5 11 687,5 42968,75
65 |- 70 67,5 35 2362,5 159468,75
70 |- 75 72,5 68 4930 357425
75 |- 80 77,5 20 1550 120125
80 |- 85 82,5 12 990 81675
85 |- 90 87,5 10 875 76562,5
90 |- 95 92,5 1 92,5 8556,25
95 |- 100 97,5 3 292,5 28518,75
Total 160 11780 875300
• Assim,
𝑋 = 11780 160 = 73,6 
 
𝑆2 =
1
159
 875300 −
 11780 2
160
 = 50,3 
 
𝑆 = 50,3 = 7,1 
Cálculo da Moda para dados agrupados em classe
(Método Czuber)
• Uma das formas de se calcular a moda para dados
agrupados é utilizando o Método de Czuber. Esse
método consiste nos seguintes passos:
1. Localize a classe de maior freqüência (classe
MODAL) e os limites superior (L) e inferior (l) desta
classe.
2. Encontre as seguintes freqüências:
– : freqüência absoluta da classe modal;
– : freqüência absoluta da classe anterior à
classe modal;
– : freqüência absoluta da classe posterior à
classe modal;
fmo
fant
fpos
3. Aplique a fórmula de Czuber:
mo = l+ (L¡ l)
fmo¡ fant
2fmo¡ (fant + fpos)
• O método de Czuber determina a moda por
interpolação usando a hipótese que leva seu nome:
“A moda divide o intervalo da classe modal em
distâncias proporcionais às diferenças entre a freqüência
da classe modal com a freqüência das classes
adjacentes".
• A partir daí, utilizando os conceitos de semelhança
dos triângulos e observando o histograma abaixo
vemos que:
¢1 = fmo ¡ fant
¢2 = fmo ¡ fpos
X =mo ¡ l
• Resolvendo a equação para X, temos:
• Dessa Forma,
X
h¡X
=
¢1
¢2
(onde h = L¡ l)
X =
¢1
¢1 +¢2
h
mo = l+ (L¡ l)
fmo¡ fant
2fmo¡ (fant + fpos)
• Exemplo: Para acharmos a moda da variável peso
fazemos:
Peso fi
44 |- 52 11
52 |- 60 19
60 |- 68 7
68 |- 76 7
76 |- 84 1
84 |- 92 4
92 |- 100 1
Total 50
C
la
ss
e
 M
o
d
al
mo = 52 + (60¡ 52)
19¡ 11
2£ 19¡ (11 + 7)
mo = 55; 2
fmo = 19 fant = 11 fpos =7
• Temos que:
• Dessa forma,
2.5. Assimetria
Definição:
– Uma distribuição é simétrica quando a metade
esquerda da mesma é a imagem-espelho da
metade direita.
– Uma distribuição de dados é assimétrica quando
um dos lados da mesma apresenta-se mais
prolongado que o outro.
• Distribuição simétrica:
moda =mediana =m¶edia
X=mo =md
¹=Mo =Md
• Tipos de assimetria
– Assimetria à direita ou positiva: a distribuição
apresenta uma cauda mais acentuada à direita.
moda ·mediana ·m¶edia
– Assimetria à esquerda ou negativa: a distribuição
apresenta uma cauda mais acentuada à esquerda.
m¶edia ·mediana ·moda
3. Probabilidade3.1. Conceitos iniciais
• Probabilidade é a medida de incerteza sobre
algum fenômeno aleatório de interesse.
• Fenômeno Aleatório: é um acontecimento cujo
resultado não pode ser previamente previsto com
certeza. Um experimento aleatório pode fornecer
diferente resultados, mesmo que seja repetido
sempre da mesma maneira. Exemplos:
1. O resultado do seu time no próximo jogo do
Campeonato Brasileiro;
2. A altura do aluno sorteado ao acaso nesta sala;
3. A taxa de inflação do mês subseqüente;
4. O resultado do lançamento de um dado.
• Espaço amostral (Ω ou S): é o conjunto de
todos os resultados possíveis de um
fenômeno ou experimento aleatório. Pode ser
finito ou infinito, de acordo com a quantidade
de possíveis resultados.
• O espaço amostral de cada um dos exemplos
anteriores é:
1. Ω = {derrota, empate, vitória};
2. Ω = (0; );
3. Ω =
4. Ω = {1, 2, 3, 4, 5, 6}
1. Ω = {derrota, empate, vitória}; 
2. Ω = {0; 
1
}; 
3. Ω = ; 
4. Ω = {1, 2, 3, 4, 5, 6}. 
R
1
• Evento (A; B; C; ... ; Z): é qualquer subconjunto do
espaço amostral (Ω). Exemplos:
1. Seu time não perde A = {empate, vitória};
2. A altura do aluno está entre 1,40 e 1,60 B = (1,40;
1,60);
3. A taxa de inflação do mês subseqüente é menor
ou igual a 10% C = (- ; 0,10];
4. Ocorre uma face par D = {2; 4; 6}.
1
• Evento elementar: é um resultado ou evento que não
pode mais ser decomposto em componentes mais
simples.
Eventos especiais:
• Evento impossível ( ): é o evento que nunca ocorre.
• Evento certo (Ω): é o evento que sempre ocorre.
∅ 
•
União de eventos (𝑨 ∪ 𝑩): representa a ocorrência de 
pelo menos um dos eventos A ou B, ou seja, A ou B ou 
ambos. 
Ω
EX: Experimento: lançamento de um dado.
• Evento A: ocorre face par.
• Evento B: ocorre face inferior a 4.
𝐴 ∪ 𝐵 = {1, 2, 3, 4, 6} 
•
Interseção de eventos (𝑨 ∩ 𝑩): representa a 
ocorrência simultânea de A e B. 
Ω
EX: no nosso exemplo anterior.
• Evento A: ocorre face par.
• Evento B: ocorre face inferior a 4.
𝐴 ∩ 𝐵 = {2} 
•
Eventos disjuntos ou mutuamente exclusivos: São 
eventos que não podem ocorrer simultaneamente. A 
e B são disjuntos se e somente se 𝐴 ∩ 𝐵 = ∅. 
Ω
EX: Experimento: lançamento de um dado.
• Evento A: ocorre face inferior a 4.
• Evento B: ocorre face 5.Eventos disjuntos ou mutuamente exclusivos: São 
eventos que não podem ocorrer simultaneamente. A 
e B são disjuntos se e somente se 𝐴 ∩ 𝐵 = ∅. 
•
Eventos complementares (𝑨 ou 𝑨𝒄, ou 𝑨′ ): O evento 
𝐴 ocorre se o evento A não ocorre. É formado por 
todos os pontos de Ω que não estão em A. A e 𝐴 são 
complementares se, e somente se, 𝐴 ∩ 𝐴 = ∅ e 
𝐴 ∪ 𝐴 = Ω. 
Ω
• No lançamento de um dado, se A é o evento
“ocorrer face par”, então o evento complementar de
A é o evento “ocorrer face ímpar”.
• Observação: É importante relembrar as leis de
Morgan:
(𝐴 ∪ 𝐵) = 𝐴 ∩ 𝐵 e (𝐴 ∩ 𝐵) = 𝐴 ∪ 𝐵 
}5, 3, 1{A e }6 ,4 ,2{A 
3.2. Interpretações de probabilidade
•
Probabilidade é uma função 𝑃(∙) definida do 
conjunto de todos os possíveis subconjuntos de Ω em 
[0;1]. Esta função atribui chances de ocorrência de 
cada evento de Ω. 
•
Definição clássica de probabilidade: Seja um 
experimento aleatório com espaço amostral finito 
Ω = {𝜔1 , 𝜔2 , ⋯ , 𝜔𝑛}. Se tivermos evidências de que 
todos os resultados têm a mesma chance de 
acontecer, define-se: 
𝑃 𝜔𝑖 =
1
𝑛
 𝑖 = 1, ⋯ , 𝑛 
•
Para 𝐴 ⊂ Ω defini-se: 
 
𝑃 𝐴 =
# 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑑𝑒 𝐴
# 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑑𝑒 Ω
=
𝑛(𝐴)
𝑛(Ω)
 
 
Neste caso dizemos que os resultados 𝜔𝑖 são 
equiprováveis. 
Exemplos:
1. Qual e a probabilidade de se extrair um ás de um 
baralho bem misturado de 52 cartas?
A = extrair um ás de um baralho.
n(A) = 4; n(Ω) = 52 
 
𝑃 𝐴 =
4
52
=
1
13
≅ 0,08 
2. Ɛ – lançar duas moedas e observar a configuração
obtida. c = cara; k = coroa.
Ω = {cc; ck; kc; kk}
• Qual a probabilidade de se obter zero caras? E uma
cara?
A – zero caras → A = {kk} → 𝑃 𝐴 = 1 4 . 
B – uma cara → B = {ck; kc} → 𝑃 𝐵 = 2 4 . 
Aproximação da probabilidade pela freqüência
relativa.
• Realize (ou observe) um experimento aleatório Ɛ um
grande número de vezes.
• Registre quantas vezes o evento A ( ) ocorre
efetivamente.
A½ Ð
• Então, a probabilidade de ocorrência do evento A é
estimada como se segue
𝑃 𝐴 =
# 𝑜𝑐𝑜𝑟𝑟ê𝑛𝑐𝑖𝑎𝑠 𝑑𝑒 𝐴
# 𝑟𝑒𝑝𝑒𝑡𝑖çõ𝑒𝑠 𝑑𝑜 𝑒𝑥𝑝𝑒𝑟𝑖𝑚𝑒𝑛𝑡𝑜
 
• Lei dos Grandes Números: Ao se repetir um
experimento um grande número de vezes, a
probabilidade pela freqüência relativa de um evento
tende para a probabilidade teórica.
• A lei dos Grandes Números afirma que a
aproximação pela freqüência relativa tende a
melhorar quando o número de observações
aumenta.
• Formalmente, tem-se que: Considere n repetições
“independentes” de um experimento aleatório Ɛ.
Seja A um evento qualquer. Defina:
• A probabilidade frequencial de A é então dada por:
𝑃𝑛 𝐴 =
# 𝑜𝑐𝑜𝑟𝑟ê𝑛𝑐𝑖𝑎𝑠 𝑑𝑒 𝐴
# 𝑟𝑒𝑝𝑒𝑡𝑖çõ𝑒𝑠 𝑑𝑜 𝑒𝑥𝑝𝑒𝑟𝑖𝑚𝑒𝑛𝑡𝑜
 
𝑃 𝐴 = lim
𝑛→∞
𝑃𝑛 𝐴 
Exemplos:
1. Num lançamento de um dado, a probabilidade de
ocorrência da face i é dada por:
• Quando o número de lançamentos é muito
grande, fri se estabiliza. Daí, toma-se fri como a
probabilidade de ocorrência da face i.
𝑓𝑟𝑖 =
# 𝑜𝑐𝑜𝑟𝑟ê𝑛𝑐𝑖𝑎𝑠 𝑑𝑎 𝑓𝑎𝑐𝑒 𝑖
# 𝑙𝑎𝑛ç𝑎𝑚𝑒𝑛𝑡𝑜𝑠 𝑑𝑜 𝑑𝑎𝑑𝑜
 
2. Suponha que temos uma linha de produção em
grande escala. Retiramos n itens desta linha de
produção, e a cada retirada contamos o número de
itens defeituosos (A = item defeituoso)
• Podemos então afirmar que a probabilidade
frequencial de um item defeituoso nesta linha
de produção é 0,05.
3.3. Regras básicas de probabilidade
1. 𝑃 Ω = 1. 
2. 𝑃 ∅ = 0. 
3. 0 ≤ 𝑃(𝐴) ≤ 1, para qualquer evento A. 
 
 
4. Regra da adição: 
𝑃 𝐴 ∪ 𝐵 = 𝑃 𝐴 + 𝑃 𝐵 − 𝑃(𝐴 ∩ 𝐵) 
 
Se A e B forem disjuntos, então: 
𝑃 𝐴 ∪ 𝐵 = 𝑃 𝐴 + 𝑃 𝐵 
•
5. 𝑃 𝐴 = 1 − 𝑃(𝐴). 
 
Como A e 𝐴 são complementares temos 𝐴 ∩ 𝐴 = ∅ 
e 𝐴 ∪ 𝐴 = Ω. Então, pela regra da adição, 
𝑃 Ω = 𝑃 𝐴 ∪ 𝐴 = 𝑃 𝐴 + 𝑃 𝐴 e pela regra 1, 
𝑃 𝐴 + 𝑃 𝐴 = 1, logo 𝑃 𝐴 = 1 − 𝑃 𝐴 . 
• Exemplo: Distribuição de alunos segundo o sexo e a
escolha do curso.
Curso
Sexo
Total
Homens (H) Mulheres (M)
Matemática Pura (P) 70 40 110
Matemática Aplicada (A) 15 15 30
Estatística (E) 10 20 30
Computação (C) 20 10 30
Total 115 85 200
- 𝑃 𝑃 ∪ 𝐸 = 𝑃 𝑃 + 𝑃 𝐸 =
110
200
+
30
200
=
140
200
= 0,7 
 
- 𝑃 𝐴 ∪ 𝑀 = 𝑃 𝐴 + 𝑃 𝑀 − 𝑃(𝐴 ∩ 𝑀) 
=
30
200
+
85
200
−
15
200
=
100
200
= 0,5 
 
- 𝑃 𝐶 = 1 − 𝑃 𝐶 = 1 −
30
200
=
170
200
= 0,85 
3.4. Probabilidade condicional
•
Para dois eventos A e B do espaço amostral 
definimos: 
 
Definição: A probabilidade condicional de um evento 
A dado um evento B, denotada por 𝑃(𝐴|𝐵), é, 
𝑃 𝐴 𝐵 =
𝑃(𝐴 ∩ 𝐵)
𝑃(𝐵)
 𝑝𝑎𝑟𝑎 𝑃(𝐵) ≠ 0 
•
• A probabilidade condicional de A dado B revela a
incerteza que se tem sobre o evento A supondo
conhecida a verdade sobre o evento B. Podemos
interpretá-la como a chance relativa de A restrita ao
fato de que B ocorreu.
Exemplos:
1. Uma urna contém 2 bolas brancas (B) e 3 bolas
vermelhas (V). Suponha que são sorteadas duas
bolas ao acaso, sem reposição.
2. As informações abaixo se referem aos candidatos
que prestaram vestibular na UFES em 2010:
Homem (H) Mulher (M) Total
Aprovado (A) 8 14 22
Reprovado (R)4 6 10
Total 12 20 32
• Um aluno é sorteado ao acaso. Qual é a
probabilidade de:
• Ser mulher e ter sido aprovado?
• Se é mulher, ter sido aprovada?
• Ser mulher dado que foi aprovado?
•
Soluções: 
a. 𝑃 𝑀 ∩ 𝐴 = 14 32 ≅ 0,44 
 
b. 𝑃 𝐴 𝑀 =
𝑃(𝐴∩𝑀)
𝑃(𝑀)
=
14 32 
20 32 
=
14
20
= 0,70 
 
c. 𝑃 𝑀 𝐴 =
𝑃(𝐴∩𝑀)
𝑃(𝐴)
=
14 32 
22 32 
=
14
22
≅ 0,64 
•
Propriedades: 
1. 𝑃 Ω|B = 1 
2. 𝑃 ∅|B = 0 
3. 0 ≤ 𝑃(𝐴|𝐵) ≤ 1, para qualquer evento A. 
4. 𝑃 𝐶 ∪ 𝐷|𝐵 = 𝑃 𝐶|𝐵 + 𝑃 𝐷|𝐵 − 𝑃(𝐶 ∩ 𝐷|𝐵) 
5. 𝑃 𝐶 ∪ 𝐷|𝐵 = 𝑃 𝐶|𝐵 + 𝑃 𝐷|𝐵 ⇔ 𝐶 ∩ 𝐷 = ∅ 
6. 𝑃 𝐴 |𝐵 = 1 − 𝑃(𝐴|𝐵) 
3.5. Regra da multiplicação
• A definição de probabilidade condicional pode ser
reescrita para fornecer uma expressão geral para a
probabilidade da interseção de dois eventos:
𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐴 𝐵 𝑃 𝐵 = 𝑃 𝐵 𝐴 𝑃(𝐴) 
Exemplo:
• Acredita-se que na população do ES 20% de seus
habitantes sofrem algum tipo de alergia, sendo
classificados como alérgicos para fins de saúde
pública. Sendo alérgico, a probabilidade de ter
reação a certo antibiótico é de 0,5. Para os não
alérgicos esta probabilidade é de apenas 0,05.
• Escolhendo-se uma pessoa ao acaso da população do
ES, qual a probabilidade de que ela:
a. Seja do grupo dos alérgicos e tenha alergia ao
ingerir o antibiótico?
b. Seja do grupo dos não alérgicos e não tenha
alergia ao ingerir o antibiótico?
•
Solução: Se fizermos A → ser do grupo dos alérgicos e 
B → ter reação, temos: 
 
a. 𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐵 𝐴 𝑃 𝐴 = 0,5 × 0,2 = 0,10 
b. 𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐵 𝐴 𝑃 𝐴 = 0,95 × 0,8 = 0,76 
3.6. Independência
• Definição: Dois eventos A e B são independentes se a
ocorrência de um não afeta a probabilidade de
ocorrência do outro. Assim, tem-se que:
1. 𝑃 𝐴 𝐵 = 𝑃(𝐴) 
2. 𝑃 𝐵 𝐴 = 𝑃(𝐵) 
• Dessa forma, para dois eventos independentes a
regra da multiplicação reduz-se a:
𝑃 𝐴 ∩ 𝐵 = 𝑃(𝐴) × 𝑃(𝐵) 
Exemplos: 
 
1. Urna → 2 bolas brancas (B) e 3 bolas vermelhas (V). 
Sorteia-se 2 bolas ao acaso, com reposição. 
2. Considere os sistemas com dois componentes
apresentados na figura a seguir.
• No sistema da figura (a) os componentes estão
ligados em série. Neste caso, o sistema funcionará se
os componentes 1 e 2 funcionarem
simultaneamente. Se um dos componentes falhar, o
sistema também falhará.
• Se os componentes estiverem ligados em paralelo,
como na figura (b), então o sistema funcionará se
pelo menos um dos dois componentes funcionar.
• Denotemos por F o evento “o sistema funciona” e
por Ai o evento “o componente i funciona”, i = 1, 2.
• Supondo que os componentes de ambos os sistemas
funcionem independentemente, e se pi for a
probabilidade de o componente i (i = 1, 2)
funcionar, então:
• A probabilidade do sistema da figura (a) funcionar
será
• Já a probabilidade do sistema da figura (b) funcionar
será
212121 )()()()( ppAPAPAAPFP 
2121212121 )()()()()( ppppAAPAPAPAAPFP 
3.7. Regra da probabilidade total
• A regra da multiplicação é útil para
determinarmos a probabilidade de um evento
que depende de outros eventos.
Exemplo:
• Em uma fábrica de parafusos, as máquinas A e B
produzem 2/3 e 1/3 da produção
total, respectivamente. Da produção de cada
máquina 2% e 0,8%, respectivamente, são parafusos
defeituosos. Escolhendo-se aleatoriamente um
parafuso, qual a probabilidade que ele seja
defeituoso?
• Claramente a resposta depende de qual máquina
produziu aquele parafuso.
•
Se chamarmos A → parafuso produzido pela máquina 
A, B → parafuso produzido pela máquina B e D → 
parafuso é defeituoso podemos afirmar que: 
𝐷 = 𝐷 ∩ 𝐴 ∪ (𝐷 ∩ 𝐵) 
Ω
•
E como 𝐷 ∩ 𝐴 e (𝐷 ∩ 𝐵) são disjuntos podemos 
escrever que: 
 
𝑃 𝐷 = 𝑃 𝐷 ∩ 𝐴 + 𝑃 𝐷 ∩ 𝐵 
= 𝑃 𝐷 𝐴 𝑃 𝐴 + 𝑃 𝐷 𝐵 𝑃 𝐵 
 
𝑃 𝐷 = 0,02 × 2 3 + 0,008 × 1 3 = 0,016 
• Para generalizarmos o conceito da probabilidade
total, definimos:
• Definição: Dizemos que os eventos {A1; A2; ... ; An}
formam uma partição do espaço amostral se:
1. 𝐴𝑖 ∩ 𝐴𝑗 = ∅ 𝑝𝑎𝑟𝑎 𝑖 ≠ 𝑗 
2. 𝐴𝑖
𝑛
𝑖=1 = Ω 
• Podemos assim enunciar o Teorema da
Probabilidade Total:
• Seja {A1; A2; ... ; An} uma partição do espaço amostral
e seja B um evento qualquer, então,
𝑃 𝐵 = 𝑃 𝐵 ∩ 𝐴1 + 𝑃 𝐵 ∩ 𝐴2 + ⋯ + 𝑃 𝐵 ∩ 𝐴𝑛 
𝑃(𝐵) = 𝑃 𝐵 𝐴1 𝑃 𝐴1 + 𝑃 𝐵 𝐴2 𝑃 𝐴2 + ⋯ + 𝑃 𝐵 𝐴𝑛 𝑃 𝐴𝑛 
𝑃(𝐵) = 𝑃 𝐵 𝐴𝑖 𝑃 𝐴𝑖 
𝑛
𝑖=1
 
Exemplo:
• Suponha que um fabricante de sorvetes recebe 20%
de todo o leite que consome da fazenda F1, 30% da
fazenda F2 e o restante da F3.
• A vigilância sanitária inspecionou as fazendas de
surpresa e observou que 20% do leite produzido na
fazenda F1 estava adulterado por adição de água, o
mesmo ocorrendo com 5% e 2% respectivamente
nas fazendas F2 e F3.
• Na indústria de sorvete os galões de leite são
armazenados sem identificação das fazendas
produtoras. Um galão é sorteado ao acaso na
indústria. Calcule a probabilidade de que o galão
esteja adulterado.
•
Solução: Seja A → o leite está adulterado e Fi → o 
leite veio da fazenda Fi . 
a. 𝐴 = 𝐴 ∩ 𝐹1 ∪ 𝐴 ∩ 𝐹2 ∪ 𝐴 ∩ 𝐹3 
𝑃 𝐴 = 𝑃 𝐴 ∩ 𝐹1 + 𝑃 𝐴 ∩ 𝐹2 + 𝑃 𝐴 ∩ 𝐹3 
𝑃(𝐴) = 𝑃 𝐴 𝐹1 𝑃 𝐹1 + 𝑃 𝐴 𝐹2 𝑃 𝐹2 + 𝑃 𝐴 𝐹3 𝑃 𝐹3 
Assim: 
𝑃 𝐴 = 0,2 × 0,2 + 0,05 × 0,3 + 0,02 × 0,5 = 0,065 
a. 𝐴 = 𝐴 ∩ 𝐹1 ∪ 𝐴 ∩ 𝐹2 ∪ 𝐴 ∩ 𝐹3 
𝑃 𝐴 = 𝑃 𝐴 ∩ 𝐹1 + 𝑃 𝐴 ∩ 𝐹2 + 𝑃 𝐴 ∩ 𝐹3 
𝑃(𝐴) = 𝑃 𝐴 𝐹1 𝑃 𝐹1 + 𝑃 𝐴 𝐹2 𝑃 𝐹2 + 𝑃 𝐴 𝐹3 𝑃 𝐹3 
Assim: 
𝑃 𝐴 = 0,2 × 0,2 + 0,05 × 0,3 + 0,02 × 0,5 = 0,065 
4. Variáveis Aleatórias
• Sabe-se que um espaço amostral (Ω ou S) é o
conjunto de todos os resultados possíveis de um
fenômeno ou experimento aleatório.
• Em muitos casos não estamos interessados na
descrição detalhada de todos os resultados, e é mais
interessante resumirmos o resultado através de
números.
• Definição: Uma variável aleatória (v.a.) é uma função
que confere um número real a cada resultado no
espaço amostral de um experimento aleatório.
• Uma variável aleatória é denotada por uma letra
maiúscula (por ex. X) e os valores que ela pode
assumir como xi.
Exemplos:
1. E – lançar duas moedas. O espaço amostral desta
experiência é Ω = {cc; ck; kc; kk} onde c = cara e k =
coroa. Uma variável aleatória pode ser “número de
caras”, X = {0; 1; 2}.
2. E – jogar um dado duas vezes. X = soma das duas
faces obtidas.
Ω = 
(1; 1) … (1; 6)
⋮ ⋱ ⋮
(6; 1) … (6; 6)
 
• A distribuição de probabilidades de uma
variável aleatória X é uma descrição das
probabilidades associadas com os possíveis
valores de X. Esta descrição pode ser realizada
em forma de tabelas ou gráficos.
• No exemplo 1, onde a v.a. de interesse era “o
número de caras obtidas num lançamento de duas
moedas” temos a seguinte distribuição de
probabilidades:
0 1 2
1/4 1/2 1/4
)( xXP 
X
• Já no exemplo 2, definimos a v.a. X como “a soma das faces
obtidas em dois lançamentos de um dado”. A distribuição
de probabilidades de X é dad por:
2 3 4 5 6 7 8 9 10 11 12
)( xXP 
X
36
1
36
3
36
2
36
4
36
5
36
6
36
4
36
5
36
3
36
1
36
2
Classificação:
• Variável aleatória discreta: assume valores num
conjunto finito ou infinito enumerável. EX: n° de
filhos, n° de peças defeituosas em um lote, bits
transmitidos que foram recebidos com erros.
• Variável aleatória contínua: seu conjunto de
valores é qualquer intervalo dos números
reais, o que seria um conjunto infinito não
enumerável. EX: peso, altura, corrente
elétrica, pressão, temperatura, tempo.
4.1. Variáveisaleatórias discretas
Alguns modelos de variáveis aleatórias discretas:
1. Um sistema de comunicação por voz de uma
empresa possui 48 linhas externas. A cada intervalo
de tempo o sistema é supervisionado e registra-se o
número de linhas em uso. Se fizermos X = número
de linhas em uso. Os valores possíveis de X = {0; 1;
2; ...; 48}.
2. No processo de fabricação de semicondutores o
fabricante deve se preocupar com o número de
partículas contaminantes. Se definirmos a variável
aleatória Y = número de partículas contaminantes
em uma pastilha, os valores possíveis de Y = {0; 1;
2; ...}.
Definição:
• Seja X uma v.a. discreta. A função de
probabilidade de X é uma função fX que
atribui a cada valor possível de X a sua
probabilidade de ocorrência.
• Assim se X é uma variável aleatória assumindo os
valores x1, x2, ... , xn a função de probabilidade
associada a X é:
• São propriedades da função de probabilidade:
1. 0 ≤ 𝑝𝑖 ≤ 1 
2. 𝑝𝑖𝑖 = 1 
      nipxPxXPxf iiiiX ,, 1 , 
• Exemplo: Um empresário pretende estabelecer uma
firma para montagem de um produto composto de
uma esfera e um cilindro. As partes são adquiridas de
fábricas diferentes (A e B), e a montagem consistirá e
juntar as duas peças e pintá-las.
• O produto acabado deve ter o comprimento
(definido pelo cilindro) e a espessura (definida pela
esfera) dentro de certos limites, e isso só poderá ser
verificado após a montagem.
• Para estudar a viabilidade do seu empreendimento, o
empresário quer ter uma idéia da distribuição do
lucro por peça produzida.
• Sabe-se que cada componente pode ser classificado
como bom, longo ou curto, conforme sua medida
esteja dentro da especificação, maior ou menor que
a medida especificada, respectivamente.
• Foram obtidos com os fabricantes, o preço de cada
componente, que é de R$ 5,00, e as probabilidades
de produção de cada componente com as
características bom, longo ou curto. Essas
probabilidades estão apresentadas na tabela abaixo.
Componente
Fábrica A 
(cilindro)
Fábrica B 
(esfera)
Dentro das especificações - bom (B) 0,80 0,70
Maior que as especificações - longo (L) 0,10 0,20
Menor que as especificações - Curto (C) 0,10 0,10
• Se o produto final apresentar algum componente com
a característica curto, ele será irrecuperável, e o
conjunto será vendido como sucata ao preço de R$
5,00.
• Cada componente longo poderá ser recuperado a um
custo adicional de R$ 5,00.
• Se o preço de venda de cada unidade for de R$ 25,00,
como seria a distribuição de probabilidade da variável
X: lucro por unidade montada?
• Primeiramente, vejamos a construção do espaço
amostral para a montagem das unidades segundo as
características de cada componente e seus
respectivos lucros e probabilidades.
• Como os componentes vêm de fábricas diferentes,
vamos supor que a classificação do cilindro e da
esfera, segundo suas características, sejam eventos
independentes.
• Uma representação do espaço amostral em questão
é apresentada pelo diagrama em árvore a seguir.
• Com base no diagrama em árvore, vemos que a v.a. X
pode assumir os seguintes valores:
– 15, se ocorrer o evento A1 = {BB};
– 10, se ocorrer o evento A2 = {BL, LB};
– 5, se ocorrer o evento A3 = {LL};
– -5, se ocorrer o evento A4 = {BC, LC, CB, CL, CC}.
• Cada um desses eventos tem uma probabilidade
associada, ou seja,
.19,0)( ,02,0)(
,23,0)( ,56,0)(
43
21


APAP
APAP
• Dessa forma, a distribuição de probabilidade da
variável aleatória X é dada por:
X P(x)
-5 0,19
5 0,02
10 0,23
15 0,56
Total 1
4.1.1. Média e variância de uma variável 
aleatória discreta
• A média ou valor esperado de uma variável aleatória
discreta X é dada pela expressão:
𝜇 = 𝐸 𝑋 = 𝑥𝑖𝑝𝑖
𝑖
 
• A variância de X é dada pela expressão:
𝜎2 = 𝑉 𝑋 = (𝑥𝑖 − 𝜇)
2𝑝𝑖 = 𝑥𝑖
2𝑝𝑖 − 𝜇
2
𝑖𝑖
 
• O desvio padrão da v.a. X é, então, dado por:
2)(   XDP
• Exemplo: Para o último exemplo, tem-se que o lucro
esperado por unidade montada é igual a:
Ou seja, o empresário espera ter um lucro de 9,85
reais por unidade montada.
.85,956,01523,01002,0519,0)5()(  XE
• Já a variância e o desvio padrão da v.a. X são dados por: 
57,757,23)( 
23,5702,9725,154)(
85,956,01523,01002,0519,0)5(
2
222222



XDP
XV



4.3. Variáveis aleatórias contínuas
• Vimos que uma v.a. contínua é uma função
X, definida sobre o espaço amostral Ω, que assume
valores num intervalo dos números reais.
• Ex: tempo de vida de uma lâmpada, nível de
colesterol no soro sanguíneo, tempo de espera de
um cliente para ser atendido num banco, duração de
uma chamada telefônica, etc.
• Distribuições de probabilidade contínuas: Dado que
uma v.a. contínua X assume um conjunto infinito não
enumerável de valores, torna-se impraticável a idéia
de atribuir uma probabilidade a cada possível valor
de X, como era feito no caso de uma v.a. discreta.
• Agora, o procedimento para a obtenção de
probabilidades levará em conta intervalos de valores
e usará o histograma.
• Considere uma distribuição de freqüências com 9
classes:
Peso fi fr
x0 |- x1 f1 fr1
x1 |- x2 f2 fr2
x2 |- x3 f3 fr3
x7 |- x8 f8 fr8
x8 |- x9 f9 fr9
Total n
  
• Lembre-se que na construção de um histograma, a
altura correspondente a cada retângulo equivale
densidade da classe, onde . Dessa forma, a
área de cada retângulo é igual a freq. relativa da
classe.
• Assim, dado que a soma das freq. relativas é igual a
1, a área total do histograma e do polígono de
freqüências também é 1.
𝑑𝑖 = 𝑓𝑟/ℎ 
di
• Considere o intervalo (x1,x2). Temos que a
probabilidade de um ponto qualquer cair
entre x1 e x2 será aproximadamente igual a
área do retângulo hachurado.
• Se diminuirmos a amplitude dos
intervalos, (aumentando, assim, o número de
intervalos) tornando a mesma infinitamente
pequena, o polígono de freqüências passará a
ser uma curva.
𝑃 𝑎 ≤ 𝑋 ≤ 𝑏 = á𝑟𝑒𝑎 ℎ𝑎𝑐ℎ𝑢𝑟𝑎𝑑𝑎 
di
Essa curva é a representação gráfica de uma função da 
v.a. X, denotada por 𝑓(𝑥) e chamada função de 
densidade de probabilidade. Esta função deve 
satisfazer as seguintes propriedades: 
 
1. 𝑓(𝑥) ≥ 0, para todo 𝑥 ∈ −∞, ∞ ; 
2. A área definida por 𝑓(𝑥) tem que ser igual a 1. •
•
Uma vez que, para v.a. contínuas, as probabilidades 
são definidas para intervalos de valores e são obtidas 
como áreas sob a curva 𝑓(𝑥), temos que: 
 
𝑃 𝑋 = 𝑥 = 𝑃 𝑥 = 0; 
 
Uma vez que só temos uma linha, cuja área é zero. 
• Exemplo: Arqueólogos estudaram certa região e
estabeleceram um modelo teórico para a variável
C, comprimento de fósseis na região (em cm).
Suponha que C é uma variável aleatória contínua
com a seguinte função densidade de probabilidade:
f(c) =
8
<
:
1
40
¡
c
10
+ 1
¢
; se 0 · c · 20
0 caso contr¶ario
• É fácil observar que f(c) é positiva. Integrando a
função densidade em todo o seu domínio podemos
verificar que a área definida por f(c) é igual a 1.
15,05,0
40800
 
40
1
 
400
 1
1040
1
20
0
20
0
2
20
0
20
0
20
0







 
cc
dcdc
c
dc
c
• Dessa forma, concluímos que f(c) é efetivamente
uma função densidade de probabilidade.
• Deseja-se determinar:
a. A probabilidade de um fóssil, escolhido ao acaso
nessa região, apresentar comprimento inferior a
8 cm.
b. O número k tal que .
  8,0 kCP
• Resolução:
a. A probabilidade desejada é obtida integrando-se a
função densidade de probabilidade no intervalo
que vai de 0 a 8. Assim,   28,02,008,0
40800
8
 
40
1
 
400
 1
1040
1
8
8
0
8
0
2
8
0
8
0
8
0







 
cc
CP
dcdc
c
dc
c
CP
b. Nesse caso, queremos encontrar o valor k tal que a
área definida por f(c) à direita de K seja igual a 0,8.
Dessa forma,
 
 
016020
8,0
40
5,0
800
5,0
40800
8
 
40
1
 
400
 1
1040
1
8,0
2
220
20
2
202020








 
kk
kkcc
CP
dcdc
c
dc
c
kCP
kk
kkk
Utilizando a fórmula de Bhaskara:
cmk
kk
a
acbb
k
 125,6
125,26 e 125,6
2
25,3220
2
4
21
2






4.3.1. Média e variância de uma variável 
aleatória contínua
• A média ou valor esperado de uma variável aleatória
discreta X é dada pela expressão:
¹ = E(X) =
Z 1
¡1
x f(x) dx
• A variância de X é dada pela expressão:
• O desvio padrão da v.a. X é, então, dado por:
𝜎 = 𝜎2 
¾2 = V (X) =
Z 1
¡1
(x¡ ¹)2 f(x) dx
¾2 = V (X) =
Z 1
¡1
x2 f(x) dx¡ ¹2
• Exemplo: Considerando o exemplo anterior, calcule a
média e a variância da v.a. C, comprimento de fósseis
de certa região (em cm), cuja função densidade de
probabilidade é dada por:
f(c) =
8
<
:
1
40
¡
c
10
+ 1
¢
; se 0 · c · 20
0 caso contr¶ario
Solução:
• Cálculo da média
cm
cc
dc
c
dc
c
dc
c
c
 67,11
3
35
801200
 
40
 
400
 1
1040
1
20
0
2
20
0
3
20
0
20
0
2
20
0







 
• Cálculo da variância e do desvio padrão
 𝑐2𝑓(𝑐)𝑑𝑐
20
0
= 𝑐2
1
40
 
𝑐
10
+ 1 𝑑𝑐
20
0
 
 𝑐2𝑓(𝑐)𝑑𝑐
20
0
= 
1
400
𝑐4
4
 
0
20
+ 
1
40
𝑐3
3
 
0
20
=
500
3
 
𝜎2 =
500
3
− 
35
3
 
2
= 30,56 𝑐𝑚2 
∴ 𝜎 = 30,56 = 5,53 𝑐𝑚 
4.3.2. Distribuição de probabilidade Normal
• Dizemos que uma variável aleatória contínua X tem
distribuição Normal com parâmetros  e 2, se sua
função densidade é dada por:
𝑓 𝑥 =
1
𝜎 2𝜋
𝑒𝑥𝑝 −
1
2𝜎2
(𝑥 − 𝜇)2 , 𝑝𝑎𝑟𝑎 − ∞ < 𝑥 < ∞ 
x
µ
• Notação: X ~ N(𝜇, 𝜎
2). 
•
Propriedades da Normal: 
 
1. 𝑓 𝑥 é simétrica em relação a . 
2. 𝑓 𝑥 → 0 quando 𝑥 → ±∞. 
3. O valor máximo de 𝑓 𝑥 ocorre quando 𝑥 = 𝜇. 
• A distribuição Normal é completamente especificada
pela média μ e pela variância σ2 (parâmetros da
distribuição). A figura a seguir mostra exemplo de
distribuições Normais.
• Como calcular Probabilidades para distribuição
Normal ?Z ~ N(0,1) – distribuição Normal Padrão. 
𝑃(𝑍 ≤ 𝑧1) são tabeladas (valores de z entre -3 e 3) 
z1
• Exemplo: Uma empresa de instrumentos científicos
de precisão fabrica termômetros que devem
informar temperaturas de 0°C no ponto de
congelamento da água.
• Testes em uma grande amostra desses instrumentos
revelam que, no ponto de congelamento da
água, alguns termômetros indicam temperaturas
superiores ou inferiores a 0°C.
• Suponha que as leituras desses termômetros sejam
Normalmente distribuídas com média 0°C e desvio
padrão 1°C.
• Um termômetro é selecionado aleatoriamente.
Calcule a probabilidade de que o termômetro
escolhido apresente leitura no ponto de
congelamento da água:
a) inferior a 1,58°.
b) superior a -1,23°C.
c) entre -2,00°C e 1,50°C.
a) A probabilidade de que o termômetro escolhido
apresente leitura inferior a 1,58°C (no ponto de
congelamento da água) corresponde à área
sombreada na figura abaixo.
• A área desejada é obtida diretamente da tabela da
distribuição normal Padrão. Dessa forma, temos que,
b)
A tabela de probabilidade da Normal Padrão
fornece a área à esquerda de -1,23 (área
sombreada em cinza claro).
  .9429,058,1 ZP
 
seguir. a figura na
 escuro cinza em sombreada área23,1 ZP
• Dessa forma, temos que,
    8907,01093,0123,123,1  ZPZP
c)
A tabela de probabilidade da Normal Padrão fornece
a área à esquerda de -2,00 (área sombreada em
cinza claro) e a área à esquerda de 1,50 (área
pontilhada de preto).
 
seguir. a figura na escuro
cinza em sombreada área50,100,2  ZP
• Dessa forma, temos que,
     
9104,00228,09332,0 
00,250,150,100,2

 ZPZPZP
Procedimento para achar escores z a partir de áreas
conhecidas.
1. Desenhe uma curva em forma de sino e identifique
a região sob a curva que corresponde à
probabilidade dada. Se esta região não for uma
região acumulada à esquerda, trabalhe com regiões
conhecidas que sejam acumuladas à esquerda.
• Usando a área acumulada à esquerda, localize a
probabilidade mais próxima no corpo da tabela da
distribuição Normal e identifique o escore z
correspondente.
• Exemplo: Usando os mesmos termômetros do
exemplo anterior, ache a temperatura
correspondente ao percentil 95 (P95).
• A figura a seguir ilustra o escore z que corresponde
ao percentil 95.
• A fim de encontrarmos o P95 devemos procurar a
área mais próxima de 0,95 no corpo da tabela de
probabilidades da Normal Padrão.
P95
95%
• Consultando a tabela observamos que a área de 0,95
está exatamente entre as áreas 0,9495 e 0,9505.
• O escore z procurado é então obtido através do
calculo da média dos escores 1,64 e 1,65.
• Dessa forma, a temperatura correspondente ao
percentil 95 é igual a 1,645°C. Assim, 95% dos
termômetros fabricados pela empresa apresentam
leituras (no ponto de congelamento da água)
inferiores ou iguais a 1,645°C.
• Como calcular probabilidades para uma N(μ,σ2)?
•
A fim de que possamos calcular probabilidades para 
distribuições Normais não-padronizadas, iremos 
transformar uma v.a. X ~ N(𝜇, 𝜎2) em uma v.a. com 
distribuição Normal padrão (Z ~ N(0,1)). 
 
A padronização de x é feita usando-se a fórmula: 
𝑍 =
𝑋 − 𝜇
𝜎
 
•
• Qual a distribuição de X - μ?
• Qual a distribuição de Z = (X-μ)/σ?
•
Resultado Importante: Se X ~ N(𝜇, 𝜎2), então: 
 
𝑍 =
𝑋 − 𝜇
𝜎
 ~ 𝑁(0, 1) 
e 
𝑃 𝑋 ≤ 𝑥 = 𝑃 𝑍 ≤
𝑥 − 𝜇
𝜎
 
• Exemplo: Doentes sofrendo de certa moléstia são
submetidos a um tratamento intensivo cujo tempo
de cura foi modelado por uma densidade Normal, de
média 15 e desvio padrão 2 (em dias).
• Seja X a v.a. que denota o tempo de cura, temos que
X ~ N(15, 4).
• Calcule a probabilidade do tempo de cura:
a. Ser superior a 17 dias?
b. Ser inferior a 20 dias?
c. Estar entre 14 e 17 dias?
• Solução:
a. 𝑃 𝑋 > 17 = 𝑃 𝑍 >
17−15
2
 = 𝑃 𝑍 > 1 
 = 1 − 𝑃 𝑍 ≤ 1 = 1 − 0,8413 = 0,1587 
 
b. 𝑃 𝑋 < 20 = 𝑃 𝑍 <
20−15
2
 = 𝑃 𝑍 < 2,5 = 0,9938 
c. 𝑃 14 < 𝑋 < 17 = 𝑃 
14−15
2
< 𝑍 <
17−15
2
 
 = 𝑃 −0,5 < 𝑍 < 1 
 = 𝑃 𝑍 < 1 − 𝑃(𝑍 < −0,5) 
 ∴ 𝑃 14 < 𝑋 < 17 = 0,8413 − 0,3085 = 0,5328 
• Uma questão interessante seria saber o tempo
máximo necessário para a recuperação de 25% dos
pacientes, ou seja,
𝑃 𝑋 < 𝑥 = 0,25 
𝑃 𝑋 ≤ 𝑥 = 𝑃 𝑍 ≤
𝑥 − 15
2
 = 0,25 
•
A partir da tabela da Normal padrão obtemos: 
𝑥 − 15
2
= −0,67 ⇒ 𝑥 = 13,66 
 
Assim, 25% dos pacientes ficarão curados antes de 14 
dias, aproximadamente. 
 
Dessa forma, 𝑥 = 𝜇 + (𝑧𝜎). 
•
•
4.5. Distribuição de médias amostrais.
• Considere uma população com parâmetros µ (média)
e σ2 (variância).
• Se tirarmos uma amostra aleatória de tamanho n e
calcularmos sua média, teremos um valor para .
𝑋 
•
Se retirarmos outras amostras de tamanhon da mesma 
população, obteremos outros valores para 𝑋 que serão 
diferentes do primeiro. 
 
Logo 𝑋 é uma variável que muda de valor de amostra 
para amostra. 
•
•
Se associarmos a cada valor de 𝑋 a probabilidade da 
amostra que lhe corresponde, 𝑋 passa a ser uma 
variável aleatória. 
Assim, 𝑋 tem uma distribuição de probabilidade que 
recebe o nome de distribuição amostral de 𝑋 . 
•
• Exemplo: Selecionamos todas as possíveis amostras
de tamanho 2, com reposição, da população
{1, 3, 5, 5, 7}. Existem 5x5 = 25 possibilidades:
1 e 1 1 e 3 1 e 5 1 e 5 1 e 7
3 e 1 3 e 3 3 e 5 3 e 5 3 e 7
5 e 1 5 e 3 5 e 5 5 e 5 5 e 7
5 e 1 5 e 3 5 e 5 5 e 5 5 e 7
7 e 1 7 e 3 7 e 5 7 e 5 7 e 7
• E suas médias são:
1, 2, 3, 3, 4, 2, 3, 4, 4, 5, 3, 4, 5, 5, 6, 3, 4, 5, 5, 6, 4, 5,
6, 6 e 7, respectivamente.
• Como cada amostra tem probabilidade de ocorrência
igual a 1/25, a distribuição amostral de é dada por:𝑋 1 2 3 4 5 6 7 
𝑃(𝑋 = 𝑥 ) 
1
25 
2
25 
5
25 
6
25 
6
25 
4
25 
1
25 
 
• Note que a média e variância populacionais
são, respectivamente:
𝜇𝑋 = 𝐸 𝑋 = 𝑥 𝑖𝑝𝑖 = 4,2
𝑖
 
𝜎𝑋 
2 = 𝑉 𝑋 = 𝑥 𝑖
2𝑝𝑖 − 𝜇𝑋 
2 = 2,08
𝑖
 
𝜇 = 𝐸 𝑋 = 4,2 e 𝜎2 = 𝑉(𝑋) = 4,16, 
•
Verificamos, aqui, dois fatos: 
– primeiro, a média das médias amostrais (𝜇𝑋 ) 
coincide com a média populacional (𝜇); 
– segundo, a variância de 𝑋 é igual à variância de X, 
dividida por n = 2. 
 
Esses dois fatos não são casos isolados. Na realidade, 
temos o seguinte resultado. 
•
Teorema: Seja X uma v.a. com média 𝜇 e variância 𝜎2, 
e seja 𝑋1, ⋯ , 𝑋𝑛 uma amostra aleatória de X. 
Então, 
𝜇𝑋 = 𝐸 𝑋 = 𝜇 e 𝜎𝑋 
2 = 𝑉 𝑋 = 𝜎
2
𝑛 
 
OBS: O desvio padrão de 𝑋 é comumente chamado de 
erro padrão de 𝑋 e denotado por 𝜎𝑋 . 
•
Teorema Central do Limite (TCL)
• Dado:
1. A v.a. X tem uma distribuição (que pode ou não 
ser normal) com média 𝜇 e desvio padrão 𝜎. 
 
2. Amostras aleatórias, todas de tamanho n, são 
selecionadas da população. (As amostras são 
selecionadas de modo que todas as possíveis 
amostras de tamanho n têm a mesma chance de 
serem escolhidas). 
•
Conclusão: 
A distribuição das médias amostrais (𝑋 ) irá se 
aproximar de uma distribuição normal à medida que n 
aumentar. Ou seja, 
𝑋 ~N 𝜇, 𝜎
2
𝑛 . 
Regras práticas comumente utilizadas:
1. Se a população não for normalmente 
distribuída, eis uma diretriz em comum: para 
amostras de tamanho n maior que 30, a 
distribuição de 𝑋 pode ser razoavelmente bem 
aproximada pela distribuição normal. A 
aproximação se torna melhor à medida que o 
tamanho amostral n aumenta. 
• OBS: Populações com distribuições muito
assimétricas, requerem tamanhos de amostra muito
maiores que 30.
2. Se a população for normalmente distribuída, então 
𝑋 será normalmente distribuída para qualquer 
tamanho amostral n. 
• Exemplo: Em uma certa cidade, a duração de
conversas telefônicas, originárias de telefones
públicos, é uma variável aleatória com média igual a
3 minutos e variância igual a 9 (minutos)2.
Observando-se uma amostra aleatória de 50 dessas
chamadas, qual será a probabilidade delas, em
média, não ultrapassarem 4 minutos?
• Solução: Admitindo uma amostra suficientemente 
grande, pelo TCL temos que: .
• Dessa forma, podemos calcular a probabilidade
desejada da seguinte forma:
)509;3(~ NX
𝑃 𝑋 ≤ 4 = 𝑃 𝑍 ≤
4 − 3
 9 50 
 = 𝑃 𝑍 ≤ 2,36 = 0,9909 
• Tendo em vista o alto valor de probabilidade
encontrado, podemos dizer que é praticamente certo
que a media amostral estará abaixo de 4 min.
5. INFERÊNCIA ESTATÍSTICA
• Objetiva estudar a população através de
evidências fornecidas pela amostra. No nosso
caso, as amostras serão obtidas por
amostragem aleatória simples (AAS).
5.1. Estimação
Definições:
• Parâmetro: Resumo de uma característica obtido a
partir de todos os elementos de uma população. Ex:
média populacional (µ), desvio-padrão populacional
(σ), proporção populacional (p).
• Estimador: À combinação dos elementos da
amostra, construída com a finalidade de
representar, ou estimar, um parâmetro de interesse.
etc.
• Estimativa: Um valor específico do estimador, obtido
para uma amostra em particular.
Notação: 𝜇 , 𝜎 , 𝑝 , 
5.1.1. Estimação pontual
• Um único valor amostral é usado como
estimativa de um parâmetro da população.
• A seguir encontram-se alguns exemplos de
estimadores pontuais.
Parâmetro Estimador 
µ 𝜇 = 𝑋 =
𝑋1 + 𝑋2 + ⋯ + 𝑋𝑘
𝑛
 
p 𝑝 =
𝑓𝑟𝑒𝑞. 𝑎𝑚𝑜𝑠𝑡𝑟𝑎𝑙 𝑐𝑜𝑚 𝑎 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟í𝑠𝑡𝑖𝑐𝑎
𝑛
 
𝜎2 𝜎2 = 𝑆2 =
 (𝑋𝑖 − 𝑋 )
2𝑛
𝑖=1
𝑛 − 1
 
𝜎 𝜎 = 𝑆 = 𝑆2 
 
5.2. Teste de Hipóteses (TH)
• Definição: Uma hipótese estatística é uma
afirmação acerca dos parâmetros de uma
população, ou acerca da distribuição da
população.
• O objetivo de um teste de hipóteses é fornecer uma
metodologia que nos permita verificar se os dados
amostrais trazem evidências que apóiem ou não uma
hipótese formulada.
• A construção de um TH para um parâmetro
populacional pode ser colocado do seguinte modo:
• Colhe-se uma amostra aleatória de elementos dessa
população, e com ela deseja-se comprovar ou não tal
hipótese.
• Exemplo: exemplo 8.1 do livro do Magalhães.
•
Existe uma v.a. X associada a dada população e tem-se 
uma hipótese sobre determinado parâmetro 𝜃 dessa 
população. 
Procedimento geral do teste de hipóteses
5.2.1. Teste sobre a média de uma
população com variância conhecida
Passo 1: Formular as hipóteses nula e alternativa. 
 
 𝐻0 (hipótese nula): é a hipótese que estamos pondo à 
prova. 
 𝐻1 (hipótese alternativa): hipótese que será 
considerada aceitável, caso 𝐻0 seja rejeitada. 
• As possíveis hipóteses de interesse são:
𝐻0: 𝜇 = 𝜇0 
 
 𝑉𝑠 
𝐻1: 𝜇 ≠ 𝜇0 → ℎ𝑖𝑝ó𝑡𝑒𝑠𝑒 𝑏𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙 
𝐻1: 𝜇 > 𝜇0 → ℎ𝑖𝑝. 𝑢𝑛𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙 à 𝑑𝑖𝑟𝑒𝑖𝑡𝑎 
𝐻1: 𝜇 < 𝜇0 → ℎ𝑖𝑝. 𝑢𝑛𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙 à 𝑒𝑠𝑞𝑢𝑒𝑟𝑑𝑎
 
• Qualquer que seja a decisão tomada, vimos que
estamos sujeitos a cometer erros.
•
Erro do tipo I: Rejeitar 𝐻0 quando essa é verdadeira. 
Chamamos de 𝛼 a probabilidade de cometermos esse 
erro, isto é, 
𝛼 = 𝑃 𝑟𝑒𝑗𝑒𝑖𝑡𝑎𝑟 𝐻0 𝐻0 é 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑎 
•
• Passo 2: Identificar a distribuição do estimador
(estatística de teste) e obter sua estimativa.
Erro do tipo II: Não rejeitar 𝐻0 quando essa é falsa. A 
probabilidade de cometermos esse erro é denotada 
por 𝛽, logo: 
𝛽 = 𝑃 𝑛ã𝑜 𝑟𝑒𝑗𝑒𝑖𝑡𝑎𝑟 𝐻0 𝐻0 é 𝑓𝑎𝑙𝑠𝑎 
•
Passo 3: Fixar 𝛼 (nível de significância) e obter a região 
crítica (ou região de rejeição). 
 
Região crítica (RC): é o conjunto de todos os valores da 
estatística de teste que nos levam a rejeitar 𝐻0. 
•
• A definição da RC de pende da hipótese alternativa.
Por exemplo, suponha que estamos realizando um
teste para a média (µ) de uma população qualquer.
Tem-se que, para:
𝐻1: 𝜇 ≠ 𝜇0 → 𝑅𝐶 = 𝑥 ∈ ℝ| 𝑥 < 𝑥 𝑐1 𝑜𝑢 𝑥 > 𝑥 𝑐2 
𝐻1: 𝜇 > 𝜇0 → 𝑅𝐶 = 𝑥 ∈ ℝ| 𝑥 > 𝑥 𝑐 
𝐻1: 𝜇 < 𝜇0 → 𝑅𝐶 = 𝑥 ∈ ℝ| 𝑥 < 𝑥 𝑐 
 
• Ou de forma equivalente:
 1 𝐻1: 𝜇 ≠ 𝜇0 → 𝑅𝐶 = 𝑧 ∈ ℝ| 𝑧 < 𝑧𝑐1 𝑜𝑢 𝑧 > 𝑧𝑐2 
 2 𝐻1: 𝜇 > 𝜇0 → 𝑅𝐶 = 𝑧 ∈ ℝ| 𝑧 > 𝑧𝑐 
 3 𝐻1: 𝜇 < 𝜇0 → 𝑅𝐶 = 𝑧 ∈ ℝ|𝑧 < 𝑧𝑐 
•
Após fixar a probabilidade 𝛼, constrói-se a RC, de modo 
que: 
𝑃 𝑋 ∈ 𝑅𝐶 𝐻0 é 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑎 = 𝛼, 
onde𝑋 é o estimador de 𝜇. 
 
OBS: É importante ressaltar que a RC é sempre 
construída sob a hipótese de 𝐻0 ser verdadeira. 
•
•
Passo 4: Concluir o teste com base na estimativa e na 
região crítica. 
Se o valor da estatística de teste calculado com base na 
amostra não pertencer à RC, não rejeite 𝐻0; caso 
contrário rejeite 𝐻0. 
• Exemplo: A resistência à tração do aço inoxidável
produzido numa usina permanecia estável, com uma
resistência média de 73 kg/mm2 e um desvio padrão
de 2,0 kg/mm2; sendo que tal resistência comporta-
se de acordo com uma dist. Normal.
Recentemente, a máquina foi ajustada.
• A fim de determinar o efeito do ajuste, 10 amostras
foram testadas.
• Presuma que o desvio padrão seja o mesmo que
antes do ajuste. Podemos concluir que o ajuste
mudou a resistência à tração de aço? (Adote um
nível de significância de 5%)
76,2 78,3 76,4 74,7 72,6 78,4 75,7 70,2 73,3 74,2 
 
•
Solução: 
 
Passo 1: Formulação das hipóteses. 
 
𝐻0: o ajuste não mudou a resistência à tração de aço
𝐻1: o ajuste mudou a resistência à tração de aço 
 
 
Em termos estatísticos, temos que: 
 
𝐻0: 𝜇 = 73
𝐻1: 𝜇 ≠ 73
 •
•
•
Passo 2: Identificar a distribuição do estimador 
(estatística de teste) e obter sua estimativa. 
𝑋 ~𝑁 𝜇; 𝜎
2
𝑛 → 𝑋 ~𝑁 𝜇; 
22
10 
 
A amostra obtida forneceu a estimativa 𝑥 𝑜𝑏𝑠 = 75. 
Dessa forma, 
𝑧𝑜𝑏𝑠 =
𝑥 𝑜𝑏𝑠 − 𝜇𝑠𝑜𝑏 𝐻0
𝜎
 𝑛
 
=
75 − 73
2
 10
 
= 3,16 
•
•
Passo 3: Fixar 𝛼 e obter a região crítica. 
 
Tendo em vista a especificação de 𝐻1, a RC será da 
forma: 
𝑅𝐶 = 𝑧 ∈ ℝ| 𝑧 < 𝑧𝑐1 𝑜𝑢 𝑧 > 𝑧𝑐2 •
•
Fixando-se 𝛼 = 0,05, temos que: 
 
𝑃 𝑧 ∈ 𝑅𝐶 𝐻0 é 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑎 = 0,05 
𝑃 𝑧 < 𝑧𝑐1 𝑜𝑢 𝑧 > 𝑧𝑐2 𝜇 = 73 = 0,05 
𝑃 𝑧 < 𝑧𝑐1 + 𝑃 𝑧 > 𝑧𝑐2 = 0,05 
•
Pela tabela da dist. normal padrão, tem-se que: 
𝑧𝑐1 = −1,96 e 𝑧𝑐2 = 1,96 
 
Dessa forma, 𝑅𝐶 = 𝑧 ∈ ℝ| 𝑧 < −1,96 𝑜𝑢 𝑧 > 1,96 
•
•
Passo 4: Conclusão. 
Uma vez que 𝑧𝑜𝑏𝑠 = 3,16 pertence à RC, rejeitamos 
 𝐻0 ao nível de significância de 5%. Ou seja, 
concluímos que a resistência à tração do aço mudou 
após ter sido feito ajuste da máquina. 
5.2.2. Teste sobre a média de uma
população com variância desconhecida
• Exemplo: Um fabricante afirma que seus cigarros
contêm não mais que 30mg de nicotina. Uma
amostra de 25 cigarros fornece média de 31,5mg e
desvio padrão de 3mg. No nível de 5%, os dados
refutam ou não a afirmação do fabricante?
•
Solução: 
 
Passo 1: 
𝐻0: 𝜇 = 30
𝐻1: 𝜇 > 30
 
 
Passo 2: 
𝑡 =
𝑋 − 𝜇
𝑆
 𝑛
 
~ 𝑡(24) 
•
•
•
A amostra obtida forneceu a estimativa 𝑥 𝑜𝑏𝑠 = 31,5. 
Dessa forma, 
 
𝑡𝑜𝑏𝑠 =
𝑥 𝑜𝑏𝑠 − 𝜇𝑠𝑜𝑏 𝐻0
𝑆
 𝑛
 
=
31,5 − 30
3
 25
 
= 2,5 
•
Passo 3: Fixando-se 𝛼 = 0,05, temos que: 
𝑃 𝑡 ∈ 𝑅𝐶 𝐻0 é 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑎 = 0,05 
𝑃 𝑡 > 𝑡𝑐 𝜇 = 30 = 0,05 
 
Pela tabela da dist. t-Student, tem-se que: 𝑡𝑐 = 1,711. 
Dessa forma, 
𝑅𝐶 = 𝑡 ∈ ℝ| 𝑡 > 1,711 
•
•
Passo 4: Uma vez que 𝑡𝑜𝑏𝑠 = 2,5 pertence à RC, 
rejeitamos 𝐻0 ao nível de significância de 5%. Ou seja, 
há evidências de que os cigarros contenham mais de 
30mg de nicotina. 
5.2.4. Probabilidade de significância (p-valor)
•
Ao realizarmos um teste de hipóteses, partimos da 
fixação do nível de significância 𝛼 para construirmos a 
RC. 
• Um enfoque alternativo consiste em
calcular, supondo que a hipótese nula seja
verdadeira, a probabilidade de se obter um valor da
estatística de teste que seja no mínimo tão extremo
quanto o que foi observado a partir da amostra.
• Essa quantidade é chamada probabilidade de
significância ou p-valor.
•
Valores pequenos de p-valor evidenciam que 𝐻0 é 
falsa, pois sendo a amostra nossa ferramenta de 
inferência sobre a população, ela fornece uma 
estimativa que teria uma probabilidade muito pequena 
de ocorrer, caso 𝐻0 fosse verdadeira. 
• Exemplo: Uma associação de defesa do consumidor
desconfia que embalagens de 450 gramas de certo
tipo de biscoito estão abaixo do peso. Para verificar
tal afirmação, foram coletados ao acaso 80 pacotes
em vários supermercados, obtendo-se uma média de
peso de 447 gramas. Admitindo-se que o peso dos
pacotes segue o modelo Normal com desvio padrão
10 gramas, que conclusão pode ser tirada através da
probabilidade de significância (p-valor)?
• As hipóteses de interesse são:





450:
450:
1
0


H
H
• As suposições feitas sobre a normalidade da variável 
peso implicam que .
)80100;(~ NX
• O valor observado na amostra foi .
447
obs
x
• Dessa forma o p-valor é dado por:
   
  0037,068,2
8010
450447
450|447o verdadeir|
0





 


ZPZPvalorp
XPHxXPvalorp
obs

•
Note que o p-valor se relaciona diretamente com o 
nível de significância 𝛼. 
 
Neste exemplo, se tivéssemos fixado um 𝛼 ≥ 1,83%, 
a decisão seria pela rejeição de 𝐻0, ao passo que para 
𝛼 < 1,83%, optaríamos por não rejeitar 𝐻0. 
• Neste exemplo, se tivéssemos fixado um nível de
significância superior ou igual a 0,37%, a conclusão
seria pela rejeição de H0, ao passo que valores
inferiores a 0,37% conduziriam à não rejeição da
hipótese nula.
• Exemplo: No exemplo da seção 5.2.3, estávamos
testando a afirmativa de que os cigarros de certo
fabricante não contêm mais que 30mg de
nicotina, ou seja, estávamos testando as seguintes
hipóteses:
Solução: 
 
Passo 1: 
𝐻0: 𝜇 = 30
𝐻1: 𝜇 > 30
 
 
Passo 2: 
𝑡 =
𝑋 − 𝜇
𝑆
 𝑛
 
~ 𝑡(24) 
• A amostra de 25 cigarros forneceu as estimativas
mgSx
obsobs
 3 e mg 5,31 
• Dessa forma o p-valor é dado por:
   
 
01,00,005 24. Para
5,2
253
305,31
30|5,31o verdadeir|
0






 


valorplg
TPTPvalorp
XPHxXPvalorp
obs

• Uma vez que p-valor< 0,05, rejeitamos H0.
• Podemos considerar probabilidades de significância
bilaterais.
• Neste caso, precisamos considerar que a forma da
região crítica envolve os valores de que se
distanciam muito (para mais ou para menos) daquele
previsto pela hipótese nula.
• Um procedimento é tomar o p-valor unilateral como
sendo igual a 2 vezes o p-valor unilateral.
obs
x
•
Dessa forma para testar 𝐻0: 𝜇 = 𝜇0 vs 𝐻1: 𝜇 ≠ 𝜇0, 
temos que: 
 
1º Caso: se 𝑋 𝑜𝑏𝑠 < 𝜇0, 
𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 2 × 𝑃 𝑋 < 𝑋 𝑜𝑏𝑠 | 𝐻0 𝑣𝑒𝑟𝑑. 
 
2º Caso: se 𝑋 𝑜𝑏𝑠 > 𝜇0, 
𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 2 × 𝑃 𝑋 > 𝑋 𝑜𝑏𝑠 | 𝐻0 𝑣𝑒𝑟𝑑. 
•
•
• Exemplo: No exemplo da resistência à tração do aço
inoxidável, estávamos testando as hipóteses:
 
𝐻0: o ajuste não mudou a resistência à tração de aço
𝐻1: o ajuste mudou a resistência à tração de aço 
 
 
 
𝐻0: 𝜇 = 73
𝐻1: 𝜇 ≠ 73
 
•
Como vimos, sob 𝐻0, 𝑋 ~𝑁 73; 
22
10 . 
 
Colhida a amostra obtivemos 𝑥 𝑜𝑏𝑠 = 75. 
•
• Dessa forma o p-valor é dado por:
𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 2 × 𝑃 𝑋 > 75| 𝜇 = 73 
𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 2 × 𝑃 𝑍 >
75 − 73
2 10 
 
𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 2 × 𝑃 𝑍 > 3,16 = 2 × 1 − 𝑃 𝑍 < 3,16 
𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 2 × 1 − 0,9992 = 2 × 0,0008 = 0,0016 
• Uma vez que p-valor< 0,05, rejeitamos H0.

Outros materiais