Introdução à Probabilidade - Fascículo I 14082018

Estatística para Experimentalistas

•
UFES

Victor Pereira da Silva
29/11/2023
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 32 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 32 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 32 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Estatística para Experimentalistas

45 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
Departamento de Estatística – IMECC – UNICAMP 
Introdução aos Modelos Probabilísticos – 2.018 Prof. Amorim 
 
1 
 
INTRODUÇÃO À TEORIA DA PROBABILIDADE – fascículo 1 
1 – Experimentos Aleatórios 
Experimentos aleatórios são quaisquer ações cujos resultados só podem ser previstos em termos 
probabilísticos. O arremesso de uma moeda é o mais banal dos experimentos probabilísticos, mas, apesar de 
sua extrema simplicidade, derivaremos dele resultados surpreendentemente complexos, interessantes e de 
grande valor prático. Faremos dele nosso ponto de partida para a viagem fascinante que vocês estão 
começando. 
O conjunto dos resultados possíveis do arremesso de uma moeda tem apenas dois elementos: {C c} onde se 
convenciona representar cara e coroa por C e c, respectivamente. O conjunto de resultados possíveis de um 
experimento probabilístico é o seu espaço amostral, e geralmente representado por Ω. No arremesso de uma 
moeda sempre assumiremos que os dois resultados possíveis têm chances iguais. Mais formalmente: 
Ω = { C c } e P{ C } = P{ c } = 0,5 
O arremesso de uma moeda é um caso particular de uma família mais ampla: a dos experimentos aleatórios 
binários. São experimentos que, como no caso do arremesso de uma moeda, possuem apenas dois resultados 
possíveis, porém não necessariamente com chances igual. De uma forma genérica, dizemos que o conjunto 
dos resultados possíveis de um experimento binário é { F , S }, para fracasso e sucesso, e convencionamos: P{ 
S } = p com 0 < p < 1. Consequentemente, P{F} = 1–p, geralmente denominado q. Resumindo: Bp é um 
experimento binário, com Ω={ F, S } e P{S}=p e P{F}=q, onde p e q são constantes positivas, com p+q=1. 
Nestas notas nós representaremos por Bp os experimentos binários com P{S} = p. Como os experimentos 
binários são também denominados Experimentos de Bernoulli, esta notação é duplamente conveniente. O 
arremesso de uma moeda – um caso particular de experimento binário – pode então ser referido como B0,5. 
O arremesso de um dado é outro experimento probabilístico corriqueiro. Neste experimento o espaço 
amostral é {1 2 3 4 5 6} e, a menos que dito explicitamente, consideraremos sempre que o dado não é viciado 
(ou enviesado) e que, portanto, P{i}=1/6, para qualquer i∈ {1 2 3 4 5 6}. Nestas notas referiremos a este 
experimento como D6: o arremesso de um dado não viciado de seis lados. Naturalmente, livres de restrições 
práticas, podemos generalizar e pensar em dados com qualquer número de lados. Assim, Dm se referirá ao 
experimento probabilístico (ou estocástico, ou aleatório, mas nunca “randômico”!) correspondente ao 
arremesso de um dado de m lados, portanto com espaço amostral Ω = {1 2 3 4 … m} e P(i)=1/m, para qualquer 
i∈ Ω. Uma moeda pode então ser vista como um dado de dois lados. 
 
Nestas notas trataremos inicialmente de modelos probabilísticos discretos: aqueles associados a 
experimentos com espaços amostrais discretos. Modelos contínuos serão introduzidos em seguida. 
 
1.1 – Experimentos Estocásticos Compostos 
Experimentos binários são, à primeira vista, muito pouco interessantes. Contudo, com eles podemos criar 
experimentos composto diversos, que se mostrarão interessantíssimos tanto de um ponto de vista teórico 
quanto aplicado. Para começar, considere o experimento composto formado por duas repetições sucessivas 
Departamento de Estatística – IMECC – UNICAMP 
Introdução aos Modelos Probabilísticos – 2.018 Prof. Amorim 
 
2 
 
e independentes do mesmo experimento binário Bp. Representaremos este experimento composto por B��. O 
seu espaço amostral é {FF, FS, SF, SS}. 
Como os dois resultados parciais são independentes entre si (por exemplo, a probabilidade de uma Cara no 
segundo lançamento de uma moeda é ½, quer o resultado do primeiro lançamento tenha sido Cara quer tenha 
sido Coroa) podemos calcular a probabilidade de dois fracassos como: 
P{ FF } = P{Fracasso na primeira repetição} × P{Fracasso na segunda repetição} = (1-p)×(1-p) = (1-p)2 
Assim: 
P{ FF } = (1-p)2 P{ FS } = (1-p)p P{ SF } = (1-p)p P{ FF } = p2 
Naturalmente, a soma dessas quatro probabilidades é 1, como não poderia deixar de ser, e 
você pode verificar algebricamente. 
Com três repetições de Bp teremos B��. Como, na passagem de B�� para B��, cada um dos 
quatro resultados possíveis do primeiro se desdobra em dois do segundo (por exemplo, FF 
se desdobrará em FFF e FFS), o espaço amostral de B�� terá 8 resultados possíveis: {FFF FFS 
FSF FSS SFF SFS SSF SSS}, com probabilidades: 
P{FFF}=(1-p)3 P{FFS}=(1-p)2p P{FSF}=(1-p)2p P{FSS}=(1-p)p2 
P{SFF}=(1-p)2p P{SFS}=(1-p)p2 P{SSF}=(1-p)p2 P{SSS}=p3 
Novamente, a soma destas 8 probabilidades é igual a 1, e você deve verificar isto agora. 
Generalizando, B�� para m inteiro e positivo, tem 2n resultados possíveis. 
Exercício: Em ����, quantos dos 212=4.096 elementos do espaço amostral apresentam exatamente 4 
Sucessos? 
Experimentos compostos por repetições de Dm são tratados de forma análoga. O conjunto de resultados 
possíveis de D
� , o experimento composto por n repetições independentes de 
Dm, tem mn resultados possíveis. Na tabela ao lado o conjunto dos 36 
resultados possíveis de D��. Como o dado é não enviesado, todos esses 36 
resultados possíveis tem a mesma probabilidade, 1/36. 
Subconjuntos de um espaço amostral são denominados eventos. Em modelos 
discretos, a probabilidade de um evento é a soma das probabilidades dos 
eventos singulares que o compõem. Por exemplo, em D�� , a probabilidade da 
soma dos dois resultados parciais ser 4 é: 
P{soma dos resultados parciais é 4} = P{13 22 31} = P{13} + P{22} + P{31} = 3×1/36 = 1/12 = 0,0833. 
A probabilidade do evento composto {13 22 31} for obtida como a soma das probabilidades dos eventos 
singulares componentes. Mais um exemplo: 
� Exemplo: Em
��, qual a probabilidade da soma dos 2 resultados parciais ser igual a 8? 
O evento referido é {26 35 44 53 62}, logo: 
{ 11 12 13 14 15 16 
 21 22 23 24 25 26 
 31 32 33 34 35 36 
 41 42 43 44 45 46 
 51 52 53 54 55 56 
 61 62 63 64 65 66 } 
A parte de imagem com identificação de relação rId8 não foi encontrada no 
arquivo.
Departamento de Estatística – IMECC – UNICAMP 
Introdução aos Modelos Probabilísticos – 2.018 Prof. Amorim 
 
3 
 
P{soma de resultados parciais igual a 8} = P{26 35 44 53 62}= 
P{26} + P{35} + P{44} + P{53} + P{62} = 5×1/36 = 5/36 = 0,1389 
Vejamos agora outro experimento derivado de Bp, com espaço amostral discreto, mas infinito. Considere 
repetir Bp até à ocorrência do primeiro sucesso. Neste caso, o espaço amostral é 
Ω = { F FS FFS FFFS FFFFS FFFFFS …} 
Realmente, neste caso Ω é infinito, mas ainda discreto… enumerável. As probabilidades dos eventos 
singulares são: 
P{S} = p P{FS} = (1-p)p P{FFS} = (1-p)2p P{FFFS} = (1-p)3p P{FFFFS} = (1-p)4p ... 
e assim por diante. Novamente, a soma das probabilidades, ∑ (1 − �)������ , é igual a 1. Verifique. Vejamos 
alguns exemplos: 
Exemplos: 
1. Se você arremessar uma moeda 10 vezes, qual a probabilidade de obter exatamente 2 caras (e, portanto, 8 coroas). 
Ora, pela regra da multiplicação, sabemos que a probabilidade do evento singular {CCcccccccc} é 
(1/2)10=1/210=1/1.024. Porém esta não é a única maneira de se obter exatamente duas Caras e 8 coroas em 10 
lançamentos de uma moeda. Há várias outras maneiras (quantas?), como, por exemplo, cCccCccccc, todas com a 
mesma probabilidade 1/1.024. Logo, pela regra da soma, para determinar P{2 caras e 8 coroas} basta multiplicar 
aquela probabilidade do evento singular {CCcccccccc}, que vimos ser 1/1.024, pelo número de eventos singulares que 
existem satisfazendo a condição imposta: De quantas maneiras se pode alinhar duas caras e 8 coroas numa única 
sequência de comprimento 10? A resposta é C��� : combinações de 10, dois a dois. Ora, você sabe que: 
C�� = �!�!(���)! onde n e x são inteiros não negativos, com x≤n.Logo, C��� = ��!�!�! = �×��� = 45 e concluímos que: 
P{2 caras e 8 coroas em 10 lançamentos de uma moeda} = 45/1.024 = 0,0439 
2. Um pote contém 10 bolinhas, todas iguais, exceto na cor (duas brancas e 8 pretas). Se você remover bolinhas do pote, 
uma a uma, sem reposição, a probabilidade das duas primeiras serem brancas é igual à probabilidade da primeira 
bola ser branca, vezes a probabilidade da segunda bola também ser branca, dado que a primeira foi branca. Note 
que aqui as duas repetições não são independentes, uma vez que as probabilidades na 
segunda extração dependem do resultado da primeira. Então: 
"(��) = 210 × 19 = 145 
A parte de imagem com identificação de relação rId8 não foi encontrada no arquivo.
Departamento de Estatística – IMECC – UNICAMP 
Introdução aos Modelos Probabilísticos – 2.018 Prof. Amorim 
 
4 
 
Se a bola sorteada no primeiro estágio fosse devolvida ao pote antes do segundo sorteio, teríamos um sorteio com 
reposição. Neste caso teríamos um experimento composto por duas repetições do mesmo experimento binário B0,2, 
ou seja ��,�� , e a probabilidade pedida seria simplesmente (2/10)2=1/25. 
3. Vamos trabalhar agora com 
��: três arremessos de um dado comum. O espaço amostral deste experimento tem 
63=216 elementos e, sendo o dado não viciado, cada um destes resultados singulares tem a mesma probabilidade 
1/216. Podemos agora calcular probabilidades como a de um resultado total maior do que 15: 
P{resultado total >15} = P{556 565 655 466 646 664 566 656 665 666} = 10/216 = 0,0463 
4. Qual a probabilidade de exatamente 50 caras em 100 arremessos de uma moeda? O espaço amostral deste 
experimento composto contém 2100=1.267.650.600.228.230.000.000.000.000.000 elementos. Lembrando que o 
Número de Avogadro é A=6,02×1023; que o mol da água equivale a 18g; e que, portanto, 18 g de água contém A 
moléculas, podemos concluir que o espaço amostral neste exemplo tem aproximadamente tantos elementos (na 
verdade, um pouco mais) quanto as moléculas em 2.105.732 moles (ou 34,84 m3) de água. Contudo, destas, apenas 
'���(� contêm exatamente 50 caras. Logo (usei o Excel para fazer os cálculos): 
P{50 Caras em 100 lançamentos de uma moeda} = )*++,+ × **++ = +, +-./ 
 
5. Se você se propuser a lançar um dado até obter o primeiro resultado 6, quantos lançamentos você teria que fazer? 
Eis uma pergunta simples que só admite resposta em termos de probabilidades. Por exemplo, qual a probabilidade 
de que você tenha que arremessar mais que dez vezes? Temos aqui um daqueles experimentos com, teoricamente, 
infinitos resultados possíveis. A probabilidade pedida é, no entanto, muito fácil de ser calculada: é a probabilidade de 
qualquer resultado diferente de seis nas dez primeiras tentativas, portanto (5/6)10=0,01615. 
Note como neste exercício tratamos o experimento elementar do arremesso de um dado comum, como um 
experimento binário, embora ele, originalmente, não o seja: consideramos qualquer resultado diferente de 6 como 
fracasso, e o 6 como sucesso. 
 
6. Considere 10 caixinhas iguais, numeradas de 1 a 10 e, do outro 
lado, uma tigela com 5 bolinhas de gude. Aí você pega uma das 
bolinhas e sorteia uma caixinha ao acaso (chance 0,10 para 
cada uma). Coloque a bolinha na caixinha sorteada. Repita o 
procedimento, até colocar todas as bolinhas. Qual a 
probabilidade de, ao terminar, não ter nenhuma caixa com 
mais do que uma bolinha? 
Para resolver, considere o seguinte: da primeira bolinha cair numa caixa vazia (que sabemos ser 1), e a segunda 
bolinha também cair numa caixa vazia (que é 0,9), e a terceira também, dado que as duas primeiras ocuparam duas 
caixinhas (que é portanto 8/10); e a quarta cair em caixa vazia, dado que as três primeiras ocuparam 3 caixinhas 
(portanto 7/10), etc. 
A parte de imagem com identificação de relação rId8 não foi encontrada no arquivo.
Departamento de Estatística – IMECC – UNICAMP 
Introdução aos Modelos Probabilísticos – 2.018 Prof. Amorim 
 
5 
 
Logo, a probabilidade demandada é 1 × ��� × ��� × 0�� × ��� = �.��2��.��� = 0,3024 . 
Considerando agora 100 caixinhas e 50 bolinhas, a probabilidade demandada seria: 
1 × 99109 × 98100 × 97100 × 96100 × ⋯ × 51100 = 3,0685 × 10�0 
Trezentos e sete bilionésimos... Praticamente impossível! 
7. Na vida, no mundo real, frequentemente as coisas saem do nosso controle. É que, na grande maioria dos nossos 
projetos, por mais que nos preparemos, por mais que façamos planos cuidadosos, alguns elementos ficam sempre 
fora do nosso controle. Ao arremessarmos uma moeda, nosso nível de 
controle no resultado é nulo. Vejamos uma situação muito simples em que 
temos controle parcial do nosso destino: O dilema das duas tigelas. Cada 
uma contém três bolas idênticas, exceto na cor, como na figura ao lado: duas vermelhas e uma verde na tigela A e 
uma vermelha e duas verdes na B. 
Você e um amigo são convidados a participar de um jogo, no qual você é livre para escolher uma tigela. Da tigela 
escolhida você deverá retirar uma bola sem olhar, completamente ao acaso. Se a bola sorteada for verde você 
ganhará um prêmio. Se for vermelha... pena! A composição de cores em cada tigela é informada antecipadamente. 
Sendo racional, você decide que escolherá a tigela B. Seu amigo não é tão racional e diz que escolherá a tigela A 
(digamos que ele tenha passado a noite toda sonhando com A, a , α, etc.). Seus argumentos tentando convencê-
lo são inúteis: quando chegar a vez, seu amigo escolherá a tigela A. Pelo menos ele também não conseguiu convencê-
lo a não escolher a tigela B. 
A pergunta aqui é: Qual a probabilidade dele ganhar um prêmio e você não? (nesta eventualidade, o pior, no final, 
seria você ter que aguentá-lo: “Eu não disse?”). 
O fato é que ter feito a escolha correta (sem nenhuma dúvida, você fez a escolha correta) não garante seu sucesso. 
Nem ter feito a escolha errada garante o fracasso do seu amigo... e ele, certamente, fez a escolha errada. A tabela ao 
lado sumariza as possibilidades, tendo as escolhas 
sido feitas como planejado. 
O fato é que, embora sua probabilidade de ganhar 
seja 0,667 e a do seu amigo apenas 0,333, existe 
11,1% de probabilidade dele ganhar e você perder. 
E na sua vida profissional ou social, você é jovem e terá ainda muitas oportunidades de ver uma pessoa fazer tudo 
certo e se dar mal... e às vezes ter que pagar por isto, enquanto outras fizeram tudo errado (escolheram a tigela 
errada por ignorância ou burrice mesmo) mas “tiveram sorte” e se deram bem... e foram premiadas por isto. Vem daí 
o conceito subjetivo de sorte e de azar. 
A parte 
de 
imagem 
com 
identifica
ção de 
Você 
(tigela B) 
Seu amigo 
(tigela A) 
probabilidade 
perde perde 1/3 x 2/3 = 2/9 = 0,222 
perde ganha 1/3 x 1/3 = 1/9 = 0,111 
ganha perde 2/3 x 2/3 = 4/9 = 0,444 
ganha ganha 2/3 x 1/3 = 2/9 = 0,222 
A parte de imagem com identificação de relação rId8 não foi encontrada no arquivo.
Departamento de Estatística – IMECC – UNICAMP 
Introdução aos Modelos Probabilísticos – 2.018 Prof. Amorim 
 
6 
 
Mas você deverá continuar escolhendo a tigela B, porque, no longo prazo, você ganhará 2 de cada três partidas, e o 
seu amigo apenas uma de cada três, conforme veremos adiante. 
Uma anedota (real... eu vi a entrevista). O Rogério Ceni havia feito no último jogo do São Paulo uma defesa incrível, 
uma mistura extraordinária de reflexo, elasticidade e impulsão. Num daqueles programas noturnos tipo mesa 
redonda com um craque (naquela noite, o Ceni), após reprisarem o lance, um jornalista, algo maliciosamente (um 
torcedor do Corinthians, talvez) comentou sobre sorte incrível do grande goleiro por ter conseguido fazer aquela 
defesa, ao que ele respondeu: “É verdade! E, sabe de uma coisa? Eu percebi o seguinte, que quanto mais eu treino, 
mais sorte eu tenho!” (Dizem que a frase foi dita, originalmente, por Arnold Palmer, o grande golfista americano, 
morto no ano passado: “The more I train, the luckierI get”.) 
Resolva agora os exercícios propostos. 
 
Exercícios: 
1. Em
�� , qual a probabilidade dos dois resultados parciais somarem mais que 9? 
2. Em ����, qual a probabilidade do resultado conter exatamente 7 caras? 
3. Em 
��, qual a probabilidade dos dois resultados parciais virem em ordem decrescente? E em 
��� ? 
4. Em 
��2 qual a probabilidade dos 4 resultados parciais formarem uma P.A. crescente? E uma P.G.? E totalizar mais 
que 30 pontos? (A propósito, um evento vazio, geralmente representado por φ, tem probabilidade 0; o seu 
complemento, Ω, tem probabilidade 1) 
5. Quantos resultados possíveis existem num sorteio como o da Mega Sena? Se você fez uma aposta simples, qual sua 
probabilidade de ser um dos ganhadores do prêmio? Qual a probabilidade de, no próximo sorteio dar o resultado [ 1, 
2, 3, 4, 5, 6]? 
6. Num pote vazio foram colocadas 100 bolas idênticas, menos na cor: 10 são pretas e 90 são brancas. Sem ver as bolas, 
ao acaso, você retira, em sucessão, 3 bolas. Qual a probabilidade de você terminar com três bolas brancas? E com 
duas pretas e uma branca? E com 3 bolas pretas? 
7. Refaça os cálculos do exercício anterior, assumindo agora que cada bola sorteada tem sua cor anotada e é devolvida 
ao pote antes do sorteio seguinte. Usando a notação ���, represente o experimento estocástico composto neste 
exercício, e explique porque essa notação não se adéqua ao do exercício anterior. 
8. Fazendo como no exercício anterior, você vai sorteando bolinhas (e devolvendo ao pote), até conseguir a primeira 
bolinha preta. Qual a probabilidade de que você acabe tendo que sortear mais que 5 bolinhas? E que 10? E que 20? 
9. Considere um eleitorado de milhões de eleitores; os 150 milhões de eleitores brasileiros, por exemplo. O Comitê de 
Campanha de certo candidato A acredita que, “se a eleição fosse hoje” pelo menos 10% dos eleitores votariam nele. 
Neste caso, (a) qual a probabilidade de, numa amostra aleatória de 100 destes eleitores, não aparecer nenhum eleitor 
de A? E (b) se isto acontecer na pesquisa, qual seria sua conclusão? 
10. Nos últimos cinco anos, em uma pequena cidade nasceram 328 crianças, sendo 186 do sexo feminino. Estas cifras 
geraram a suspeita de que alguma anomalia estaria perturbando o equilíbrio natural masculino x feminino naquela 
cidade. Você vê fundamento empírico nesta suspeita? (Sugestão: use o Excel para fazer os cálculos necessários.) 
Departamento de Estatística – IMECC – UNICAMP 
Introdução aos Modelos Probabilísticos – 2.018 Prof. Amorim 
 
7 
 
11. No experimento das duas tigelas, em exemplo acima, considere agora que você não é livre para escolher a tigela da 
qual sorteará uma bola. Em vez disto o experimento será realizado em dois estágios: no primeiro, a tigela é sorteada 
lançando-se uma moeda; no segundo estágio, da tigela sorteada, uma bola é retirada ao acaso. Construa o espaço 
amostral deste experimento; determine a probabilidade de cada evento singular deste; calcule P{Bola verde}. Repita 
o exercício agora com a tigela sendo escolhido arremessando-se um dado, com {1 2 3 4}→Tigela A , {5 6 }→Tigela B. 
 
1.2 – Formalização Básica do conceito de Probabilidade 
Seja um experimento aleatório E, com espaço amostral Ω, e seja A a classe de todos os eventos de Ω, desde 
o vazio, φ, até o próprio Ω. Definimos função de probabilidade, como qualquer função P, levando de A ao 
intervalo [0, 1], obedecendo as seguintes propriedades: 
1. P(φ) = 0 (a probabilidade do evento vazio é sempre zero) 
2. P(A) + P(Ac) = 1 Para qualquer A∈A , (a probabilidade de um evento e a de seu complemento tem 
soma igual a 1). 
3. Se A e B são dois eventos disjuntos, então P(A∪B)=P(A)+P(B) 
Destas três decorrem as demais propriedades das funções de probabilidades. Por exemplo: 
� P(Ω) = 1. 
Prova: Considere as propriedades (1) e (2), e o fato que Ω = φc. 
� Se A1, A2, … , An são disjuntos, então, "(⋃ 9����� ) =
∑ P (9�) �<�� . 
Prova: Comece provando para A1, A2, A3. Em seguida faça 
B1=A1, B2=B1∪A2, B3=B2∪A3, B4=B3∪A3, ... , Bn=Bn-1∪An, Note 
que B2 e A1 são disjuntos, assim como B3 e A2, .... Aplique a 
propriedade 3, sucessivamente para B2, B3, ..., Bn, e conclua a 
prova. 
� Sejam A e B dois eventos disjuntos quaisquer, então P(A∪B)=P(A)+P(B)-P(A∩B). 
Prova: 
Exemplo: 
Seja um experimento probabilístico, com espaço amostral Ω = { a b c }. A classe de eventos de todos os eventos de Ω é: 
A = { φ {a} {b} {c} {a b} {a c} {b c} {a b c} Ω } 
Vamos agora definir, arbitrariamente, uma função P : A → [0 , 1], na forma de uma tabela, por: 
A parte de imagem com identificação de relação rId8 não foi encontrada no arquivo.
Departamento de Estatística – IMECC – UNICAMP 
Introdução aos Modelos Probabilísticos – 2.018 Prof. Amorim 
 
8 
 
evento φ {a} {b} {c} {a b} {a c} {b c} Ω 
P{evento} 0 0,10 0,50 0,40 0,60 0,50 0,90 1 
 
 A função P obedece às três condições definidoras de funções de probabilidades (verifique). Ela é, portanto, uma função de 
probabilidade. 
� 
1.3 – Variáveis Aleatórias 
O conceito de Variável Aleatória ocupa um papel central na Teoria da Probabilidade. Vamos começar com 
uma definição simples: Variável aleatória é qualquer função X que associa, a cada elemento de um espaço 
amostral, um valor real. Mais formalmente: 
X : Ω → R 
Para a introdução deste novo conceito começaremos com um exemplo bem simples: B��, o experimento 
estocástico composto por n realizações independentes do experimento binário genérico, B�. Para simplificar 
ainda mais os primeiros passos, vamos considerar n=3, com B��, portanto. O espaço amostral correspondente 
tem cardinalidade 8: 
Ω = { FFF FFS FSF SFF FSS SFS SSF SSS } 
 
Qualquer função que associe valores reais aos elementos de Ω é uma variável aleatória. Por exemplo: 
 
 ω FFF FFS FSF SFF FSS SFS SSF SSS 
X(ω) 0 1 1 1 2 2 2 3 
 
Como a função X é definida num espaço amostral com apenas 8 
elementos, sua definição completa pode ser feita na forma de uma tabela 
– o que seria impossível caso Ω não fosse enumerável, ou mesmo se fosse, 
mas contivesse um número infinito ou muito grande de elementos. O 
diagrama ao lado permite uma visão gráfica da função X que como 
definimos, associando valores reais a cada elemento de Ω. O diagrama 
representa o conjunto Ω, um pequeno segmento do eixo dos reais, e os 
vínculos estabelecidos por X. 
Na tabela acima, ω é a representação genérica de um elemento de Ω, e X(ω) é o valor real que a função X 
associa ao elemento ω. Exemplo: X(FFF) = 0, X(FFS)=1, e assim por diante. A função X conforme a definimos 
acima simplesmente associa a cada elemento de Ω o número de Sucessos naquele elemento. Outras variáveis 
aleatórias definidas sobre este mesmo espaço amostral: 
A parte de imagem com identificação de relação rId8 não foi encontrada no arquivo.
Departamento de Estatística – IMECC – UNICAMP 
Introdução aos Modelos Probabilísticos – 2.018 Prof. Amorim 
 
9 
 
 ω FFF FFS FSF SFF FSS SFS SSF SSS 
Y(ω) 3 2 2 2 1 1 1 0 
W(ω) 0 1 1 1 4 4 4 9 
Z(ω) 0 0 0 0 1 1 1 1 
 
Qualquer função que leve de Ω aos reais é uma variável aleatória e, mesmo num contexto tão simples como 
o associado a B�� e seu espaço amostral de apenas 8 elementos, as possibilidades de variações são ilimitadas. 
Mas a função X, que conta o número de sucessos em B�� ,por sua enorme importância teórica e aplicada, é 
muito especial e receberá aqui um tratamento à altura. 
A variável X, como definida acima, admite 4 valores diferentes. Ao conjunto destes valores, denominaremos 
ΩX. Então: 
ΩX = { 0 1 2 3 } 
Cada subconjunto de ΩX corresponde a um subconjunto de Ω. Por exemplo: 
{ 0 } ≡ { FFF } { 2 3 } ≡ { FSS SFS SSF SSS } { 1 } ≡ { FFS FSF SFF } etc. 
A cada valor de X associamos a probabilidade do seu evento correspondente. Podemos então determinar a 
probabilidade associada a cada valor de X: 
P{X=0} = P{FFF} = (1-p)3 
P{X=1} = P{FFS FSF SFF} = 3p(1-p)2 
P{X=2} = P{FSS SFS SSF} = 3p2(1-p)P{X=3} = P{SSS} = p3 
Resumindo, a função de distribuição de probabilidades de X é dada na tabela abaixo: 
 x 0 1 2 3 
P{ X=x } (1-p)3 3p(1-p)2 3p2(1-p) P3 
 
A função que dá a P{X=x} permite, neste caso, uma representação algébrica elegante: 
=>? = @A = BCD ∙ F@ ∙ (* − F)C�@ = BCD ∙ F@ ∙ GC�@ para todo x∈ΩX 
Veremos adiante que a expressão acima pode ser generalizada para qualquer n. 
Exemplo: 
� Seja um experimento ��2. Seu espaço amostral, dado abaixo, tem 24 elementos: 
Ω = { FFFF FFFS FFSF FSFF SFFF FFSS FSFS FSSF SFFS SFSF SSFF FSSS SFSS SSFS SSSF SSSS } 
Seja agora a variável aleatória X, definida de forma análoga à da ilustração anterior: 
X : Ω → R tal que X(ω) = número de S em ω, para todo ω∈Ω 
Departamento de Estatística – IMECC – UNICAMP 
Introdução aos Modelos Probabilísticos – 2.018 Prof. Amorim 
 
10 
 
 
Então: 
 ω FFFF FFFS FFSF FSFF SFFF FFSS FSFS FSSF SFFS SFSF SSFF FSSS SFSS SSFS SSSF SSSS 
X(ω) 0 1 1 1 1 2 2 2 2 2 2 3 3 3 3 4 
 
Neste caso, ΩX = { 0 1 2 3 4}, e 
P{X=0} = P{FFFF} = (1-p)4 
P{X=1} = P{FFFS FFSF FSFF SFFF} = 4pq3 
P{X=2} = P{FFSS FSFS FSSF SFFS SFSF SSFF } = 6p2q2 
P{X=3} = P{FSSS FFSF FSFF SFFF} = 4p3q 
P{X=4} = P{SSSS} = p4 
A função de distribuição de probabilidades da variável aleatória X, dada acima, pode ser representada algebricamente de forma 
compacta e elegante: 
">H = IA = '2J ∙ �J ∙ (1 − �)2�J = '2J ∙ �J ∙ K2�J para todo x∈ΩX 
Como ilustração, vamos admitir p=0,2, então: 
 x 0 1 2 3 4 
P{ X=x } 0,4096 0,4096 0,1536 0,0256 0,0016 
 
A extensão deste resultado para n=5 é simples: 
ΩX = { 0 1 2 3 4 5 } 
">H = IA = '(J ∙ �J ∙ (1 − �)(�J = '(J ∙ �J ∙ K(�J para todo x∈ΩX 
E, novamente, considerando o caso p=0,2, teremos a seguinte f.d.p. para X: 
 
 
 
A figura ao lado é uma representação gráfica da função de distribuição de probabilidades 
(f.d.p.) da variável aleatória X considerada. � 
Vamos agora construir um modelo geral de probabilidades para o 
número do Sucessos em B��. Para isto vamos determinar uma expressão 
geral para P{X=x}. 
O evento {X=x} é o subconjunto de Ω formado por todos os elementos 
de Ω que contém exatamente x Sucessos e, consequentemente, (n-x) fracassos. Mais formalmente: 
{X=x} = { ω∈Ω tal que número de sucessos em ω é x } 
 x 0 1 2 3 4 5 
P{ X=x } 0,32768 0,40960 0,20480 0,05120 0,00640 0,00032 
 
0,0
0,1
0,2
0,3
0,4
0,5
0 1 2 3 4 5
x
P{X=x}
Departamento de Estatística – IMECC – UNICAMP 
Introdução aos Modelos Probabilísticos – 2.018 Prof. Amorim 
 
11 
 
Ora, a probabilidade de qualquer resultado com esta característica é px⋅q(n-x), e existem C�J deles, logo: 
 
Uma variável 
aleatória como X, que conta o número de sucessos em n repetições sucessivas de um mesmo experimento 
aleatório binário Bp, é dita ter distribuição binomial, com parâmetros n e p. A referência é direta ao binômio 
de Newton, uma vez que as probabilidades de X=0, 1, 2, ..., n, são as n+1 parcelas da expansão do binômio de 
Newton (p + q)n: 
(L M N)O = P )OD × LD × NO�D
O
D�+
 
Como (p+q)=1, a expressão acima é igual a 1, como esperado, aliás. A expressão X~b(n, p) será nossa forma 
convencionada de dizer que “X tem distribuição binomial, com parâmetros n e p”. 
Exemplo – Aplicação do modelo formal da distribuição binomial, em uma situação prática. 
� Em pesquisa recente em comunidades rurais pobres do Ceará (FIDA/FAO/ONU – Secretaria do Desenvolvimento 
Agrário do Ceará – TecnoMetrica , 2016), a taxa de analfabetismo entre crianças com idade entre 8 e 12 anos foi 
estimada em 1,2%. Por outro lado, entre adultos com idade em torno de 42 anos, a mesma taxa foi estimada em 
33% para mulheres 50% para homens. Assumindo esses valores, determine primeiro a f.d.p. de X, o número de 
crianças analfabetas numa amostra aleatória 100 crianças daquela população. 
Assumindo a taxa de analfabetismo nesse grupo etário como 1,2%, podemos admitir que a cada criança 
sorteada, a probabilidade de sair uma criança analfabeta é 0,012. Logo, podemos dizer que o sorteio aleatório 
de uma destas crianças é um experimento aleatório binário, Bp , com p=0,012; que o sorteio de 100 crianças é 
um B�,������ , e que o número de crianças analfabetas que virá na amostra é uma variável X, com 
distribuição binomial, com parâmetros p=0,012 e n=100, que representaremos por X~b(n, p), ou, mais 
especificamente, X~b(100, 0,012). Logo 
P{X=x} = B*++D × +, +*Q@ × +, ..R*++�@ para todo x∈{0 1 2 3 4 … 100} 
A tabela abaixo mostra a parte relevante dos resultados numéricos: 
 
 
0,0
0,1
0,2
0,3
0,4
0 1 2 3 4 5 6 7 8x
P{X=x} x P{X=x} 
0 0,29902 
1 0,36318 
2 0,21835 
3 0,08663 
4 0,02552 
5 0,00595 
6 0,00114 
7 0,00019 
8 0,00003 
P{X=x} = BOD × F@ × GS�@ para todo x∈{ 0 1 2 3 4 … n } 
Departamento de Estatística – IMECC – UNICAMP 
Introdução aos Modelos Probabilísticos – 2.018 Prof. Amorim 
 
12 
 
Como se vê, existe uma probabilidade igual a 0,30 de não aparecer nenhuma criança analfabeta na amostra, 
como existe uma probabilidade igual a 0,026 (2,6%) de saírem 4. 
 
Seguindo o mesmo roteiro podemos calcular a f.d.p. de Y, o número de analfabetos numa amostra 25 homens 
de 50 anos daquela população. Neste caso, Y~b(25, 0,50): 
P{Y=y} = BQ,T × +, ,+U × +, ,+Q,�U para todo y∈{0 1 2 3 4 … 25} 
 
A tabela e o gráfico abaixo mostram de forma completa a função de distribuição de probabilidades da variável 
aleatória Y deste exemplo: 
 
� 
Variáveis aleatórias com distribuição binomial desempenham um papel muito importante em Probabilidade 
Aplicada. Pode-se dizer que o Produto Econômico Mundial direta ou indiretamente associado a aplicações da 
distribuição binomial é de várias dezenas de bilhões de dólares por ano. 
Antes de seguir em frente e introduzir os conceitos de Esperança e Variância de variáveis aleatórias, vamos 
enriquecer um pouco mais nosso acervo de famílias de experimentos probabilísticos e de variáveis aleatórias 
a eles associadas. Vejamos a família D
� , de n arremessos sucessivos de um dado de m lados. O espaço 
amostral neste caso é o produto cartesiano de {1 2 3 4 … m} por si mesmo, n vezes: 
Ω = {1 2 3 4 … m}×{1 2 3 4 … m}×{1 2 3 4 … m}×…×{1 2 3 4 … m} = {1 2 3 4 … m}m 
Exemplo 
� Como ilustração, seja 
(�, três arremessos sucessivos de um dado de cinco lados, cujo espaço amostral tem 53 = 
125: 
y P{Y=y} y P{Y=y} 
0 0,00000 13 0,15498 
1 0,00000 14 0,13284 
2 0,00001 15 0,09742 
3 0,00007 16 0,06089 
4 0,00038 17 0,03223 
5 0,00158 18 0,01433 
6 0,00528 19 0,00528 
7 0,01433 20 0,00158 
8 0,03223 21 0,00038 
9 0,06089 22 0,00007 
10 0,09742 23 0,00001 
11 0,13284 24 0,00000 
12 0,15498 25 0,00000 
0,00
0,02
0,04
0,06
0,08
0,10
0,12
0,14
0,16
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
x
P{X=x}
Departamento de Estatística – IMECC – UNICAMP 
Introdução aos Modelos Probabilísticos – 2.018 Prof. Amorim 
 
13 
 
Ω = { 111 112 113 114 115 121 122 123 124 125 … 551 552 553 554 555 } 
Cada evento singular deste espaço amostral tem a mesma probabilidade: 1/125 = 0,008. Assim, a probabilidade de 
qualquer evento deste espaço (i.é: qualquer subconjunto de Ω) é simplesmente a cardinalidade do evento, vezes 0,008. 
Para ilustração, vamos definir uma v.a. X:Ω→R como a pontuação total associada a cada resultado, ou seja, X(111)=3, 
X(112)=4, e assim por diante. Vamos agora determinar a f.d.p. de X. O conjunto de valores possíveis de X é ΩX = { 3 4 5 6 7 
8 9 10 11 12 13 14 15 }; a determinação da f.d.p. de X consiste em calcular P{X=x} para todo x∈ΩX. Para isto, basta 
determinar a o número de elementos em cada subconjunto de Ω do tipo {X=x}. Por exemplo: 
{x=3} = { 111 } {x=4} = { 112 121 211 } {x=5} = { 113 131 311 122 212 221 } 
{x=6} = { 114 141 411 123 132 213 231 312 321 222 } 
Logo : P{ Y=3 } = 0,008 P{ Y=4 } =3×0,008 = 0,024 P{ Y=5} =6×0,008 = 0,048 P{ Y=6} =10×0,008 = 0,080 
Complete este exercício.... 
�Mais adiante construiremos um algoritmo para calcular a distribuição exata de Y, a pontuação total em D
� 
para quaisquer m e n. 
Vamos considerar agora um experimento composto muito simples, que nos será particularmente útil na 
introdução de conceitos tão importantes – tão supremamente importantes – como os de probabilidade 
condicional e do Teorema de Bayes. Para isto tome três tigelas, dois dados e doze bolinhas idênticas, exceto 
na cor: sei são vermelhas e seis são azuis. Distribua as bolas como na figura abaixo. 
 
O experimento que propomos é realizado em 2 estágios. No primeiro 
estágio arremessa-se os dois dados, e seja a X a soma dos dois resultados 
parciais. O resultado deste primeiro estágio é X, uma variável aleatória 
que leva de Ω1={1 2 3 4 5 6 }×{1 2 3 4 5 6 } a ΩX={ 2 3 4 5 6 7 8 9 10 11 12 
}. A função de distribuição de probabilidades de X é dada na tabela abaixo 
e ilustrada no gráfico ao lado: 
 
O resultado X obtido no primeiro estágio define a escolha de uma das 
três tigelas, segundo a regra: 
{ 2 3 4 } →T1 { 5 6 7 8 } →T2 { 9 10 11 12 } →T3 
A parte de imagem com identificação de relação rId8 não foi encontrada no arquivo.
 ω 2 3 4 5 6 7 8 9 10 11 12 
X(ω) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36 
 
0,00
0,02
0,04
0,06
0,08
0,10
0,12
0,14
0,16
0,18
2 3 4 5 6 7 8 9 101112
Departamento de Estatística – IMECC – UNICAMP 
Introdução aos Modelos Probabilísticos – 2.018 Prof. Amorim 
 
14 
 
Portanto as probabilidades das tigelas 1, 2 e 3 são, respectivamente, 6/36, 20/36 e 10/36. 
No segundo estágio do experimento retira-se uma bola da tigela escolhida, aleatoriamente, anotando-se sua cor. O espaço 
amostral do segundo estágio pode ser definido como Ω2 = { V A }, para vermelho e azul, respectivamente. O espaço 
amostral do experimento pode ser definido como Ω = {1A 1V 2A 2V 3A 3V }. 
Na representação acima, 1A indica que a tigela 1 for sorteada no primeiro estágio, e dela uma bola azul foi sorteada no 
segundo. A probabilidade de cada um dos 2 eventos singulares de Ω é dada na tabela abaixo: 
 ω 1A 1V 2A 2V 3A 3V 
P{ ω } (6/36)×1/4 (6/36)×3/4 (20/36)×2/4 (20/36)×2/4 (10/36)×3/4 (10/36)×1/4 
 
Note que, diferente do caso 
(�, por exemplo, aqui os dois estágios não são mais independentes. A probabilidade de uma 
bola vermelha no segundo estágio, por exemplo, depende agora do resultado do sorteio das tigelas no primeiro estágio. 
Podemos calcular agora a probabilidade de se terminar este experimento com uma bola azul: 
P{ 1A 2A 3A } = (6+40+30)/144 = 76/144 = 0,52778 
Um pouco maior que a probabilidade de uma bola vermelha. Você já poderia ter intuído esta vantagem das bolas azuis, 
uma vez que o sorteio das tigelas favoreceu um pouco a tigela 3, forte em bolas azuis, em relação à tigela 1, onde as 
vermelhas predominam. 
Este pequeno experimento será em breve muito útil na introdução de alguns conceitos da teoria da probabilidade que 
estão revolucionando o mundo hoje. Por exemplo, você pode dizer – mesmo antes de termos introduzido formalmente o 
conceito de probabilidade condicional – que a probabilidade de bola vermelha no segundo estágio, dado que a tigela 1 foi 
sorteada no primeiro estágio é 3/4 ou 0,75. Em breve você poderá dizer coisas como a probabilidade da tigela do primeiro 
estágio ter sido a número 1, dado que foi sorteada uma bola azul. E este é um resultado surpreendentemente poderoso. 
Vamos agora propor uma variável aleatória X, definida sobre este espaço amostral. Por exemplo, digamos que a cor Azul 
valha 1 ponto e a Vermelha, 2; e que cada tigela valha tantos pontos quanto o seu número; e Y a pontuação total, tigela 
mais cor Assim: 
 
 Então ΩX = { 2 3 4 5 } e a f.d.p. é representada na tabela abaixo e no gráfico ao 
lado onde, naturalmente, P{X=2} = P{1A}, P{X=3} = P{1V 2A}, e assim por diante. 
 
� 
 
 
 ω 1A 1V 2A 2V 3A 3V 
X( ω ) 2 3 3 4 4 5 
x 2 3 4 5 
P{X=x} 6/144 58/144 70/144 10/144 
 
0
0,1
0,2
0,3
0,4
0,5
2 3 4 5
Departamento de Estatística – IMECC – UNICAMP 
Introdução aos Modelos Probabilísticos – 2.018 Prof. Amorim 
 
15 
 
1.4 – Esperança e Variância 
Esperança, ou valor médio esperado, de uma variável aleatória discreta é a média de todos os seus valores possíveis, 
ponderados por suas respectivas probabilidades. 
Exemplo 
� Seja ��� , com p=0,5 e n=3, como três arremessos de uma moeda. Assim, Ω = { FFF FFS FSF SFF FSS SFS SSF SSS }. 
Seja a variável aleatória X:Ω→R, definida como o número de caras. Então, como já vimos, P{X=x}='�J× V��W� 
para x=0, 1, 2, 3. Logo, pela definição de esperança de uma v.a.: 
X(H) = P I × ">H = IA�
�
= 0 × ">H = 0A M 1 × ">H = 1A M 2 × ">H = 2A M 3 × ">H = 3A 
= 0 × Y12Z
� M 1 × 3 × Y12Z
� M 2 × 3 × Y12Z
� M 3 × Y12Z
� = 128 = 1,5 
Então, nas condições deste exemplo, E(X)=1,5. 
� 
O significado do conceito de esperança é profundo e essencial. Por exemplo, se você repetir o experimento 
muitas vezes, você terá uma sequência de valores obtidos de X tão longa quando o número de repetições. A 
média destes valores se aproximará inexoravelmente da esperança, isto é, de 1,5 neste caso, à medida que o 
número de repetições for crescendo, e será exatamente igual a 1,5 no limite, quando o número de repetições 
tender a ∞. A figura abaixo mostra o resultado de 100 repetições independentes de B�,(� , simuladas no Excel. Os 
100 resultados individuais observados da v.a. X são plotados na sequência; a linha vermelha representa a média de todos 
os resultados de X até aquele ponto. Notem a inexorável convergência desta linha da média à E(X). 
 
 
Introduziremos mais adiante o conceito formal de convergência em probabilidade. 
A propósito, no arremesso de um dado de seis lados, se X é o valor obtido no arremesso, teremos 
ΩX = { 1 2 3 4 5 6 }, com P{X=x}=1/6 para todo x∈ΩX 
Logo, E(X)=3,5 (faça as contas). Isto significa que se você arremessar o dado um número muito grande de 
vezes, a média dos valores obtidos cairá bem próximo de 3,5. Na figura abaixo os resultados de 100 
arremessos (simulados) de um dado comum. 
0
1
2
3
0 10 20 30 40 50 60 70 80 90 100
Departamento de Estatística – IMECC – UNICAMP 
Introdução aos Modelos Probabilísticos – 2.018 Prof. Amorim 
 
16 
 
 
Adiantando um resultado que veremos um pouco adiante neste curso, pode-se afirmar que, em 1000 
arremessos de um dado, a média dos 1000 valores obtidos cairá, com probabilidade 0,99, no intervalo (3,361 
, 3,639). Agora, com 1 milhão de repetições, você poderá apostar que a média daqueles 1 milhão de valores 
que serão obtidos estará dentro do intervalo (3,496 , 3,504), e a sua probabilidade de perder a aposta será de 
apenas 0,01. Em um bilhão de repetições, o intervalo onde a média cairá, com probabilidade 0,99, será (3,4999 
, 3,5001), colado na esperança; e a probabilidade desta média cair entre 3,499 e 3,501 será de 98,7%. Logo 
saberemos por que. 
Como definida, a esperança de uma v.a. mede o “centro de gravidade” da distribuição de probabilidades. Se 
as probabilidades fossem massas, distribuídas sobre o eixo 
cartesiano segundo a função de distribuição de probabilidades, 
então a esperança seria exatamente o centro de gravidade (o 
ponto de equilíbrio) desta distribuição de massas. Como em 
Mecânica. 
No exemplo das três tigelas, a variável aleatória X, lá definida, 
tem esperança 3,5833 (faça os cálculos). A figura ao lado mostra 
graficamente a função de distribuição de probabilidades de X. A 
seta vermelha aponta o centro de gravidade da distribuição, o seu 
ponto de equilíbrio, a esperança de X. 
Repita este experimento um número muito grande de vezes, e o 
resultado médio estará bem próximo deste “valor médio 
esperado”. 
Se, por um lado, a esperança de uma v.a. X se refere ao centro de gravidade da distribuição de probabilidades 
desta v.a., por outro, a variância o grau de espalhamento da distribuição de probabilidades em torno da 
esperança. Distribuições de probabilidadesmuito espalhadas têm variâncias grandes; distribuições 
concentradas próximo da esperança têm variâncias pequenas. Formalmente, 
[(\) = P ]D − ^(\)_Q × `>\ = DA
D∈b?
 
 
 
 
1
2
3
4
5
6
0 10 20 30 40 50 60 70 80 90 100
 
0
0,1
0,2
0,3
0,4
0,5
2 3 4 5
Departamento de Estatística – IMECC – UNICAMP 
Introdução aos Modelos Probabilísticos – 2.018 Prof. Amorim 
 
17 
 
Exemplos: 
� Seja D5 , e seja X o próprio valor obtido. Assim, ΩX = { 1 2 3 4 5 }, com distribuição uniforme de probabilidades, 
isto é, cada um dos 5 valores possíveis apresenta a mesma probabilidade 0,2. E(X) é, então simplesmente a média 
aritmética dos 5 valores possíveis, portanto 3. A distribuição de 
probabilidades de X está representada na tabela abaixo, 
juntamente com outros valores envolvidos no cálculo de V(X): os 
desvios de X, isto é, x-E(X), e os desvios quadráticos de X. A 
variância é, simplesmente, a média dos desvios quadráticos, 
ponderada pelas probabilidades. Como neste caso a distribuição 
de probabilidades é uniforme, a variância será simplesmente a 
média aritmética dos desvios quadráticos, ou seja: 
V(X) = 0,2×(4+1+0+1+4) = 2 
Resumindo: Em D5, com X definida como o próprio valor obtido no lançamento, tem-se: E(X)=3 e V(X)=2. E eis o 
porquê de preferirmos D5 em vez do tradicional D6 nos futuros exemplos em sala, envolvendo experimentos do 
tipo 
c� : Em D6 a esperança é 3,5 e a variância é igual a 35/12 = 2,91666… (De nada!) 
� 
� Voltando agora ao mais trivial dos experimentos aleatórios: Bp. Seja X o número de sucessos; logo ΩX = { 0 1 }, 
com P{X=0}=(1-p)=q e P{X=1}=p. Neste caso, E(X) = 0×P{X=0} + 1×P{X=1} = P{X=1} = p. Aplicando a definição de 
variância de X: 
V(X) = (0-p)2× P{X=0} + (1-p)2×P{X=1} = p2(1-p) + (1-p)2p = p2q + pq2 = pq(p+q) = pq≤ 
Resumindo, um resultado básico importante: num experimento binário elementar, Bp , se X é definido como o 
número de Sucessos ( portanto 0 ou 1), temos: E(X) = p e V(X) = p(1-p) = pq. 
� 
 
 
Lista de Exercícios 1 – 
1. Seja o experimento aleatório composto ��� . Considere o caso p=0,2, n=100 e X é o número de sucessos, isto é: 
H = ∑ X<���<�� , onde Xi é o número de sucessos na i-ésima tentativa. Calcule (dica- use o Excel ou similar): 
a. Esperança e variância de Xi. 
b. A função de distribuição de probabilidades de X sobre todo o ΩX. 
c. O intervalo fechado [a, b], com a e b inteiros, tais que P{a≤X≤b}≥0,95 e b-a seja mínimo. 
d. E(X) e V(X) 
e. A relação entre E(X) e V(V) 
 
2. O Brasil tem cerca de 3 milhões de jovens com 14 anos de idade. Suponha que 18% desses jovens já apresentam algum 
nível de dano dentário (dado completamente fictício, para ilustração apenas). Se você sortear 1000 desses jovens, 
aleatoriamente, calcular X como a fração amostral de jovens apresentando algum tipo de dano dentário, e usar este 
resultado como a estimativa da frequência populacional deste problema de saúde pública, calcule (dica: idem): 
a. A distribuição de X 
x P{X=x} x-E(X) [x-E(X)]2 
1 0,2 -2 4 
2 0,2 -1 1 
3 0,2 0 0 
4 0,2 1 1 
5 0,2 2 4 
Departamento de Estatística – IMECC – UNICAMP 
Introdução aos Modelos Probabilísticos – 2.018 Prof. Amorim 
 
18 
 
b. A probabilidade de um erro de estimativa superior a 2 pontos percentuais. 
 
3. Seja o experimento aleatório composto 
�� e sejam X1, X2 e Y, respectivamente os resultados do primeiro e segundo 
estágio e a soma desses dois resultados parciais. Naturalmente, os resultados X1 e X2 são independentes e 
identicamente distribuídos(i.i.d.). 
a. Construa o espaço amostral comum dos resultados parciais, e do resultado do experimento composto. 
b. Determine a f.d.p. comum dos dois resultados parciais, e a de Y. 
c. Determine a esperança e variância dos resultados parciais e de Y. 
 
4. Num outro experimento em dois estágios, você começa com D6, e registra o resultado em X. No segundo estágio, uma 
moeda é lançada X vezes, registrando o número de caras em Y. 
a. Determine a distribuição de Y dado que X for 4. 
b. Determine a esperança de Y, para cada resultado possível de X. 
c. Determine a esperança de Y. 
d. Determine a variância de Y. 
5. Considere a árvore binária na figura ao lado. O ponto de origem é A, e o percurso, da esquerda para a direita; os valores nos ramos 
são suas respectivas probabilidades nos pontos de ramificação, à esquerda. 
a. Qual a probabilidade de um percurso, iniciado em A, 
terminar em B. 
b. Seja n o número de vezes que a árvore é percorrida – sempre 
partindo de A. Quantas vezes se chegará a B? 
c. Após 1000 partidas de A, quantas chegadas ocorrerão em B? 
Trace um gráfico da distribuição de probabilidades do 
resultado. 
 
 
 
Propriedades Básicas da Esperança e da Variância 
A esperança e a variância de uma variável aleatória possuem algumas propriedades básicas muito 
importantes, conforme veremos agora. 
Seja uma variável aleatória X, e seja Y uma transformação linear de X, isto é, Y = aX + b, com a e b reais 
quaisquer, e a diferente de zero. Então Y é também uma variável aleatória, com: 
E(Y) = a × E(X) + b e V(Y) = a2×V(X) 
Antes de provarmos estes dois importantes resultados, vamos tratar de um exemplo ilustrativo. 
 
Exemplo 
Um jogo consiste em arremessar um dado, e ganhar um prêmio em dinheiro, de acordo com o resultado. O prêmio, em R$, 
é igual a 10 vezes o valor obtido no lançamento. Assim, se você conseguir um 6, ganhará R$60. Mas para jogar o jogo, 
você tem que pagar R$40. É vantajoso para você jogar este jogo? 
Vejamos… Seja X o resultado do lançamento do dado e Y o seu resultado financeiro por jogar o jogo. Logo, E(X)=3,5 e 
V(X)=35/12, e Y = 10X – 40. Portanto: 
A parte de imagem com identificação de relação rId8 não foi encontrada no arquivo.
Departamento de Estatística – IMECC – UNICAMP 
Introdução aos Modelos Probabilísticos – 2.018 Prof. Amorim 
 
19 
 
E(Y) =10×E(X) – 40 = 10×3,5 – 40 = –5 e V(Y)=102×V(X) = 100×35/12 = 875/3 = 291,67 
Ainda sem interpretar o significado da variância aqui, chegamos à conclusão de que, neste jogo, seu ganho médio 
esperado é R$5, negativos. Ou seja, se você jogar muitas vezes, você terá uma perda média muito 
próxima de R$5 por jogada. Mas, é claro que, jogando uma vez apenas, você poderá sair 
ganhando R$20, basta fazer um 6 no arremesso do dado. 
É claro que você poderia ter calculado E(Y) e V(Y) diretamente. Veja a tabela ao lado. Aplicando as 
definições, você pode calcular a esperança e a variância tanto de X como de Y, e confirmar os 
resultados acima: 
X(e) = 16 (−30 − 20 − 10 M 0 M 10 M 20) = −306 = −5 
 
f(e) = 16 ((−30 M 5)� M (−20 M 5)� M (−10 M 5)� M (0 M 5)� M (10 M 5)� M (20 M 5)�) = 
= 16 (625 M 225 M 25 M 25 M 225 M 625) = 17506 = 291,666 … 
� 
Esperança e Variância de Combinações Lineares de Variáveis Aleatórias independentes 
Sejam X1 e X2 duas variáveis aleatórias independentes, como, por exemplo, os dois resultados parciais de D(�. 
Seja Y = aX1 + bX2 + c, onde a, b e c são constantes reais, com a e b diferentes de zero. Então, valem as duas 
propriedades abaixo para E e V de Y, em função de esperança e variância de X1 e de X2 : 
E(Y) = aE(X1) + bE(X2) + c 
V(Y) = a2.E(X1) + b2.E(X2) 
Estas propriedades se estendem para a combinação linear de qualquer sequência de variáveis aleatórias: 
Sejam X1 X2 … Xn, n variáveis aleatórias independentes, e seja e = h� M ∑ h�H����� , Então: 
X(e) = h� M P h�X(H�)
�
���
 
f(e) = P h��f(H�)
�
���
 
Um caso particular muito interessante é quando se tem uma v.a. X, com esperança µ e variância σ2, e se faz n 
observações consecutivas e independentes, registrando cada resultado individual: X1 X2 … Xn. 
Cada Xi é uma v.a. por seus próprios méritos. Elas são independentes entre si, mas têm em comum a função 
de distribuição de probabilidades, portanto a mesma esperança µ, e a mesma variância σ2. 
É o caso, por exemplo, de n repetições independentes de um mesmo experimento aleatório elementar, como 
em B�� e D
� . 
SejaY é a média dessas n v.a.’s: 
X Y Prob 
1 -30 1/6 
2 -20 1/6 
3 -10 1/6 
4 0 1/6 
5 10 1/6 
6 20 1/6 
Departamento de Estatística – IMECC – UNICAMP 
Introdução aos Modelos Probabilísticos – 2.018 Prof. Amorim 
 
20 
 
Y = 1n P X<
�
<��
= 1n X� M 1n X� M 1n X� M … M 1n X� 
Então, 
E(Y) = 1n P E(X<)
�
<��
= µ 
V(Y) = 1n� V(X�) M 1n� V(X�) M 1n� V(X�) M ⋯ M 1n� V(X�) = 1n� P V(X<)
�
<��
= 1n� (nσ�) = σ
�
n 
Como se vê, embora a esperança de Y seja igual à esperança de X, a sua variância é n vezes menor. Esta 
propriedade é da mais suprema importância. É ela que permite o aprendizado a partir da acumulação de 
dados, o aprendizado com a experiência. Sem ele, acredito, ainda viveríamos nas árvores e sem esperança 
alguma de jamais sair de lá. 
Exemplos 
� Seja D5 e X o resultado, logo Ωx={1 2 3 4 5}. Então, como já vimos, E(X)=3 e V(X)=2. Vamos agora repetir D5 n 
vezes, ou seja, seja D(�, com n muito grande. Sejam X1, X2, … , Xn os n resultados parciais. Logo E(Xi)=3 
e V(Xi)=2, para todo i. Vamos agora definir Y como a média desses n resultados parciais: 
e = 1n P H�
�
���
 
Aplicando as propriedades apresentadas acima, temos E(Y)=3 e V(Y)=2/n. 
� 
� Seja B�� e seja Y a variável aleatória que corresponde ao número total de sucessos. Logo Y~b(n, p) (lê-se Y tem 
distribuição binomial, com parâmetros n e p), com f.d.p.: 
P{Y=y} = BOT × FU × GS�U para todo y∈{ 0 1 2 3 4 … n }. 
Vamos usar as propriedades acima para determinar E(Y) e V(Y). Para isto, seja Xi o resultado da i-ésima 
repetição de Bp: Xi{F}=0 e Xi{S}=1, ou seja, Xi~B(p), portanto E(Xi)=p e V(Xi)=pq. Assim, X1, X2, …, Xn 
independentes e identicamente distribuídas, com distribuição comum B(p) (isto é, com distribuição de 
Bernoulli, com parâmetro p). Assim, e = ∑ H����� , e portanto, E(Y)=nE(Xi)=np e V(X)=npq. 
Uma variável aleatória, com distribuição b(n, p) tem, portanto esperança np e variância npq. 
� 
 
1.5 – Probabilidade Condicional 
Probabilidade Condicional é um conceito que tem uma definição é simples, e sua importância teórica e pratica 
é muito grande. 
Departamento de Estatística – IMECC – UNICAMP 
Introdução aos Modelos Probabilísticos – 2.018 Prof. Amorim 
 
21 
 
Seja um experimento aleatório E, com espaço amostral Ω, e sejam dois eventos A e B, ou seja, A⊂Ω e B⊂Ω, 
com P(B)≠0, então a probabilidade condicional de A, dado B – que se representa por P(A\B) – é definida como: 
"(9\�) = "(9 ∩ �)"(�) 
Vamos ilustrar com um exemplo: 
Exemplo 
� Seja D(�, cujo espaço amostral é dado ao lado. Seja X:Ω→ R a variável aleatória 
correspondente à soma dos dois resultados parciais: X=X1+X2. 
a) Calcule P{X≤6}. 
Ora, {X≤6} = {11 12 13 14 15 21 22 23 24 31 32 33 41 42 51}, logo #{X≤6} =15, 
e P{X≤6} = 15/25 = 0,6. Conclusão: em dois arremessos de um dado de cinco 
lados, a probabilidade do resultado total ser menor ou igual a 6 é 0,60. 
b) Calcule: dado que o primeiro resultado foi um 2, qual a probabilidade de {X≤6}. 
Formalmente, a pergunta acima se formula assim: P{X≤6}\{X1=2}=? 
Pela definição de probabilidade condicional, temos: 
">H ≤ 6A\>H� = 2A = ">H ≤ 6A\>H� = 2A">H� = 2A 
O evento foi {X≤6} visto no item (a), por outro lado, {X1=2} = {21 22 23 24 25}, portanto com P{X1=2}=1/5. A 
intersecção de {X≤6} com {X1=2} é {X≤6}∩{X1=2} = {21 22 23 24}, portanto com probabilidade 4/25. Logo 
">H ≤ 6A\>H� = 2A =
425525
= 45 = 0,80 
 
c) Dado que o primeiro resultado foi maior que 3, qual a probabilidade do total ser menor que 8? 
">H < 8A\>H� > 3A = ">H < 8A\>H� > 3A">H� > 3A 
Os dois eventos envolvidos no cálculo acima, são: 
{X<8} = {11 12 13 14 15 21 22 23 24 25 31 32 33 34 41 42 43 51 52} 
{X1>3}={41 42 43 44 45 51 52 53 54 55} com probabilidade 10/25 
Logo {X<8}∩{X1>3} = {41 42 43 51 52}, com probabilidade 5/25. Logo 
">H < 8A\>H� > 3A =
5251025
= 510 = 0,50 
 
d) Calcule P{X2>4}\{X1<3}. Ora, como X1 e X2 são independentes, a resposta é, simplesmente, P{X2>4}=0,40. 
Contudo vamos mostrar como a definição de probabilidade condicional chega exatamente a este resultado. 
">H� > 4A\>H� < 3A = ">H� < 3A ∩ >H� > 4A">H� < 3A =
">15 25A">11 12 13 14 15 21 22 23 24 25A = 210 = 15 = 0,2 
 
e) Calcule P{X1<4}\{X>6}, isto é, dado que o total foi maior que seis, qual a probabilidade que o primeiro 
resultado tenha sido menor que 4?. Aplicação direta da definição de probabilidade condicional. 
Os dois eventos envolvidos são: 
{X1<4} = {12 13 14 15 21 22 23 24 25 31 32 33 34 35}, com probabilidade 3/5=0,60 
{X>6} = {25 34 35 43 44 45 52 53 54 55}, com probabilidade 10/25=0,40 
 Logo: {X>6}∩{X1<4}={25 34 35}, com probabilidade 3/25, e 
{ 11 12 13 14 15 
 21 22 23 24 25 
 31 32 33 34 35 
 41 42 43 44 45 
 51 52 53 54 55 } 
Departamento de Estatística – IMECC – UNICAMP 
Introdução aos Modelos Probabilísticos – 2.018 Prof. Amorim 
 
22 
 
">H� < 4A\>H > 6A =
3251025
= 310 = 0,3 
Interessante o resultado: A probabilidade de um resultado menor do que quatro no primeiro lançamento é 
0,60. Agora, dado que o resultado total foi maior do que 6, a probabilidade de que o resultado do primeiro 
lançamento tenha sido menor do que quatro cai à metade. 
 
f) Qual a probabilidade condicional de cada um dos valores possíveis de X1, dado que X foi maior do que 6? 
A distribuição a priori de X1 é dada mostrada no gráfico à esquerda: cada um dos 
cinco valores possíveis tem a mesma probabilidade, 0,20. Agora, sabemos que 
P{X1=1 }\{x>6} = 0; isto é, se me informam que o total foi superior a 6, sei que X1 não 
pode ter sido igual a 1... impossível. Pode ter sido 2? Talvez, mas com probabilidade 
inferior a seu valor a priori. Por outro lado, valores mais altos de X1 devem ganhar 
em probabilidade quando se informa que a soma X foi maior do que 6. Vejamos 
cada cálculo: 
 
 
">H� = 1A\>H > 6A = ">H� = 1A ∩ >H > 6A">H > 6A = "(t)0,40 = 0 
 
">H� = 2A\>H > 6A = ">H� = 2A ∩ >H > 6A">H > 6A = ">25A1025
=
1251025
= 110 = 0,10 
 
">H� = 3A\>H > 6A = ">H� = 3A ∩ >H > 6A">H > 6A = ">34 35A1025
=
2251025
= 210 = 0,20 
 
">H� = 4A\>H > 6A = ">H� = 4A ∩ >H > 6A">H > 6A = ">43 44 45A1025
=
3251025
= 310 = 0,30 
 
">H� = 5A\>H > 6A = ">H� = 5A ∩ >H > 6A">H > 6A = ">52 53 54 55A1025
=
4251025
= 410 = 0,40 
Interpretar esses resultados, ajuda a entender o conceito de probabilidade condiciona. 
� 
� Voltando ao experimento das três tigelas com as 12 bolas coloridas. Sabemos que a probabilidade a priori das 
tigelas 1, 2 e 3 são 6/36, 20/36 e 10/36, respectivamente. As probabilidades de bola verde em cada tigela são, 
3/4, 2/4 e 1/4, respectivamente. Vamos agora responder a perguntas como: Dado que a bola sorteada foi 
vermelha, qual a probabilidade que a tigela sorteada no primeiro estágio do experimento tenha sido a T1, por 
exemplo? Ou seja P{T1}\{Vermelha}=?. 
Intuitivamente podemos afirmar que, dado que uma bola vermelha foi sorteada, então a probabilidade a 
posteriori de T1 deve ser maior que a sua probabilidade a priori: 6/36. Isto porque T1 é mais rica em bolas 
vermelhas que as outras. Pelo mesmo raciocínio, a probabilidade a posteriori de T3 deve ser menor que 10/36, 
sua probabilidade a priori. Vejamos: 
Ω = {T1A T1V T2A T2V T3A T3V} 
 
As probabilidades de cada um dos 6 eventos singulares neste caso estão dadas na tabela abaixo: 
 
0
0,1
0,2
1 2 3 4 5
0
0,1
0,2
0,3
0,4
1 2 3 4 5
Departamento de Estatística – IMECC – UNICAMP 
Introdução aos Modelos Probabilísticos – 2.018 Prof. Amorim 
 
23 
 
ω T1A T1V T2A T2V T3A T3V 
P{ω} 0,04167 0,12500 0,27778 0,27778 0,20833 0,06944 
Logo, o evento {a bola é vermelha} = {T1V T2V T3V}, com 
 
P{a bola é vermelha} = P{T1V T2V T3V} = 0,12500 + 0,27778 + 0,06944 = 0,4722 
 
 "> uvwxyh 1 A\>�zyh {x|}xy~hA = ">u�9 u�fA ∩ >u�f u�f u�fA">u�f u�f u�fA =
">u�fA">u�f u�f u�fA =
0,1250,4722 = 0,2647 
 
Analogamente, 
"> uvwxyh 2 A\>�zyh {x|}xy~hA = ">u�9 u�fA ∩ >u�f u�f u�fA">u�f u�f u�fA =
">u�fA">u�f u�f u�fA =
0,277780,4722 = 0,5883 
 e 
"> uvwxyh3 A\>�zyh {x|}xy~hA = ">u�9 u�fA ∩ >u�f u�f u�fA">u�f u�f u�fA =
">u�fA">u�f u�f u�fA =
0,069440,4722 = 0,1471 
A figura abaixo dá a probabilidade de cada uma das tigelas, em três situações distintas: 
a probabilidade condicional dado que a bola sorteada foi azul; a probabilidade a priori 
(incondicional) de cada tigela, resultante simplesmente da regra dada do exemplo, de 
��; e, à direita, em vermelho, a 
probabilidade condicional de 
cada tigela, dado que abola 
sorteada foi vermelha. 
A tabela ao lado sumariza os 
resultados. 
� 
 
 
Tigela 
Probabilidade da tigela 
Dado bola 
azul 
A priori 
Dado bola 
Vermelha 
1 0,07895 0,16667 0,26471 
2 0,52632 0,55556 0,58824 
3 0,39474 0,27778 0,14706 
-0,1
0,0
0,1
0,2
0,3
0,4
0,5
0,6
T1 T2 T3
Departamento de Estatística – IMECC – UNICAMP 
Introdução aos Modelos Probabilísticos – 2.018 Prof. Amorim 
 
24 
 
1.3 - O Teorema de Bayes 
No exemplo anterior utilizamos, implicitamente, um resultado muito geral e importante, que vamos agora 
desenvolver: O Teorema de Bayes. 
Sejam (a) um experimento aleatório com espaço amostral Ω; (b) P={B1, 
B2, B3, ... } uma partição enumerável Ω; e A um evento qualquer. A figura 
ao lado ilustra um caso com partição de Ω em quatro partes, portanto, 
neste caso, P={B1, B2, , B3, B4}. 
Seja A a classe de todos os subconjuntos de Ω, e P: A→[0, 1] uma função 
de probabilidades qualquer, tal que P(A)>0. 
A partição P induz uma partição correspondente de A: {A∩B1 A∩B2 A∩B3 …}, logo: 
P(A) = P P(A ∩ B<)
�
<��
= P P(B<) × P(A\B<)
�
<��
 
Deste resultado, conhecido como lema do valor total, decorre o Teorema de Bayes: 
Teorema de Bayes: 
Dados Ω, P, A e P, como definidos anteriormente, tem-se: 
P(B<\A) = P(A ∩ B<)∑ P]B�_ × P]A\B�_���� 
Prova: A prova deste resultado decorre diretamente do lema do valor total, uma vez que, pela definição de 
probabilidade condicional, 
oP(B<\A) = �(�∩��)�(�) 
Aparentemente prosaico, o Teorema de Bayes tem imenso “poder de fogo” e está por traz de grandes 
conquistas da moderna Teoria Estatística: Reconhecimento de Padrões, Aprendizado de Máquina, Redes 
Neurais, Redes Bayesianas, etc. 
Exemplos e 
Exercícios 
Nos exercícios a seguir, enquadre cuidadosamente cada problema apresentado no esquema do Teorema de Bayes, 
definindo Ω, P, A e P; para todo i, explicite bem os valores de P(A\Bi), dados no enunciado. 
1. O recepcionista de um restaurante, muito curioso e observador, notou que 60% dos seus clientes são paulistas, 20% 
mineiros, 15% cariocas, 4% de outros estados e 1% são estrangeiros. No jantar, 70% dos paulistas, 40% dos cariocas, 
22 dos mineiros, 12% dos clientes de outros estados e 90% dos estrangeiros pedem vinho. Chega um novo cliente 
para jantar. Assumindo que os apontamentos do recepcionista representam bem a realidade, calcule: 
a. A probabilidade dele pedir vinho? 
A parte de imagem com identificação de relação rId8 não foi encontrada no arquivo.
Departamento de Estatística – IMECC – UNICAMP 
Introdução aos Modelos Probabilísticos – 2.018 Prof. Amorim 
 
25 
 
b. A probabilidade dele ser paulista dado que ele pediu vinho? 
c. A probabilidade dele ser estrangeiro, dado que ele não pediu vinho? 
 
2. Numa dada população de milhões de indivíduos, 6 em cada 100 mil apresentam determinada condição patológica. O 
melhor teste clínico disponível para esta condição tem probabilidade de falso positivo igual a 0,012 e de falso negativo 
igual a 0,008. Um indivíduo é amostrado ao acaso desta população e submetido ao teste, e o resultado é positivo 
(isto é, o teste diz que ele apresenta a tal condição). Qual a probabilidade dele realmente ser um caso positivo, isto 
é, ter a condição? 
 
3. 
 
A Distribuição de Poisson 
Nesta seção desenvolveremos o modelo probabilístico completo de como a natureza distribui pontos ao acaso e 
uniformemente sobre uma superfície plana, ou sobre uma linha extensa, ou sobre um segmento do espaço. 
A figura ao lado é a fotografia de um trecho de 
asfalto, de uma rua suburbana, após uma chuva leve 
e muito breve (Campos do Jordão, 2009). Na 
distribuição das gotas sobre o asfalto, o “mestre das 
chuvas” não dá preferência por este ou aquele trecho 
do asfalto. O resultado é a manifestação natural de 
uma distribuição aleatória uniforme. 
A figura abaixo mostra o resultado simulado da 
distribuição aleatória uniforme de 500 pontos sobre 
uma superfície quadrada coberta por 400 ladrilhos 
idênticos1. A concentração média é, portanto de 1,25 
ponto por ladrilho, mas, é claro, não se vê nenhum ladrilho com exatamente 1,25 ponto. Há muitos ladrilhos vazios e há 
muitos ladrilhos com um, com dois, três ou mais pontos. É 
evidente a semelhança entre as duas figuras. E eis como a 
uniformidade se manifesta na natureza. 
 O aspecto aparentemente caótico, aparentemente despido de 
qualquer padrão de regularidade, é, na verdade, perfeitamente 
previsível, e, num certo sentido profundo, perfeitamente regular. 
Podemos antecipar, por exemplo, que o número de ladrilhos 
vazios na figura ao lado é algo próximo de 89; mais objetivamente 
podemos afirmar com 95% de confiança – aplicando recursos 
conceituais que veremos um pouco adiante – que este número 
está entre 73 e 106. Afirmações análogas podem ser feitas para o número de ladrilhos com um, dois, três... pontos. 
Podemos afirmar ainda que, existem aí uns 2 ladrilhos com 5 pontos, talvez um com seis, e certamente nenhum com 7 ou 
mais. Vamos decifrar a matemática que fundamente essas “previsões”. 
 
1 A figura foi criada no Excel, a partir de duas colunas de 500 pontos cada, gerados pela função [ =aleatório() ] 
A parte de imagem com identificação de relação rId8 não foi encontrada no arquivo.
A parte de imagem com identificação de relação rId8 não foi encontrada no arquivo.
Departamento de Estatística – IMECC – UNICAMP 
Introdução aos Modelos Probabilísticos – 2.018 Prof. Amorim 
 
26 
 
Considerações sobre a distribuição uniforme de pontos sobre uma superfície: 
Considere uma superfície plana extensa. Suponha que se deseja espalhar pontos aleatoriamente sobre esta superfície, 
uniformemente, numa concentração média de λ pontos por metro quadrado. 
À primeira vista, parece haver no desafio acima uma incompatibilidade entre “aleatoriamente” e “uniformemente”. Mas 
nós nos referimos à expressão natural de uniforme, ou seja, como a uniformidade se manifesta na natureza. 
Queremos revelar a estrutura 
probabilística por trás da 
distribuição uniforme natural 
sobre uma superfície. Em outras 
palavras, numa distribuição 
aleatória uniforme de pontos 
sobre uma superfície, com a 
densidade média de λ pontos 
por unidade de área, queremos 
ser capazes de calcular a 
probabilidade que um 
determinado segmento 
predefinido, de área x, termine 
o processo com exatamente Y 
pontos, para Y =0, 1, 2, 3,… . 
Para isto, imagine a superfície dividida em segmentos de x m2 de área, como sugere a figura ao lado. O número médio de 
pontos por cada um desses segmentos elementares de área arbitraria x será, então, λx. 
Feita a divisão, vamos agora percorrer a superfície toda, um segmento elementar por vez, colocando Y pontos em cada 
um. Os valores Y são gerados independentemente, segundo uma distribuição de probabilidades com esperança λx. Como 
faremos isto? Existem inúmeras alternativas, mas vamos adotar uma que nos “conduzirá à luz”, nos revelando a lei 
matemática (elegantíssima e surpreendentemente simples, como você logo verá) que governa a distribuição uniforme 
natural. Primeiramente vamos dividir cada segmento elementar de área x, em n subsegmentos iguais, de área 
�
� cada: 
A parte de imagem com identificação de relação rId8 não foi encontrada no arquivo.
Departamento de Estatística – IMECC – UNICAMP 
Introdução aos Modelos Probabilísticos – 2.018 Prof. Amorim 
 
27 
 
1. Dividimos cada 
segmento elementarem n 
subsegmentos iguais, portanto 
de área 
J
� m2 cada um. A 
concentração média de pontos 
nesses subsegmentos será, 
então, 
λ�
� . O valor n é arbitrário, 
mas deverá ser escolhido de 
forma a garantir que esta 
concentração média seja menor 
que 1. A figura ao lado mostra 
como ficaria a superfície acima, 
caso optássemos por n=4. 
2. A tarefa de colocar Y 
pontos num segmento será então feita em n passos, um subsegmento de cada vez. Através de um experimento 
binário Bp, com p = λ�� , decidimos se colocamos ou não um ponto no centro do subsegmento: Sucesso significa 
sim; Fracasso, não. Seja W1 o número de pontos colocados no primeiro subsegmento. Então, W1 tem distribuição 
de Bernoulli, com parâmetro p e W1, W2, W3, … Wn, o número de pontos em cada um dos n subsegmento, são 
i.i.d. B(p). Portanto, P{Wi=0}=1-p, P{Wi=1}=p e, portanto E(Wi)= p = λ�� , para todo i. 
3. O número total de pontos colocados em cada segmento será então a soma dos resultados em cada um dos n 
subsegmentos. Assim: 
e = ∑ ������ ~ � Vn, �J� W , garantindo E(Y)=λx, como queríamos, e 
P>e = 0A = Y1 − λxn Z
�
 
P>e = 1A = n × �In × Y1 − λxn Z
���
 
E, na expressão geral para a f.d.p de e~ � Vn, �J� W: 
P>e = �A = C�J × Y�In Z
J × Y1 − λxn Z
��J
 
A parte de imagem com identificação de relação rId8 não foi encontrada no arquivo.
Departamento de Estatística – IMECC – UNICAMP 
Introdução aos Modelos Probabilísticos – 2.018 Prof. Amorim 
 
28 
 
Contudo, o resultado que se obtém pela aplicação deste método acaba sendo uma imitação um tanto tosca da natureza. 
Para começar, Y tem um valor máximo possível: n. Depois, uma vez feita a distribuição dos pontos, ela se mostra 
estruturada demais, definitivamente não natural. Para a criação da figura abaixo, considerei um exemplo, em que a 
concentração de pontos é 
λ=50/m2, e x=0,04m2, ou dois 
decímetros quadrados (a área 
de um azulejo típico). A 
concentração média de pontos 
por azulejo será portanto 
λx=50x =2/m2 e, para começar, 
vamos fazer n=4, portanto a 
concentração média de pontos 
por subsegmento será p = λ�� =
(�×�,�2
2 = 0,5/m�. 
Assim, em cada segmento, 
percorremos seus 4 
subsegmentos executando um 
experimento binário com p=0,5 (por exemplo, jogando uma moeda). 
Simulamos precisamente este procedimento sobre cada segmento (azulejo) da figura acima, e obtivemos a figura ao lado: 
evidentemente estruturada (no 
sentido determinístico do termo) 
demais; artificial demais. Se as 
marcas das gotas de chuva no 
asfalto mostrassem esse padrão, 
eu ficaria perplexo, um pouco 
como Alice no País das 
Maravilhas. Não há azulejo com 
mais que 4 pontos; além disto, os 
pontos mostram um 
alinhamento regular, tanto 
horizontal quanto verticalmente, 
em linhas afastadas entre si por 
meio azulejo (10 cm) de 
distância. Isto, definitivamente, 
não ocorre numa distribuição natural. São as consequências de da divisão de cada azulejo em 2x2 subsegmentos iguais, 
de 10cm x 10cm. 
Podemos refinar um pouco o processo, dividindo cada azulejo em um número maior de subsegmentos; com n=8, por 
exemplo. A figura à esquerda mostra o resultado. Não refinamos a grade de forma correspondente para não sobrecarregar 
A parte de imagem com identificação de relação rId8 não foi encontrada no arquivo.
A parte de imagem com identificação de relação rId8 não foi encontrada no arquivo.
Departamento de Estatística – IMECC – UNICAMP 
Introdução aos Modelos Probabilísticos – 2.018 Prof. Amorim 
 
29 
 
demais a figura. Sem dúvida conseguimos disfarçar melhor o caráter artificial da distribuição, mas não completamente. 
Sob inspeção mais cuidadosa, o alinhamento dos pontos se revelaria, agora em linhas horizontais e verticais separadas 
entre si por ¼ de azulejo, ou 5cm. De fato, não existem pontos com distância horizontal, ou vertical, entre si, inferior a 5 
cm; nem azulejo com mais que 8 pontos. Poderíamos continuar aumentando n indefinidamente... 
Agora, Y, o número de pontos por azulejo segue distribuição b(8, 0,25)... Mas a natureza está muito perto de revelar seu 
segredinho: ela opera com n=∞. Ora, sendo e = ∑ ������ ~ � Vn, �J� W, temos: 
P>e = �A = C�J × Y�In Z
J × Y1 − λxn Z
��J
 
Logo, para um dado n, temos: 
P>e = 0A = Y1 − λxn Z
�
 
 
Fazemos agora n tender a ∞ para chegar a P{Y=0} numa distribuição uniforme natural, com densidade média de λ pontos 
por unidade de área, onde Y é o número de pontos em um segmento de área x: 
P>Y = 0A = lim�→� Y1 − λxn Z
� = e�� 
Analogamente, 
P>Y = 1A = lim�→� �n ∙ λxn ∙ Y1 − λxn Z
���� = lim�→� �λx ∙ Y1 − λxn Z
� ∙ Y1 − λxn Z
��� = λx ∙ e��� 
O resultado acima decorre do fato que o primeiro dos três fatores da expressão em colchetes é constante em n, e o 
terceiro converge a 1 quando n→∞. Continuando, 
P>Y = 2A = lim�→� �C�� ∙ Yλxn Z
� ∙ Y1 − λxn Z
���� = lim�→� �n(n − 1)2 Yλxn Z
� ∙ Y1 − λxn Z
� ∙ Y1 − λxn Z
��� = (λx)�2 ∙ e��� 
Continuando obtemos 
P>Y = 3A = (λx)�3! ∙ e��� 
E, finalmente, a expressão geral, para dado x positivo, e qualquer y inteiro não negativo: 
P>Y = yA = (λx)��! ∙ e��� 
No caso especial em que x=1, a distribuição acima fica: 
P>Y = yA = ���! ∙ e�� 
E o intelecto humano desvendou mais um (importante) segredo da natureza. Em homenagem a seu descobridor, o 
matemático francês Siméon Denis Poisson (1781, 1880) uma variável aleatória com f.d.p. como acima é dita ter uma 
distribuição de Poisson, com parâmetro λ. 
 
Para maior conveniência de representação gráfica, para o desenvolvimento acima consideramos a distribuição de pontos 
sobre uma superfície. O mesmo raciocínio se aplica para distribuição ao longo de uma linha, ou dentro de um volume. Se 
pontos forem distribuídos aleatoriamente segundo distribuição uniforme sobre uma linha extensa, o número Y de 
ocorrências num segmento de comprimento x terá distribuição P(λx). 
Departamento de Estatística – IMECC – UNICAMP 
Introdução aos Modelos Probabilísticos – 2.018 Prof. Amorim 
 
30 
 
 
Departamento de Estatística – IMECC – UNICAMP 
Introdução aos Modelos Probabilísticos – 2.018 Prof. Amorim 
 
31 
 
Exercícios 
1. Gotas de chuva são espalhadas sobre uma quadra aberta de mil metros quadrados, na concentração média 
de 5 gotas por m2. Cada gota deixa uma marca nítida sobe o piso, calçado com ladrilhos de 20cmx20cm. 
Quantos ladrilhos você espera encontrar com nenhuma marca de gota? Dê agora sua resposta na forma de 
um intervalo de 95% de confiança. 
 
2. Pontos foram distribuídos segundo distribuição uniforme, com concentração λ=2/km2. Você vai saltar de 
paraquedas em um local ao acaso desta superfície. Calcule 
a. A probabilidade de que você caia a menos que 200m do ponto mais próximo. 
b. A probabilidade de que o ponto mais próximo de esteja a mais do que 500m distância? 
c. A probabilidade de que num raio de 1km a partir de sua posição, existam mais que 5 pontos? 
 
3. Pontos são distribuídos aleatoriamente segundo uma distribuição uniforme sobre uma rodovia muito 
extensa, na concentração média λ=8/km. Seja X a distância entre um ponto e o seu vizinho mais próximo. 
a. Qual a f.d.p. e a f.a.d.p. de X? 
b. Calcule E(X) e V(X) 
c. Você vai percorrendo esta rodovia no sentido S→N. O último ponto que você viu foi há mais 
que 200 metros atrás. Qual a probabilidade de que o próximo esteja a mais que 200m 
adiante? 
 
4. Um micrograma de sacarose é diluído em uma tonelada de água pura. A solução é agitada por bom tempo 
para perfeita homogeneização. 
a. Um pico grama desta solução é coletado. Qual o número esperado de moléculas de sacarose 
que você contará na amostra? 
b. Qual o volume deverá ser amostrado desta solução para que a probabilidade de conter zero 
molécula de sacarose seja 0,50? 
Continua.... 
 
5. 
 
 
 
 
 
 
Departamento de Estatística – IMECC – UNICAMP 
Introdução aos Modelos Probabilísticos – 2.018 Prof. Amorim 
 
32