APOSTILA-PROBABILIDADE

•
Engenharias

Claudio Menezes
01/09/2021
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 64 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 64 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 64 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Estatística I

56.977 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
CENTRO UNIVERSITÁRIO FAVENI 
 
 
 
 
 
 
 
 
 
 
 
PROBABILIDADE 
 
 
 
 
 
 
 
 
 
 
 
GUARULHOS – SP 
 
1 
 
SUMÁRIO 
 
1 INTRODUÇÃO ........................................................................................................ 3 
2 TEORIA DAS PROBABILIDADES .......................................................................... 4 
2.1 Gerolamo Cardano ............................................................................................. 4 
2.2 Blaise Pascal ...................................................................................................... 5 
2.3 Jakob Bernoulli ................................................................................................... 5 
2.4 Pierre-Simon Laplace ......................................................................................... 6 
3 EXPERIMENTOS ALEATÓRIOS ............................................................................ 7 
3.1 Contagem ........................................................................................................... 7 
3.2 Espaço amostral ................................................................................................. 8 
3.3 Evento ................................................................................................................. 9 
4 EVENTOS ............................................................................................................. 10 
4.1 Eventos mutuamente excludentes e eventos complementares ........................ 10 
4.2 Eventos independentes e eventos dependentes .............................................. 10 
5 PROBABILIDADE CLÁSSICA E FREQUENTISTA ............................................... 11 
5.1 Definição clássica ............................................................................................. 12 
5.2 Definição frequentista ....................................................................................... 14 
6 AXIOMAS E PROPRIEDADES DE PROBABILIDADE ......................................... 15 
6.1 Axiomas de Kolmogorov ................................................................................... 16 
6.2 Propriedades da probabilidade ......................................................................... 16 
7 PROBABILIDADE CONDICIONAL E INDEPENDÊNCIA ...................................... 19 
8 TEOREMA DE BAYES ......................................................................................... 22 
9 VARIÁVEL ALEATÓRIA ....................................................................................... 28 
9.1 Variável aleatória discreta ................................................................................. 28 
9.1.1 Função de distribuição acumulada de probabilidade ...................................... 30 
9.1.2 Variável aleatória discreta média ou esperança .............................................. 30 
 
2 
 
9.1.3 Variância e desvio padrão ............................................................................... 30 
9.2 Variável aleatória contínua ............................................................................... 30 
9.2.1 Função de distribuição acumulada de probabilidade ...................................... 31 
9.2.2 Variável aleatória contínua média ou esperança ............................................. 31 
9.2.3 Variância e desvio padrão ............................................................................... 31 
10 DISTRIBUIÇÕES DISCRETAS ............................................................................. 31 
10.1 Uniforme ........................................................................................................... 32 
10.2 Bernoulli ........................................................................................................... 34 
10.3 Binomial ............................................................................................................ 36 
10.4 Poisson ............................................................................................................. 38 
10.5 Geométrica ....................................................................................................... 40 
10.6 Hipergeométrica ............................................................................................... 41 
11 DISTRIBUIÇÕES CONTÍNUAS ............................................................................ 42 
11.1 Uniforme ........................................................................................................... 43 
11.2 Exponencial ...................................................................................................... 44 
11.3 Laplace............................................................................................................. 46 
11.4 Logística ........................................................................................................... 47 
12 DISTRIBUIÇÃO NORMAL .................................................................................... 48 
13 TEOREMAS LIMITES ........................................................................................... 53 
13.1 Lei Fraca dos Grandes Números ...................................................................... 54 
13.2 Lei Forte dos Grandes Números ....................................................................... 54 
13.3 Teorema Central do Limite ............................................................................... 56 
13.3.1 Processo de soma parcial ............................................................................. 56 
REFERÊNCIAS ......................................................................................................... 60 
 
 
 
 
 
3 
 
1 INTRODUÇÃO 
 
Prezado aluno! 
 
O Grupo Educacional FAVENI, esclarece que o material virtual é semelhante 
ao da sala de aula presencial. Em uma sala de aula, é raro – quase improvável - um 
aluno se levantar, interromper a exposição, dirigir-se ao professor e fazer uma 
pergunta, para que seja esclarecida uma dúvida sobre o tema tratado. O comum é 
que esse aluno faça a pergunta em voz alta para todos ouvirem e todos ouvirão a 
resposta. No espaço virtual, é a mesma coisa. Não hesite em perguntar, as perguntas 
poderão ser direcionadas ao protocolo de atendimento que serão respondidas em 
tempo hábil. 
Os cursos à distância exigem do aluno tempo e organização. No caso da nossa 
disciplina é preciso ter um horário destinado à leitura do texto base e à execução das 
avaliações propostas. A vantagem é que poderá reservar o dia da semana e a hora 
que lhe convier para isso. 
A organização é o quesito indispensável, porque há uma sequência a ser 
seguida e prazos definidos para as atividades. 
 
Bons estudos! 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4 
 
2 TEORIA DAS PROBABILIDADES 
 
A probabilidade foi introduzida na vida das pessoas de forma empírica, de 
acordo com suas necessidades. Na idade antiga, como já foi dito, o tema começou a 
ser discutido pelos estudiosos - não só os matemáticos, mas também filósofos, 
advogados, juristas – em função dos jogos de azar, que eram bastante praticados 
naquela época (SILVA e COUTINHO, 2005). 
A ideia de acaso, segundo alguns estudiosos, existia antes mesmo do 
nascimento de Cristo. Na filosofia grega, Aristóteles (384 - 322 a.c.) já falava na sorte, 
boa ou má, como consequência de uma escolha racional num processo de curso 
aleatório (ROTUNNO, 2007). 
 
2.1 Gerolamo Cardano 
 
Gerolamo Cardano (1501-1576) era um matemático, médico, físico, filósofo e 
astrólogo de origem italiana. Seu livro “Ars Magna” é considerado um dos pilares da 
história da álgebra e o trabalho que espalhou a fórmula geral para resolver equações 
de terceiro grau. Ele também é creditado com a invenção do componente mecânico 
do Cardan, essencial para a indústria automotiva, tendo publicadomais de 200 artigos 
de diferentes áreas e duas enciclopédias de ciências naturais. 
Quando se fala em organização de dados e aplicação simples da teoria da 
probabilidade, o nome de Gerolamo Cardano não pode deixar de ser citado, pois foi o 
primeiro homem na história a sistematizar dados e a entender a lógica de alguns 
processos que até então eram tidos como aleatórios para grande parte da 
humanidade. 
Cardano, numa época em que a matemática era pouco desenvolvida e a 
álgebra e a geometria ainda estavam dando os primeiros passos, fez estudos sobre a 
teoria dos jogos e acabou escrevendo um tratado de 32 capítulos, o então intitulado 
“Livro dos jogos de azar”, no qual ele inicia um estudo simplificado, mas de grande 
valia, da teoria da probabilidade. 
Em seu tratado, fez um estudo sobre a teoria da aleatoriedade, voltado para os 
jogos que fazia apostas: dados, gamão, cartas, astrágalos e até um pouco de xadrez. 
 
5 
 
E para facilitar seus estudos, dividiu esses jogos em dois grupos: os que precisavam 
de estratégias e os que eram regidos pelo puro acaso. 
 
2.2 Blaise Pascal 
 
Para alguns estudiosos da história da matemática, a teoria da probabilidade só 
começou a existir, de fato, após os estudos de Pascal e Pierre de Fermat. Em 1654, 
Pascal fazia um estudo completo sobre cônicas quando o seu amigo, o Chevalier de 
Meré, apresentou-lhe uma questão que era conhecida como problema dos pontos. 
Esta questão enunciava o seguinte: suponha que duas pessoas estão participando de 
um jogo, com lançamento de dados, em que ambos têm a mesma chance de vencer, 
e o vencedor é quem atingir uma determinada quantidade de pontos. Porém, o jogo é 
interrompido quando um dos jogadores está na liderança. Qual é a maneira mais justa 
de dividir o dinheiro apostado? (BOYER, 1996; MLODINOW, 2009). 
Pascal ficou intrigado com as questões e começou a se corresponder com 
Fermat para que os dois chegassem a uma solução. Para alguns matemáticos foi essa 
correspondência entre os dois que realmente deu início à teoria da probabilidade 
(PERERO, 1994; BOYER,1996). 
Nas correspondências ficou evidente que tanto Fermat quanto Pascal 
resolveram corretamente as questões, porém de maneiras diferentes. Fermat 
aperfeiçoou a regra geral de Cardano, baseando o cálculo de probabilidades no 
cálculo combinatório e Pascal ligou o estudo das probabilidades ao triângulo 
aritmético, que hoje é conhecido como o triangulo de Pascal. O triangulo aritmético já 
existia há mais de 600 anos, mas recebeu esse nome porque Pascal descobriu novas 
propriedades para ele (BOYER, 1996; LIGHTNER, 1991 apud SILVA e COUTINHO, 
2005). Fermat e Pascal foram os primeiros matemáticos a resolver problemas não 
numéricos de probabilidade, porém nenhum dos dois chegou a desenvolver teoremas 
sobre o assunto (SILVA e COUTINHO, 2005). 
 
2.3 Jakob Bernoulli 
 
Dentre as principais contribuições de Jacob Bernoulli na área da matemática, 
destacam-se a primeira integração de uma equação diferencial, na qual o termo 
 
6 
 
integral apareceu com o seu real sentido de integração; os tratados sobre Álgebra e 
Geometria; o trabalho sobre séries infinitas, que posteriormente ficou conhecido como 
a “desigualdade de Bernoulli”; as pesquisas sobre série exponencial, as quais levaram 
a considerá-lo o pai do cálculo exponencial; a publicação de trabalhos sobre 
logaritmos e integração; a investigação sobre as curvas de cáusticos, especialmente, 
as associadas com as curvas de parábola, a espiral logarítmica e a epicicloide; a 
lemniscata de Bernoulli; a aplicação do cálculo na construção de pontes suspensas; 
a resolução da equação y’= p(x).y + q(x).yn, que hoje conhecemos como a “equação 
de Bernoulli”; entre outros. 
Bernoulli trabalhou extensivamente com cálculo diferencial e integral e 
equações diferenciais, mas tinha verdadeiro fascínio pelas séries e divertia-se 
tentando a solução de problemas populares a época, como por exemplo achar a curva 
da catenária. Seu trabalho mais original foi a “Ars Conjectandi”, publicado 
postumamente em 1713, por seu sobrinho Nicolau I, é a mais antiga obra sobre teoria 
das probabilidades. O trabalho informou sobre os resultados conhecidos da teoria da 
probabilidade e da enumeração, incluindo a aplicação da teoria da probabilidade em 
jogos de azar e sua introdução ao teorema conhecido como a lei dos grandes 
números. Os termos “julgamento Bernoulli” e “números de Bernoulli” são os frutos 
deste trabalho (SILVA e COUTINHO, 2005). 
 
2.4 Pierre-Simon Laplace 
 
Laplace deu grandes contribuições a nível da evolução do cálculo das 
probabilidades. Deve-se a ele a definição clássica de probabilidade, expressa na 
conhecida Lei de Laplace: "a probabilidade de um acontecimento é o quociente entre 
o número de casos favoráveis ao acontecimento e o número de casos possíveis, 
supondo que todos os casos são igualmente possíveis". Relativamente a este tema, 
uma das suas obras mais célebres é o livro "Theórie Analytique des Probabilités" 
(Teoria Analítica das Probabilidades), que foi publicada em 1812 (LIGHTNER, 1991 
apud SILVA e COUTINHO, 2005). 
Após a publicação, os estudos sobre a teoria da probabilidade ganharam 
proporção, e brilhantes matemáticos como Poisson, Gauss e Poincaré deram 
 
7 
 
continuidade aos estudos probabilísticos que, inicialmente, foram desenvolvidos por 
Cardano. 
 
3 EXPERIMENTOS ALEATÓRIOS 
 
A teoria das probabilidades é um ramo da matemática que cria, elabora e 
pesquisa modelos para estudar experimentos ou fenômenos aleatórios. Há certos 
fenômenos (ou experimentos) que, embora sejam repetidos muitas vezes e sob 
condições idênticas, não apresentam os mesmos resultados. Por exemplo, no 
lançamento de uma moeda perfeita, o resultado é imprevisível, não se pode 
determiná-lo antes de ser realizado e não podemos prever, mas podemos saber quais 
são os possíveis resultados. Aos fenômenos (ou experimentos) desse tipo damos o 
nome de fenômenos aleatórios (ou casuais) (SILVEIRA, 2018). 
Pelo fato de não sabermos o resultado exato de um fenômeno aleatório é que 
buscamos os resultados prováveis, as chances e as probabilidades de um 
determinado resultado ocorrer (SILVEIRA, 2018). 
 
3.1 Contagem 
 
A definição de contagem é o ato de determinar um número de elementos de 
um conjunto (finito), e existem evidências arqueológicas que possibilitam concluir que 
o processo de contar tenha sido utilizado há mais de 50 mil anos por culturas primitivas 
para acompanhar os dados econômicos e sociais, como: 
 Quantidade de membros do grupo, das presas; 
 Propriedades e dívidas. 
Princípio de contagem levou ao desenvolvimento da notação matemática, dos 
sistemas numéricos e da escrita atual. Ela ainda pode ocorrer de várias formas, por 
exemplo, verbalmente, falando cada número em voz alta (ou mentalmente) para 
acompanhar o progresso, utilizado com frequência para contar objetos presentes em 
vez de uma variedade de coisas no decorrer do tempo (horas, dias, semanas, etc.). 
Também pode ser por meio de marcações, com base de contagem unitária, 
registrando uma marca para cada objeto e contando seu total, o que é útil quando se 
deseja contar objetos ao longo de períodos, como o número de ocorrências de algo 
 
8 
 
durante um dia. A contagem usual é realizada em base decimal, já os computadores 
usam base binária (zeros e uns) (SILVA, 2019). 
A realização da contagem permite determinar a quantidade de elementos de 
determinado conjunto, por exemplo, o censo demográfico, que, por meio dela, sabe o 
número de elementos dos seguintes conjuntos: 
 Quantidade de pessoas que vivem em determinado estado ou cidade; 
 Quantidade de pessoas do sexo masculino e do feminino que vivem em 
determinado lugar. 
No exemplo anterior, o estado ou a cidade podem ser o conjunto da contagem, 
assim como o sexo. 
 
Exemplo: 
Qual é o número possível de placas de automóveis. 
 
Solução:O alfabeto possui 26 letras, sendo usadas 3 para placas, assim: 
 
𝑚1 = 26³ 
 
São disponibilizados 10 algarismos, sendo utilizados 4: 
 
𝑚2 = 10
4 
 
Resultando em: 
 
263 × 104 = 175.760.000 𝑝𝑜𝑠𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒𝑠 
 
3.2 Espaço amostral 
 
Em um experimento (ou fenômeno) aleatório, o conjunto formado por todos os 
resultados possíveis é chamado espaço amostral, que vamos indicar por U ou Ω 
(SILVEIRA, 2018). 
Veja os seguintes exemplos. 
 
9 
 
 Lançar uma moeda e observar a face voltada para cima: U = {cara, 
coroa}. 
 Lançar um dado e observar a face voltada para cima: U = {1, 2, 3, 4, 5, 
6}. 
 
3.3 Evento 
 
Chama-se evento todo subconjunto de um espaço amostral, ou seja, os 
resultados que poderão ocorrer em um determinado fenômeno. Resultados esses que 
queremos que aconteçam ou não (SILVEIRA, 2018). 
No lançamento de um dado, por exemplo, em relação à face voltada para cima, 
podemos ter os seguintes eventos: 
 O número é par: {2, 4, 6}. 
 O número é menor que 5: U = {1, 2, 3, 4}. 
 O número é 8: {}. 
 
Exemplo: 
Uma urna contém 10 bolas numeradas de 1 a 10. Retira-se uma bola ao acaso 
e se observa o número indicado. Descrever de forma explícita os seguintes conjuntos 
e dar o número de elementos de cada um: 
a) o espaço amostral U. 
b) o evento A: o número da bola é ímpar. 
c) o evento B: o número da bola é múltiplo de 3. 
 
Solução: 
a) O conjunto de todos os resultados possíveis é representado pelo seguinte 
espaço amostral: U = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}. O número de elementos desse 
conjunto é n(U) = 10. 
b) Se o número da bola é ímpar, temos o evento: A = {1, 3, 5, 7, 9}. O número 
de elementos desse conjunto é n(A) = 5. 
Se o número da bola é múltiplo de 3, temos o evento: B = {3, 6, 9}. O número 
de elementos desse conjunto é n(B) = 3. 
 
 
10 
 
4 EVENTOS 
 
4.1 Eventos mutuamente excludentes e eventos complementares 
 
Eventos que não podem ocorrer conjuntamente são conhecidos com eventos 
mutuamente excludentes (também chamados de eventos mutuamente 
exclusivos). Caso dois ou mais eventos sejam mutuamente excludentes, no máximo 
um deles irá ocorrer a cada vez que repetirmos o experimento. Por conseguinte, a 
ocorrência de um evento exclui a ocorrência do outro, ou de outros eventos 
(SILVEIRA, 2018). 
Considerando, por exemplo, dois lançamentos de uma moeda, esse 
experimento tem quatro resultados possíveis: cara/cara, cara/coroa, coroa/cara, 
coroa/coroa. Esses resultados são mutuamente excludentes, uma vez que um, e 
somente um, deles irá ocorrer ao lançarmos a moeda duas vezes (SILVEIRA, 2018). 
Chama-se evento complementar de um evento A e é representado por Ā o 
conjunto formado por todos os elementos do espaço amostral U que não pertencem 
ao evento A (SILVEIRA, 2018). 
No lançamento de um dado, temos o seu espaço amostral: U = {1, 2, 3, 4, 5, 
6}. Considere os eventos a seguir. 
 O evento A: o número obtido é menor que 3. 
 O evento Ā: o número obtido é maior ou igual a 3. 
 
Observe que os eventos A = {1, 2} e Ā = {3, 4, 5, 6}. Estes são complementares, 
pois, A ∩ Ā = { } e A Ā = U, a interseção (o que há de comum entre os conjuntos) entre 
os dois conjuntos resulta em um resultado vazio, visto que os dois conjuntos não 
possuem resultados em comum, e a união (unir todos os elementos dos conjuntos 
envolvidos) entre os dois conjuntos resulta no conjunto espaço amostral U. 
 
4.2 Eventos independentes e eventos dependentes 
 
Dois eventos são independentes quando a ocorrência ou a não ocorrência de 
um evento não tem efeito algum na probabilidade de ocorrência do outro evento 
(SILVEIRA, 2018). 
 
11 
 
Dois eventos são dependentes quando a ocorrência ou a não ocorrência de 
um evento afeta a probabilidade de ocorrência do outro evento (SILVEIRA, 2018). 
Os eventos independentes e dependentes são chamados de com e sem 
reposição, respectivamente. 
 Com reposição: significa o retorno do evento sorteado ao seu conjunto 
de origem. É isso que mantém a probabilidade de sorteio constante, portanto, não se 
altera a probabilidade de sorteio do evento seguinte. 
 Sem reposição: significa o não retorno do evento sorteado ou do seu 
conjunto de origem, alterando a probabilidade de sorteio do evento seguinte. 
 
Exemplo de evento independente: 
Dois lançamentos sucessivos de uma moeda não viciada são considerados 
como eventos independentes, uma vez que o resultado do primeiro lançamento não 
tem efeito algum nas probabilidades de ocorrer uma cara ou uma coroa no segundo 
lançamento (SILVEIRA, 2018). 
 
Exemplo de evento dependente: 
A retirada de duas bolas, sem reposição, de uma urna contendo 20 bolas 
numeradas de 1 a 20 são dependentes, pois as probabilidades do resultado da 
retirada da segunda bola estão diretamente ligadas a retirada da primeira bola. 
Especificamente, se na primeira bola retirada saiu a de número 10, e se não houver 
reposição, com certeza não existirá a probabilidade de que, na segunda retirada, a 
bola 10 apareça, pois esta não se encontra mais na urna, ou seja, a primeira retirada 
afetou completamente as probabilidades de retirada da segunda bola (SILVEIRA, 
2018). 
 
5 PROBABILIDADE CLÁSSICA E FREQUENTISTA 
 
Aqui será vista uma definição clássica de probabilidade (estudadas por Fermat 
e Pascal, metade do século XVII), em seguida será apresentada a definição em termos 
da frequência relativa dos eventos associados a um experimento (acontecimento) 
aleatório (DEGROOT, 2012). 
 
 
12 
 
5.1 Definição clássica 
 
Considere um espaço amostral Ω finito em que todos os seus eventos 
elementares são igualmente prováveis. Nessas condições, a probabilidade de um 
evento A⊂ Ω é calculada como a razão entre o número de casos favoráveis ao evento 
A (eventos elementares de A) e o número de casos possíveis (número de eventos 
elementares de Ω) (DEGROOT, 2012). Ou seja: 
 
𝑃(𝐴) =
nº de casos favoráveis a A
𝑛º 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑝𝑜𝑠𝑠í𝑣𝑒𝑖𝑠
=
#A
#Ω
 
 
 
Exemplo: 
 
Encontre a probabilidade de se obter um número par em um lançamento de um 
dado. 
 
Solução: 
Esse experimento tem um total de seis resultados: 1, 2, 3, 4, 5 e 6. Todos estes 
são igualmente possíveis. Considere A um evento em que um número par seja 
observado no dado. O evento A inclui três resultados possíveis: 2, 4 e 6, ou seja, 
 
𝐴 = {2,4,6} 
 
Caso qualquer um desses três números seja obtido, considera-se que o evento 
A tenha ocorrido. Assim sendo, 
 
𝑃(𝐴) =
3
6
 
 
Simplificando, ou seja, dividindo o numerador e o denominador pelo mesmo 
valor, neste caso, dividindo os dois valores por 3, obtemos: 
 
𝑃(𝐴) =
1
2
 
 
13 
 
 
Se dividirmos o valor fracionário, ou seja, 
 
1 ÷ 2 = 0,50 
 
E se multiplicarmos por 100 esse valor numérico, iremos obter o valor 
fracionário: 
 
0,50 𝑥 100 = 50% 
 
Resumindo: qualquer uma das 3 respostas são iguais (válidas) e podem ser 
apresentadas. 
1
2
= 0,50 = 50% 
 
Interpretando o resultado obtido: 
1
2
– - A cada 2 vezes que o dado for jogado, temos a probabilidade de 1 dessas 
jogadas ser o valor par. 
0,50 – A probabilidade de acontecer um evento é exatamente a metade, ou 
seja, cada vez que se joga 2 vezes o dado, a probabilidade é que a metade das vezes 
(0,5) aconteça de sair o valor par. 
50%– A probabilidade de acontecer o evento favorável, no caso números pares, 
é de exatamente 50% a cada 2 vezes que for jogado o dado. 
 
Fique atento: 
Os valores do espaço amostral: no exemplo acima, foi jogado apenas um dado. 
Como ficaria o valor do espaço amostral se jogássemos, ao mesmo tempo, 2, 3 ou 
mais dados? 
Ao jogarmos 1 dado, chegamos à conclusão de que teremos 6 possíveis 
respostas, todas as mesmas possibilidades. Mas, ao jogarmos 2 dados ao mesmo 
tempo, esse valor não será o mesmo. Vamos pensar um pouco e verificar as possíveis 
respostas: (1,1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 1), (2, 2), (2,3), (2, 4), (2, 5), (2, 
6), (3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6), (4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6), (5, 
 
14 
 
1), (5, 2), (5, 3), (5, 4), (5, 5), (5, 6), (6, 1), (6,2), (6, 3), (6, 4), (6, 5) e (6, 6). Isso totaliza 
36 possíveis respostas, mas podemos chegar a esse valor de uma maneira muito mais 
rápida, utilizando a seguinte operação: 
 
6𝑛 
 
𝑛: é a quantidade de dados que estão sendo utilizados. 
 
Dois dados: 
 
62 = 6 × 6 = 36. 
 
Três dados: 
 
63 = 6 × 6 × 6 = 216. 
 
E assim por diante. 
 
5.2 Definição frequentista 
 
Considere que um experimento aleatório seja realizado n vezes e seja nA o 
número de vezes que o evento A ocorre. A frequência relativa de A, nesse caso, é 
dada por (DEGROOT, 2012): 
 
𝑓𝑛(𝐴) =
𝑛𝐴
𝑛
=
frequência do evento A
𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑟𝑒𝑎𝑙𝑖𝑧𝑎çõ𝑒𝑠
 , 0 ≤ 𝑓𝑛(𝐴) ≤ 1 
 
Dessa forma, pode ser mostrado que a probabilidade do evento A ocorrer é 
dada por: 
 
𝑃(𝐴) = lim
n→∞
𝑓𝑛(𝐴) 
 
Ou seja, se n for grande, 𝑓𝑛 se aproxima da probabilidade do evento A ocorrer. 
 
15 
 
Exemplo: 
Considere o problema em decidir se uma moeda é honesta. Para resolver esse 
problema, considere que a moeda seja lançada 100 vezes, caso a moeda seja 
honesta, qual o número aproximado de caras que esperamos obter? 
 
Simulação de lançamentos de uma moeda honesta. 
A frequência relativa obedece às seguintes propriedades. 
1. 𝑓𝑛(𝐴): P(Ω) → ℝ 
2. 𝑓𝑛(𝐴) ∈ [0,1] 
3. 𝑓𝑛(Ω) = 1 
4. Se A,B ∈ P(Ω) são disjuntos, 
 
𝑓𝑛(𝐴UB) = 𝑓𝑛(𝐴) + 𝑓𝑛(B) 
 
5. Se A,B ∈ P(Ω) são quaisquer, 
 
𝑓𝑛(𝐴UB) = 𝑓𝑛(𝐴) + 𝑓𝑛(B) − 𝑓𝑛(𝐴 ∩ B) 
 
Como 𝑓𝑛(𝐴) se aproxima da P(A) à medida que n cresce, é intuitivo que as 
propriedades apresentadas anteriormente também satisfaçam essas propriedades. 
 
Tabela 1: Frequência relativa da variável “Face da moeda”. 
Face n = 10 n = 50 n = 100 n = 1000 
Cara 0,6 0,44 0,49 0,494 
Coroa 0,4 0,56 0,51 0,506 
 
6 AXIOMAS E PROPRIEDADES DE PROBABILIDADE 
 
A noção clássica da teoria da probabilidade, que começa com a noção de casos 
igualmente prováveis, dominou por 200 anos. Seus elementos foram postos em 
prática no início do século XVIII e permaneceram assim até o início do século XX. 
Ainda hoje a probabilidade clássica é utilizada no cálculo de probabilidades 
(DEGROOT, 2012). 
 
16 
 
No início do século XX, muitos matemáticos estavam insatisfeitos com o que 
viram como uma falta de clareza e rigor no cálculo de probabilidades. A chamada mais 
célebre de esclarecimento veio de David Hilbert. O sexto dos vinte e três problemas 
então em aberto que Hilbert apresentou ao Congresso Internacional de Matemáticos, 
em Paris, em 1900, foi para tratar axiomaticamente a teoria das probabilidades. 
A teoria matemática da probabilidade, como a conhecemos hoje, é de origem 
relativamente recente. Foi Andrei Nikolaevich Kolmogorov que axiomatiza a 
probabilidade em sua obra fundamental “Foundatins of the Theory of Probability” em 
1933. De acordo com este desenvolvimento, eventos aleatórios são representados 
por conjuntos e probabilidade é apenas uma medida padronizada definida nesses 
conjuntos (DEGROOT, 2012). 
 
6.1 Axiomas de Kolmogorov 
 
Para todo A ∈ Α que associe um número real P(A), chamado de Probabilidade 
de A, de modo que os axiomas a seguir sejam satisfeitos (DEGROOT, 2012): 
 𝑃(𝐴) ≤ 0, ∀ A ∈ A; a probabilidade de qualquer acontecimento é maior 
ou igual a zero 
 𝑃(Ω) = 1; o espaço amostral contém todas os possíveis resultados do 
experimento, assim é um evento certo 
 𝐴𝑖 ∩ 𝐴𝑗 = ∅ com i≠j então: 𝑃(∪𝑖 𝐴𝑖) = ∑ 
𝑛(∞)
𝑖=1
 
𝑃(𝐴𝑖); se dois eventos Ai e 
Aj são mutuamente exclusivos então a probabilidade de Ai ou Aj é igual a 
probabilidade de i somada à probabilidade de Aj. O mesmo vale para qualquer número 
de eventos mutuamente exclusivos. 
 
6.2 Propriedades da probabilidade 
 
 Como 𝐴 ∪ 𝐴𝑐 = Ω, o axioma 2, implica em 𝑃(𝐴 ∪ 𝐴𝑐) = 1. Já o axioma 3 
implica em 𝑃(𝐴) = 𝑃(𝐴𝑐) = 1, ou seja, 
 
𝑃(𝐴𝑐) = 1 − 𝑃(𝐴) 
 
 
 
17 
 
Exemplo: 
No lançamento de um dado comum de seis faces, a probabilidade de o 
resultado ser igual ao número 3 (evento A) é igual a 
1
6
. Qual a probabilidade de o 
resultado não ser o número 3 (evento complementar de A)? 
 
Solução: 
O evento complementar de A é formado por todos os resultados possíveis, que 
não o evento A. Sendo assim, AC = {1, 2, 4,5,6), e a probabilidade de ocorrência de 
AC é igual a: 
 
𝑃(𝐴𝑐) = 1 − 
1
6
 
𝑃(𝐴𝑐) = 
5
6
 
 
 Da teoria de conjuntos temos que A ∪ B = (A ∩ 𝐵𝑐) ∪ (A ∩ B) ∪ (𝐴𝑐 ∩
 B). Onde A ∩ 𝐵𝑐, A ∩ B e 𝐴𝑐 ∩ B são mutuamente exclusivos, pelo axioma 3 temos 
que: 
 
P(A ∪ B) = P(A ∩ 𝐵𝑐) + P(A ∩ B) + P(𝐴𝑐 ∩ B) 
Mas, A = (A ∩ 𝐵𝑐) ∪ (A ∩ B) e B = (𝐴𝑐 ∩ B) ∪ A ∩ B 
Assim: P(A) = P(A ∩ 𝐵𝑐) + P(A ∩ B) e P(B) = P(𝐴𝑐 ∩ B) + P(A ∩ B) 
 
Substituindo estas expressões na equação acima: 
 
P(A ∪ B) = P(A) + P(B) − P(A ∩ B) 
 
Exemplo: 
Sejam A, B e C três eventos quaisquer definidos em um espaço amostral S. 
Então, P(A) + P(B) + P(C) − P(A ∩ B) − (A ∩ C) − (B ∩ C) refere-se à probabilidade 
da ocorrência de: 
a) um ou dois dos eventos; 
b) exatamente um dos eventos; 
c) pelo menos um dos eventos; 
 
18 
 
d) no máximo dois eventos; 
e) pelo menos dois eventos. 
 
Solução: 
P(A ∪ B ∪ C) = P(A) + P(B) + P(C) − P(A ∩ B) − (A ∩ C) − (B ∩ C) + P(A ∩ B ∩ C) 
P(A) + P(B) + P(C) − P(A ∩ B) − (A ∩ C) − (B ∩ C) = P(A ∪ B ∪ C) − P(A ∩ B ∩ C) 
Portanto, a expressão do enunciado é igual a P(A ∪ B ∪ C) − P(A ∩ B ∩ C). 
Desenhando o diagrama, podemos visualizar melhor essa probabilidade: 
 
 
 
A área hachurada representa a expressão P(A ∪ B ∪ C) − P(A ∩ B ∩ C). Ou 
seja, refere-se à probabilidade de ocorrer A ou B ou C ou (A ∩ B) ou (A ∩ C) ou (B ∩
C). Ou seja, um ou dois eventos, tendo como alternativa correta A. 
 
 Se ∅ é o evento impossível: 
 
P(∅) = 0 
 
Exemplo: 
Se P(Ω) = P(∅ ∪ Ω) = P(∅) + P(Ω) = 1 
Isso implica, P(∅) = 1 − P(Ω) = 1 − 1 = 0 
 
 Se A implica B, ou seja A ⊂ B, então: 
 
P(A) ≤ 𝑃(𝐵) 
 
 
19 
 
7 PROBABILIDADE CONDICIONAL E INDEPENDÊNCIA 
 
A probabilidade condicional refere-se à probabilidade de um evento ocorrer 
com base em um anterior e, evidentemente, ambos precisam ser conjuntos não vazios 
pertencentes a um espaço amostral finito (BRITO, 2018). 
Por exemplo, se no lançamento simultâneo de dois dados obtêm-se números 
em suas faces superiores, qual a probabilidade de que a soma desses números seja 
8, desde que seus resultados sejam ímpares? Veja que ela está condicionada aos 
resultados ímpares nos dois dados, logo, lançamentos que têm um ou dois números 
pares na face superior podem ser descartados, havendo uma redução no espaço 
amostral. 
O novo espaço amostral é composto dos seguintes pares: 
 
{1,1}; {1,3}; {1,5}; {3,1}; {3,3}; {3,5}; {5,1}; {5,3} e {5,5} 
 
Desses, apenas {3,5} e {5,3} possuem soma 8. Logo, a probabilidade de se 
obter 8 no lançamento de dois dados é de 2/9, considerando que os resultados obtidos 
são ambos ímpares. 
Para entender melhor a probabilidade condicional, considere um espaço 
amostral S finito não vazio e um evento A de S, se quiser outro evento B desse espaço 
S, a nova probabilidade é indicada por P(B|a), denominada como a probabilidade 
condicional de B em relação ao A. Assim, ela formará um novo espaço amostral, pois 
agora este será A e os elementos do evento B pertencerão a B ∩ A, como você pode 
ver a seguir. 
 
 
Fonte: Brito (2018, documento on-line). 
 
 
20 
 
Há diversos casos para ilustrar a probabilidade condicional, por exemplo, as 
chances de um bebê nascer menina é um evento A, mas a probabilidade de essa 
criança ter doença celíaca (intolerância ao glúten) se trata de um evento B. Essa 
situação pode ser considerada uma probabilidade condicional, porque a doença 
celíaca atinge maismulheres do que homens. Se as chances fossem iguais para 
pessoas dos dois gêneros, esses eventos não estariam condicionados e seriam uma 
probabilidade marginal ou incondicional, pois a possibilidade de que um deles ocorra 
não influencia na do outro (BRITO, 2018). 
Assim, se os eventos forem independentes, a probabilidade não será 
condicional, pois você representa a probabilidade condicional com a seguinte 
expressão: P(A|B), que se lê “a probabilidade condicional de A em relação a B” 
(BRITO, 2018). Já a fórmula para calculá-la é: 
 
P(A|B) =
𝑃(𝐴 ∩ 𝐵)
𝑃(𝐵)
 
 
Exemplo: 
Maria ganhou de João nove pulseiras, quatro delas de prata e cinco de ouro. 
Maria ganhou de Pedro onze pulseiras, oito delas de prata e três de ouro. Ela guarda 
todas essas pulseiras – e apenas essas – em sua pequena caixa de joias. Uma noite, 
arrumando-se apressadamente para ir ao cinema com João, Maria retira, ao acaso, 
uma pulseira de sua pequena caixa de joias. Ela vê, então, que retirou uma pulseira 
de prata. Levando em conta tais informações, a probabilidade de que a pulseira de 
prata que Maria retirou seja uma das pulseiras que ganhou de João é igual a? 
 
Solução: 
Verificamos que a condição é ser uma pulseira de prata, por isso, precisamos 
saber o total de pulseiras de prata que Maria ganhou: 12. 
Ela quer saber a probabilidade de que essa pulseira que ela está pegando no 
escuro tenha sido dada de presente pelo João. Então, precisamos verificar quantas 
pulseiras de prata João deu de presente: 4. 
 
Utilizando a fórmula: 
 
 
21 
 
P(A|B) =
4
12
 
P(A|B) =
1
3
 
P(A|B) = 0,3333 × 100 
P(A|B) = 33,33% 
 
Quando dois eventos são independentes, a probabilidade de ocorrerem ao 
mesmo tempo é dada por: 
 
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) × 𝑃(𝐵) 
 
Já se você colocar isso na fórmula da probabilidade condicional, encontrará: 
 
P(A|B) =
𝑃(𝐴 ∩ 𝐵)
𝑃(𝐵)
 
P(A|B) =
𝑃(𝐴) × 𝑃(𝐵) 
𝑃(𝐵)
 
P(A|B) = 𝑃(𝐴) 
 
Portanto, a probabilidade de A ocorrer não se altera. 
 
Fique atento: 
Salienta-se que a independência de eventos não deve ser confundida com 
eventos disjuntos ou eventos mutuamente exclusivos. Dois eventos, cada um com 
probabilidade não nula, mutuamente exclusivos, serão dependentes desde que a 
ocorrência de um interfira na ocorrência do outro. Da mesma forma, se A e B são 
independentes e P(A) > 0, P(B) > 0, então A e B não podem ser mutuamente 
exclusivos (BRITO, 2018). 
 
Exemplo: 
Uma urna contém 8 bolas, das quais três são vermelhas e as restantes são 
brancas. Qual a probabilidade de serem retiradas duas bolas, sucessivamente, sem 
reposição, sendo a 1ª vermelha e a 2ª branca? 
 
22 
 
Solução: 
Calculando a probabilidade de ocorrer o primeiro evento, em que dentro da urna 
há 8 bolas (espaço amostral) e queremos sortear uma bola vermelha, tendo, dentro 
da urna, um total de 3 dessa cor (evento): 
 
P(A) =
3
8
 
 
Calculando a probabilidade de ocorrer o segundo evento, e sabendo que não 
houve reposição, dentro da urna há 7 bolas (espaço amostral), e queremos sortear, 
desta vez, uma bola branca, sabendo que, dentro dessa urna, há um total de 5 bolas 
dessa cor (evento): 
 
P(B) =
5
7
 
 
Calculando a probabilidade de que os eventos ocorram como fora solicitado, 
utilizaremos a fórmula da probabilidade dos eventos independentes: 
 
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) × 𝑃(𝐵) 
𝑃(𝐴 ∩ 𝐵) =
3
8
 × 
5
7
 
𝑃(𝐴 ∩ 𝐵) =
15
56
= 0,2678 
𝑃(𝐴 ∩ 𝐵) = 0,2678 × 100 
𝑃(𝐴 ∩ 𝐵) = 26,78% 
 
8 TEOREMA DE BAYES 
 
O teorema de Bayes é uma fórmula matemática usada para o cálculo da 
probabilidade de um evento dado que outro já ocorreu, o que se chama probabilidade 
condicional. Para esse teorema, precisa-se ter alguma informação anterior ou saber 
que determinado evento já ocorreu e qual sua probabilidade. Baseada nessa 
inferência bayesiana, surge a expressão grau de crença, ou a confiança em algum 
evento anterior (SILVA, 2019). 
 
23 
 
Uma das muitas aplicações do teorema de Bayes é a inferência bayesiana, uma 
abordagem particular da inferência estatística. Assim, quando for aplicado, as 
probabilidades envolvidas nele podem ter diferentes interpretações de probabilidade 
(SILVA, 2019). 
Com a interpretação bayesiana, o teorema expressa como a probabilidade de 
um evento (ou seu grau de crença) deve ser alterada após considerar as evidências 
sobre sua ocorrência. Apesar do pioneirismo, essa abordagem caiu em esquecimento 
nas ciências e foi preterida pela frequentista, que ainda é hegemônica, mas devido ao 
grande aumento na capacidade de processamento dos computadores, a bayesiana 
renasceu com muita força (SILVA, 2019). 
Para calcular pelo teorema de Bayes a probabilidade de um evento A dado que 
um B ocorreu, P(A|B), tem-se a seguinte fórmula: 
 
𝑃(𝐴|𝐵) =
𝑃(𝐵|𝐴) × 𝑃(𝐴)
𝑃(𝐵)
 
 
Considerando os eventos A e B permutáveis, o termo é igual a e, dessa forma, 
pode ser escrita como: 
 
𝑃(𝐵 ∩ 𝐴) = 𝑃(𝐵|𝐴) × 𝑃(𝐴) 
 
Por fim, tem-se a seguinte relação: 
 
𝑃(𝐴|𝐵) =
𝑃(𝐵|𝐴)
𝑃(𝐵)
× 𝑃(𝐴) 
 
Nesse caso, a probabilidade 𝑃(𝐴) é denominada probabilidade a priori, isto é, 
a informação sobre o evento A antes que se soubesse algo sobre o evento B. Mais 
adiante, quando se tenha conhecimento sobre B, a probabilidade relacionada ao 
evento A deve ser atualizada pela probabilidade do evento B. A probabilidade 𝑃(𝐴|𝐵) 
é agora denominada probabilidade a posteriori. Sendo a razão 
𝑃 (𝐵|𝐴)
𝑃(𝐵)
o fator de 
atualização das informações sobre o evento A. 
 
24 
 
Para compreender com mais detalhes o Teorema de Bayes é necessário 
entender a regra da probabilidade total (RPT), que expressa a probabilidade total de 
um resultado por meio de vários eventos disjuntos (SILVA, 2019). 
Inicialmente, considere o problema em encontrar o valor para a probabilidade 
do evento A. 
 
 
 
Considere agora que seja possível particionar o espaço Ω em partes Bi sem 
intersecções entre si. Note que a união das partes Bi formam Ω. 
 
 
 
A probabilidade A pode ser determinada pela intersecção entre o evento A e 
cada partição Bi. 
 
 
25 
 
 
 
 
 
Nos espaços amostrais Ω formados pela união de partes Bi disjuntas 
(mutuamente exclusivas) a probabilidade de qualquer evento de Ω é: 
 
𝑃(𝐴) = 𝑃(𝐴 ∩ 𝐵1) + 𝑃(𝐴 ∩ 𝐵2)+. . . +𝑃(𝐴 ∩ 𝐵𝑁) 
𝑃(𝐴) = 𝑃(𝐴|𝐵1) × 𝑃(𝐵1) + 𝑃(𝐴|𝐵2) × 𝑃(𝐵2)+. . . +𝑃(𝐴|𝐵𝑁) × 𝑃(𝐵𝑁) 
 
Dessa forma, a probabilidade do evento A pode ser representado por: 
 
𝑃(𝐴) = ∑ 𝑃(𝐴|𝐵𝑖) × 𝑃(𝐵𝑖)
𝑛
𝑖=1
 
 
Exemplo: 
Um amigo muito próximo lhe pediu R$1.000,00 emprestado (Vemprestado) para 
solução financeira de uma emergência. Você é um investidor nato e não suporta a 
ideia de perder o patrimônio conquistado. Embora você decida ajudar seu amigo, você 
 
26 
 
está preocupado com o risco do não pagamento do empréstimo e, por isso, cobrará 
juros (Tjuros) sobre o montante inicial emprestado: 
 
𝑉𝑑𝑒𝑣𝑜𝑙𝑣𝑖𝑑𝑜 = 𝑉𝑒𝑚𝑝𝑟𝑒𝑠𝑡𝑎𝑑𝑜 × (1 + 𝑇𝑗𝑢𝑟𝑜𝑠) 
 
Você percebeu que o valor devolvido (Vdevolvido) do seu “investimento” ao final 
do período de empréstimo está sujeito às “variações do mercado”, que, nesse caso, 
estão relacionadas a um evento incerto do não pagamento da dívida. Com isso, você 
define o valor esperado (Vesperado) como o valor recebido ao final do período 
considerando tal incerteza. 
Seja A o evento indicativo do pagamento do seu amigo, então o valor esperado 
(Vesperado) ao final do período de empréstimo é a média ponderada entre as 
possibilidades de valores devolvidos, Vdevolvido e 0, e suas respectivas 
probabilidades, 𝑃(𝐴) e 1 − 𝑃(𝐴): 
 
𝑉𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜 = 𝑉𝑑𝑒𝑣𝑜𝑙𝑣𝑖𝑑𝑜 × 𝑃(𝐴) + 0 × [1 + 𝑃(𝐴)] 
𝑉𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜 = [𝑉𝑒𝑚𝑝𝑟𝑒𝑠𝑡𝑎𝑑𝑜 × (1 + 𝑇𝑗𝑢𝑟𝑜𝑠)] × 𝑃(𝐴) + 0 × [1 + 𝑃(𝐴)] 
𝑉𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜 = [𝑉𝑒𝑚𝑝𝑟𝑒𝑠𝑡𝑎𝑑𝑜 × (1 + 𝑇𝑗𝑢𝑟𝑜𝑠)] × 𝑃(𝐴) 
 
Da relação anterior, é possível obter a taxa de juros adotada:𝑇𝑗𝑢𝑟𝑜𝑠 =
𝑉𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜
𝑉𝑒𝑚𝑝𝑟𝑒𝑠𝑡𝑎𝑑𝑜 × 𝑃(𝐴)
− 1 
 
Você decide que o valor dos juros será determinado de maneira que o valor 
esperado seja igual ao investimento inicial, isto é, 𝑉𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜 = 𝑉𝑒𝑚𝑝𝑟𝑒𝑠𝑡𝑎𝑑𝑜 . Dessa 
forma, a taxa de juros utilizada será: 
 
𝑇𝑗𝑢𝑟𝑜𝑠 =
1000
1000 × 𝑃(𝐴)
− 1 =
1
𝑃(𝐴)
− 1 
 
Você utilizará uma proxy o evento A baseado no cadastro nacional de bons ou 
maus pagador. Infelizmente, você não tem acesso à esse cadastro. No entanto, você 
 
27 
 
sabe que, assim como você, seu amigo possui conta no banco ABC, que regularmente 
publica informações agregadas sobre as operações com os clientes. 
Tal banco realizou um levantamento informando que 1 em cada 10 clientes 
possuem registo ativo no cadastro nacional de maus pagadores. Dessa forma, a 
probabilidade do pagamento do seu amigo se concretizar é de 𝑃(𝐴) =
9
10
= 90%. 
Dito isso, utilizando a taxa de juros que você deve adotar é: 
 
𝑇𝑗𝑢𝑟𝑜𝑠 =
1
0,9
− 1 
𝑇𝑗𝑢𝑟𝑜𝑠 = 11.111% 
 
Dessa forma, a priori, seu amigo deveria lhe pagar R$ 1.111,11 ao final do 
período para garantir que, em média e desconsiderando inflação, seu investimento 
inicial seja recuperado. 
Nos informativos do banco também consta que 2 em cada 4 maus pagadores 
atrasam o pagamento do boleto, enquanto dentre os bons pagadores, apenas 1 a 
cada 20 atrasam suas obrigações. 
Durante a conversa, seu amigo te informou que possui boletos atrasados nesse 
banco. Baseado nessa nova informação, qual a probabilidade do seu amigo ser mau 
pagador dado que atrasou o pagamento? Qual a nova taxa de juros que você deve 
adotar para proteger seu “investimento”? 
O Teorema de Bayes responde diretamente essa pergunta. Antes disso, vamos 
modelar os eventos e identificar suas probabilidades. Considere o evento A o cliente 
ser um bom pagador e o evento B o atraso do pagamento de um boleto da obrigação 
financeira nesse banco. 
 Ser bom pagador: evento A. Sendo 𝑃(𝐴) =
9
10
 
 Ser mal pagador: evento Ac. Sendo 𝑃(𝐴𝑐) = 1 − 𝑃(𝐴) =
1
10
 
 Atraso no pagamento: evento B. Sendo 𝑃(𝐵) = 𝑛ã𝑜 𝑖𝑛𝑓𝑜𝑟𝑚𝑎𝑑𝑜 
 Atraso no pagamento dos bons pagadores: evento B|A. Sendo 𝑃(𝐵|𝐴) =
1
20
 
 Atraso no pagamento dos mal pagadores: eventos B|Ac. 
Sendo 𝑃(𝐵|𝐴𝑐) =
2
4
 
 
28 
 
 Probabilidade do seuamigo ser bom pagador caso tenha atrasado o 
pagamento. 𝑃(𝐴|𝐵) = ? 
 
Utilizando o Teorema de Bayes e a RPT em 𝑃(𝐵), tem-se que: 
 
𝑃(𝐴|𝐵) =
𝑃(𝐵|𝐴)
𝑃(𝐵)
× 𝑃(𝐴) 
𝑃(𝐴|𝐵) = ⌊
𝑃(𝐵|𝐴)
𝑃(𝐵|𝐴) × 𝑃(𝐴) + 𝑃(𝐵|𝐴𝑐) × 𝑃(𝐴𝑐)
⌋ × 𝑃(𝐴) 
𝑃(𝐴|𝐵) = ⌊
1
20
1
20 ×
9
10 +
2
4 ×
1
10
⌋ ×
9
10
 
𝑃(𝐴|𝐵) = ⌊
38
20
⌋ ×
9
10
 
𝑃(𝐴|𝐵) = 47,36% 
 
Dessa forma, após saber que ele não pagou o boleto do banco, a probabilidade 
de ser bom pagador a posteriori reduz em quase a metade da priori. Dessa forma, a 
nova taxa de juros é 
1
0,4736
− 1 = 111.111% fazendo com que o valor cobrado seja de 
R$ 2.111,11. 
 
9 VARIÁVEL ALEATÓRIA 
 
Uma variável aleatória X é uma função com valores numéricos, cujo valor é 
determinado por fatores de chance, ou seja, podem estar sujeitos à influência conjunta 
dos fatores associados ao experimento que interagem conjuntamente. Tal variável 
pode ser discreta ou contínua (SILVA, 2015). 
 
9.1 Variável aleatória discreta 
 
Uma variável aleatória X é dita discreta quando puder assumir apenas valores 
inteiros ao longo de uma escala. Se, para cada um dos valores da variável aleatória 
discreta, teremos a sua probabilidade definida por (SILVA, 2015): 
 
 
29 
 
𝑓(𝑥) = 𝑃(𝑋 = 𝑥) 
 
Onde: 
𝑓(𝑥): função matemática de x; 
𝑃(𝑋 = 𝑥) : probabilidade da variável aleatória X em determinado ponto da 
escala x. 
 
Como estamos lidando com um valor discreto do espaço amostral da variável 
em estudo, para, teremos apenas valores inteiros (SILVA, 2015). 
A função de probabilidade da variável aleatória discreta também é chamada 
função massa de probabilidade (FMP) e satisfaz os seguintes pressupostos: 
 
0 ≤ 𝑓(𝑥) ≤ 1 
∑ 𝑓(𝑥𝑖) = 1 
 
Por exemplo, uma moeda equilibrada é lançada duas vezes. A variável X é o 
número de caras nesses lançamentos. O espaço amostral é descrito por C (coroa) e 
K (cara). 
 
Ω = (CC, CK, KC, KK) 
X = 0 ⇾ f(0) = P(CC) =
1
4
 
X = 1 ⇾ f(1) = P(CK × KC) =
2
4
 
X = 2 ⇾ f(2) = P(KK) =
1
4
 
 
x 0 1 2 
f(x) 1
4
 
2
4
 
1
4
 
 
 
30 
 
9.1.1 Função de distribuição acumulada de probabilidade 
 
A função distribuição ou função distribuição acumulada de probabilidade de 
uma variável aleatória discreta X é definida, para qualquer número real 𝑥, pela 
seguinte expressão (SILVA, 2015): 
 
𝐹(𝑥) = 𝑃(𝑋 ≤ 𝑥) 
 
9.1.2 Variável aleatória discreta média ou esperança 
 
Dada uma variável aleatória discreta, assumindo os valores x1,x2,..., xn, 
chamamos valor médio ou esperança de X ao valor (SILVA, 2015): 
 

𝑥
= 𝐸(𝑋) = ∑ 𝑥𝑖𝑝(𝑥𝑖)
𝑛
𝑖=1
 
 
9.1.3 Variância e desvio padrão 
 
Chamamos de variância de uma variável aleatória discreta ao valor (SILVA, 
2015): 
 
𝜎𝑥
2 = 𝑉(𝑋) = ∑(𝑥𝑖− 𝑥)² × 𝑝(𝑥𝑖)
𝑛
𝑖=1
 
𝜎𝑋 = √𝑉(𝑋) é 𝑜 𝑑𝑒𝑠𝑣𝑖𝑜 𝑝𝑎𝑑𝑟ã𝑜 𝑑𝑒 𝑋 
 
9.2 Variável aleatória contínua 
 
É o tipo de variável que assume todos os valores em um intervalo de números. 
A distribuição de probabilidade de X é descrita por uma curva de densidade. A 
distribuição de uma variável aleatória contínua associa as probabilidades às áreas sob 
uma curva de densidade f(x) (SILVA, 2015). Neste caso, os valores de X pertencem 
ao conjunto dos reais. 
Condições: 
a) 𝑓(𝑥) ≥ 0 
 
31 
 
b) ∫ 𝑓(𝑡)𝑑𝑡 = 1
+∞
−∞
 
9.2.1 Função de distribuição acumulada de probabilidade 
 
Dada uma variável aleatória. X com função densidade de probabilidade f(x), 
podemos definir a sua função de distribuição acumulada (FDA), F(x) como: 
 
𝐹(𝑥) = ∫ 𝑓(𝑡)𝑑𝑡
𝑥
−∞
 
 
9.2.2 Variável aleatória contínua média ou esperança 
 
Dada uma variável aleatória. contínua, assumindo os valores num intervalo de 
números reais, chamamos valor médio ou esperança de X ao valor: 
 
𝜇𝑥 = 𝐸(𝑋) = ∫ 𝑡𝑓(𝑡)𝑑𝑡
+∞
−∞
 
 
9.2.3 Variância e desvio padrão 
 
Chamamos de variância de uma variável aleatória. contínua ao valor: 
 
𝜎𝑥
2 = 𝑉(𝑋) = ∫ (𝑡 − 𝜇𝑥)² × 𝑓(𝑡)𝑑𝑡
+∞
−∞
 
𝜎𝑋 = √𝑉(𝑋) é 𝑜 𝑑𝑒𝑠𝑣𝑖𝑜 𝑝𝑎𝑑𝑟ã𝑜 𝑑𝑒 𝑋 
 
10 DISTRIBUIÇÕES DISCRETAS 
 
Muitas vezes, ficar pensando em espaço amostral e todas as possibilidades de 
funções pode ser complicado e desnecessário. Por esse motivo, algumas distribuições 
foram criadas por sua frequência de uso e seu uso ser útil em variáveis com 
comportamentos similares e predefinidos. Essas distribuições têm funções 
matemáticas predefinidas (SILVA, 2015). 
 
32 
 
 
10.1 Uniforme 
 
Uma variável aleatória X tem distribuição de uniforme discreta com parâmetro 
n se Im(X) é um conjunto finito com n elementos e a probabilidade de X assumir 
qualquer um do n elementos é a mesma, independente do elemento (SILVA, 2015). 
Suponha que seu professor de estatística decida dar aos alunos um livro 
próprio como um presente. Como ele não queria favorecer nenhum aluno em 
particular, decidiu selecionar aleatoriamente o vencedor entre os 45 alunos da turma. 
Para tanto, numerou os nomes dos alunos de 1 a 45, escreveu esses números em 
pedaços iguais de papel, dobrou-os ao meio para torná-los invisíveis e, em seguida, 
sorteou um deles. Qual é a probabilidade de você ganhar este livro? Qual é a 
probabilidade de o aluno com a pontuação mais baixa no primeiro teste vencer? Qual 
é a pontuação mais alta? 
As coisas importantes a serem observadas neste exemplo são as seguintes: O 
professor tomou todas as precauções necessárias, especialmente não favorecendo 
nenhum aluno. Isso significa que todos os alunos têm chances iguais de ganhar este 
livro. Portanto, temos um exemplo de uma distribuição discreta uniforme. 
Note que,em uma distribuição discreta uniforme, todos os valores são 
igualmente prováveis. Veja que o parâmetro n é o número de valores que a variável 
aleatória pode assumir e por isso n pode ser qualquer valor no conjunto ℕ. Chamamos 
de espaço paramétrico o conjunto de valores que o parâmetro de uma distribuição 
pode assumir. Nesse caso, o espaço paramétrico para o parâmetro n é o conjunto dos 
números naturais, isto é, ℕ (SILVA, 2015). 
Vamos denotar a distribuição uniforme discreta com parâmetro n por Unif(n). 
Nesse caso, se quisermos indicar que uma variável aleatória X segue a distribuição 
Uniforme Discreta com parâmetro n podemos simplesmente escrever: X ∼ Unif(n) (lê-
se: a variável aleatória X tem distribuição uniforme discreta com parâmetro n) (SILVA, 
2015). 
Seja X ∼ Unif(n) e suponha Im(X) = {x1,x2,...,xn}. Logo a sua função de 
probabilidade é definida por: 
 
𝑝𝑋(𝑥𝑖) = 𝑃(𝑋 = 𝑥𝑖) =
1
𝑛
 ∀𝑖= 1,2, … , 𝑛 
 
33 
 
 
Na figura a seguir estão os gráficos da função de probabilidade e função de 
distribuição de uma variável aleatória discreta. Veja que como a probabilidade 
associada a cada elemento 𝑥𝑖 de Im(X) é o mesmo ∀𝑖, os degraus no gráfico da função 
de distribuição tem mesmo tamanho. 
 
 
 
 Média: 𝐸(𝑋) =
1
𝑛
× 𝑥1 +
1
𝑛
× 𝑥2 + ⋯ +
1
𝑛
× 𝑥𝑛 = �̅� 
 Variância: 𝑉𝑎𝑟(𝑋) = 𝐸[𝑋 − 𝐸(𝑋)]2 =
1
𝑛
× (𝑥1 − �̅�)² +
1
𝑛
× (𝑥2 − �̅�)² +
⋯ +
1
𝑛
× (𝑥𝑛 − �̅�)² = 𝜎𝑥
2 
 
Exemplo: 
Considere o lançamento de uma moeda. Vamos definir a seguinte variável 
aleatória X associada a esse experimento: 
 
𝑋 = {
0, se ocorre cara
1, se ocorre coroa
 
 
Verifique se X é variável aleatória uniforme discreta e calcule sua média e 
variância. 
 
Solução: 
Para que essa variável aleatória tenha distribuição uniforme, é necessário 
supor que a moeda seja honesta e, nesse caso, 
 
 
34 
 
𝑃𝑥(0) = 𝑃𝑥(1) =
1
2
 
𝐸(𝑋) =
0 + 1
2
=
1
2
 
𝑉𝑎𝑟(𝑋) =
1
2
× (0 − 
1
2
)
2
+
1
2
× (1 − 
1
2
)
2
= 
1
2
×
1
4
+
1
2
×
1
4
=
1
4
 
 
10.2 Bernoulli 
 
Um ensaio de Bernoulli, ou experimento de Bernoulli, é um experimento 
aleatório com apenas dois resultados possíveis; por convenção, um deles é chamado 
“sucesso” e o outro, “fracasso” (SILVA, 2015). 
Considere o lançamento de uma moeda. A característica de tal experimento 
aleatório é que ele possui apenas dois resultados possíveis. Uma situação análoga 
surge quando da extração da carta de um baralho, em que o interesse está apenas 
na cor (preta ou vermelha) da carta sorteada. 
Suponha que seja realizado um ensaio de Bernoulli e, baseado nesse 
experimento, seja definida a variável aleatória X: 
 
𝑋 = {
1, se ocorre sucesso
0, se ocorre fracasso
 
 
Uma variável aleatória X tem distribuição de Bernoulli com parâmetro p se ela 
é uma variável indicadora de algum evento, denominado “sucesso”, com probabilidade 
p de ocorrência (SILVA, 2015). 
Vamos denotar a distribuição de Bernoulli com parâmetro p por Bern(p). Nesse 
caso, se quisermos indicar que uma variável aleatória X segue a distribuição de 
Bernoulli com parâmetro p podemos simplesmente escrever: X ∼ Bern(p) (lê-se: a 
variável aleatória X tem distribuição de Bernoulli com parâmetro p) (SILVA, 2015). 
A função de probabilidade de X ∼ Bern(p) pode também ser escrita da seguinte 
forma: 
𝑝𝑥(𝑥) = 𝑃(𝑋 = 𝑥) = 𝑝
𝑥(1 − 𝑝)1−𝑥 𝑥 = 0,1 
 
Verifique que 𝑃(𝑋 = 1) = 𝑝 e 𝑃(𝑋 = 0) = 1 − 𝑝 . Já a sua função de 
distruibuição acumulada é dada por: 
 
35 
 
 
𝐹𝑋(𝑥) {
0 𝑠𝑒 𝑥 < 0 
1 − 𝑝 𝑠𝑒 0 ≤ 𝑥 < 1
1 𝑠𝑒 𝑥 ≥ 1
 
 
Na figura, temos os gráficos da função de probabilidade e da função de 
distribuição acumulada de uma variável de Bernoulli. Como Im(X) é um conjunto com 
apenas dois elementos, Im(X) = {0, 1}, a função de distribuição de X só tem dois pontos 
de descontinuidade, em 0 e em 1. 
 
 
 
 Média: 𝐸(𝑋) = 𝑝 
 Variância: 𝑉𝑎𝑟(𝑋) = 𝑝 × (1 − 𝑝) 
 
Exemplo: 
Considere o lançamento de uma moeda. Vamos definir a seguinte variável 
aleatória X associada a esse experimento: 
 
𝑋 = {
0, se ocorre cara
1, se ocorre coroa
 
 
Seja p a probabilidade de cara, 0 < p < 1. Já vimos que se 𝑝 =
1
2
 então X é 
uniforme discreta. Encontre a distribuição de X qualquer que seja o valor de p. 
 
Solução: 
 
36 
 
Como Im(X) = {0, 1}, X tem distribuição de Bernoulli com parâmetro p, qualquer 
que seja p. Nesse caso o “sucesso” é definido como a saída cara, e ocorre com 
probabilidade p, e o “fracasso” a saída coroa. 
Note que se 𝑝 =
1
2
 X pode ser considerada uma v.a. de Bernoulli ou uniforme 
discreta, para os outros valores de p X só pode ser considerada v.a. de Bernoulli. 
Nesse caso, a Bernoulli com parâmetro 𝑝 =
1
2
 é equivalente à distribuição uniforme. 
 
10.3 Binomial 
 
A distribuição binomial é utilizada quando temos um número de repetições de 
um experimento, uma probabilidade de sucesso associada ao acontecimento positivo 
do que estamos estudando e uma probabilidade de fracasso sobre esse mesmo 
evento. São situações em que pode haver sucesso ou não, e nenhuma outra hipótese 
é permitida como o número de caras em 50 lançamentos de uma moeda (SILVA, 
2015). 
Então, temos um experimento com espaço amostral associado, além de 
repetições desse experimento. Temos, também, p probabilidade de um evento desse 
espaço amostral ocorrer em cada uma das repetições do experimento (SILVA, 2015). 
Na distribuição binomial, o evento ocorre ou não — temos somente essas duas 
opções. Então, se temos uma probabilidade p desse evento ocorrer, temos uma 
probabilidade 𝑞 = 1 − 𝑝 desse evento não ocorrer (SILVA, 2015). 
Costuma-se denominar como p sendo a probabilidade de sucesso e q como 
sendo a probabilidade de fracasso. Vale ressaltar que, dependendo do evento que 
estejamos estudando, o sucesso não necessariamente seja uma afirmativa positiva. 
Quando utilizamos o termo sucesso, estamos dizendo que é a probabilidade de 
sucesso de ocorrer o evento em particular que estamos investigando, 
independentemente de ele ter um resultado considerado positivo ou não (SILVA, 
2015). 
A forma da distribuição binomial é demonstrada no gráfico da figura, a seguir, 
considerando 60 repetições de um experimento e uma probabilidade de sucesso de 
15%. Anotamos uma distribuição binomial por B(n,p), no caso do gráfico B(20;0,15). 
 
 
37 
 
 
 
A fórmula da função matemática para cálculo de uma distribuição binomial é 
dada por: 
 
𝑓(𝑥) = 𝑃(𝑋 = 𝑥) = ( 𝑥
𝑛) × −𝑝𝑥 × 𝑞𝑛−𝑥 
 
Onde: 
𝑥: é o valor do espaço amostral que se quer calcular a probabilidade; 
𝑛: é o número de repetições; 
𝑝: é a probabilidade de sucesso; 
𝑞 = 1 − 𝑝: é a probabilidade de fracasso. 
 
Fique atento: 
Observe que, na fórmula, temos o termo ( 𝑥
𝑛). Isso é resolvido por análise 
combinatória e significa 𝑛 combinação 𝑥, ou seja: ( 𝑥
𝑛) = 
𝑛!
𝑥! ×( 𝑛− 𝑥)!
 em que o ponto de 
exclamação significa fatorial. 
Em algumas calculadoras científicas, a tecla para a resolução desse termo da 
função é nCr. 
 
Por exemplo, atualmente, sabemos que as redes sociais são utilizadas para 
comercialização de produtos. Sabe-se, por uma pesquisa realizada, que cerca de 15% 
dos itens postados são efetivamente vendidos. Primeiramente, queremos saber a 
probabilidade de, pelo menos, 2 itens serem vendidos em um dia que 10 itens foram 
 
38 
 
postados para venda. Os valores que pode assumir são x = (2,3,4,5,6,7,8,9,10). Para 
não precisarmos calcular todas essas probabilidades, podemos fazer uso da 
propriedade do complementar e tirar do espaço amostral os valores que não fazem 
parte dessa sentença e têm probabilidade 1. 
 
𝑃(𝑋 ≥ 2) = 1 − 𝑃(𝑋 < 2) = 1 − (𝑃(𝑋 = 0) + 𝑃(𝑋 = 1) = 
1 − (( 0
10) × 0,150 × 0,8510−0 + ( 0
10) × 0,151 × 0,8510−1) = 0,4557 = 45,57% 
 
A segunda questão é a probabilidade de vender umproduto. Para isso, 
calculamos apenas x = 1. 
 
𝑃(𝑋 = 1) = ( 0
10) × 0,151 × 0,8510−1 = 0,3474 = 34,74% 
Por fim, calcularemos a probabilidade de que sejam vendidos menos de 3 
produtos. Aqui, o x pode assumir os seguintes valores: x = 0,1,2. 
 
𝑃(𝑋 < 3) = (( 0
10) × 0,150 × 0,8510−0 + ( 0
10) × 0,151 × 0,8510−1 + ( 0
10) × 0,152
× 0,8510−2) 
= 0,8202 = 82,02% 
 
10.4 Poisson 
 
Assim como a distribuição binomial, a de Poisson também conta sucessos. 
Porém, ao invés de eles serem observados em um número de repetições, são feitos 
em um intervalo contínuo de tempo ou espaço. O sucesso da distribuição Poisson é 
observado em um intervalo contínuo, e o da binomial é em um número de repetições 
(SILVA, 2015). 
Segundo Doane e Seward (2014), a distribuição de Poisson foi assim 
denominada em homenagem ao matemático francês Simèon-Denis Poisson (1781-
1840) e descreve o número de ocorrências de um evento dentro de uma unidade de 
tempo (por exemplo, minuto ou hora), escolhida aleatoriamente, ou de espaço (por 
exemplo, metro quadrados ou quilômetros lineares). Para se usar a distribuição, os 
eventos devem ocorrer aleatória e independentemente no espaço ou em tempo 
contínuo. 
 
39 
 
Por exemplo, se nossa variável X fosse número de chamadas não atendidas 
em uma central telefônica, caso observássemos essa variável em um dia que 
ocorreram 300 ligações, teríamos a proporção de chamadas não atendidas (nossa 
probabilidade de sucesso) em 300 repetições do experimento, o que caracterizaria 
uma distribuição binomial. Porém, se observássemos a quantidade de chamadas não 
atendidas em um turno de 8 horas de trabalho, teríamos a taxa de ocorrência por 8 
horas de trabalho, o que caracterizaria uma distribuição de Poisson. 
A distribuição de Poisson é representada por P(λ), sendo λ a taxa de ocorrência 
do evento em estudo da variável x. Para percebermos o comportamento da função da 
distribuição de Poisson, observaremos o gráfico resultante de uma Poisson com λ =
5 × 𝑃(5), na figura. 
 
 
 
A função matemática para o cálculo dessa distribuição é dada por: 
 
f(x) = P(X = x) =
𝑒−λ × λ𝑥
𝑥!
 
 
Onde: 
𝑥: é o valor do espaço amostral em que se quer calcular a probabilidade; 
λ: é a taxa de ocorrência. 
 
Fique atento: 
 
40 
 
Observe que, na fórmula, temos o termo 𝑒, que representa a constante Euler. 
É um valor constante, assim como o conhecido 𝜋. Para calcular a expressão 𝑒−λ nas 
calculadoras científicas, utilizamos a tecla 𝑒𝑥. 
Relembrando: o ponto de exclamação representa o fatorial. 
 
Exemplo: 
Imagine essa central telefônica e que a taxa de chamadas não atendidas em 
um turno de 8 horas é de 10 chamadas. Queremos investigar a probabilidade de não 
termos chamadas não atendidas em uma hora. 
Observem que a taxa é dada por 8 horas, mas queremos calcular a 
probabilidade por hora. e então, a primeira coisa a se fazer é descobrir a taxa por hora 
de chamadas não atendidas. Isso se resolve com uma regra de três. 
 
 10 chamadas 8 horas 
 λ 1 hora 
 
Então temos λ = 1,25. 
Agora, calcularemos a probabilidade de não termos chamada não atendida. e 
então, queremos calcular a probabilidade de x = 0. 
 
f(0) = P(X = 0) =
𝑒−1,25 × 1,250
0!
= 0,2685 = 26,85% 
 
10.5 Geométrica 
 
A distribuição geométrica discreta se aplica a uma sequência de experimentos 
independentes de Bernoulli com um evento de interesse que tem probabilidade p 
(SILVA, 2015). 
Se a variável aleatória X for o número total de ensaios necessários para 
produzir um evento com a probabilidade p, a função de massa de probabilidade (FMP) 
de X é dada por: 
 
f(x) = {p(1 − p)𝑥−1 𝑞𝑢𝑎𝑛𝑑𝑜 x ∈ {1,2,3 … } 
 
41 
 
 
E X apresenta as seguintes propriedades: 
 Média: 
1
𝑝
 
 Variância: 
1−𝑝
𝑝
 
 
Se a variável aleatória Y for o número de não eventos que ocorrem antes de o 
primeiro evento com a probabilidade p ser observado, a função de massa de 
probabilidade (FMP) de Y é dada por: 
 
f(y) = {p(1 − p)𝑦 𝑞𝑢𝑎𝑛𝑑𝑜 𝑦 ∈ {0,1,2, … } 
 
E Y apresenta as seguintes propriedades: 
 Média: 
1−𝑃
𝑝
 
 Variância: 
1−𝑝
𝑝²
 
 
Onde: 
𝑋: número total de ensaios necessários para produzir um evento, 𝑌 + 1 
𝑌: número de não eventos que ocorrem antes do primeiro evento 
𝑃: probabilidade de ocorrência de um evento em cada ensaio 
 
10.6 Hipergeométrica 
 
A distribuição hipergeométrica é usada para amostras extraídas de populações 
relativamente pequenas, sem substituição (SILVA, 2015). Por exemplo, você tem uma 
remessa de N televisores, onde N1 são bons (sucessos) e N2 são defeituosos (falha). 
Se você amostrar n televisores de N aleatoriamente, sem substituição, pode encontrar 
a probabilidade de que exatamente x dos n televisores estão bons. 
A função de massa de probabilidade (FMP) é: 
 
 𝑓(𝑥) =
(𝑁1𝑥 )× (
𝑁2
𝑛−𝑥)
𝑁
𝑛
, 𝑚á𝑥 (0, 𝑛 − 𝑁 + 𝑁1) ≤ 𝑥 ≤ 𝑚í𝑛 (𝑛, 𝑁1) 
 
 
42 
 
 Média: 𝑛 ×
𝑁1
𝑁
 
 Variância: 𝑛 × (
𝑁−𝑛
𝑁−1
) × (
𝑁1
𝑁
) × (
𝑁2
𝑁
) 
 
Onde: 
𝑁: N1 + N2 = tamanho da população 
N1: número de eventos na população 
N2: número de não eventos na população 
𝑛: tamanho amostral 
𝑥: número de eventos na amostra 
 
11 DISTRIBUIÇÕES CONTÍNUAS 
 
Nas distribuições contínuas de probabilidade, estamos lidando com variáveis 
aleatórias contínuas, ou seja, que resultam de uma medição. Nesses casos, não 
temos valores únicos em uma escala, mas, sim, em intervalos, pois, na variável 
aleatória contínua, podemos ter qualquer valor na reta dos reais (SILVA, 2019). 
Dessa forma, a função densidade de probabilidade (FDP), que terá uma função 
matemática associada, necessitará uma integral para a resolução do cálculo de 
probabilidade. Nesse caso, estamos calculando intervalos abaixo de uma curva, como 
mostrado na figura (SILVA, 2019). 
 
Fonte: Freund (2006, p. 215). 
 
Conforme podemos observar na figura, para obtermos a probabilidade, no caso 
da distribuição contínua, não podemos obtê-la em um ponto único, mas apenas em 
intervalos, como em um intervalo entre os pontos e quaisquer abaixo de uma curva. 
 
43 
 
Concluímos, então, que, na distribuição contínua de probabilidade, não existe 
probabilidade no ponto. 
Matematicamente, a resolução dessas probabilidades se dá com a integração 
da função da distribuição em estudo. Isso nem sempre é simples, pois nem todas as 
integrações de funções de probabilidade são de fácil resolução. Para isso, funções 
comumente utilizadas contêm tabelas para auxiliar no cálculo de probabilidade. Esse 
é o caso da distribuição normal, a mais importante distribuição de probabilidade em 
estatística. É do pressuposto de normalidade dos dados que muitas inferências são 
possíveis (SILVA, 2019). 
Mas, independentemente de estarmos estudando distribuições discretas ou 
distribuições contínuas de probabilidade, alguns axiomas continuam valendo, como: 
0 ≤ f(x) ≤ 1 e a área total abaixo da curva sempre somarão 1 na distribuição acumulada 
(SILVA, 2019). 
 
11.1 Uniforme 
 
A distribuição uniforme é a mais simples distribuição contínua, entretanto uma 
das mais importantes e utilizadas dentro da teoria de probabilidade. A distribuição 
uniforme tem uma importante característica a qual a probabilidade de acontecer um 
fenômeno de mesmo comprimento é a mesma (SILVA, 2019). 
Uma variável aleatória X tem distribuição uniforme no intervalo [a,b] se sua 
função densidade de probabilidade for dada por: 
 
𝑓(𝑥) = {
1
𝑏 − 𝑎
, se a ≤ x ≤ b
0, caso contrário
 
 
O gráfico abaixo ilustra a função densidade da distribuição uniforme com 
parâmetros a=0 e b=1. 
 
 
44 
 
 
 
Exemplo: 
A ocorrência de panes em qualquer ponto de uma rede telefônica de 7 km foi 
modelada por uma distribuição uniforme no intervalo [0,7]. Qual é a probabilidade de 
que uma pane venhaa ocorrer nos primeiros 800 metros? E qual a probabilidade de 
que ocorra nos 3 km centrais da rede? 
 
Solução: 
A função densidade da distribuição uniforme é dada por 𝑓(𝑥) = 
1
7
 se 0 ≤ x ≤ 7 
e zero, caso contrário. Assim, a probabilidade de ocorrer pane nos primeiros 800 
metros é: 
ℙ(𝑋 ≤ 0,8) = ∫ 𝑓(𝑥)𝑑𝑥 = 
0,8 − 0
7
0,8
0
= 0,1142 
 
E a probabilidade de ocorrer pane nos 3 km centrais da rede é: 
 
ℙ(2 ≤ 𝑋 ≤ 5) = ∫ 𝑓(𝑥)𝑑𝑥 = ℙ(𝑋 ≤ 5) − ℙ(𝑋 ≤ 2) 
5
7
5
2
−
2
7
≈ 0,4285 
 
11.2 Exponencial 
 
Para o caso da distribuição de probabilidade exponencial, segundo Doane e 
Seward (2014), no modelo exponencial, o foco está no tempo de espera até o evento 
 
45 
 
subsequente: uma variável contínua. A função densidade de probabilidade 
exponencial aproxima-se de zero à medida que o valor de x aumenta. Isso é útil para 
calcular tempo de vida de alguns componentes. 
 
𝑓(𝑥) = {𝜆𝑒
−𝜆𝑥, se x ≥ 0
0, se x < 0
 
 
Onde: 
𝜆: é a taxa média pelo tempo ou espaço; 
𝑥: é o valor da variável aleatória que se quer obter a probabilidade. 
 
Representamos a distribuição exponencial por x~Exp(λ), ou seja, a variável x 
aproxima-se de uma distribuição exponencial de parâmetro λ, conforme gráfico da 
figura. 
 
 
Fonte: Portal Action (2017, documento on-line). 
A função de distribuição acumulada F(x) é dada por: 
 
𝐹(𝑥) = ∫ 𝑓(𝑠)𝑑𝑠 = {1 − 𝑒
−𝜆𝑥, se x ≥ 0
0 se x < 0
𝑥
0
 
 
46 
 
Exemplo: 
Suponha que o tempo de vida de uma determinada espécie de inseto tenha 
uma distribuição exponencial de parâmetro λ = 
1
12
 dia. Suponha também que estes 
insetos atinjam a maturidade sexual após 3 dias de seu nascimento. Qual a função 
densidade de probabilidade, em dias, dos insetos que conseguem se reproduzir? E 
qual a probabilidade de que um inseto reprodutor viva mais de 24 dias? 
 
Solução: 
Seja X a distribuição do tempo de vida dos insetos, e Y a distribuição do tempo 
de vida dos insetos que chegam à reprodução. Observem que Y=X+3, assim: 
 
𝐹𝑦(𝑦) = ℙ(𝑌 ≤ 𝑦) = ℙ(𝑋 + 3 ≤ 𝑦) = ℙ(𝑋 ≤ 𝑦 − 3) = 𝐹𝑥(𝑦 − 3) 
 
Portanto, a função densidade de probabilidade de Y é dada por: 
 
𝑓𝑦(𝑥) = {
1
12
𝑒−
(𝑦−3)
12 , se y ∈ (3, ∞)
0, caso contrário
 
 
Agora falta encontramos qual a probabilidade de que o inseto reprodutor dure 
mais de 24 dias. Usando a densidade acima temos que: 
 
ℙ(𝑌 > 24) = 1 − ℙ(𝑌 ≤ 24) = 1 − 𝐹𝑦(24) = 
1 − ∫ 𝑓𝑦(𝑦)𝑑𝑦 = 1 − ∫ 
1
12
𝑒−
(𝑦−3)
12 ≈ 0,1738
24
3
24
−∞
 
 
11.3 Laplace 
 
A distribuição de probabilidade de Laplace, também chamada de exponencial 
dupla, pois, algumas vezes, é como se tivéssemos uma exponencial positiva junto a 
uma exponencial negativa. Pode ser utilizada para dados de modelagem em biologia 
e finanças (SILVA, 2019). Tem por função a distribuição de probabilidade: 
 
 
47 
 
𝑓(𝑥) = 
1
2σ
𝑒
(
|𝑥−μ|
σ
)
, −∞ < 𝑥 < ∞, −∞ < μ < ∞, −∞ < σ < ∞ 
 
Onde: 
𝜎: é o desvio-padrão; 
μ: é a média; 
x: é o valor da variável aleatória que se quer obter a probabilidade. 
 
Representamos a distribuição Laplace por x~Laplace(μ, 𝜎), ou seja, a variável 
x aproxima-se de uma distribuição Laplace de parâmetros μ e 𝜎. A forma da 
distribuição de Laplace é semelhante à normal, porém com um pico bem mais fino e 
acentuado, como na figura. 
 
 
Fonte: Suporte ao Minitab (2017, documento on-line). 
11.4 Logística 
 
Outra distribuição de probabilidade contínua de grande utilização é a 
distribuição logística, utilizada mais largamente para dados demográficos e de vendas, 
quando se investiga o crescimento (SILVA, 2019). A função é definida por: 
 
𝑓(𝑥) = 
𝑒−
(𝑥−μ)
σ
σ (1 + 𝑒−
(𝑥−μ)
σ ) ²
, −∞ < 𝑥 < ∞, −∞ < μ < ∞, −∞ < σ < ∞ 
 
 
48 
 
Onde: 
𝜎: é o desvio-padrão; 
μ: é a média; 
x: é o valor da variável aleatória que se quer obter a probabilidade. 
 
Representamos a distribuição logística por x~Logist(μ, 𝜎), ou seja, a variável x 
aproxima-se de uma distribuição logística de parâmetros μ e 𝜎. A forma da distribuição 
logística é semelhante à normal, porém com caudas mais longas, como na figura. 
 
 
Fonte: Suporte ao Minitab (2017, documento on-line). 
12 DISTRIBUIÇÃO NORMAL 
 
Esta é a distribuição de probabilidade contínua mais importante e utilizada 
dentro da estatística. Muito da inferência estatística parte do pressuposto da 
normalidade dos dados, além, é claro, de grande parte das variáveis encontradas 
seguir esse modelo de distribuição (SILVA, 2019). 
Essa distribuição tem como parâmetros a média que é uma medida de posição 
e o desvio-padrão que é a medida de variabilidade. Então, o formato dessa distribuição 
depende da variabilidade — quanto mais achatada for a distribuição, maior será a 
variabilidade dos dados e, ao contrário, quanto mais estreita for a distribuição, menor 
será a variabilidade. Já a média situa no eixo em que os dados se concentram (SILVA, 
2019). 
 
49 
 
É com base na teoria da distribuição de probabilidade normal que podemos 
estruturar testes de hipótese, estabelecer intervalos de confiança e calcular tamanhos 
de amostra (SILVA, 2019). 
A função matemática que descreve a distribuição de probabilidade normal é 
dada por: 
 
𝑓(𝑥) = 
1
√2𝜋σ
𝑒
−
 (𝑥−μ)²
2σ² , −∞ < 𝑥 < ∞, −∞ < μ < ∞, −∞ < σ < ∞ 
 
Representamos a distribuição normal por x~N(μ, 𝜎), ou seja, a variável x 
aproxima-se de uma distribuição normal de parâmetros μ (média) e 𝜎 (desvio-padrão). 
O formato da distribuição normal é parecido com um sino. Por esse motivo, 
alguns a chamam de distribuição em forma de sino, ou distribuição de Gauss (SILVA, 
2019). 
Veja, a seguir, as propriedades da distribuição normal. 
 A distribuição normal é simétrica em torno da média (μ). 
 A média, a moda e a mediana são iguais e localizam-se no pico mais 
alto da distribuição. 
 Quanto maior for o desvio-padrão, mais achatado será o gráfico da 
distribuição normal. 
 A área total abaixo da curva soma 1 (1 corresponde a 100%). 
 Os parâmetros são a média (μ) e o desvio-padrão (𝜎). 
 Não existe probabilidade menor do que zero, nem maior do que 1. 
 
 
Fonte: Doane e Seward (2014, p. 254). 
 
50 
 
Como pode perceber, a resolução de uma integral para a FDP da normal é 
bastante elaborada. Por esse motivo, fazemos uso de uma tabela para nos auxiliar no 
cálculo de probabilidade (SILVA, 2019). 
Como a média e o desvio-padrão variam de variável para variável e só temos 
uma tabela, estabeleceu-se, para fins de cálculo da tabela, que a média seria igual a 
zero, e o desvio-padrão igual a 1. Claramente, na vida real, as médias das variáveis 
não são iguais a 1, e o desvio-padrão também não é igual a 0 (SILVA, 2019). 
Precisamos, então, antes de usarmos a tabela, padronizar a nossa variável com a 
seguinte fórmula: 
 
𝑍 = 
𝑥 − μ
σ
 
 
Padronizamos a variável x com sua média e seu desvio-padrão específicos e 
transformamos na variável z com média 1 e desvio-padrão 0, para podemos fazer uso 
da tabela da normal padrão (SILVA, 2019). 
Existe apenas uma tabela, porém existem apresentações distintas dela. Em 
uma delas, é apresentada a área total abaixo da curva, sendo acumulada de – ∞ até 
+ ∞. A outra forma de apresentação é apenas com metade da curva normal de 0 até 
+ ∞ (SILVA, 2019). 
 
 
 
 
51 
 
 
 
Vamos utilizar um exemplo para aprendermos como encontrar as 
probabilidades nessa tabela. Suponha uma financeira que empresta, em média, R$ 
2.000,00 para seus clientes com um desvio-padrão de R$ 900,00. Calcularemos a 
probabilidade de a financeira emprestar menos de R$ 2.200,00 a um cliente. 
 
𝑃(𝑋 < 2200) = 𝑃 = (𝑧 <
2200 − 2000
900
) = 𝑃(𝑧 < 0,22) 
 
Observem que, até aqui, apenas fizemos a padronização da variável com 
média de 2000 e desvio-padrão de 900 em uma variável z com média 1 e desvio-
padrão 0. Depois da padronização, precisamos observar a tabela para encontrarmos 
a probabilidade. 
Procuramos, na tabela,o cruzamento da linha com o 0,2 até a coluna do 0,02, 
que é a nossa segunda casa decimal. Nesse cruzamento, encontramos o valor de 
0,08706. Estamos trabalhando em uma tabela que tem apenas metade da 
distribuição. Nesse caso, precisamos adicionar a outra metade que não está na tabela 
a esse valor de probabilidade encontrado. A área de cálculo é mostrada na figura. 
 
 
 
52 
 
 
Fonte: Freund (2006, p. 492). 
𝑃(𝑋 < 2200) = 0,08706 + 0,5 + 0,58706 = 58,71% 
 
Agora queremos calcular a probabilidade de a financeira emprestar mais de R$ 
2100,00. 
 
𝑃(𝑋 > 2100) = 𝑃 = (𝑧 <
2100 − 2000
900
) = 𝑃(𝑧 < 0,11) 
 
Olhamos na linha do 0,1 até a coluna do 0,01 da tabela e encontramos o valor 
de 0,04380. A esse valor, novamente somamos a outra metade da curva, devido à 
apresentação da tabela. 
 
𝑃(𝑋 > 2100) = 0,04380 + 0,5 + 0,54380 = 54,38% 
 
Se quisermos calcular a probabilidade de a financeira emprestar entre R$ 
2.100,00 e R$ 2.200,00, este seria o cálculo: 
 
𝑃(2100 < 𝑋 < 2200) 
𝑃 = (𝑧 <
2200 − 2000
900
) = 0,22 
𝑃 = (𝑧 <
2100 − 2000
900
) = 0,11 
 
Olhamos, na tabela, os valores referentes a essas duas padronizações e 
encontramos, respectivamente, 0,08706 e 0,04380. 
 
53 
 
𝑃(2000 < 𝑋 < 2200) = 0,08706 − 0,04380 = 0,04326 = 4,33% 
 
Vale ressaltar que, com a tabela normal com a área total abaixo da curva, a 
utilização é diferente para encontrarmos a probabilidade (SILVA, 2019). 
Ainda como exemplo de distribuições contínuas de probabilidade, temos a 
distribuição t-student. Ela tem uma curva muito semelhante à normal, também tem 
parâmetros de média e desvio-padrão, porém é influenciada pelo tamanho da 
amostra. Quando n tende a infinito, a distribuição normal e a distribuição t são 
equivalentes (SILVA, 2019). 
A distribuição t-student é utilizada nos casos em que temos amostras de 
tamanho inferior a 30 ou não conhecemos o desvio-padrão populacional, quando a 
população tem distribuição aproximadamente normal (SILVA, 2019). 
 
 
Fonte: Suporte ao Minitab (2017, documento on-line). 
13 TEOREMAS LIMITES 
 
Os teoremas limites clássicos de probabilidade se referem a sequências de 
variáveis aleatórias independentes e identicamente distribuídas (IID) (SILVA, 2019). 
Se X1,X2,... é uma sequência de variáveis aleatórias com uma média comum, 𝐸(𝑋) =
𝜇 < ∞, e seja a variável aleatória Sn=X1+...+Xn. 
 
 
 
 
54 
 
13.1 Lei Fraca dos Grandes Números 
 
É um resultado em teoria da probabilidade também conhecido como Teorema 
de Bernoulli. De acordo com a lei, a média dos resultados obtidos por um grande 
número de tentativas é próximo a média da população (SILVA, 2019). 
Seja Xi...Xn uma sequência de variáveis aleatórias identicamente distribuídas e 
independentes, cada uma possuindo média μ e variância σ2. E a variável aleatória �̅� 
definida como: 
 
�̅� = (
𝑋1 + ⋯ + 𝑋𝑛
n
) =
𝑆𝑛
n
 
 
Então o valor esperado da variável aleatória �̅� é: 
 
𝐸(�̅�) = 𝐸 (
𝑋1 + ⋯ + 𝑋𝑛
n
) 
𝐸(�̅�) =
1
n
[𝐸(𝑋1) + ⋯ + 𝐸(𝑋𝑛)] 
𝐸(�̅�) =
𝑛𝜇
n
= 𝜇 
 
E a variância é: 
 
𝑉(�̅�) = 𝑉 (
𝑋1 + ⋯ + 𝑋𝑛
n
) 
𝑉(�̅�) =
1
n²
[𝑉(𝑋1) + ⋯ + 𝑉(𝑋𝑛)] 
𝑉(�̅�) =
1
n²
[𝜎2 + ⋯ + 𝜎2] 
𝑉(�̅�) =
𝜎2
n
 
 
13.2 Lei Forte dos Grandes Números 
 
A lei forte dos grandes números assegura que com probabilidade 1 a sequência 
de médias 
𝑆1
1
;
𝑆2
2
;
𝑆3
3
,... tende a média μ e se comporte dessa forma (SILVA, 2019). 
 
55 
 
ℙ ( lim
𝑛→∞
𝑆𝑛
𝑛
= 𝜇) = 1 
 
Em resumo a lei dos grandes números demonstra que: 
 
𝑆𝑛
𝑛
− 𝜇 → 0, 𝑛 → ∞ 
 
A seguir é apresentado dois exemplos dessa convergência, a partir da 
simulação de valores de uma população binomial e uma normal. 
 
 
 
 
56 
 
13.3 Teorema Central do Limite 
 
É um dos teoremas mais importante dentro da estatística e probabilidade. É um 
teorema limite que foi considerado como “Central” pelo matemático húngaro George 
Pólya (SILVA, 2019). 
Brevemente, o teorema estabelece que a distribuição da soma (ou média) de 
um grande número de variáveis aleatórias independentes e identicamente distribuídas 
(IID) será aproximadamente normal, independentemente da distribuição subjacente 
(dessas variáveis). Esse é um dos motivos porque a distribuição normal é utilizada em 
tantos testes estatísticos (SILVA, 2019). 
 
13.3.1 Processo de soma parcial 
 
Suponha que X1,X2,... é uma sequência de variáveis aleatórias independentes 
e identicamente distribuídas, com uma distribuição de densidade fX(x), média μ e 
variância σ2 em comum. Assumimos que 0 < σ2 < ∞, para que as variáveis aleatórias 
sejam realmente aleatórias e não constantes (SILVA, 2019). 
Seja, 
 
𝑆𝑛 = 𝑋1 + ⋯ + 𝑋𝑛, 𝑛 ∈ ℕ 
 
Por convenção temos que: 
 S0=0, uma vez que a soma é sobre um conjunto vazio. 
 O processo aleatório (estocástico) S0,S1,S2,... é chamado de processo 
de soma parcial associado com X. 
Em termos estatísticos (para diferenciar da teoria de probabilidade), a 
sequência X1,X2,... corresponde ao processo de amostragem de uma dada população 
(ou distribuição). De forma particular, (X1,X2,...,Xn) é uma amostra aleatória de 
tamanho n dessa distribuição, e a correspondente média amostral é: 
 
�̅� =
𝑆𝑛
𝑛
=
𝑋1 + ⋯ + 𝑋𝑛
𝑛
=
1
𝑛
 ∑ 𝑋𝑖
𝑛
𝑖=1
 
 
 
57 
 
E pela Lei dos Grandes Números Sn → 𝜇 quando n → ∞ com probabilidade 1. 
Note que, se 𝑛 ∈ ℕ, então pela propriedade da linearidade do valor esperado, 
para variáveis aleatórias independentes: 
 
𝐸[𝑆𝑛] = 𝑛𝜇 
𝑉[𝑆𝑛] = 𝑛𝜎² 
 
Como pode-se notar acima não podemos esperar que Sn tenha uma 
distribuição limitante quando n → ∞, pois a V(Sn) → ∞ bem como o E[Sn] → ∞.Porém 
antes mesmo de estabelecer esses limites podemos verificar a forma da distribuição 
à medida que n aumenta, e visualizar a pressuposição e deduções dos teoremas e 
leis apresentadas até aqui (SILVA, 2019). 
Através de uma simulação Monte Carlo verificaremos a forma de uma 
distribuição da variável aleatória Sn, que é a soma de variáveis aleatórias 
independentes e identicamente distribuídas (SILVA, 2019). 
 
𝑆𝑛 = 𝑋1 + ⋯ + 𝑋𝑛 
𝑆2 = 𝑋1 + 𝑋2 
 
 
𝑆𝑛 = 𝑋1 + ⋯ + 𝑋𝑛 
𝑆3 = 𝑋1 + 𝑋2 + 𝑋3 
 
 
 
58 
 
 
 
𝑆𝑛 = 𝑋1 + ⋯ + 𝑋𝑛 
𝑆6 = 𝑋1 + 𝑋2 + 𝑋3 + 𝑋4 + 𝑋5 + 𝑋6 
 
 
 
Nota-se que a forma da distribuição Sn converge em uma distribuição normal 
com 𝐸[𝑆𝑛] = 𝑛𝜇 e 𝑉[𝑆𝑛] = 𝑛𝜎² 
Porém note que a distribuição irá se degenerar quando n → ∞, pois: 
 quando 𝐸[𝑆𝑛] → ∞ e 𝑉[𝑆𝑛] → ∞. 
 De forma similar para 
𝑆𝑛
𝑛
= �̅�,𝐸(�̅�) → 𝜇 e 𝑉(�̅�) =
𝜎²
𝑛
→ 0. 
Assim sabemos que 
𝑆𝑛
𝑛
→ 𝜇 quando 𝑛 → ∞ com probabilidade 1, e a 
distribuição limite da soma de variáveis aleatórias Sn ou da média amostral 
𝑆𝑛
𝑛
= �̅� irá 
se degenerar. 
Então para se obter uma distribuição limitante de Sn ou 
𝑆𝑛
𝑛
= �̅� que não se 
degenere, precisaremos considerar, não as variáveis aleatórias por si, mas as 
variáveis normalizadas, 
 
59 
 
𝑍𝑛 =
𝑆𝑛 − 𝑛𝜇
√𝑛𝜎
=
�̅� − 𝜇 
𝜎
√𝑛
 
 
Note que o teorema não restringe a sua dedução à algum tipo específico de 
distribuição de X. Dessa forma o teorema é válido para qualquer tipo de distribuição 
(SILVA, 2019). 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
60 
 
REFERÊNCIAS 
 
BIBLIOGRAFIA BÁSICA: 
 
BUSSAB, W. O.; MORETTIN, P. A. Estatística básica. 6ª ed. São Paulo: Saraiva, 
2010. 
 
MAGALHÃES, M. N.; LIMA, A. C. P. Noções de probabilidade e estatística. 7ª ed. 
São Paulo: EDUSP, 2010. 
 
MONTGOMERY, D. C.; RUNGER, G. C. Estatística aplicada e probabilidade para 
engenheiros. 2ª ed. Rio de Janeiro: LTC, 2008. 
 
BIBLIOGRAFIA COMPLEMENTAR 
 
ANDERSON, D. R.; SWEENEY, D. J.; WILLIAMS, T. A. Estatística aplicada à 
administração e economia. 2. ed. São Paulo: Cengage Learning, 2011. 
 
BARBETTA, P. A. Estatística aplicada às ciências sociais. Florianópolis: