Buscar

Aposttila de Estatística - facul Única

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 84 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 84 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 84 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

FACULDADE ÚNICA 
DE IPATINGA 
ESTATÍSTICA 
Felipe Chaves Inácio 
 
 
 
 
 
 
 
 
 
2 
 
 
Menu de Ícones 
Com o intuito de facilitar o seu estudo e uma melhor compreensão do conteúdo 
aplicado ao longo da Livro, você irá encontrar ícones ao lado dos textos. Eles são para 
chamar a sua atenção para determinado trecho do conteúdo, cada um com uma 
função específica, mostradas a seguir: 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3 
 
 
SUMÁRIO 
AMOSTRAGEM .......................................................................................... 6 
 INTRODUÇÃO.......................................................................................................... 6 
 DIMENSIONAMENTO DA AMOSTRA ...................................................................... 6 
 TIPOS DE AOSTRAGEM ........................................................................................... 8 
FIXANDO O CONTEUDO ...................................................................................... 10 
ESTATÍSTICA DESCRITIVA ......................................................................... 13 
 INTRODUÇÃO........................................................................................................ 13 
 TABELAS DE FREQUÊNCIAS ................................................................................... 13 
 MEDIDAS DESCRITIVAS ......................................................................................... 15 
 Medidas de tendência central ........................................................ 15 
 Medidas de variação (ou dispersão) ............................................... 20 
FIXANDO O CONTEÚDO ...................................................................................... 23 
MEDIDAS DE ASSIMETRIA E CURTOSE ..................................................... 26 
 INTRODUÇÃO........................................................................................................ 26 
 MEDIDA DE ASSIMETRIA ....................................................................................... 27 
 MEDIDA DE CURTOSE............................................................................................ 28 
FIXANDO O CONTEÚDO ...................................................................................... 30 
PRINCÍPIOS DA PROBABILIDADE ............................................................ 33 
 INTRODUÇÃO........................................................................................................ 33 
 Conceitos fundamentais ............................................................................. 33 
 DEFINIÇÕES DE PROBABILIDADE ......................................................................... 36 
 Probabilidade Clássica ................................................................................ 36 
 Probabilidade frequentista .......................................................................... 36 
 Definição axiomática de probabilidade ................................................. 37 
 REGRA DA ADIÇÃO .............................................................................................. 38 
 Eventos excludentes ..................................................................................... 38 
 REGRA DO PRODUTO ........................................................................................... 39 
 Eventos independentes ............................................................................... 39 
 PROBABILIDADE TOTAL ......................................................................................... 41 
 TEOREMA DE BAYES .............................................................................................. 43 
 DISTRIBUIÇÕES DE PROBABILIDADE ..................................................................... 45 
 Distribuição Binomial ..................................................................................... 47 
 Parâmetros da distribuição binomial ........................................................ 49 
 Distribuição normal ....................................................................................... 50 
 Distribuição normal padrão ........................................................................ 55 
FIXANDO O CONTEÚDO ...................................................................................... 60 
INFERÊNCIA ESTATÍSTICA ........................................................................ 63 
 INTRODUÇÃO........................................................................................................ 63 
 ESTIMAÇÃO .......................................................................................................... 65 
 Estimação por ponto .................................................................................... 65 
FIXANDO O CONTEÚDO ...................................................................................... 69 
INFERÊNCIA ESTATÍSTICA: TESTE DE HIPÓTESES ...................................... 72 
 INTRODUÇÃO........................................................................................................ 72 
 TESTE DE HIPÓTESES PARA A MÉDIA POPULACIONAL ........................................ 74 
 Teste com variância populacional conhecida ....................................... 75 
 Teste com variância populacional desconhecida ................................ 76 
FIXANDO O CONTEÚDO ...................................................................................... 80 
UNIDADE 
01 
UNIDADE 
02 
UNIDADE 
03 
UNIDADE 
04 
UNIDADE 
05 
UNIDADE 
06 
 
 
 
 
 
 
 
 
 
4 
 
 
RESPOSTAS FIXANDO CONTEÚDO ..................................................... 83 
REFERÊNCIAS ...................................................................................... 84 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5 
 
 
CONFIRA NO LIVRO 
 
Serão apresentados os conceitos de amostragem e o processo de 
escolha de uma amostra para que ela conserve as principais 
características do universo. Conceitos chave como margem de erro 
e tipos de amostragem farão parte desta unidade. 
A estatística descritiva é amplamente utilizada nos mais diversos 
estudos que envolvem a análise de dados. Conceitos e formulas de 
cálculo das principais medidas como a média e a variância serão 
apresentados, bem como suas interpretações e aplicações. 
 
 
Simetria e curtose são dois conceitos de grande importância na 
estatística. Nesta unidade, serão apresentados esses conceitos, os 
cálculos destas medidas e suas implicações na análise de dados. 
A teoria das probabilidades é a base matemática sobre a qual são 
construídos importantes conceitos e técnicas da estatística. Nesta 
unidade serão apresentados as definições, cálculos e algumas 
formas de modelar estatisticamente situações em que o acaso 
desempenha um papel importante. 
 
 
Nesta unidade será apresentado o processo de inferência 
estatística que consiste em fazer afirmações sobre um universo 
através de medidas calculadas em uma amostra. Veremos como 
estimar parâmetros populacionais como a média por exemplo 
através do cálculo de estatísticas amostrais. Este processo é de 
grande importância na estatística e se aplica a uma grande 
variedade de situações. 
Nesta unidade será dada continuidade ao conceito de inferência 
estatística, apresentando o segundo passo no processo que é a 
realização dos testes de hipóteses. Após calcular uma estatística 
amostral, precisamos verificar se aquele valor pode de fato 
representar o parâmetro populacional ou se foi encontrado por 
puro acaso devido à amostra utilizada. 
 
 
 
 
 
 
 
 
 
 
6 
 
 
UNIDADE 
 
AMOSTRAGEM 
 
 
 
 INTRODUÇÃO 
 
A amostragem é um processo pelo qual podemos conhecer as características 
de um todo (chamado “universo”) sem termo que analisar todos os elementos que o 
compõem. Uma analogia frequentementeutilizada é da prova de um bolo. Se 
quisermos saber se um bolo é gostoso, não há a necessidade de comermos o bolo 
inteiro, basta uma pequena fatia. Da mesma forma, quando queremos conhecer 
alguma característica de um universo, não precisamos pesquisar cada elemento que 
o compõe, basta analisarmos uma parte, sendo esta parte chamada de “amostra”. 
Entretanto, assim como na prova de um bolo, essa parte não pode ser 
pequena demais, caso contrário, corremos o risco de não ser o suficiente para termos 
uma ideia do todo. Também não podemos escolher de forma descuidada os 
elementos que irão compor a amostra, pois podemos não ter todas as características 
do universo que precisam ser preservadas. Dessa forma, o processo de escolha de 
uma amostra é composto, grosso modo, por duas etapas: o dimensionamento (ou 
cálculo do tamanho) da amostra e o tipo de amostragem utilizado para escolher os 
elementos que irão compor a amostra. 
 
 
 
 DIMENSIONAMENTO DA AMOSTRA 
No que diz respeito a esta etapa do processo, é importante ressaltar que o 
tamanho da amostra depende fundamentalmente de dois fatores: o tamanho do 
universo e a margem de erro que estamos dispostos a aceitar. Esta margem de erro, 
ao contrário do que se possa imaginar, é determinada antes do cálculo do tamanho 
da amostra e não depende de fator algum. É importante lembrar apenas que, 
quanto menor a margem de erro, maior deverá ser o tamanho da amostra, o que 
 
 
 
 
 
 
 
 
 
7 
 
 
pode acarretar em maiores custos financeiros e maiores tempos de execução. 
Por outro lado, está margem de erro não pode ser grande demais, pois pode 
comprometer os resultados da pesquisa. Dessa forma, precisamos sempre escolher 
uma margem de erro que esteja a meio termo. 
Existem várias formas (e fórmulas) para o cálculo do tamanho de amostras. 
Uma forma relativamente simples e que traz resultados bastante satisfatórios a 
seguinte, demonstrada pela equação (1): 
 
 
n =
N
NE + 1
 (1) 
 
 
Onde: 
𝑛 = tamanho da amostra; 
𝑁 = tamanho do universo; 
𝐸 = margem de erro escolhida. 
 
Exemplo: Suponha que uma determinada empresa tenha 3000 clientes em 
seus cadastros e pretenda realizar uma pesquisa de satisfação entre eles. Quantos 
clientes deverão ser pesquisados para que se tenha uma margem de erro de 5%? 
Solução: Neste caso, temos o seguinte: 
𝑁 = 3000 
𝐸 = 5% = 0,05 
𝑛 = ? 
 
Então: 
 
𝑛 =
3000
3000 ∙ (0,05) + 1
 
 
 
 
𝑛 =
3000
3000 ∙ (0,0025) + 1
 
 
 
 
𝑛 =
3000
7,5 + 1
 
 
 
 
𝑛 =
3000
8,5
 
 
 
 𝑛 = 352,941176 ≅ 𝟑𝟓𝟑 
 
 
 
 
 
 
 
 
 
 
8 
 
 
 TIPOS DE AOSTRAGEM 
Após conhecermos o número de elementos do universo que devemos 
pesquisar, precisamos saber como selecionar esses elementos. Existem várias 
maneiras de se fazer isso e, dentre elas, os quatro principais tipos são: 
 
 Amostragem aleatória simples: Neste tipo de amostragem, todos os elementos 
do universo têm a mesma chance de serem selecionados. Este é o principal 
tipo de amostragem, sendo frequentemente utilizado em conjunto com outros 
tipos. Os melhores exemplos de amostragem aleatória simples são os sorteios 
de uma forma geral. 
 Amostragem estratificada: Neste tipo de amostragem, o universo é 
previamente divido em grupos mutuamente exclusivos (chamados estratos) e 
depois são selecionados alguns elementos de cada um destes grupos. A 
escolha destes elementos normalmente é feita através da amostragem 
aleatória simples. 
 Amostragem por conglomerados: Neste caso, o universo também é dividido 
em grupos. Entretanto, apenas alguns destes grupos são selecionados e então 
todos os elementos destes grupos são pesquisados. Neste tipo de amostragem 
há uma grande economia de tempo e recursos financeiros, uma vez que é 
dispensada a necessidade de listagem dos elementos do universo além de 
reduzir o custo de locomoção e acesso aos elementos para a obtenção das 
informações desejadas. 
 Amostragem sistemática: Essa amostragem consiste em considerar os N 
elementos do universo reunidos em grupos definidos por um intervalo de 
amplitude 𝑁 𝑛⁄ e sortear um elemento decada grupo para compor a amostra 
 
 
 
 
 
 
 
 
 
 
 
 
9 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
MCCLAVE, J. T. Estatística para administração e economia. São Paulo: Pearson Prentice 
Hall, 2009. Disponivél em: https://bit.ly/2QNFMKU 
DOANE, D. P.; SEWARD, L. E. Estatística Aplicada à Administração e Economia. 4. ed. Porto 
Alegre: AMGH, 2014. Disponivel em: https://bit.ly/3hWvWSI 
 
 
 
 
 
 
 
 
 
10 
 
 
FIXANDO O CONTEUDO 
1. Considerando um universo composto por 1.200 pessoas, calcule o tamanho da 
amostra necessário para se ter uma margem de 5%. 
 
a) n = 450 
b) n = 400 
c) n = 300 
d) n = 380 
e) n = 395 
 
2. Calcule o tamanho da amostra necessário para se ter uma margem de erro de 1% 
em um universo de 1.220 pessoas. 
 
a) n = 1.071 
b) n = 1.110 
c) n = 800 
d) n = 950 
e) n = 750 
 
3. Calcule o tamanho da amostra necessário para que se tenha uma margem de 
erro de 5% em um universo de 500.000 pessoas. 
 
a) n = 800 
b) n = 400 
c) n = 1.500 
d) n = 1.000 
e) n = 1.275 
 
4. Assinale a alternativa correta no que se refere ao cálculo do tamanho de uma 
amostra. 
 
a) Quanto maior for a margem de erro, maior será também o tamanho da amostra. 
b) A margem de erro deve ser escolhida antes de calcular o tamanho da amostra. 
 
 
 
 
 
 
 
 
 
11 
 
 
c) O tamanho do universo não influencia o tamanho da amostra. 
d) O tamanho da amostra é sempre um percentual fixo do universo. 
e) O tamanho da amostra é diretamente proporcional à margem de erro. 
 
5. Assinale a alternativa correta no que se refere à amostragem estratificada. 
 
a) É um processo em que todos os elementos do universo têm a mesma chance de 
serem selecionados. 
b) Selecionamos um ponto de partida e escolhemos um a cada “x” elementos do 
universo. 
c) O universo é dividido em partes e depois, são selecionados alguns elementos de 
cada parte. 
d) Os elementos são sorteados até termos o total que precisamos na amostra. 
e) O universo é dividido em partes e selecionamos algumas delas para pesquisar 
todos os elementos. 
 
6. Assinale a alternativa correta no que diz respeito à amostragem aleatória simples. 
 
a) Antes de tudo, o universo deve ser dividido em partes. 
b) Pesquisamos todos os elementos de algumas partes selecionadas. 
c) Pesquisamos todos os elementos do universo. 
d) Selecionamos um em cada “x” elementos do universo. 
e) Sorteios justos são exemplos deste tipo de amostragem. 
 
7. Suponha que uma pessoa deseje realizar uma pesquisa com os habitantes de um 
município. Sabendo que este município possui 10.000 habitantes e que a pessoa 
pretende selecionar uma amostra utilizando uma margem de erro de 5%, quantos 
habitantes ela deverá selecionar? 
 
a) 385 
b) 450 
c) 520 
d) 284 
e) 785 
 
 
 
 
 
 
 
 
 
12 
 
 
8. O gerente de marketing de uma determinada empresa decide fazer uma 
pesquisa, por amostragem, para conhecer o perfil socioeconômico dos clientes 
em potencial no seu município. Para tanto, ele seleciona algumas pessoas em 
cada um dos 10 bairros deste município. Dessa forma, qual foi o tipo de 
amostragem utilizado por ele? 
 
a) Amostragem aleatória. 
b) Amostragem sistemática. 
c) Amostragem por conglomerados. 
d) Amostragem estratificada. 
e) Amostragem por conveniência. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
13 
 
 
ESTATÍSTICA DESCRITIVA 
 
 
 
 INTRODUÇÃO 
A estatística descritiva pode ser entendida como um conjunto de técnicas e 
métodos estatísticos que nos permitem descreve um determinado conjunto de dados 
para que possamos ”enxergar” as informações nele contidas. Dentre estas técnicas 
encontram-se tabelas, gráficos e medidasque irão representar o conjunto de dados 
em questão. A estatística descritiva nos permite apenas descrever um conjunto de 
dados sem que possamos, a partir dele, fazer afirmativas acerca do universo do qual 
tal conjunto foi extraído. A parte da estatística que nos permite fazer isso é chamada 
de inferência estatística. Dentre as técnicas da estatística descritiva, começaremos 
estudando as tabelas de frequências e passaremos então para as medidas 
descritivas. 
 
 TABELAS DE FREQUÊNCIAS 
São tabelas que contêm na primeira coluna classes ou intervalos de valores da 
variável em questão e na segunda coluna a frequência de cada classe, ou seja, a 
quantidade de valores que se encontram dentro de cada intervalo. Vejamos o 
seguinte exemplo na Tabela 1: 
 
Tabela 1: Exemplo de Tabela de Frequências 
Classes Frequência Freq. Relativa Freq. Acumulada 
10 ˫ 20 8 0,32 08 
20 ˫ 30 7 0,28 15 
30 ˫ 40 5 0,20 20 
40 ˫ 50 3 0,12 23 
50 ˫ 60 2 0,08 25 
Total (Σ) 25 1,00 - 
Fonte: Elaborado pelo Autor (2020) 
 
 
UNIDADE 
 
 
 
 
 
 
 
 
 
14 
 
 
Supondo que a tabela 1 se refira às idades de 25 pessoas de um determinado 
grupo, podemos dizer que 8 destas pessoas (ou 32%) possuem idade entre 10 e 20 
anos. Sete pessoas possuem idade entre 20 e 30 anos e assim sucessivamente. A 
frequência relativa informa justamente a porcentagem de valores dentro de cada 
classe e é obtida dividindo-se a frequência da classe pela frequência total. Por sua 
vez, a frequência acumulada é obtida somando-se a frequência da classe com a 
frequência das classes anteriores. Por exemplo, a frequência da terceira classe é 
obtida somando-se 5 + 7 + 8 = 20 e significa que existem 20 pessoas com idade entre 
10 e 40 anos. 
Através desta tabela podemos perceber, por exemplo, que 60% das pessoas 
deste grupo possuem entre 10 e 30 anos de idade. Isso pode ser percebido somando-
se as frequências relativas das duas primeiras classes. Por outro lado, somando as 
frequências relativas das duas últimas classes, podemos perceber que apenas 20% 
destas pessoas possuem idade entre 40 e 60 anos. Dessa forma, podemos concluir 
que este grupo é constituído basicamente por pessoas mais jovens. 
Uma questão que devemos sempre considerar diz respeito ao número de 
classes que serão utilizadas em cada tabela. No exemplo acima, foram utilizadas 5 
classes, mas nem sempre será assim. A quantidade de classes de uma tabela 
dependerá do número de valores existentes no conjunto (ou seja, o tamanho da 
amostra). Chamando de “K” o número de classes e de “n” o tamanho da amostra, 
a quantidade de classes que serão utilizadas na tabela pode ser calculada pela 
equação (2): 
 
 𝐾 = 1 + 3, 22 𝑙𝑜𝑔 𝑛 (2) 
 
Entretanto, é importante notar que este cálculo pode ser simplificado quando 
o conjunto de dados não possui mais de 50 valores. Neste caso, o número K de 
classes poderá ser aproximado pela equação (3): 
 
 𝐾 = √𝑛 (3) 
 
Após conhecermos o número de classes a ser utilizado, devemos calcular o 
intervalo destas classes, que chamaremos de “H”, por meio da equação (3). Assim, 
 
 
 
 
 
 
 
 
 
 
15 
 
 
 
𝐻 =
𝐴
𝐾
 (4) 
 
Onde “A” é a amplitude, ou seja, 
 
A = Maior valor − Menor valor. 
 
 
 MEDIDAS DESCRITIVAS 
As medidas descritivas (Figura 1) são grandezas utilizadas para resumir e 
descrever um conjunto de dados. De grande utilidade nas análises estatísticas, essas 
medidas se dividem em dois grupos: as medidas de tendência central e as medidas 
de variação. 
 
Figura 1: Medidas Descritivas 
 
Fonte: Elaborado pelo Autor (2020) 
 
 Medidas de tendência central 
Como o próprio nome sugere, esse conjunto de medidas nos dão a ideia de 
centralidade, sendo a média a mais importante delas, embora não seja a única. 
Existem alguns “tipos” de médias, utilizadas em diferentes situações, conforme 
veremos a seguir. 
 
 Média aritmética simples: Representada pelo símbolo 𝑋, é utilizada em situações 
onde todos os valores têm o mesmo peso, ou seja, têm todos a mesma importância 
no conjunto de dados. É calculada pela equação (5): 
 
 
 
 
 
 
 
 
 
16 
 
 
 
𝑋 =
∑ 𝑥
𝑁
 (5) 
 
Assim, para calcularmos a média simples, basta somar todos os valores e dividir 
pela quantidade de valores somados. 
 
Exemplo: Suponha que tenhamos um conjunto como os seguintes números: 
2, 4, 5, 7 e 12 . A média deste conjunto seria: 
 
𝑋 =
2 + 4 + 5 + 7 + 12
5
 
 
𝑋 = 6 
 
 Média aritmética ponderada: É utilizada quando nem todos os valores do conjunto 
têm a mesma importância. Neste caso, damos pesos maiores para os valores mais 
importantes. Representaremos a média ponderada pelo símbolo 𝑋 e seu cálculo 
é feito pela equação (6): 
 
 
𝑋 =
∑ (𝑥 . 𝑝)
∑ 𝑝
 (6) 
 
Neste caso, “x” são os valores do conjunto e “p” o peso correspondente. 
 
Exemplo: Suponha que um aluno tenha sido aprovado com as seguintes notas nas 
disciplinas a abaixo, cada uma com seu respectivo peso. 
 
Disciplina Nota Peso 
História 98 3 
Geografia 97 3 
Física 85 2 
Matemática 90 2 
 
 Dessa forma, a média ponderada ficaria assim: 
 
X =
(98 × 3) + (97 × 3) + (85 × 2) + (90 × 2)
3 + 3 + 2 + 2
 
X =
935
10
 
 
 
 
 
 
 
 
 
 
17 
 
 
X = 93,5 
 
 Moda: É o valor que aparece com a maior frequência num conjunto de dados. 
Iremos representa-la por “mo”. 
 
Exemplo: Seja o seguinte conjunto: 2, 8, 3, 5, 4, 5, 3, 5, 5 𝑒 1 
O elemento de maior frequência (o que aparece mais vezes) é o 5. 
Dessa forma, mo = 5. Como o conjunto apresente somente uma moda, dizemos que 
se trata de um “conjunto modal”. Entretanto, o conjunto de dados pode apresentar 
mais de uma moda. Nestes casos, são chamados de “conjunto bimodal” (quando 
tem duas modas) ou “conjunto multimodal” (quando tem mais de duas modas). 
Vejamos os exemplos abaixo: 
 
Exemplo: Seja o conjunto: 6, 10, 5, 6, 10 𝑒 2. 
Os elementos 6 e 10 aparecem com a mesma frequência máxima. Portanto, o 
conjunto apresenta duas modas, sendo assim um conjunto bimodal. 
 
Exemplo: No conjunto 2, 2, 5, 2 , 8 , 5 8, 8, 10, 10 𝑒 10 os números 2, 8 e 10 aparecem 
com a mesma frequência máxima. Portanto, trata-se de um conjunto multimodal. 
 
 
 
 Mediana: É o valor que ocupa a posição central em um conjunto de dados, 
quando o mesmo se encontra ordenado. Sendo assim, podemos afirmar que 50% 
dos valores do conjunto são menores que a mediana e, por conseguinte, 50% são 
maiores que ela. Precisamos observar que se trata de uma medida de posição. 
Isso significa que, para conhecermos a mediana de um conjunto, precisamos 
calcular a posição que ela ocupa no conjunto de dados. Iremos representar a 
mediana pelo símbolo 𝑋 e sua posição no conjunto é dada pela equação (7): 
 
 
 
 
 
 
 
 
 
 
18 
 
 
 𝑛 + 1
2
 (7) 
 
Exemplo: Seja o seguinte conjunto de dados: 2, 4, 6, 10, 12, 15, 20, 22, 25, 26, 28, 30, 
33, 35, 37, 41, 44, 47, 49, 55 e 58, calcule sua mediana. 
 
Há 21 números neste conjunto (n = 21), de forma que a posição ocupada pela 
mediana é: 
 
𝑛 + 1
2
= 
21 + 1
2
= 11 
 
Assim, a mediana ocupa a 11ª posição no conjunto (é o 11º número do 
conjunto) e seu valor é 𝑋 = 2 
 
 
 
 Quartis: Os quartis fazem parte das chamadas “medidas separatrizes” que são 
medidas que dividem o conjunto de dados em partes iguais. No caso dos quartis, 
trata-se de três valores que dividem o conjunto em quatro partes (desde que o 
conjunto esteja ordenado). Dessa forma, 25% dos valores do conjunto de dados 
são menores que o primeiro quartil (𝑄 ), 50% dos valores são menores que o 
segundo quartil (𝑄 ) e 75% dos valores são menores que o terceiro quartil (𝑄 ). É 
importante notar que, por serem medidas de posição, não calculamos seus 
valores. O que calculamos são suas posições dentro do conjunto de dados. Essas 
posições são dadas pelas equações (8), (9) e (10): 
 
 
𝑄 =
𝑛 + 1
4
 (8) 
 Neste link https://bit.ly/3biOR7Ivocês encontrarão estes conceitos apresentados de 
outra maneira, com vídeos e um mapa mental. 
 Nos livros abaixo, há também uma explicação detalhada sobre a estatística descritiva: 
MCCLAVE, J. T. Estatística para administração e economia. São Paulo: Pearson Prentice 
Hall, 2009. Disponivél em: https://bit.ly/2QNFMKU 
 
DOANE, D. P.; SEWARD, L. E. Estatística Aplicada à Administração e Economia. 4. ed. 
Porto Alegre: AMGH, 2014. Disponivel em: https://bit.ly/3hWvWSI 
 
 
 
 
 
 
 
 
 
19 
 
 
 
𝑄 =
𝑛 + 1
2
 (9) 
 
 
𝑄 = 3 ∙
𝑛 + 1
4
 (10) 
 
Exemplo: Considere o seguinte conjunto referente às idades de 15 pessoas. 
 
12 15 16 18 19 
20 24 25 27 28 
30 33 34 35 38 
 
Assim, temos as seguintes posições: 
 
𝑄 =
𝑛 + 1
4
= 
15 + 1
4
= 4 
𝑄 =
𝑛 + 1
2
= 
15 + 1
2
= 8 
𝑄 = 3 ∙
𝑛 + 1
4
= 3 ∙
15 + 1
4
= 3 ∙ 4 = 12 
 
Assim, o primeiro quartil é o número que ocupa a 4ª posição no conjunto de 
dados, ou seja: 
 
𝑄 = 18 
 
Da mesma forma, o segundo quartil é o número que ocupa a 8ª posição no 
conjunto: 
 
𝑄 = 25 
 
Por fim, o terceiro quartil é o é o número que ocupa a 12ª posição no conjunto: 
 
𝑄 = 33 
 
Dessa forma, podemos afirmar que 25% das pessoas pesquisadas têm idade 
inferior a 18 anos. 50% delas têm idade inferior a 25 anos e 75% das pessoas têm idade 
inferior a 33 anos. 
 
 
 
 
 
 
 
 
 
20 
 
 
 Medidas de variação (ou dispersão) 
As medidas de tendência central, como vimos anteriormente, são essenciais 
para a descrição de um conjunto de dados. Entretanto, elas não nos trazem todas as 
informações que precisamos ter sobre os dados. Tomemos a média como exemplo e 
analisemos os dois conjuntos abaixo. 
 
Conjunto A: 10 ; 1 ; 18 ; 20 ; 35 ; 3 ; 7 ; 15 ; 11 ; 10 
Conjunto B: 12 ; 13 ; 13 ; 14 ; 12 ; 14 ; 12 ; 14 ; 13 ; 13 
 
Podemos perceber que ambos os conjuntos apresentam a mesma média (𝑋 = 
13). Entretanto, podemos perceber também que esta média representa bem o 
conjunto B, mas não representa tão bem o conjunto A. Isso acontece porque, no 
primeiro conjunto, os valores estão mais dispersos, ou seja, podemos encontrar valores 
bastante diferentes da média. No conjunto B, os valores estão mais próximos uns dos 
outros e, por consequência, também da média. 
Com isso, podemos perceber que precisamos de outras medidas que nos 
indiquem o quanto os números estão variando em torno da média. Em outras 
palavras precisamos de medidas que traduzam o grau de variabilidade do conjunto. 
Essas medidas são as medidas de variação ou dispersão. 
 
 Variância: Representada por s2, é uma das medidas de variação mais utilizadas. 
Seu cálculo é feito pela equação (11): 
 
 
S =
∑(𝑥 − �̅�)
𝑛 − 1
 (11) 
 
Nesta fórmula, �̅� é a média do conjunto, x representa cada um dos valores 
individualmente e n representa a quantidade total de números no conjunto. 
 
Exemplo: Calculemos a variância do seguinte conjunto de dados: 4 ; 5 ; 8 ; 5. 
Este conjunto tem n = 4 elementos e sua média é igual a: 
 
�̅� =
4 + 5 + 8 + 5
4
=
22
4
 
 
 
 
 
 
 
 
 
 
21 
 
 
�̅� = 5,5 
 
Os termos (𝑥 − �̅�) são: 
 
(4 − 5,5) = 2,25 
(5 – 5,5) = 0,25 
(8 – 5,5) = 6,25 
(5 – 5,5) = 0,25 
 
Ao somarmos estes valores, obtemos ∑ (𝑥 − �̅�) = 9. 
Então, usando a equação (11), temos o seguinte: 
 
S =
∑(𝑥 − �̅�)
𝑛 − 1
=
9
4 − 1
 
 
S = 3 
 
 Desvio-padrão: O desvio-padrão de um conjunto de dados é simplesmente a raiz 
quadrada da variância. Ele tem a vantagem de expressar a variabilidade do 
conjunto na mesma unidade de medida dos valores e não na unidade de medida 
ao quadrado, como a variância. Dessa forma, temos o seguinte se considerarmos 
o exemplo anterior: 
 
𝑆 = 𝑆 = √3 
 
𝑆 ≈ 1,73 
 
 
 
 
 Neste link https://bit.ly/3lLYvEW vocês poderão encontrar mais sobre as medidas de 
variação e suas interpretações. 
 Neste outro link https://bit.ly/2YTjITt, há mais um pouco sobre o conceito de desvio-
padrão. 
 
 
 
 
 
 
 
 
 
22 
 
 
 Coeficiente de variação: Quando analisamos o desvio-padrão de um conjunto de 
dados, temos uma informação sobre a variação absoluta daquele conjunto. 
Entretanto, muitas vezes é importante levar em consideração a média do conjunto 
ao analisarmos seu grau de variação. Para isso, utilizamos uma medida de 
variação relativa, ou seja, que nos diz a variabilidade do conjunto em relação à 
sua média. Esta medida é o coeficiente de variação (CV) e é calculada dividindo-
se o desvio-padrão do conjunto pela sua média. O resultado costuma ser 
multiplicado por 100 para termos uma porcentagem. Assim, temos a equação (12): 
 
 
𝐶 =
𝑆
�̅�
∙ 100 (12) 
 
Ainda considerando o exemplo anterior, o coeficiente de variação daquele 
conjunto será: 
 
𝐶 =
1,73
5,5
 ∙ 100 
 
𝐶 ≈ 31,45 
 
 
 
 
 
 
 
 
 
 
A renda per capta de um país é a renda total deste país dividida pelo número de 
habitantes, ou seja, trata-se de uma média simples. Por outro lado, a distribuição 
de renda nos dá uma medida da variação desta renda ao redor da média, ou 
seja, nos dá uma ideia de variabilidade. Um país cuja renda apresenta grande 
concentração, apresentará uma variância (da renda) alta ou baixa? 
 
 
 
 
 
 
 
 
 
23 
 
 
FIXANDO O CONTEÚDO 
1. No que se refere à estatística descritiva, assinale a alternativa correta. 
 
a) Trata-se de um conjunto de técnicas usadas para conhecermos um universo. 
b) Trata-se de um conjunto de técnicas e métodos para representar e descrever um 
conjunto de dados. 
c) É composta somente de gráficos e tabelas. 
d) É sinônimo de inferência estatística. 
e) Nenhuma das alternativas anteriores está correta. 
 
2. Calcule a média aritmética simples do seguinte conjunto de dados e assinale a 
resposta correta: 05 ; 07 ; 13 ; 15 ; 20. 
 
a) �̅� = 15 
b) �̅� = 12 
c) �̅� = 18 
d) �̅� = 7 
e) �̅� = 10 
 
3. Encontre a mediana do conjunto de dados abaixo e assinale a alternativa correta: 
05 ; 08 ; 10 ; 12 ; 15. 
 
a) �̅� = 10 
b) �̅� = 15 
c) �̅� = 08 
d) �̅� = 05 
e) �̅� = 12 
 
4. Encontre o terceiro quartil do seguinte conjunto de dados: 03; 05; 09; 10; 12; 15; 18. 
 
a) Q3 = 6 
b) Q3 = 09 
c) Q3 = 10 
 
 
 
 
 
 
 
 
 
24 
 
 
d) Q3 = 15 
e) Q3 = 12 
 
5. Suponha que um determinado aluno tenha concluído o último ano do Ensino 
Médio com as seguintes notas: 
 
Disciplina Nota Peso 
História 75 5 
Geografia 70 5 
Física 85 4 
Matemática 90 4 
Química 95 3 
Português 88 5 
Língua Estrangeira 87 4 
 
Suponha ainda que cada disciplina tenha um determinado peso, conforme a 
tabela acima. Sendo assim, calcule a média ponderada das notas deste aluno. 
 
a) 83,27 
b) 80,51 
c) 85,37 
d) 80,00 
e) 82,00 
 
6. Calcule a variância do seguinte conjunto de dados e assinale a alternativa 
correta: 02; 05; 05; 12. 
 
a) S² = 4,24 
b) S² = 5,25 
c) S² = 18 
d) S² = 20 
e) S² = 15 
 
7. A tabela de frequências abaixo se refere à idade de um grupo de pessoas 
pesquisadas em um estudo. No que se refere a ela, é correto afirmar que: 
 
 
 
 
 
 
 
 
 
 
25 
 
 
Classes Frequência Freq. Relativa Freq. Acumulada 
15 Ⱶ 25 9 0,30 9 
25 Ⱶ 35 2 0,07 11 
35 Ⱶ 45 5 0,17 16 
45 Ⱶ 55 6 0,20 22 
55 Ⱶ 65 8 0,26 30 
Total 3 1 - 
 
a) 0,07% das pessoas têm idade compreendida entre 25 e 35 anos. 
b) 37% das pessoas têm menos de 35 anos. 
c) Foram pesquisadas 25 pessoas no total. 
d) 46% das pessoas têm mais de 55 anos. 
e) Apenas 17% das pessoas têm menos de 45 anos. 
 
8. Considerando a tabela de frequências da questão anterior, calcule a média dos 
dados que deram origem a ela e assinale a alternativa correta. 
a) 31,5 
b) 45,81 
c) 40,67 
d) 31,5 
e) 50,67 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
26 
 
 
MEDIDAS DE ASSIMETRIA E 
CURTOSE 
 
 
 INTRODUÇÃO 
O conceito de simetria sempre remete àideia de igualdade. Segundo o 
dicionário Houaiss (2001, p. 2573) simetria é: “ [...] conformidade, em medida, forma 
e posição relativa, entre [...] cada lado de uma linha divisória, um plano médio, um 
centro ou eixo [...] semelhança entre duas metades [...]. 
Do ponto de vista da estatística, a simetria ocorre quando a média, a moda e 
a mediana de um conjunto (ou variável) são iguais. Ou seja, simetria em estatística 
significa que 𝑋 = 𝑋 = 𝑚 . Graficamente, teríamos algo desta forma: 
 
Figura 2: Gráfico de Simetria 
 
Fonte: Elaborado pelo Autor (2020) 
 
Quando uma distribuição não apresenta simetria, dizemos que ela é 
“assimétrica” e seu gráfico poderá ser de uma das duas formas apresentadas na 
Figura 3 abaixo: 
 
Figura 3: Gráficos de Assimetria 
 
Fonte: Morettin e Bussab (2010, p. 51) 
UNIDADE 
 
 
 
 
 
 
 
 
 
27 
 
 
 
 
 MEDIDA DE ASSIMETRIA 
Talvez a forma mais comum de identificar e medir a assimetria de uma 
distribuição é pelo Coeficiente de Pearson, dado pela equação (13). 
 
 
A =
𝑋 − 𝑚
𝐷
 (13) 
 
Se A = 0, então sabemos que a distribuição é simétrica. 
Se A < 0, então dizemos que a distribuição é assimétrica negativa. 
Se A > 0, então a distribuição é assimétrica positiva. 
 
Exemplo: Qual é a medida de assimetria do conjunto abaixo? 
10 ; 12 ; 15 ; 18 ; 20 ; 12 ; 21 ; 12 
Primeiramente, a média deste conjunto é: 
 
𝑋 =
∑ 𝑥
𝑛
=
120
8
 
 
A moda é mo = 12 e o desvio-padrão será: 
 
𝑆 = 𝑆 =
∑(𝑥 − 𝑋)
𝑛 − 1
≈ 4,17 
 
Sendo assim, o coeficiente de Pearson será: 
 
A =
𝑋 − 𝑚
𝑆
=
15 − 12
4,17
≈ 0,72 
 
 
 
 
 
 
 
 
 
 
 
28 
 
 
 MEDIDA DE CURTOSE 
A curtose de uma distribuição diz respeito à concentração de valores em torno 
de sua moda. Graficamente, ela representa o grau de “achatamento” da curva que 
representa a distribuição. Este conceito pode ser melhor entendido através da figura 
abaixo. 
 
Figura 4: Gráficos de Curtose 
 
Fonte: Lopez (2003, p. 47) 
 
Representada por “K”, a medida de curtose mais comum é dada pela 
equação (14): 
 
 
𝐾 = 
1
𝑛
(𝑥 − 𝑋)
(𝑆)
– 3 (14) 
 
Quando K = 0, dizemos que se trata de uma distribuição mesocúrtica. 
Quando K > 0 trata-se de uma distribuição leptocúrtica. 
Quando K < 0 trata-se de uma distribuição platocúrtica. 
 
 
 
 
O valor 3 na fórmula de K representa o valor da curtose de uma distribuição de 
referência chamada “distribuição normal padrão” e que caracteriza a 
distribuição mesocúrtica. 
 
 
 
 
 
 
 
 
 
29 
 
 
Exemplo: Considerando o conjunto de dados do exemplo anterior, temos: 
 
𝐾 =
1
8
(10 − 15) + (12 − 15) + (15 − 5) +(18 − 15) + (20 − 15) + (12 − 15) + (21 − 15) + (12 − 15)
4,17
– 3 
 
𝐾 =
1
8
2870
302,37
– 3 
 
𝐾 =
2870
2418,96
– 3 
𝐾 ≈ – 1,81 
Portanto, temos uma distribuição platocúrtica. 
 
 
 
 
 
 
 
 Nos Livros abaixo vocês encontrarão mais informações e explicação mais detalhada 
sobre assimetria e curtose. 
MCCLAVE, J. T. Estatística para administração e economia. São Paulo: Pearson Prentice 
Hall, 2009. Disponível em: https://bit.ly/2QNFMKU 
 
DOANE, D. P.; SEWARD, L. E. Estatística Aplicada à Administração e Economia. 4. ed. 
Porto Alegre: AMGH, 2014. Disponível em: https://bit.ly/3hWvWSI 
Sabemos que a altura de pessoas adultas segue uma distribuição normal (assimetria igual 
a zero). Assim, a probabilidade de encontrarmos uma pessoa com altura 5 cm acima da 
média é igual à probabilidade de encontrarmos uma pessoa com altura 5 cm abaixo da 
média. Se, hipoteticamente, a distribuição de probabilidades das alturas fosse assimétrica 
à esquerda (assimetria menor que zero) seria mais provável encontrar pessoas mais altas 
ou mais baixas? 
 
 
 
 
 
 
 
 
 
30 
 
 
FIXANDO O CONTEÚDO 
1. Assinale alternativa correta no que se refere à simetria. 
a) Quando uma distribuição não apresenta simetria, dizemos que ela é assimétrica. 
b) Uma distribuição assimétrica é aquela em que a média, a moda e a mediana são 
iguais. 
c) A principal medida de assimetria é chamada de Coeficiente de Variação. 
d) Quando uma distribuição for simétrica, o Coeficiente de Pearson será maior que 
zero. 
e) Quando o Coeficiente de Pearson é maior que zero, dizemos que a distribuição é 
assimétrica à esquerda. 
 
2. Suponha que os dados abaixo sejam referentes às idades de cinco pessoas. 
18 19 18 25 30 
Com base nestes dados, calcule o Coeficiente de Pearson e assinale a alternativa 
correta. 
 
a) O valor do Coeficiente de Pearson é 0,75. 
b) A distribuição apresenta assimetria negativa. 
c) A distribuição é simétrica. 
d) O valor do Coeficiente de Pearson é 1,45. 
e) Não é possível calcular o Coeficiente de Pearson. 
 
3. Considerando o conjunto de dados abaixo, calcule a assimetria através do 
Coeficiente de Bowley e assinale a alternativa correta. 
 
15 17 19 20 22 
25 27 29 30 32 
38 39 41 43 45 
a) A = 1,25 
b) A = 0,05 
c) A = -1,55 
d) A = 0 
e) A = 0,22 
 
 
 
 
 
 
 
 
 
31 
 
 
4. Calcule o Coeficiente de Pearson do seguinte conjunto de dados: 
02 05 05 08 
 
a) A = 0,23 
b) A = -1,55 
c) A = 0,75 
d) A = - 0,51 
e) A = 0,71 
 
5. No que se refere à curtose, é correto afirmar que: 
 
a) ela se refere à concentração de valores em torno de sua média. 
b) ela se refere à concentração de valores em torno de sua mediana. 
c) quando a curtose é menor que zero, dizemos que a distribuição é platocúrtica. 
d) quando a curtose é maior que zero, dizemos que a distribuição é mesocúrtica. 
e) quando a curtose é igual a zero, dizemos que a distribuição é leptocúrtica. 
 
6. Suponha que cinco pessoas tenham sido entrevistadas para preencher a uma 
vaga de emprego e o conjunto abaixo represente a idade de cada candidato. 
18 21 21 22 25 
 
Calcule a curtose referente a esta distribuição e assinale a alternativa correta. 
a) 1,48 
b) – 2,47 
c) – 1,48 
d) 0,25 
e) – 0,25 
 
7. No que se refere à curtose, assinale a alternativa correta. 
 
a) A curtose da distribuição normal padrão é igual a 2. 
b) O número 3 na fórmula da curtose se refere à distribuição “t de Student”. 
c) A distribuição normal padrão é leptocúrtica. 
d) A curtose representa o grau de achatamento da curva da distribuição. 
 
 
 
 
 
 
 
 
 
32 
 
 
e) A distribuição normal padrão é platocúrtica. 
 
8. Calcule o coeficiente de Bowley para um conjunto de dados que apresenta os 
seguintes valores: 𝑄 = 10; 𝑄 = 18 e X   = 15. 
 
a) A = - 0,25 
b) A = 0,55 
c) A = - 1,25 
d) A = 2,15 
e) A = 1,75 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
33 
 
 
PRINCÍPIOS DA PROBABILIDADE 
 
 
 
 INTRODUÇÃO 
A todo o momento estamos lidando com situações que envolvem 
imprevisibilidade. Ao sairmos de casa, por exemplo, não temos certeza de choverá 
ou não ou mesmo se chegaremos a tempo para um determinado compromisso. 
Nestes casos, podemos ter, no máximo, uma estimativa da chance destes eventos 
acontecerem. Este tipo de fenômeno, em que está envolvido o acaso, tem sido 
objeto de interesse da humanidade há vários séculos. Entretanto, somente a partir do 
século XVI filósofos e matemáticos começaram a dar os primeiros tratamentos 
matemáticos ao problema. 
A partir dos chamados “jogos de azar”, praticados desde a Idade Antiga, 
começou-se a pensar numa maneira de quantificar (ou calcular) a chance de certos 
eventos ocorrerem. Por exemplo, no lançamento de dois dados, qual a chance de 
que a soma dos resultados seja igual a 7? Assim nasceu o que podemos chamar de 
teoria das probabilidades e podemos pensar a probabilidade, ainda que de maneira 
informal, como uma medida da chance de certo evento acontecer. Ao longo da 
história, algumas definições mais formais foram dadas até chegarmos à definição 
utilizada hoje, conforme veremos mais adiante. Antes disso, entretanto, precisaremos 
entender alguns conceitos importantes.Conceitos fundamentais 
Primeiramente, é importante definir o tipo de fenômeno que é objeto de 
estudo da probabilidade, entendendo por fenômeno qualquer acontecimento 
natural. 
Fenômenos determinísticos: são aqueles que, quando repetidos sob as 
mesmas condições iniciais, conduzem sempre a um mesmo resultado. Ou seja, as 
condições iniciais determinam o único resultado possível do fenômeno. Por exemplo, 
se um carro percorre 200 km a uma velocidade média de 100 km/h, ele levará 2 horas 
para terminar o percurso. Este resultado pode, inclusive, ser conhecido mesmo antes 
UNIDADE 
 
 
 
 
 
 
 
 
 
34 
 
 
de iniciar o percurso. É importante destacar que este não é o tipo de fenômeno 
estudado pela probabilidade. 
Fenômenos aleatórios: são aqueles que, mesmo sendo repetidos sob as 
mesmas condições iniciais, podem conduzir a resultados diferentes. As condições 
iniciais não determinam o resultado do fenômeno. Ou seja, não é possível prever o 
resultado antes que o fenômeno ocorra. Nestes casos, o resultado depende de 
fatores imprevisíveis, ou dito de outra forma, depende o acaso. Por exemplo, quando 
arremessamos uma moeda, não podemos prever se ocorrerá “cara” ou “coroa”. Este 
é o tipo de fenômeno estudado pela probabilidade. 
 
 
 
Dando seguimentos às definições importantes, é necessário entender a 
diferença entre espaço amostral e evento. 
Num fenômeno aleatório, embora não possamos conhecer o resultado de 
antemão, na maioria das vezes é possível saber quais são os resultados possíveis. Por 
exemplo, ao lançar um dado, não sabemos qual será o resultado, mas sabemos que 
as possibilidades são 1; 2; 3; 4; 5 e 6. 
 Dessa forma, podemos definir o seguinte: 
 
Espaço amostral: simbolizado por Ω, é o conjunto de todos os resultados possíveis de 
um experimento. No exemplo do lançamento de um dado, o espaço amostral será 
Ω = {1; 2; 3; 4; 5; 6}. 
Evento: Podemos definir um evento como um resultado em particular do 
experimento. Ou seja, um evento é um subconjunto do espaço amostral. No exemplo 
do dado poderíamos ter os seguintes eventos: 
 
 A = sair número 6; 
 B = sair um número par; 
 C = sair um número maior que 4; etc. 
 
 
 
 
 
 
 
 
 
35 
 
 
Como os eventos são subconjuntos do espaço amostral, podemos então usar 
a notação e as operações de conjuntos para os eventos. Sendo assim, se A e B são 
dois conjuntos quaisquer, temos as seguintes operações: 
 
𝐴 ∪ 𝐵 = {𝑥 ∈ Ω | 𝑥 ∈ 𝐴 𝐨𝐮 𝑥 ∈ 𝐵} 
 
𝐴 ∩ 𝐵 = {𝑥 ∈ Ω | 𝑥 ∈ 𝐴 𝐞 𝑥 ∈ 𝐵} 
 
𝐶 = {𝑥 ∈ Ω | 𝑥 ∉ 𝐴} 
 
𝐴 − 𝐵 = {𝑥 ∈ Ω | 𝑥 ∈ 𝐴 𝐞 𝑥 ∉ 𝐵} 
 
Exemplo: Continuando com o lançamento de um dado, temos que o espaço 
amostral, conforme vimos acima, é 𝛺 = {1; 2; 3; 4; 5; 6}. Definindo os eventos 𝐴 =
 {1; 2; 3}, 𝐵 = {2; 3; 6} e 𝐶 = {2; 3; 4}, temos o seguinte: 
 
𝐴 ∪ 𝐵 = {1; 2; 3; 6} 
 
𝐴 ∩ 𝐶 = {2; 3} 
 
𝐶 = {4; 5; 6} 
 
𝐶 = {1; 4; 5} 
 
𝐴 – 𝐵 = {1} 
 
O que desejamos aqui é calcular a probabilidade de ocorrência de cada 
evento do experimento e, para isso, podemos utilizar algumas das definições de 
probabilidade. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
36 
 
 
 DEFINIÇÕES DE PROBABILIDADE 
 Probabilidade Clássica 
Podemos utilizar a probabilidade clássica quando temos eventos que ocorrem 
com a mesma “regularidade”, ou seja, quando temos eventos equiprováveis (que 
têm a mesma chance de ocorrer). Dessa forma, a probabilidade de um evento A 
qualquer seria calculada com a equação (15): 
 
 
𝑃(𝐴) =
𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑓𝑎𝑣𝑜𝑟á𝑣𝑒𝑖𝑠
𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑝𝑜𝑠𝑠í𝑣𝑒𝑖𝑠
 (15) 
 
Exemplo: Se, no lançamento de um dado, definirmos o evento A como sendo “sair 
um número par”, teríamos 𝐴 = {2; 4; 6}. Portanto, são três casos favoráveis. Como o 
espaço amostral é 𝛺 = {1; 2; 3; 4; 5; 6}, temos seis casos possíveis. Assim a 
probabilidade de ocorrência deste evento seria calculada da seguinte forma: 
 
𝑃(𝐴) = 
3
6
 = 
1
2
 
 
𝑃(𝐴) = 0,5 𝑜𝑢 50% 
 
Como esperávamos, uma vez que metade dos números é par, a 
probabilidade de sair um deles é de 50%, uma vez que cada resultado tem a mesma 
chance de ocorrer. 
 
 Probabilidade frequentista 
Pode ser usada quando não sabemos se todos os eventos têm a mesma 
chance de ocorrer. Neste caso, a probabilidade de ocorrência se basearia na sua 
frequência relativa. Ou seja, para calcularmos a probabilidade de ocorrência de um 
evento deveríamos realizar o experimento um grande número de vezes e dividir o 
número de vezes que o evento ocorre pelo número de vezes que o experimento foi 
realizado. 
Exemplo: Dizemos que uma moeda é viciada quando a probabilidade de sair 
cara é diferente (maior ou menor) que a probabilidade de sair coroa. Normalmente, 
 
 
 
 
 
 
 
 
 
37 
 
 
são moedas fabricadas especialmente para que isso ocorra. Suponha então que 
tenhamos um destas moedas e queiramos saber qual é probabilidade de sair cara. 
Neste caso, poderíamos, por exemplo, lançar a moeda 1.000 vezes e observar 
quantas caras ocorreriam. Se ocorresse, digamos, 350 vezes a probabilidade de sair 
cara, seria: 
𝑃(𝑐𝑎𝑟𝑎) = 
350
1000
 = 0,35 
 
Ou seja, a probabilidade de sair cara nesta moeda é de aproximadamente 
35%. Percebam que, quanto maior o número de vezes que arremessarmos a moeda, 
mais precisa será nossa estimativa desta probabilidade. O problema com esta 
definição é que não temos como saber exatamente quantas vezes o experimento 
deve ser realizado para que tenhamos uma estimativa precisa. Dizer que deve ser um 
“grande número de vezes” não ajuda muito, não é mesmo? 
 
 Definição axiomática de probabilidade 
Em matemática, axioma é uma proposição que não necessita ser 
demonstrada. Em geral, são afirmações óbvias, aceitas sem discussão. Costumam ser 
a base sobre a qual um argumento é construído. No início do século XX, o 
matemático russo Andrei Kolmogorov definiu a probabilidade através de três axiomas 
que se tornaram a base da moderna teoria das probabilidades. Esta definição é 
chamada de “definição axiomática” ou “definição matemática” de probabilidade. 
Esses três axiomas são os seguintes: 
 
1) 0 ≤ 𝑃(𝐴) ≤ 1; 
2) 𝑃(𝛺) = 1; 
3) Se A e B são eventos tais que 𝐴 ∩ 𝐵 = {∅}, então 𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵). 
O primeiro axioma afirma que a probabilidade de um evento qualquer se 
encontra sempre entre 0 e 1. Neste caso, 0 é a probabilidade de um evento 
impossível e 1 é a probabilidade de um evento certo. 
O segundo axioma afirma que a probabilidade de todo o espaço amostral é 
sempre igual a 1. 
Por fim, o terceiro axioma afirma que, se A e B forem dois eventos tais que não 
 
 
 
 
 
 
 
 
 
38 
 
 
possam ocorrer simultaneamente (𝐴 ∩ 𝐵 = {∅}), então a probabilidade da união dos 
dois eventos é igual à soma das probabilidades de cada evento isoladamente. 
 
 REGRA DA ADIÇÃO 
 Eventos excludentes 
Dizemos que dois eventos quaisquer são excludentes (ou mutualmente 
excludentes) quando eles não podem ocorrer simultaneamente. Por exemplo, se 
arremessarmos um dado e definirmos o evento A como sendo a ocorrência de um 
número par e o evento B como sendo a ocorrência de um evento B, podemos dizer 
que A e B são dois eventos excludentes. Seria diferente, por exemplo, se definíssemos 
o evento B como a ocorrência de um número maior que 4. Neste caso, se saísse o 
número 6 os dois eventos ocorreriam. Usamos este conceito para definir uma regra: 
a probabilidade de ocorrência de um evento A ou de um evento B será dada 
conforme a equação (16): 
 
 𝑃(𝐴 𝑜𝑢 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) – 𝑃(𝐴 𝑒 𝐵) (16) 
 
Onde 𝑃(𝐴 𝑒 𝐵) é a probabilidade de ambos os eventos ocorrerem 
simultaneamente. Podemos perceber que, no caso em que A e B são excludentes, 
essa probabilidade é igual a zero. 
 
Exemplo: Considerando o lançamento de um dado, podemos definir os seguintes 
eventos:𝐴 = sair um número par; 
𝐵 = sair um número maior que 4. 
Usando a notação de conjuntos, teremos o seguinte: 
𝐴 = {2; 4; 6} (três elementos) 
𝐵 = {5; 6} (dois elementos) 
𝐴 𝑒 𝐵 = {6} (único elemento que é para e ao mesmo tempo maior que 4). 
 
Se quisermos saber qual a probabilidade de sair um número par ou um número 
maior que 4, teríamos o seguinte: 
 
 
 
 
 
 
 
 
 
39 
 
 
𝑃(𝐴 𝑜𝑢 𝐵) = 
3
6
+ 
2
6
− 
1
6
 
 
𝑃(𝐴 𝑜𝑢 𝐵) = 
4
6
 
 
𝑃(𝐴 𝑜𝑢 𝐵) ≈ 0,67 𝑜𝑢 67% 
 
 REGRA DO PRODUTO 
 Eventos independentes 
Dizemos que dois eventos quaisquer são independentes quando a ocorrência 
de um deles não altera a probabilidade de ocorrência do outro. Existem situações 
em que a probabilidade de ocorrência de um evento é alterada devido à 
ocorrência de outro evento. Por exemplo, no lançamento de um dado, suponha o 
evento A = {2; 4; 6} (sair um número par) e o evento B = {5; 6} (sair um número maior 
que 4). Sabemos que a probabilidade do evento B é: 
 
𝑃(𝐵) = 
2
6
= 
1
3
 
 
Entretanto, qual seria esta probabilidade se soubéssemos, com certeza, que o 
evento A ocorreu, ou seja, que saiu um número para no lançamento do dado? Neste 
caso, não teríamos seis casos possíveis, mas apenas três. Assim a probabilidade do 
evento B seria: 
 
𝑃(𝐵) = 
2
3
 
 
Neste caso, os eventos A e B não seriam independentes, uma vez que a 
ocorrência do evento A altera a probabilidade de ocorrência do evento B. Tendo 
em mente essa relação, podemos definir outra regra: a probabilidade de ocorrência 
de um evento A e de um evento B será dado pela equação (17): 
 
 𝑃(𝐴 𝑒 𝐵) = 𝑃(𝐴) × 𝑃(𝐵|𝐴) (17) 
 
Neste caso, P(B|A) é a probabilidade de ocorrência do evento B, sabendo 
que (ou dado que) o evento A ocorreu antes. Isso é o que chamamos de 
 
 
 
 
 
 
 
 
 
40 
 
 
probabilidade condicional. 
 
Exemplo: Suponha que tenhamos uma caixa com 4 bolas pretas, 5 bolas brancas e 3 
bolas azuis. Suponha ainda que vamos retirar bolas ao acaso, sem saber qual delas 
iremos pegar e, uma vez retirada, a bola não retorna para a caixa. Sendo assim, a 
probabilidade de retirarmos uma bola branca, por exemplo, será: 
 
𝑃(𝑏𝑟𝑎𝑛𝑐𝑎) = 
5
12
 
Isso porque temos 5 bolas brancas e um total de 12 bolas na caixa. Essa 
probabilidade mudaria se alguma bola fosse retirada antes (lembremos que uma 
bola retirada não retorna para a caixa). Imagine, agora, que uma bola preta tenha 
sido retirada. Neste caso, qual a probabilidade de retirarmos uma bola branca? 
 
𝑃(𝑏𝑟𝑎𝑛𝑐𝑎 | 𝑝𝑟𝑒𝑡𝑎) = 
5
11
 
 
Isso porque continuamos tendo 5 bolas brancas, mas somente 11 no total, 
devido à retirada da bola preta. 
 
Exemplo: Tendo o exemplo anterior como base (tendo as 12 bolas na caixa), qual 
seria a probabilidade de retirarmos uma bola azul e, em seguida, uma bola branca? 
Para resolvermos, vamos definir os seguintes eventos: 
 
𝐴 = retirar uma bola azul; 
𝐵 = retirar uma bola branca. 
 
Dessa forma, estamos buscando 𝑃(𝐴 𝒆 𝐵), tendo em mente que a ocorrência 
de um destes eventos, irá alterar a probabilidade de ocorrência do outro (os dois 
eventos não são independentes). Assim, teremos: 
 
𝑃(𝐴 𝑒 𝐵) = 𝑃(𝐴) × 𝑃(𝐵|𝐴) 
𝑃(𝐴 𝑒 𝐵) = 
3
12
×
5
11
 
𝑃(𝐴 𝑒 𝐵) = 
15
132
 
 
 
 
 
 
 
 
 
 
41 
 
 
𝑃(𝐴 𝑒 𝐵) = 0,1136 𝑜𝑢 11,35% 
 
 PROBABILIDADE TOTAL 
O chamado “Teorema da probabilidade total” é desenvolvido a partir da 
divisão do espaço amostral de um experimento em vários eventos mutuamente 
excludentes. Na linguagem dos conjuntos, seria a divisão de um conjunto em vários 
subconjuntos sem nenhuma interseção entre eles. Suponha que dividíssemos o 
espaço amostral 𝛺 em três eventos: 𝑅1, 𝑅2 e 𝑅3, conforme Figura 5 abaixo. 
 
Figura 5: Divisão do espaço amostral 
 
Fonte: Elaborado pelo Autor (2020) 
 
𝑅1 ∩ 𝑅2 = ∅ 
 
𝑅1 ∩ 𝑅3 = ∅ 
 
𝑅2 ∩ 𝑅3 = ∅ 
 
𝑅1 ∪ 𝑅2 ∪ 𝑅3 = 𝛺 
 
Considerando um evento 𝐵 qualquer (conforme Figura 5), ele pode ser escrito 
como: 
 
𝐵 = 𝐵 ∩ 𝛺 
Como temos também que 𝛺 = 𝑅1 ∪ 𝑅2 ∪ 𝑅3, podemos escrever: 
 
 
 
 
 
 
 
 
 
 
42 
 
 
𝐵 = 𝐵 ∩ (𝑅1 ∪ 𝑅2 ∪ 𝑅3). 
 
Assim, a probabilidade de B será: 
 
𝑃(𝐵) = 𝑃 [𝐵 ∩ (𝑅1 ∪ 𝑅2 ∪ 𝑅3)]. 
 
Com um pouco de álgebra de conjuntos e levando em consideração que os 
eventos 𝑅1, 𝑅2 e 𝑅3 são mutuamente excludentes, chegamos à fórmula: 
 
𝑷(𝑩) = [𝑷(𝑩 | 𝑹𝟏) ∙ 𝑷(𝑹𝟏)] + [𝑷(𝑩 | 𝑹𝟐) ∙ 𝑷(𝑹𝟐)] + [𝑷(𝑩 | 𝑹𝟑) ∙ 𝑷(𝑹𝟑)] 
 
Lembrando que este resultado pode ser generalizado para qualquer 
quantidade de conjuntos. 
 
Exemplo: Suponha que um time de futebol tenha 50% de chance de vencer uma 
partida se seu melhor jogador estiver em campo e 25% de chance se ele não estiver. 
O departamento médico do clube estima que há uma chance de 30% de que o 
jogador esteja em campo. Sendo assim, qual a probabilidade deste time ganhar o 
jogo? Para resolver, vamos, primeiramente, definir alguns eventos. 
 
𝐴 = ganhar o jogo 
𝐵 = jogador estar em campo 
𝐶 = jogador não estar em campo 
 
Neste caso, teremos: 
 
𝑃(𝐴) = 𝑃(𝐴|𝐵) ∙ 𝑃(𝐵) + 𝑃(𝐴|𝐶) ∙ 𝑃(𝐶) 
𝑃(𝐴) = (0,50) ∙ (0,30) + (0,25) ∙ (0,70) 
𝑃(𝐴) = 0,15 + 0,175 
𝑃(𝐴) = 0,325 𝑜𝑢 32,5% 
 
Observe que, se a probabilidade do melhor jogador estiver em campo é 30%, 
então a probabilidade de ele não estar é de 70% (100% - 30%). 
 
 
 
 
 
 
 
 
 
 
 
43 
 
 
 TEOREMA DE BAYES 
O chamado “Teorema de Bayes” ou “Regra de Bayes” (em homenagem ao 
matemático inglês Thomas Bayes que viveu no século XVIII) se refere ao cálculo da 
probabilidade de um evento quando temos algum conhecimento a priori que pode 
estar relacionado ao evento. Ou seja, ele fornece a possibilidade de aprimorarmos a 
probabilidade de um evento levando em consideração o conhecimento que temos 
sobre o fenômeno. 
 
 
 
O teorema é expresso através da equação (18): 
 
 
𝑃(𝐴|𝐵) = 
𝑃(𝐵|𝐴) ∙ 𝑃(𝐴)
𝑃(𝐵)
 (18) 
 
Exemplo: Suponha que uma fábrica de peças disponha de duas máquinas: A e B. 
Sabe-se que a máquina A é responsável pela produção de 60% das peças e a 
máquina B é responsável pela produção de 40% delas. Além disso, sabe-se também 
que 3% das peças produzidas pela máquina A e 7% das peças produzidas pela 
máquina B são defeituosas. Dessa forma, ao encontrar uma peça defeituosa, qual a 
probabilidade de que ela tenha sido produzida pela máquina B? Para resolver, 
vamos definir os seguintes eventos: 
 
𝐴 = peça produzida pela máquina 𝐴; 
𝐵 = peça produzida pela máquina 𝐵; 
𝑑 = peça defeituosa. 
 
Queremos, então, saber qual a probabilidade de peça ter sido produzida pela 
máquina B, sabendo que a peça é defeituosa. Ou seja, queremos calcular 𝑃(𝐵|𝑑). 
Sendo assim, temos o seguinte, de acordo com a fórmula de Bayes: 
 
 
 
 
 
 
 
 
 
44 
 
 
𝑃(𝐵|𝑑) = 
𝑃(𝑑|𝐵) ∙ 𝑃(𝐵)
𝑃(𝑑)
 
 
Neste caso, 𝑃(𝑑) é a probabilidade total de uma peça ser defeituosa 
independente da máquina que a produziu. Assim: 
 
𝑃(𝑑) = 𝑃(𝑑│𝐴) ∙ 𝑃(𝐴) + 𝑃(𝑑│𝐵) ∙ 𝑃(𝐵) 
 
𝑃(𝑑) = (0,03) ∙ (0,60) + (0,07) ∙ (0,40) 
 
𝑃(𝑑) = 0,018 + 0,028 
 
𝑃(𝑑) = 0,046 
 
Substituindo na fórmula de Bayes, temos: 
 
𝑃(𝐵|𝑑) = 
(0,07) ∙ (0,40)
0,046
 
 
𝑃(𝐵|𝑑) = 
0,028
0,046
 
 
𝑃(𝐵|𝑑) = 0,6087 𝑜𝑢 60,87% 
 
Exemplo: Uma situação muito utilizada como exemplo da aplicação do teorema de 
Bayes se refere aos testes usados para detectar doenças. É sabido que o resultado 
destes testes pode estar errado em uma proporção muito pequena dos casos. São 
os chamados falso positivo e falso negativo. Um falso positivo ocorre quando uma 
pessoa está sadia, mas o teste indica que ela tem a doença. No falso negativo ocorre 
o oposto: a pessoa tem a doença, mas o teste dá negativo. Em geral, quando um 
teste é desenvolvido, já se estima a probabilidade destes erros ocorrerem,de forma 
que estas probabilidades são conhecidas (além de serem muito pequenas, via de 
regra). Então, ao se deparar com o resultado positivo de um teste, como saber se a 
pessoa está mesmo doente ou se trata de um falso positivo? Na verdade, não 
podemos saber com certeza (com base unicamente no teste) mas podemos calcular 
a probabilidade de uma pessoa estar realmente doente, uma vez que o resultado 
deu positivo. Podemos fazemos isso através da fórmula de Bayes. 
Sabe-se que 1% das mulheres acima de 40 anos são portadores de câncer de 
 
 
 
 
 
 
 
 
 
45 
 
 
mama, ou seja, 99% das mulheres nessa faixa etária não são portadoras. Sabe-se 
também que mamografia apresenta resultados positivos em 80% das mulheres que 
realmente têm câncer, mas este teste dá positivo também para 9,6% das mulheres 
que não têm câncer, ou seja, há um falso positivo em 9,6% dos casos. Sendo assim, 
se uma mulher faz o teste e tem um resultado positivo, qual a probabilidade de que 
ela realmente tenha câncer de mama? Para calcular esta probabilidade, vamos 
definir os seguintes eventos: 
 
𝐴 = a mulher ter câncer de mama; 
𝐵 = o teste dar positivo; 
�̅� = a mulher não ter câncer de mama 
 
Assim, temos o seguinte: 
𝑃(𝐴) = 0,01 
𝑃(𝐵|𝐴) = 0,80 (Probabilidade de dar positivo, dado que tem câncer) 
𝑃(𝐵|�̅�) = 0,096 (Probabilidade de dar positivo, dado que não tem câncer) 
Então, pela fórmula de Bayes: 
 
𝑃(𝐴|𝐵) = 
𝑃(𝐵|𝐴) ∙ 𝑃(𝐴)
𝑃(𝐵)
 
 
𝑃(𝐴|𝐵) = 
(0,80) ∙ (0,01)
(0,80)(0,01) + (0,096)(0,99)
 
 
𝑃(𝐴|𝐵) = 
0,008
0,008 + 0,09504
 
 
𝑃(𝐴|𝐵) = 
0,008
0,10304
 
 
𝑃(𝐴|𝐵) = 0,078 𝑜𝑢 7,8% 
 
 DISTRIBUIÇÕES DE PROBABILIDADE 
Uma distribuição de probabilidade pode ser entendida como uma função que 
associa uma probabilidade a cada resultado de uma variável aleatória. 
 
 
 
 
 
 
 
 
 
46 
 
 
 
 
Por exemplo, se arremessarmos dois dados, a soma dos resultados obtidos é 
uma variável aleatória. Por mais que saibamos os possíveis resultados, não temos 
como saber qual deles vai ocorrer. Podemos, entretanto, associar uma probabilidade 
para cada resultado possível e assim teremos a distribuição de probabilidade dessa 
variável aleatória. Se fizermos isso, teremos a seguinte situação: 
 
Tabela 2: Resultados da Probabilidade 
Soma dos resultados Probabilidade 
2 2,8% 
3 5,6% 
4 8,3% 
5 11,1% 
6 13,9% 
7 16,7% 
8 13,9% 
9 11,1% 
10 8,3% 
11 5,6% 
12 2,8% 
Total 100% 
Fonte: Elaborado pelo Autor (2020) 
 
O gráfico desta variável aleatória ficaria assim: 
 
Figura 6: Gráfico desta variável aleatória 
 
Fonte: Elaborado pelo Autor (2020) 
 
 
 
 
 
 
 
 
 
47 
 
 
A maioria das distribuições de probabilidade podem ser expressas 
algebricamente e se constituem em modelos usados para estudar o comportamento 
da variável em questão. Segundo Novaes e Coutinho (2013, p. 142): 
 
Por serem funções, as distribuições de probabilidade admitem diversas 
representações e algumas [...] podem ser expressas por uma 
expressão algébrica ou por uma tabela que resume os principais 
valores assumidos pela função. A maior parte dos usuários da 
estatística nas mais diversas áreas de atuação precisa aprender a usar 
essas representações de forma a otimizar e potencializar o uso desta 
ferramenta tão importante. Não basta saber aplicar uma fórmula ou 
usar uma tabela, mas interpretar o problema proposto 
adequadamente, escolhendo assim os recursos adequados para sua 
resolução e interpretando seus resultados dentro do contexto no qual 
o problema foi proposto. 
 
Vários fenômenos aleatórios podem ser modelados através de uma 
distribuição de probabilidade teórica. Para isso, entretanto, é preciso conhecer o 
fenômeno em questão e, pelo menos, as principais distribuições teóricas. Algumas 
dessas distribuições serão apresentadas a seguir. 
 
 Distribuição Binomial 
A distribuição binomial é usada para modelar aqueles experimentos que são 
repetidos um certo número de vezes e que possuem somente dois resultados possíveis 
(sucesso e fracasso). É importante notar que existem alguns critérios que o 
experimento precisa ter: 
 
 Os valores assumidos pela variável devem sempre ser inteiros; 
 Os eventos devem ser independentes; 
 Durante o experimento, a probabilidade de sucesso (𝑝) e a probabilidade de 
fracasso (1 – 𝑝) devem permanecer constantes. 
 Assim, as probabilidades associadas a cada resultado da variável aleatória em 
questão podem ser calculadas com a equação (19): 
 
 
𝑃(𝑥) = 
𝑛!
𝑥! (𝑛 − 𝑥)!
∙ 𝑝 ∙ (1 − 𝑝) (19) 
 
Onde: 
𝑛 = número de vezes que o experimento é realizado; 
 
 
 
 
 
 
 
 
 
48 
 
 
𝑥 = número de sucessos pretendidos; 
𝑝 = probabilidade de sucesso (deve permanecer constante em cada 
repetição). 
 
Exemplo: Suponha que uma moeda não viciada seja arremessada 5 vezes. Assim, 
qual seria a probabilidade de sair “cara” 3 vezes? 
 
Percebam que neste caso o experimento está sendo repetido (cinco vezes) e cada 
vez em que isso ocorre, há somente dois resultados possíveis (cara e coroa). Além 
disso, a probabilidade de sucesso (neste caso, sair cara) é sempre a mesma e o fato 
de sair cara num lançamento não interfere na probabilidade de sair cara em outro, 
ou seja, os eventos são independentes. Assim, podemos utilizar a distribuição binomial 
para modelar este experimento. Então, temos o seguinte: 
 
𝑛 = 5 
𝑥 = 3 
𝑝 = 0,5 (perceba que a moeda não é viciada, então a probabilidade de sair 
cara é 50%) 
 
Logo: 
𝑃(𝑥) = 
5!
3! (5 − 3)!
∙ (0,5) ∙ (1 − 0,5) 
 
𝑃(𝑥) =
120
6 × 2
∙ (0,125) ∙ (0,25) 
 
𝑃(𝑥) = 10 × 0,03125 
 
𝑃(𝑥) = 0,3125 𝑜𝑢 31,25% 
 
Exemplo: Suponha que um casal deseje ter 4 filhos. Se a probabilidade de nascer um 
menino fosse igual a 45%, qual seria a probabilidade de que 3 dos filhos fossem 
meninos? 
𝑛 = 4 
𝑥 = 3 
𝑝 = 0,45 
 
 
 
 
 
 
 
 
 
49 
 
 
𝑃(𝑥) = 
4!
3! (4 − 3)!
∙ (0,45) ∙ (1 − 0,45) 
 
𝑃(𝑥) = 
24
6 × 1
∙ (0,091125) ∙ (0,55) 
 
𝑃(𝑥) = 4 × 0,050 
 
𝑃(𝑥) = 0,2 𝑜𝑢 20 
 
Exemplo: O gerente de uma empresa sabe que a probabilidade de uma peça ser 
produzida com defeito é igual a 3%. Na análise de um lote contendo 10 peças, qual 
a probabilidade de serem encontradas 5 peças defeituosas? 
𝑛 = 10 
𝑥 = 5 
𝑝 = 0,03 
 
𝑃(𝑥) = 
10!
5! (10 − 5)!
∙ (0,03) ∙ (1 − 0,03) 
 
𝑃(𝑥) = 5,26 × 10 𝑜𝑢 𝑎𝑝𝑟𝑜𝑥𝑖𝑚𝑎𝑑𝑎𝑚𝑒𝑛𝑡𝑒 0,0005% 
 
 Parâmetros da distribuição binomial 
A distribuição binomial tem como parâmetros a média (que chamaremos de 
μ) e a variância (que chamaremos de 𝜎 ). Desta forma, ao dizer que uma 
determinada variável aleatória segue uma distribuição binomial, devem dizer qual é 
a sua média e qual é a sua variância. Se uma determinada variável aleatória “X” 
segue uma distribuição binomial com média igual a 3, por exemplo, e variância igual 
a 5, podemos escrever na forma da equação (20): 
 
 𝑋~ 𝐵𝑖(3; 5) (20) 
 
De forma geral, se a média é 𝜇 e a variância é 𝜎 , escrevemos: 
 
 𝑋~ 𝐵𝑖(μ ; 𝜎 ) (21) 
 
 
 
 
 
 
 
 
 
 
 
50 
 
 
A média e a variância da distribuição binomial são calculadas então por meio 
das equações () e (): 
 
 𝜇 = 𝑛 ∙ 𝑝 (22) 
 
 𝜎 = 𝑛 ∙ 𝑝 ∙ (1 − 𝑝) (23) 
 
Exemplo: Suponha que a probabilidade de uma pessoa se atrasar para um voo seja 
2%. Se em um determinado voo estão previstos 250 passageiros, quantos se atrasarão 
em média? Qual é a variância? 
 
𝑛 = 250 
𝑝 = 0,02 
𝜇 = 250 ∙ 0,02 
𝜇 = 5 
𝜎 = 250 ∙ 0,02 ∙ 0,98 
𝜎 = 4,9 
 
 Distribuição normal 
A distribuição normal é uma das mais importantes distribuições de 
probabilidade. Além de sua grande importância teórica, ela pode ser usada para 
modelar uma grande quantidade de fenômenos. Por ter sido estudada por Laplace 
no tratamento analítico de probabilidades e por Gauss nos erros acidentais, ela 
também pode ser chamada de Curva de Laplace-Gauss, ou simplesmente,Curva 
de Gauss. Os fenômenos que podem ser modelados por esta distribuição são 
chamados de “fenômenos gaussianos”. Seu gráfico tem a forma de um sino, como 
na figura abaixo. É importante notar que a curva se distribui em torno da média da 
distribuição (𝜇). 
 
 
 
 
 
 
 
 
 
 
 
 
 
51 
 
 
Figura 7: Curva de Laplace-Gauss 
 
Fonte: Elaborado pelo Autor (2020) 
 
Cabe ressaltar que a distribuição normal tem certas características que 
precisamos conhecer: 
 
Conforme mencionado acima, seu gráfico tem a forma de um sino; 
A curva é simétrica em torno da média (os dois lados são idênticos); 
A área total abaixo da curva é igual a 1; 
Como consequência, a área de cada lado da média é igual a 0,5; 
As áreas abaixo da curva nos fornecem a probabilidade de a variável assumir 
determinados conjuntos de valores. 
A distribuição normal se caracteriza por dois parâmetros: a média (𝜇) e o 
desvio-padrão (𝜎). Dessa forma, se “X” é uma variável aleatória que segue uma 
distribuição normal, então podemos escrever da seguinte forma: 𝑋 ~𝑁(𝜇; 𝜎 ). Para 
cada valor da média e da variância, existe uma curva (gráfico) diferente. Assim, a 
forma da curva depende da variância e, quanto menor ela for, mais alta e estreita 
será a curva. 
 
 
 
 
 
 
 
 
 
 
 
 
52 
 
 
A função que representa a distribuição normal é dada pela equação (24): 
 
 
𝑓(𝑥) = 
𝑒
( )
𝜎√2𝜋
 (24) 
Onde: 
𝜋 = 3,1416 … 
𝑒 = 2,7183 … 
𝜎 = 𝑑𝑒𝑠𝑣𝑖𝑜 − 𝑝𝑎𝑑𝑟ã𝑜 𝑑𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑖çã𝑜 
𝜇 = 𝑚é𝑑𝑖𝑎 𝑑𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑖çã𝑜 
 
Apesar de ser uma função aparentemente complexa, na maioria dos casos 
práticos (inclusive naqueles que estudaremos aqui) não é necessário manuseá-la, 
desde que entendamos suas características mais importantes. Os gráficos abaixo 
ilustram outras características importantes acerca da distribuição normal e sua curva: 
 
Figura 8: Principais características da distribuição normal e sua curva 
 
Fonte: Elaborado pelo Autor (2020) 
 
 
 
 
 
 
 
 
 
53 
 
 
Através destes gráficos, podemos perceber que, se uma variável aleatória “X” 
segue uma distribuição normal com média igual a μ e desvio-padrão igual a 𝜎, então 
68,26% dos seus valores encontram-se a 1𝜎 (um desvio-padrão) de distância da 
média (para mais ou para menos). Da mesma forma, 95,44% dos valores encontram-
se a 2𝜎 (dois desvios-padrão) de distância da média (também para mais ou para 
menos) e 99,73% dos valores encontram-se a 3𝜎 (três desvios-padrão) de distância da 
média. Observe que, como a distribuição é simétrica em relação à média, as 
probabilidades acima e abaixo da média são iguais, de forma que valores negativos 
de desvios servem apenas para dizer que se trata de valores abaixo da média. 
 
Exemplo: Suponha que a altura das pessoas adultas de um determinado município 
siga uma distribuição normal com média igual a 1,70m e desvio-padrão igual a 0,20m. 
Se uma pessoa for selecionada ao acaso neste município, qual a probabilidade de 
que ela tenha entre 1,70m e 1,90m? 
 
Para resolver, perceba que o valor 1,90 está exatamente a um desvio-padrão 
da média que é 1,70 (1,90 = 𝜇 + 1𝜎). Como vimos acima, 34,13% dos valores 
encontram-se neste intervalo. Sendo assim a probabilidade de encontrarmos alguém 
neste intervalo é exatamente 34,13%, como mostra o gráfico da Figura 9. 
 
Figura 9: Gráfico de distribuição normal para resolução do 1º exemplo 
 
Fonte: Elaborado pelo Autor (2020) 
 
Considerando ainda o exemplo anterior, qual seria a probabilidade de selecionar 
uma pessoa com mais de 1,90m? 
Para resolver precisamos lembrar a área à direita da média é igual a 0,5. Uma 
 
 
 
 
 
 
 
 
 
54 
 
 
vez que a área entre a média e 1,90 é igual a 0,3413, então a área acima de 1,90 
seria 0,5 menos 0,3413, o que daria 0,1587. Dessa forma, a probabilidade de 
encontrarmos, ao acaso, uma pessoa com mais de 1,90m será 15,87%. 
 
Figura 10: Gráfico de distribuição normal para resolução do 2º exemplo 
 
Fonte: Elaborado pelo Autor (2020) 
 
Para encerrar o exemplo, qual seria a probabilidade de encontrarmos, ao acaso, 
uma pessoa cuja altura estivesse entre 1,30m e 1,90m? 
 
Neste caso, é importante perceber que 1,30 está a dois desvios da média 
(para menos), ou seja: 1,70 − 2𝜎 = 1,30. Como vimos acima, 47,72% dos valores de 
uma variável que segue a distribuição normal estão a dois desvios de distância da 
média. Portanto, a probabilidade de encontrar uma pessoa com altura entre 1,30m 
e 1,70m (que é a média) é igual a 47,72%. Entretanto, precisamos ainda da 
probabilidade de encontrarmos uma pessoa com altura entre 1,70m (média) e 
1,90m. Essa probabilidade foi calculada acima e é igual a 34,13%. Dessa forma, temos 
o seguinte: 
 
𝑃(1,30 ≤ 𝑥 ≤ 1,90) = 𝑃(1,30 ≤ 𝑥 ≤ 1,70) + 𝑃(1,70 ≤ 𝑥 ≤ 1,90) 
𝑃(1,30 ≤ 𝑥 ≤ 1,90) = 0,4772 + 0,3413 
𝑃(1,30 ≤ 𝑥 ≤ 1,90) = 0,8185 𝑜𝑢 81,85% 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
55 
 
 
Figura 11: Gráfico de distribuição normal para resolução do 3º exemplo 
 
Fonte: Elaborado pelo Autor (2020) 
 
 Distribuição normal padrão 
Conforme vimos anteriormente, a curva de uma distribuição normal varia 
conforme o desvio-padrão. Quando o desvio-padrão é muito alto, temos uma 
distribuição baixa e achatada. Por outro lado, quando o desvio-padrão é pequeno, 
temos uma curva mais alta e alongada. Isso dificulta o cálculo das probabilidades. 
Para contornar este problema, no entanto, podemos transformar uma distribuição 
normal qualquer (com qualquer média e desvio-padrão) em distribuição norma 
padrão. A isso chamamos padronização da distribuição. 
 
 
 
Para convertermos uma distribuição normal qualquer em uma distribuição 
normal padrão, usamos a equação (25): 
 
 𝑧 = 
𝑥 − 𝜇
𝜎
 (25) 
 
Lembrando que “𝜇” é a média da distribuição que queremos padronizar e “𝜎” 
é o seu desvio-padrão. A vantagem em fazermos isso é poder utilizar uma tabela com 
valores de probabilidades já calculados, ao invés de calcularmos diretamente 
através da função. Esta tabela nos informa a probabilidade de encontrarmos valores 
A distribuição normal padrão (geralmente simbolizada por 𝑍) é uma distribuição normal 
cuja média é igual a zero e cujo desvio-padrão é igual a um. Assim 𝑍~𝑁(0; 1). 
 
 
 
 
 
 
 
 
 
56 
 
 
que se encontram entre zero e algum valor z que teremos calculado através da 
fórmula acima. 
 
Exemplo: Suponha que o tempo necessário para concluir uma prova siga uma 
distribuição normal com média igual a 60min e desvio padrão igual a 15min. Se um 
aluno for selecionado ao acaso, qual a probabilidade de que demore mais de 40min 
para concluir a prova? 
 
O gráfico da Figura 11 ilustra esta situação. Percebam que procuramos pela 
área que se encontra à direita de 40. Isso inclui a área que vai de 40 a 60 e toda a 
área que está acima de 60. Sabemos que esta área que está acima de 60 é igual a 
0,5 (uma vez que 60 é a média). Mas qual o tamanho da área que vai de 40 a 60? 
Ou seja, qual a probabilidade de uma pessoa concluir a prova com tempo entre 
40min e 60min? Para descobrirmos, vamos primeiramente padronizar a distribuição. 
 
𝑧 = 
𝑥 − 𝜇
𝜎
 
 
𝑧 =
40 − 60
15
 
 
𝑧 = −1,33 
 
Lembre-se que o sinal negativo indica apenas que o valor se encontra abaixo 
da média. 
 
Figura 12: Gráfico de distribuição normal para resolução do exemplo anterior 
 
Fonte: Elaborado pelo Autor (2020) 
 
 
 
 
 
 
 
 
 
 
57 
 
 
Ao padronizar a distribuição, percebemos que a probabilidade da variável “𝑋” 
(tempo para finalizar a prova) seja maior que 45 iguais à probabilidade da variável 
“𝑍” (variável padronizada) seja maior que -1,33. Graficamente, teríamos a Figura 13: 
(Lembre que a média da variável 𝑍 é sempre zero). 
 
Figura 13: Gráfico de distribuição normal (padronização da distribuição) 
 
Fonte: Elaborado pelo Autor (2020) 
 
Consultando a tabela3, vemos que a probabilidade da variável Z assumir 
algum valor entre -1,33 e 0 é igual a 0,40824, ou seja: 
 
𝑃(−1,33 ≤ 𝑧 ≤ 0) = 0,40824 = 40,824% 
 
 
 
Mas, como mencionado acima, precisamos acrescentar a probabilidade de 
𝑍 assumir um valor maior que zero (que é igual à probabilidade de X assumir um valor 
maior que 60). Como vimos, essa probabilidade é igual a 0,5. Então temos que: 
 
𝑃(𝑧 ≥ 1,33) = 𝑃(−1,33 ≤ 𝑧 ≤ 0) + 𝑃(𝑧 ≥ 0) 
 
𝑃(𝑧 ≥ −1,33) = 0,40824 + 0,5 
 
𝑃(𝑧 ≥ −1,33) = 0,90824 𝑜𝑢 90,82% 
 
 
 
 
 
 
 
 
 
58 
 
 
 
Dessa forma, a probabilidade de um aluno escolhido ao acaso demorar mais 
de 40min para finalizar a prova é igual a 90,82%. 
 
Tabela 3: Distribuição Normal Padrão 
parte 
inteira e 
primeira 
decimal 
de Zc 
Segunda decimal de Zc 
 0 1 2 3 4 5 6 7 8 9 
 p = 0 
0,0 00000 00399 00798 01197 01595 01994 02392 02790 03188 03586 
0,1 03983 04380 04776 05172 05567 05962 06356 06749 07142 07535 
0,2 07926 08317 08706 09095 09483 09871 10257 10642 11026 11409 
0,3 11791 12172 12552 12930 13307 13683 14058 14431 14803 15173 
0,4 15542 15910 16276 16640 17003 17364 17724 18082 18439 18793 
0,5 19146 19497 19847 20194 20540 20884 21226 21566 21904 22240 
0,6 22575 22907 23237 23565 23891 24215 24537 24857 25175 25490 
0,7 25804 26115 26424 26730 27035 27337 27637 27935 28230 28524 
0,8 28814 29103 29389 29673 29955 30234 30511 30785 31057 31327 
0,9 31594 31859 32121 32381 32639 32894 33147 33398 33646 33891 
1,0 34134 34375 34614 34850 35083 35314 35543 35769 35993 36214 
1,1 36433 36650 36864 37076 37286 37493 37698 37900 38100 38298 
1,2 38493 38686 38877 39065 39251 39435 39617 39796 39973 40147 
1,3 40320 40490 40658 40824 40988 41149 41309 41466 41621 41774 
1,4 41924 42073 42220 42364 42507 42647 42786 42922 43056 43189 
1,5 43319 43448 43574 43699 43822 43943 44062 44179 44295 44408 
1,6 44520 44630 44738 44845 44950 45053 45154 45254 45352 45449 
1,7 45543 45637 45728 45818 45907 45994 46080 46164 46246 46327 
1,8 46407 46485 46562 46638 46712 46784 46856 46926 46995 47062 
1,9 47128 47193 47257 47320 47381 47441 47500 47558 47615 47670 
2,0 47725 47778 47831 47882 47932 47982 48030 48077 48124 48169 
2,1 48214 48257 48300 48341 48382 48422 48461 48500 48537 48574 
2,2 48610 48645 48679 48713 48745 48778 48809 48840 48870 48899 
2,3 48928 48956 48983 49010 49036 49061 49086 49111 49134 49158 
2,4 49180 49202 49224 49245 49266 49286 49305 49324 49343 49361 
2,5 49379 49396 49413 49430 49446 49461 49477 49492 49506 49520 
2,6 49534 49547 49560 49573 49585 49598 49609 49621 49632 49643 
2,7 49653 49664 49674 49683 49693 49702 49711 49720 49728 49736 
2,8 49744 49752 49760 49767 49774 49781 49788 49795 49801 49807 
2,9 49813 49819 49825 49831 49836 49841 49846 49851 49856 49861 
3,0 49865 49869 49874 49878 49882 49886 49889 49893 49897 49900 
3,1 49903 49906 49910 49913 49916 49918 49921 49924 49926 49929 
3,2 49931 49934 49936 49938 49940 49942 49944 49946 49948 49950 
3,3 49952 49953 49955 49957 49958 49960 49961 49962 49964 49965 
3,4 49966 49968 49969 49970 49971 49972 49973 49974 49975 49976 
3,5 49977 49978 49978 49979 49980 49981 49981 49982 49983 49983 
3,6 49984 49985 49985 49986 49986 49987 49987 49988 49988 49989 
3,7 49989 49990 49990 49990 49991 49991 49992 49992 49992 49992 
3,8 49993 49993 49993 49994 49994 49994 49994 49995 49995 49995 
3,9 49995 49995 49996 49996 49996 49996 49996 49996 49997 49997 
4,0 49997 49997 49997 49997 49997 49997 49998 49998 49998 49998 
4,5 49999 50000 50000 50000 50000 50000 50000 50000 50000 50000 
Fonte: Adaptado de Morettin e Bussab (2010) 
 
 
 
 
 
 
 
 
 
 
 
 
59 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 Nos Livros abaixo vocês encontrarão mais informações e explicação mais detalhada 
sobre probabilidade. 
MCCLAVE, J. T. Estatística para administração e economia. São Paulo: Pearson Prentice 
Hall, 2009. Disponível em: https://bit.ly/2QNFMKU 
 
DOANE, D. P.; SEWARD, L. E. Estatística Aplicada à Administração e Economia. 4. ed. 
Porto Alegre: AMGH, 2014. Disponível em: https://bit.ly/3hWvWSI 
As companhias aéreas frequentemente vendem mais passagens que a capacidade dos 
aviões contando com o fato de que nem todos os passageiros se apresentam para o 
embarque. Se a companhia tem uma estimativa da probabilidade de um passageiro não 
comparecer, qual distribuição de probabilidades poderia ser usada para calcular a 
probabilidade de haver overbooking (situação onde a venda de passagens é superior ao 
número de assentos no avião)? 
 
 
 
 
 
 
 
 
 
60 
 
 
FIXANDO O CONTEÚDO 
1. Assinale a alternativa correta no que se refere à probabilidade. 
 
a) Pode ser entendida como uma medida da chance de algo acontecer. 
b) Fenômenos determinísticos são aqueles em que o acaso tem papel importante. 
c) Fenômenos aleatórios são aqueles que produzem o mesmo resultado sempre que 
são realizados sob as mesmas condições. 
d) O objeto de estudo da probabilidade são os fenômenos determinísticos. 
e) Um evento é o conjunto de todos os resultados possíveis de um experimento. 
 
2. Calcule a probabilidade de sair um número maior que 4 no lançamento de um 
dado. 
 
a) 25% 
b) 33,33% 
c) 66,67% 
d) 15% 
e) 50% 
 
3. Calcule a probabilidade de sair um número ímpar ou um número maior que 4 no 
lançamento de um dado. 
 
a) 83,33% 
b) 75% 
c) 25,45% 
d) 33% 
e) 66% 
 
4. Suponha que a probabilidade de uma pessoa se atrasar para um voo seja 25% 
(0,25). Assim, qual a probabilidade de 3 pessoas estarem atrasadas num grupo de 
5 pessoas? 
 
a) 1,3% 
 
 
 
 
 
 
 
 
 
61 
 
 
b) 3,4% 
c) 8,8% 
d) 4,4% 
e) 5,1% 
 
5. Em uma caixa, há um total de 10 bolas, sendo 3 bolas brancas, 5 bolas pretas e 2 
bolas azuis. Se uma única bola for retirada ao acaso, calcule a probabilidade de 
que seja azul. 
 
a) 50% 
b) 60% 
c) 20% 
d) 70% 
e) 75% 
 
6. Considerando a questão anterior, suponha que fossem retiradas duas bolas (sem 
que nenhuma retornasse para a caixa). Calcule a probabili-dade da primeira bola 
ser branca e

Outros materiais

Outros materiais