Logo Passei Direto
Buscar
Material
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

FACULDADE ÚNICA 
DE IPATINGA 
ESTATÍSTICA 
Felipe Chaves Inácio 
 
 
 
 
 
 
 
 
 
2 
 
 
Menu de Ícones 
Com o intuito de facilitar o seu estudo e uma melhor compreensão do conteúdo 
aplicado ao longo da Livro, você irá encontrar ícones ao lado dos textos. Eles são para 
chamar a sua atenção para determinado trecho do conteúdo, cada um com uma 
função específica, mostradas a seguir: 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3 
 
 
SUMÁRIO 
AMOSTRAGEM .......................................................................................... 6 
 INTRODUÇÃO.......................................................................................................... 6 
 DIMENSIONAMENTO DA AMOSTRA ...................................................................... 6 
 TIPOS DE AOSTRAGEM ........................................................................................... 8 
FIXANDO O CONTEUDO ...................................................................................... 10 
ESTATÍSTICA DESCRITIVA ......................................................................... 13 
 INTRODUÇÃO........................................................................................................ 13 
 TABELAS DE FREQUÊNCIAS ................................................................................... 13 
 MEDIDAS DESCRITIVAS ......................................................................................... 15 
 Medidas de tendência central ........................................................ 15 
 Medidas de variação (ou dispersão) ............................................... 20 
FIXANDO O CONTEÚDO ...................................................................................... 23 
MEDIDAS DE ASSIMETRIA E CURTOSE ..................................................... 26 
 INTRODUÇÃO........................................................................................................ 26 
 MEDIDA DE ASSIMETRIA ....................................................................................... 27 
 MEDIDA DE CURTOSE............................................................................................ 28 
FIXANDO O CONTEÚDO ...................................................................................... 30 
PRINCÍPIOS DA PROBABILIDADE ............................................................ 33 
 INTRODUÇÃO........................................................................................................ 33 
 Conceitos fundamentais ............................................................................. 33 
 DEFINIÇÕES DE PROBABILIDADE ......................................................................... 36 
 Probabilidade Clássica ................................................................................ 36 
 Probabilidade frequentista .......................................................................... 36 
 Definição axiomática de probabilidade ................................................. 37 
 REGRA DA ADIÇÃO .............................................................................................. 38 
 Eventos excludentes ..................................................................................... 38 
 REGRA DO PRODUTO ........................................................................................... 39 
 Eventos independentes ............................................................................... 39 
 PROBABILIDADE TOTAL ......................................................................................... 41 
 TEOREMA DE BAYES .............................................................................................. 43 
 DISTRIBUIÇÕES DE PROBABILIDADE ..................................................................... 45 
 Distribuição Binomial ..................................................................................... 47 
 Parâmetros da distribuição binomial ........................................................ 49 
 Distribuição normal ....................................................................................... 50 
 Distribuição normal padrão ........................................................................ 55 
FIXANDO O CONTEÚDO ...................................................................................... 60 
INFERÊNCIA ESTATÍSTICA ........................................................................ 63 
 INTRODUÇÃO........................................................................................................ 63 
 ESTIMAÇÃO .......................................................................................................... 65 
 Estimação por ponto .................................................................................... 65 
FIXANDO O CONTEÚDO ...................................................................................... 69 
INFERÊNCIA ESTATÍSTICA: TESTE DE HIPÓTESES ...................................... 72 
 INTRODUÇÃO........................................................................................................ 72 
 TESTE DE HIPÓTESES PARA A MÉDIA POPULACIONAL ........................................ 74 
 Teste com variância populacional conhecida ....................................... 75 
 Teste com variância populacional desconhecida ................................ 76 
FIXANDO O CONTEÚDO ...................................................................................... 80 
UNIDADE 
01 
UNIDADE 
02 
UNIDADE 
03 
UNIDADE 
04 
UNIDADE 
05 
UNIDADE 
06 
 
 
 
 
 
 
 
 
 
4 
 
 
RESPOSTAS FIXANDO CONTEÚDO ..................................................... 83 
REFERÊNCIAS ...................................................................................... 84 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5 
 
 
CONFIRA NO LIVRO 
 
Serão apresentados os conceitos de amostragem e o processo de 
escolha de uma amostra para que ela conserve as principais 
características do universo. Conceitos chave como margem de erro 
e tipos de amostragem farão parte desta unidade. 
A estatística descritiva é amplamente utilizada nos mais diversos 
estudos que envolvem a análise de dados. Conceitos e formulas de 
cálculo das principais medidas como a média e a variância serão 
apresentados, bem como suas interpretações e aplicações. 
 
 
Simetria e curtose são dois conceitos de grande importância na 
estatística. Nesta unidade, serão apresentados esses conceitos, os 
cálculos destas medidas e suas implicações na análise de dados. 
A teoria das probabilidades é a base matemática sobre a qual são 
construídos importantes conceitos e técnicas da estatística. Nesta 
unidade serão apresentados as definições, cálculos e algumas 
formas de modelar estatisticamente situações em que o acaso 
desempenha um papel importante. 
 
 
Nesta unidade será apresentado o processo de inferência 
estatística que consiste em fazer afirmações sobre um universo 
através de medidas calculadas em uma amostra. Veremos como 
estimar parâmetros populacionais como a média por exemplo 
através do cálculo de estatísticas amostrais. Este processo é de 
grande importância na estatística e se aplica a uma grande 
variedade de situações. 
Nesta unidade será dada continuidade ao conceito de inferência 
estatística, apresentando o segundo passo no processo que é a 
realização dos testes de hipóteses. Após calcular uma estatística 
amostral, precisamos verificar se aquele valor pode de fato 
representar o parâmetro populacional ou se foi encontrado por 
puro acaso devido à amostra utilizada. 
 
 
 
 
 
 
 
 
 
 
6 
 
 
UNIDADE 
 
AMOSTRAGEM 
 
 
 
 INTRODUÇÃO 
 
A amostragem é um processo pelo qual podemos conhecer as características 
de um todo (chamado “universo”) sem termo que analisar todos os elementos que o 
compõem. Uma analogia frequentementeutilizada é da prova de um bolo. Se 
quisermos saber se um bolo é gostoso, não há a necessidade de comermos o bolo 
inteiro, basta uma pequena fatia. Da mesma forma, quando queremos conhecer 
alguma característica de um universo, não precisamos pesquisar cada elemento que 
o compõe, basta analisarmos uma parte, sendo esta parte chamada de “amostra”. 
Entretanto, assim como na prova de um bolo, essa parte não pode ser 
pequena demais, caso contrário, corremos o risco de não ser o suficiente para termos 
uma ideia do todo. Também não podemos escolher de forma descuidada os 
elementos que irão compor a amostra, pois podemos não ter todas as características 
do universo que precisam ser preservadas. Dessa forma, o processo de escolha de 
uma amostra é composto, grosso modo, por duas etapas: o dimensionamento (ou 
cálculo do tamanho) da amostra e o tipo de amostragem utilizado para escolher os 
elementos que irão compor a amostra. 
 
 
 
 DIMENSIONAMENTO DA AMOSTRA 
No que diz respeito a esta etapa do processo, é importante ressaltar que o 
tamanho da amostra depende fundamentalmente de dois fatores: o tamanho do 
universo e a margem de erro que estamos dispostos a aceitar. Esta margem de erro, 
ao contrário do que se possa imaginar, é determinada antes do cálculo do tamanho 
da amostra e não depende de fator algum. É importante lembrar apenas que, 
quanto menor a margem de erro, maior deverá ser o tamanho da amostra, o que 
 
 
 
 
 
 
 
 
 
7 
 
 
pode acarretar em maiores custos financeiros e maiores tempos de execução. 
Por outro lado, está margem de erro não pode ser grande demais, pois pode 
comprometer os resultados da pesquisa. Dessa forma, precisamos sempre escolher 
uma margem de erro que esteja a meio termo. 
Existem várias formas (e fórmulas) para o cálculo do tamanho de amostras. 
Uma forma relativamente simples e que traz resultados bastante satisfatórios a 
seguinte, demonstrada pela equação (1): 
 
 
n =
N
NE + 1
 (1) 
 
 
Onde: 
𝑛 = tamanho da amostra; 
𝑁 = tamanho do universo; 
𝐸 = margem de erro escolhida. 
 
Exemplo: Suponha que uma determinada empresa tenha 3000 clientes em 
seus cadastros e pretenda realizar uma pesquisa de satisfação entre eles. Quantos 
clientes deverão ser pesquisados para que se tenha uma margem de erro de 5%? 
Solução: Neste caso, temos o seguinte: 
𝑁 = 3000 
𝐸 = 5% = 0,05 
𝑛 = ? 
 
Então: 
 
𝑛 =
3000
3000 ∙ (0,05) + 1
 
 
 
 
𝑛 =
3000
3000 ∙ (0,0025) + 1
 
 
 
 
𝑛 =
3000
7,5 + 1
 
 
 
 
𝑛 =
3000
8,5
 
 
 
 𝑛 = 352,941176 ≅ 𝟑𝟓𝟑 
 
 
 
 
 
 
 
 
 
 
8 
 
 
 TIPOS DE AOSTRAGEM 
Após conhecermos o número de elementos do universo que devemos 
pesquisar, precisamos saber como selecionar esses elementos. Existem várias 
maneiras de se fazer isso e, dentre elas, os quatro principais tipos são: 
 
 Amostragem aleatória simples: Neste tipo de amostragem, todos os elementos 
do universo têm a mesma chance de serem selecionados. Este é o principal 
tipo de amostragem, sendo frequentemente utilizado em conjunto com outros 
tipos. Os melhores exemplos de amostragem aleatória simples são os sorteios 
de uma forma geral. 
 Amostragem estratificada: Neste tipo de amostragem, o universo é 
previamente divido em grupos mutuamente exclusivos (chamados estratos) e 
depois são selecionados alguns elementos de cada um destes grupos. A 
escolha destes elementos normalmente é feita através da amostragem 
aleatória simples. 
 Amostragem por conglomerados: Neste caso, o universo também é dividido 
em grupos. Entretanto, apenas alguns destes grupos são selecionados e então 
todos os elementos destes grupos são pesquisados. Neste tipo de amostragem 
há uma grande economia de tempo e recursos financeiros, uma vez que é 
dispensada a necessidade de listagem dos elementos do universo além de 
reduzir o custo de locomoção e acesso aos elementos para a obtenção das 
informações desejadas. 
 Amostragem sistemática: Essa amostragem consiste em considerar os N 
elementos do universo reunidos em grupos definidos por um intervalo de 
amplitude 𝑁 𝑛⁄ e sortear um elemento decada grupo para compor a amostra 
 
 
 
 
 
 
 
 
 
 
 
 
9 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
MCCLAVE, J. T. Estatística para administração e economia. São Paulo: Pearson Prentice 
Hall, 2009. Disponivél em: https://bit.ly/2QNFMKU 
DOANE, D. P.; SEWARD, L. E. Estatística Aplicada à Administração e Economia. 4. ed. Porto 
Alegre: AMGH, 2014. Disponivel em: https://bit.ly/3hWvWSI 
 
 
 
 
 
 
 
 
 
10 
 
 
FIXANDO O CONTEUDO 
1. Considerando um universo composto por 1.200 pessoas, calcule o tamanho da 
amostra necessário para se ter uma margem de 5%. 
 
a) n = 450 
b) n = 400 
c) n = 300 
d) n = 380 
e) n = 395 
 
2. Calcule o tamanho da amostra necessário para se ter uma margem de erro de 1% 
em um universo de 1.220 pessoas. 
 
a) n = 1.071 
b) n = 1.110 
c) n = 800 
d) n = 950 
e) n = 750 
 
3. Calcule o tamanho da amostra necessário para que se tenha uma margem de 
erro de 5% em um universo de 500.000 pessoas. 
 
a) n = 800 
b) n = 400 
c) n = 1.500 
d) n = 1.000 
e) n = 1.275 
 
4. Assinale a alternativa correta no que se refere ao cálculo do tamanho de uma 
amostra. 
 
a) Quanto maior for a margem de erro, maior será também o tamanho da amostra. 
b) A margem de erro deve ser escolhida antes de calcular o tamanho da amostra. 
 
 
 
 
 
 
 
 
 
11 
 
 
c) O tamanho do universo não influencia o tamanho da amostra. 
d) O tamanho da amostra é sempre um percentual fixo do universo. 
e) O tamanho da amostra é diretamente proporcional à margem de erro. 
 
5. Assinale a alternativa correta no que se refere à amostragem estratificada. 
 
a) É um processo em que todos os elementos do universo têm a mesma chance de 
serem selecionados. 
b) Selecionamos um ponto de partida e escolhemos um a cada “x” elementos do 
universo. 
c) O universo é dividido em partes e depois, são selecionados alguns elementos de 
cada parte. 
d) Os elementos são sorteados até termos o total que precisamos na amostra. 
e) O universo é dividido em partes e selecionamos algumas delas para pesquisar 
todos os elementos. 
 
6. Assinale a alternativa correta no que diz respeito à amostragem aleatória simples. 
 
a) Antes de tudo, o universo deve ser dividido em partes. 
b) Pesquisamos todos os elementos de algumas partes selecionadas. 
c) Pesquisamos todos os elementos do universo. 
d) Selecionamos um em cada “x” elementos do universo. 
e) Sorteios justos são exemplos deste tipo de amostragem. 
 
7. Suponha que uma pessoa deseje realizar uma pesquisa com os habitantes de um 
município. Sabendo que este município possui 10.000 habitantes e que a pessoa 
pretende selecionar uma amostra utilizando uma margem de erro de 5%, quantos 
habitantes ela deverá selecionar? 
 
a) 385 
b) 450 
c) 520 
d) 284 
e) 785 
 
 
 
 
 
 
 
 
 
12 
 
 
8. O gerente de marketing de uma determinada empresa decide fazer uma 
pesquisa, por amostragem, para conhecer o perfil socioeconômico dos clientes 
em potencial no seu município. Para tanto, ele seleciona algumas pessoas em 
cada um dos 10 bairros deste município. Dessa forma, qual foi o tipo de 
amostragem utilizado por ele? 
 
a) Amostragem aleatória. 
b) Amostragem sistemática. 
c) Amostragem por conglomerados. 
d) Amostragem estratificada. 
e) Amostragem por conveniência. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
13 
 
 
ESTATÍSTICA DESCRITIVA 
 
 
 
 INTRODUÇÃO 
A estatística descritiva pode ser entendida como um conjunto de técnicas e 
métodos estatísticos que nos permitem descreve um determinado conjunto de dados 
para que possamos ”enxergar” as informações nele contidas. Dentre estas técnicas 
encontram-se tabelas, gráficos e medidasque irão representar o conjunto de dados 
em questão. A estatística descritiva nos permite apenas descrever um conjunto de 
dados sem que possamos, a partir dele, fazer afirmativas acerca do universo do qual 
tal conjunto foi extraído. A parte da estatística que nos permite fazer isso é chamada 
de inferência estatística. Dentre as técnicas da estatística descritiva, começaremos 
estudando as tabelas de frequências e passaremos então para as medidas 
descritivas. 
 
 TABELAS DE FREQUÊNCIAS 
São tabelas que contêm na primeira coluna classes ou intervalos de valores da 
variável em questão e na segunda coluna a frequência de cada classe, ou seja, a 
quantidade de valores que se encontram dentro de cada intervalo. Vejamos o 
seguinte exemplo na Tabela 1: 
 
Tabela 1: Exemplo de Tabela de Frequências 
Classes Frequência Freq. Relativa Freq. Acumulada 
10 ˫ 20 8 0,32 08 
20 ˫ 30 7 0,28 15 
30 ˫ 40 5 0,20 20 
40 ˫ 50 3 0,12 23 
50 ˫ 60 2 0,08 25 
Total (Σ) 25 1,00 - 
Fonte: Elaborado pelo Autor (2020) 
 
 
UNIDADE 
 
 
 
 
 
 
 
 
 
14 
 
 
Supondo que a tabela 1 se refira às idades de 25 pessoas de um determinado 
grupo, podemos dizer que 8 destas pessoas (ou 32%) possuem idade entre 10 e 20 
anos. Sete pessoas possuem idade entre 20 e 30 anos e assim sucessivamente. A 
frequência relativa informa justamente a porcentagem de valores dentro de cada 
classe e é obtida dividindo-se a frequência da classe pela frequência total. Por sua 
vez, a frequência acumulada é obtida somando-se a frequência da classe com a 
frequência das classes anteriores. Por exemplo, a frequência da terceira classe é 
obtida somando-se 5 + 7 + 8 = 20 e significa que existem 20 pessoas com idade entre 
10 e 40 anos. 
Através desta tabela podemos perceber, por exemplo, que 60% das pessoas 
deste grupo possuem entre 10 e 30 anos de idade. Isso pode ser percebido somando-
se as frequências relativas das duas primeiras classes. Por outro lado, somando as 
frequências relativas das duas últimas classes, podemos perceber que apenas 20% 
destas pessoas possuem idade entre 40 e 60 anos. Dessa forma, podemos concluir 
que este grupo é constituído basicamente por pessoas mais jovens. 
Uma questão que devemos sempre considerar diz respeito ao número de 
classes que serão utilizadas em cada tabela. No exemplo acima, foram utilizadas 5 
classes, mas nem sempre será assim. A quantidade de classes de uma tabela 
dependerá do número de valores existentes no conjunto (ou seja, o tamanho da 
amostra). Chamando de “K” o número de classes e de “n” o tamanho da amostra, 
a quantidade de classes que serão utilizadas na tabela pode ser calculada pela 
equação (2): 
 
 𝐾 = 1 + 3, 22 𝑙𝑜𝑔 𝑛 (2) 
 
Entretanto, é importante notar que este cálculo pode ser simplificado quando 
o conjunto de dados não possui mais de 50 valores. Neste caso, o número K de 
classes poderá ser aproximado pela equação (3): 
 
 𝐾 = √𝑛 (3) 
 
Após conhecermos o número de classes a ser utilizado, devemos calcular o 
intervalo destas classes, que chamaremos de “H”, por meio da equação (3). Assim, 
 
 
 
 
 
 
 
 
 
 
15 
 
 
 
𝐻 =
𝐴
𝐾
 (4) 
 
Onde “A” é a amplitude, ou seja, 
 
A = Maior valor − Menor valor. 
 
 
 MEDIDAS DESCRITIVAS 
As medidas descritivas (Figura 1) são grandezas utilizadas para resumir e 
descrever um conjunto de dados. De grande utilidade nas análises estatísticas, essas 
medidas se dividem em dois grupos: as medidas de tendência central e as medidas 
de variação. 
 
Figura 1: Medidas Descritivas 
 
Fonte: Elaborado pelo Autor (2020) 
 
 Medidas de tendência central 
Como o próprio nome sugere, esse conjunto de medidas nos dão a ideia de 
centralidade, sendo a média a mais importante delas, embora não seja a única. 
Existem alguns “tipos” de médias, utilizadas em diferentes situações, conforme 
veremos a seguir. 
 
 Média aritmética simples: Representada pelo símbolo 𝑋, é utilizada em situações 
onde todos os valores têm o mesmo peso, ou seja, têm todos a mesma importância 
no conjunto de dados. É calculada pela equação (5): 
 
 
 
 
 
 
 
 
 
16 
 
 
 
𝑋 =
∑ 𝑥
𝑁
 (5) 
 
Assim, para calcularmos a média simples, basta somar todos os valores e dividir 
pela quantidade de valores somados. 
 
Exemplo: Suponha que tenhamos um conjunto como os seguintes números: 
2, 4, 5, 7 e 12 . A média deste conjunto seria: 
 
𝑋 =
2 + 4 + 5 + 7 + 12
5
 
 
𝑋 = 6 
 
 Média aritmética ponderada: É utilizada quando nem todos os valores do conjunto 
têm a mesma importância. Neste caso, damos pesos maiores para os valores mais 
importantes. Representaremos a média ponderada pelo símbolo 𝑋 e seu cálculo 
é feito pela equação (6): 
 
 
𝑋 =
∑ (𝑥 . 𝑝)
∑ 𝑝
 (6) 
 
Neste caso, “x” são os valores do conjunto e “p” o peso correspondente. 
 
Exemplo: Suponha que um aluno tenha sido aprovado com as seguintes notas nas 
disciplinas a abaixo, cada uma com seu respectivo peso. 
 
Disciplina Nota Peso 
História 98 3 
Geografia 97 3 
Física 85 2 
Matemática 90 2 
 
 Dessa forma, a média ponderada ficaria assim: 
 
X =
(98 × 3) + (97 × 3) + (85 × 2) + (90 × 2)
3 + 3 + 2 + 2
 
X =
935
10
 
 
 
 
 
 
 
 
 
 
17 
 
 
X = 93,5 
 
 Moda: É o valor que aparece com a maior frequência num conjunto de dados. 
Iremos representa-la por “mo”. 
 
Exemplo: Seja o seguinte conjunto: 2, 8, 3, 5, 4, 5, 3, 5, 5 𝑒 1 
O elemento de maior frequência (o que aparece mais vezes) é o 5. 
Dessa forma, mo = 5. Como o conjunto apresente somente uma moda, dizemos que 
se trata de um “conjunto modal”. Entretanto, o conjunto de dados pode apresentar 
mais de uma moda. Nestes casos, são chamados de “conjunto bimodal” (quando 
tem duas modas) ou “conjunto multimodal” (quando tem mais de duas modas). 
Vejamos os exemplos abaixo: 
 
Exemplo: Seja o conjunto: 6, 10, 5, 6, 10 𝑒 2. 
Os elementos 6 e 10 aparecem com a mesma frequência máxima. Portanto, o 
conjunto apresenta duas modas, sendo assim um conjunto bimodal. 
 
Exemplo: No conjunto 2, 2, 5, 2 , 8 , 5 8, 8, 10, 10 𝑒 10 os números 2, 8 e 10 aparecem 
com a mesma frequência máxima. Portanto, trata-se de um conjunto multimodal. 
 
 
 
 Mediana: É o valor que ocupa a posição central em um conjunto de dados, 
quando o mesmo se encontra ordenado. Sendo assim, podemos afirmar que 50% 
dos valores do conjunto são menores que a mediana e, por conseguinte, 50% são 
maiores que ela. Precisamos observar que se trata de uma medida de posição. 
Isso significa que, para conhecermos a mediana de um conjunto, precisamos 
calcular a posição que ela ocupa no conjunto de dados. Iremos representar a 
mediana pelo símbolo 𝑋 e sua posição no conjunto é dada pela equação (7): 
 
 
 
 
 
 
 
 
 
 
18 
 
 
 𝑛 + 1
2
 (7) 
 
Exemplo: Seja o seguinte conjunto de dados: 2, 4, 6, 10, 12, 15, 20, 22, 25, 26, 28, 30, 
33, 35, 37, 41, 44, 47, 49, 55 e 58, calcule sua mediana. 
 
Há 21 números neste conjunto (n = 21), de forma que a posição ocupada pela 
mediana é: 
 
𝑛 + 1
2
= 
21 + 1
2
= 11 
 
Assim, a mediana ocupa a 11ª posição no conjunto (é o 11º número do 
conjunto) e seu valor é 𝑋 = 2 
 
 
 
 Quartis: Os quartis fazem parte das chamadas “medidas separatrizes” que são 
medidas que dividem o conjunto de dados em partes iguais. No caso dos quartis, 
trata-se de três valores que dividem o conjunto em quatro partes (desde que o 
conjunto esteja ordenado). Dessa forma, 25% dos valores do conjunto de dados 
são menores que o primeiro quartil (𝑄 ), 50% dos valores são menores que o 
segundo quartil (𝑄 ) e 75% dos valores são menores que o terceiro quartil (𝑄 ). É 
importante notar que, por serem medidas de posição, não calculamos seus 
valores. O que calculamos são suas posições dentro do conjunto de dados. Essas 
posições são dadas pelas equações (8), (9) e (10): 
 
 
𝑄 =
𝑛 + 1
4
 (8) 
 Neste link https://bit.ly/3biOR7Ivocês encontrarão estes conceitos apresentados de 
outra maneira, com vídeos e um mapa mental. 
 Nos livros abaixo, há também uma explicação detalhada sobre a estatística descritiva: 
MCCLAVE, J. T. Estatística para administração e economia. São Paulo: Pearson Prentice 
Hall, 2009. Disponivél em: https://bit.ly/2QNFMKU 
 
DOANE, D. P.; SEWARD, L. E. Estatística Aplicada à Administração e Economia. 4. ed. 
Porto Alegre: AMGH, 2014. Disponivel em: https://bit.ly/3hWvWSI 
 
 
 
 
 
 
 
 
 
19 
 
 
 
𝑄 =
𝑛 + 1
2
 (9) 
 
 
𝑄 = 3 ∙
𝑛 + 1
4
 (10) 
 
Exemplo: Considere o seguinte conjunto referente às idades de 15 pessoas. 
 
12 15 16 18 19 
20 24 25 27 28 
30 33 34 35 38 
 
Assim, temos as seguintes posições: 
 
𝑄 =
𝑛 + 1
4
= 
15 + 1
4
= 4 
𝑄 =
𝑛 + 1
2
= 
15 + 1
2
= 8 
𝑄 = 3 ∙
𝑛 + 1
4
= 3 ∙
15 + 1
4
= 3 ∙ 4 = 12 
 
Assim, o primeiro quartil é o número que ocupa a 4ª posição no conjunto de 
dados, ou seja: 
 
𝑄 = 18 
 
Da mesma forma, o segundo quartil é o número que ocupa a 8ª posição no 
conjunto: 
 
𝑄 = 25 
 
Por fim, o terceiro quartil é o é o número que ocupa a 12ª posição no conjunto: 
 
𝑄 = 33 
 
Dessa forma, podemos afirmar que 25% das pessoas pesquisadas têm idade 
inferior a 18 anos. 50% delas têm idade inferior a 25 anos e 75% das pessoas têm idade 
inferior a 33 anos. 
 
 
 
 
 
 
 
 
 
20 
 
 
 Medidas de variação (ou dispersão) 
As medidas de tendência central, como vimos anteriormente, são essenciais 
para a descrição de um conjunto de dados. Entretanto, elas não nos trazem todas as 
informações que precisamos ter sobre os dados. Tomemos a média como exemplo e 
analisemos os dois conjuntos abaixo. 
 
Conjunto A: 10 ; 1 ; 18 ; 20 ; 35 ; 3 ; 7 ; 15 ; 11 ; 10 
Conjunto B: 12 ; 13 ; 13 ; 14 ; 12 ; 14 ; 12 ; 14 ; 13 ; 13 
 
Podemos perceber que ambos os conjuntos apresentam a mesma média (𝑋 = 
13). Entretanto, podemos perceber também que esta média representa bem o 
conjunto B, mas não representa tão bem o conjunto A. Isso acontece porque, no 
primeiro conjunto, os valores estão mais dispersos, ou seja, podemos encontrar valores 
bastante diferentes da média. No conjunto B, os valores estão mais próximos uns dos 
outros e, por consequência, também da média. 
Com isso, podemos perceber que precisamos de outras medidas que nos 
indiquem o quanto os números estão variando em torno da média. Em outras 
palavras precisamos de medidas que traduzam o grau de variabilidade do conjunto. 
Essas medidas são as medidas de variação ou dispersão. 
 
 Variância: Representada por s2, é uma das medidas de variação mais utilizadas. 
Seu cálculo é feito pela equação (11): 
 
 
S =
∑(𝑥 − �̅�)
𝑛 − 1
 (11) 
 
Nesta fórmula, �̅� é a média do conjunto, x representa cada um dos valores 
individualmente e n representa a quantidade total de números no conjunto. 
 
Exemplo: Calculemos a variância do seguinte conjunto de dados: 4 ; 5 ; 8 ; 5. 
Este conjunto tem n = 4 elementos e sua média é igual a: 
 
�̅� =
4 + 5 + 8 + 5
4
=
22
4
 
 
 
 
 
 
 
 
 
 
21 
 
 
�̅� = 5,5 
 
Os termos (𝑥 − �̅�) são: 
 
(4 − 5,5) = 2,25 
(5 – 5,5) = 0,25 
(8 – 5,5) = 6,25 
(5 – 5,5) = 0,25 
 
Ao somarmos estes valores, obtemos ∑ (𝑥 − �̅�) = 9. 
Então, usando a equação (11), temos o seguinte: 
 
S =
∑(𝑥 − �̅�)
𝑛 − 1
=
9
4 − 1
 
 
S = 3 
 
 Desvio-padrão: O desvio-padrão de um conjunto de dados é simplesmente a raiz 
quadrada da variância. Ele tem a vantagem de expressar a variabilidade do 
conjunto na mesma unidade de medida dos valores e não na unidade de medida 
ao quadrado, como a variância. Dessa forma, temos o seguinte se considerarmos 
o exemplo anterior: 
 
𝑆 = 𝑆 = √3 
 
𝑆 ≈ 1,73 
 
 
 
 
 Neste link https://bit.ly/3lLYvEW vocês poderão encontrar mais sobre as medidas de 
variação e suas interpretações. 
 Neste outro link https://bit.ly/2YTjITt, há mais um pouco sobre o conceito de desvio-
padrão. 
 
 
 
 
 
 
 
 
 
22 
 
 
 Coeficiente de variação: Quando analisamos o desvio-padrão de um conjunto de 
dados, temos uma informação sobre a variação absoluta daquele conjunto. 
Entretanto, muitas vezes é importante levar em consideração a média do conjunto 
ao analisarmos seu grau de variação. Para isso, utilizamos uma medida de 
variação relativa, ou seja, que nos diz a variabilidade do conjunto em relação à 
sua média. Esta medida é o coeficiente de variação (CV) e é calculada dividindo-
se o desvio-padrão do conjunto pela sua média. O resultado costuma ser 
multiplicado por 100 para termos uma porcentagem. Assim, temos a equação (12): 
 
 
𝐶 =
𝑆
�̅�
∙ 100 (12) 
 
Ainda considerando o exemplo anterior, o coeficiente de variação daquele 
conjunto será: 
 
𝐶 =
1,73
5,5
 ∙ 100 
 
𝐶 ≈ 31,45 
 
 
 
 
 
 
 
 
 
 
A renda per capta de um país é a renda total deste país dividida pelo número de 
habitantes, ou seja, trata-se de uma média simples. Por outro lado, a distribuição 
de renda nos dá uma medida da variação desta renda ao redor da média, ou 
seja, nos dá uma ideia de variabilidade. Um país cuja renda apresenta grande 
concentração, apresentará uma variância (da renda) alta ou baixa? 
 
 
 
 
 
 
 
 
 
23 
 
 
FIXANDO O CONTEÚDO 
1. No que se refere à estatística descritiva, assinale a alternativa correta. 
 
a) Trata-se de um conjunto de técnicas usadas para conhecermos um universo. 
b) Trata-se de um conjunto de técnicas e métodos para representar e descrever um 
conjunto de dados. 
c) É composta somente de gráficos e tabelas. 
d) É sinônimo de inferência estatística. 
e) Nenhuma das alternativas anteriores está correta. 
 
2. Calcule a média aritmética simples do seguinte conjunto de dados e assinale a 
resposta correta: 05 ; 07 ; 13 ; 15 ; 20. 
 
a) �̅� = 15 
b) �̅� = 12 
c) �̅� = 18 
d) �̅� = 7 
e) �̅� = 10 
 
3. Encontre a mediana do conjunto de dados abaixo e assinale a alternativa correta: 
05 ; 08 ; 10 ; 12 ; 15. 
 
a) �̅� = 10 
b) �̅� = 15 
c) �̅� = 08 
d) �̅� = 05 
e) �̅� = 12 
 
4. Encontre o terceiro quartil do seguinte conjunto de dados: 03; 05; 09; 10; 12; 15; 18. 
 
a) Q3 = 6 
b) Q3 = 09 
c) Q3 = 10 
 
 
 
 
 
 
 
 
 
24 
 
 
d) Q3 = 15 
e) Q3 = 12 
 
5. Suponha que um determinado aluno tenha concluído o último ano do Ensino 
Médio com as seguintes notas: 
 
Disciplina Nota Peso 
História 75 5 
Geografia 70 5 
Física 85 4 
Matemática 90 4 
Química 95 3 
Português 88 5 
Língua Estrangeira 87 4 
 
Suponha ainda que cada disciplina tenha um determinado peso, conforme a 
tabela acima. Sendo assim, calcule a média ponderada das notas deste aluno. 
 
a) 83,27 
b) 80,51 
c) 85,37 
d) 80,00 
e) 82,00 
 
6. Calcule a variância do seguinte conjunto de dados e assinale a alternativa 
correta: 02; 05; 05; 12. 
 
a) S² = 4,24 
b) S² = 5,25 
c) S² = 18 
d) S² = 20 
e) S² = 15 
 
7. A tabela de frequências abaixo se refere à idade de um grupo de pessoas 
pesquisadas em um estudo. No que se refere a ela, é correto afirmar que: 
 
 
 
 
 
 
 
 
 
 
25 
 
 
Classes Frequência Freq. Relativa Freq. Acumulada 
15 Ⱶ 25 9 0,30 9 
25 Ⱶ 35 2 0,07 11 
35 Ⱶ 45 5 0,17 16 
45 Ⱶ 55 6 0,20 22 
55 Ⱶ 65 8 0,26 30 
Total 3 1 - 
 
a) 0,07% das pessoas têm idade compreendida entre 25 e 35 anos. 
b) 37% das pessoas têm menos de 35 anos. 
c) Foram pesquisadas 25 pessoas no total. 
d) 46% das pessoas têm mais de 55 anos. 
e) Apenas 17% das pessoas têm menos de 45 anos. 
 
8. Considerando a tabela de frequências da questão anterior, calcule a média dos 
dados que deram origem a ela e assinale a alternativa correta. 
a) 31,5 
b) 45,81 
c) 40,67 
d) 31,5 
e) 50,67 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
26 
 
 
MEDIDAS DE ASSIMETRIA E 
CURTOSE 
 
 
 INTRODUÇÃO 
O conceito de simetria sempre remete àideia de igualdade. Segundo o 
dicionário Houaiss (2001, p. 2573) simetria é: “ [...] conformidade, em medida, forma 
e posição relativa, entre [...] cada lado de uma linha divisória, um plano médio, um 
centro ou eixo [...] semelhança entre duas metades [...]. 
Do ponto de vista da estatística, a simetria ocorre quando a média, a moda e 
a mediana de um conjunto (ou variável) são iguais. Ou seja, simetria em estatística 
significa que 𝑋 = 𝑋 = 𝑚 . Graficamente, teríamos algo desta forma: 
 
Figura 2: Gráfico de Simetria 
 
Fonte: Elaborado pelo Autor (2020) 
 
Quando uma distribuição não apresenta simetria, dizemos que ela é 
“assimétrica” e seu gráfico poderá ser de uma das duas formas apresentadas na 
Figura 3 abaixo: 
 
Figura 3: Gráficos de Assimetria 
 
Fonte: Morettin e Bussab (2010, p. 51) 
UNIDADE 
 
 
 
 
 
 
 
 
 
27 
 
 
 
 
 MEDIDA DE ASSIMETRIA 
Talvez a forma mais comum de identificar e medir a assimetria de uma 
distribuição é pelo Coeficiente de Pearson, dado pela equação (13). 
 
 
A =
𝑋 − 𝑚
𝐷
 (13) 
 
Se A = 0, então sabemos que a distribuição é simétrica. 
Se A < 0, então dizemos que a distribuição é assimétrica negativa. 
Se A > 0, então a distribuição é assimétrica positiva. 
 
Exemplo: Qual é a medida de assimetria do conjunto abaixo? 
10 ; 12 ; 15 ; 18 ; 20 ; 12 ; 21 ; 12 
Primeiramente, a média deste conjunto é: 
 
𝑋 =
∑ 𝑥
𝑛
=
120
8
 
 
A moda é mo = 12 e o desvio-padrão será: 
 
𝑆 = 𝑆 =
∑(𝑥 − 𝑋)
𝑛 − 1
≈ 4,17 
 
Sendo assim, o coeficiente de Pearson será: 
 
A =
𝑋 − 𝑚
𝑆
=
15 − 12
4,17
≈ 0,72 
 
 
 
 
 
 
 
 
 
 
 
28 
 
 
 MEDIDA DE CURTOSE 
A curtose de uma distribuição diz respeito à concentração de valores em torno 
de sua moda. Graficamente, ela representa o grau de “achatamento” da curva que 
representa a distribuição. Este conceito pode ser melhor entendido através da figura 
abaixo. 
 
Figura 4: Gráficos de Curtose 
 
Fonte: Lopez (2003, p. 47) 
 
Representada por “K”, a medida de curtose mais comum é dada pela 
equação (14): 
 
 
𝐾 = 
1
𝑛
(𝑥 − 𝑋)
(𝑆)
– 3 (14) 
 
Quando K = 0, dizemos que se trata de uma distribuição mesocúrtica. 
Quando K > 0 trata-se de uma distribuição leptocúrtica. 
Quando K < 0 trata-se de uma distribuição platocúrtica. 
 
 
 
 
O valor 3 na fórmula de K representa o valor da curtose de uma distribuição de 
referência chamada “distribuição normal padrão” e que caracteriza a 
distribuição mesocúrtica. 
 
 
 
 
 
 
 
 
 
29 
 
 
Exemplo: Considerando o conjunto de dados do exemplo anterior, temos: 
 
𝐾 =
1
8
(10 − 15) + (12 − 15) + (15 − 5) +(18 − 15) + (20 − 15) + (12 − 15) + (21 − 15) + (12 − 15)
4,17
– 3 
 
𝐾 =
1
8
2870
302,37
– 3 
 
𝐾 =
2870
2418,96
– 3 
𝐾 ≈ – 1,81 
Portanto, temos uma distribuição platocúrtica. 
 
 
 
 
 
 
 
 Nos Livros abaixo vocês encontrarão mais informações e explicação mais detalhada 
sobre assimetria e curtose. 
MCCLAVE, J. T. Estatística para administração e economia. São Paulo: Pearson Prentice 
Hall, 2009. Disponível em: https://bit.ly/2QNFMKU 
 
DOANE, D. P.; SEWARD, L. E. Estatística Aplicada à Administração e Economia. 4. ed. 
Porto Alegre: AMGH, 2014. Disponível em: https://bit.ly/3hWvWSI 
Sabemos que a altura de pessoas adultas segue uma distribuição normal (assimetria igual 
a zero). Assim, a probabilidade de encontrarmos uma pessoa com altura 5 cm acima da 
média é igual à probabilidade de encontrarmos uma pessoa com altura 5 cm abaixo da 
média. Se, hipoteticamente, a distribuição de probabilidades das alturas fosse assimétrica 
à esquerda (assimetria menor que zero) seria mais provável encontrar pessoas mais altas 
ou mais baixas? 
 
 
 
 
 
 
 
 
 
30 
 
 
FIXANDO O CONTEÚDO 
1. Assinale alternativa correta no que se refere à simetria. 
a) Quando uma distribuição não apresenta simetria, dizemos que ela é assimétrica. 
b) Uma distribuição assimétrica é aquela em que a média, a moda e a mediana são 
iguais. 
c) A principal medida de assimetria é chamada de Coeficiente de Variação. 
d) Quando uma distribuição for simétrica, o Coeficiente de Pearson será maior que 
zero. 
e) Quando o Coeficiente de Pearson é maior que zero, dizemos que a distribuição é 
assimétrica à esquerda. 
 
2. Suponha que os dados abaixo sejam referentes às idades de cinco pessoas. 
18 19 18 25 30 
Com base nestes dados, calcule o Coeficiente de Pearson e assinale a alternativa 
correta. 
 
a) O valor do Coeficiente de Pearson é 0,75. 
b) A distribuição apresenta assimetria negativa. 
c) A distribuição é simétrica. 
d) O valor do Coeficiente de Pearson é 1,45. 
e) Não é possível calcular o Coeficiente de Pearson. 
 
3. Considerando o conjunto de dados abaixo, calcule a assimetria através do 
Coeficiente de Bowley e assinale a alternativa correta. 
 
15 17 19 20 22 
25 27 29 30 32 
38 39 41 43 45 
a) A = 1,25 
b) A = 0,05 
c) A = -1,55 
d) A = 0 
e) A = 0,22 
 
 
 
 
 
 
 
 
 
31 
 
 
4. Calcule o Coeficiente de Pearson do seguinte conjunto de dados: 
02 05 05 08 
 
a) A = 0,23 
b) A = -1,55 
c) A = 0,75 
d) A = - 0,51 
e) A = 0,71 
 
5. No que se refere à curtose, é correto afirmar que: 
 
a) ela se refere à concentração de valores em torno de sua média. 
b) ela se refere à concentração de valores em torno de sua mediana. 
c) quando a curtose é menor que zero, dizemos que a distribuição é platocúrtica. 
d) quando a curtose é maior que zero, dizemos que a distribuição é mesocúrtica. 
e) quando a curtose é igual a zero, dizemos que a distribuição é leptocúrtica. 
 
6. Suponha que cinco pessoas tenham sido entrevistadas para preencher a uma 
vaga de emprego e o conjunto abaixo represente a idade de cada candidato. 
18 21 21 22 25 
 
Calcule a curtose referente a esta distribuição e assinale a alternativa correta. 
a) 1,48 
b) – 2,47 
c) – 1,48 
d) 0,25 
e) – 0,25 
 
7. No que se refere à curtose, assinale a alternativa correta. 
 
a) A curtose da distribuição normal padrão é igual a 2. 
b) O número 3 na fórmula da curtose se refere à distribuição “t de Student”. 
c) A distribuição normal padrão é leptocúrtica. 
d) A curtose representa o grau de achatamento da curva da distribuição. 
 
 
 
 
 
 
 
 
 
32 
 
 
e) A distribuição normal padrão é platocúrtica. 
 
8. Calcule o coeficiente de Bowley para um conjunto de dados que apresenta os 
seguintes valores: 𝑄 = 10; 𝑄 = 18 e X   = 15. 
 
a) A = - 0,25 
b) A = 0,55 
c) A = - 1,25 
d) A = 2,15 
e) A = 1,75 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
33 
 
 
PRINCÍPIOS DA PROBABILIDADE 
 
 
 
 INTRODUÇÃO 
A todo o momento estamos lidando com situações que envolvem 
imprevisibilidade. Ao sairmos de casa, por exemplo, não temos certeza de choverá 
ou não ou mesmo se chegaremos a tempo para um determinado compromisso. 
Nestes casos, podemos ter, no máximo, uma estimativa da chance destes eventos 
acontecerem. Este tipo de fenômeno, em que está envolvido o acaso, tem sido 
objeto de interesse da humanidade há vários séculos. Entretanto, somente a partir do 
século XVI filósofos e matemáticos começaram a dar os primeiros tratamentos 
matemáticos ao problema. 
A partir dos chamados “jogos de azar”, praticados desde a Idade Antiga, 
começou-se a pensar numa maneira de quantificar (ou calcular) a chance de certos 
eventos ocorrerem. Por exemplo, no lançamento de dois dados, qual a chance de 
que a soma dos resultados seja igual a 7? Assim nasceu o que podemos chamar de 
teoria das probabilidades e podemos pensar a probabilidade, ainda que de maneira 
informal, como uma medida da chance de certo evento acontecer. Ao longo da 
história, algumas definições mais formais foram dadas até chegarmos à definição 
utilizada hoje, conforme veremos mais adiante. Antes disso, entretanto, precisaremos 
entender alguns conceitos importantes.Conceitos fundamentais 
Primeiramente, é importante definir o tipo de fenômeno que é objeto de 
estudo da probabilidade, entendendo por fenômeno qualquer acontecimento 
natural. 
Fenômenos determinísticos: são aqueles que, quando repetidos sob as 
mesmas condições iniciais, conduzem sempre a um mesmo resultado. Ou seja, as 
condições iniciais determinam o único resultado possível do fenômeno. Por exemplo, 
se um carro percorre 200 km a uma velocidade média de 100 km/h, ele levará 2 horas 
para terminar o percurso. Este resultado pode, inclusive, ser conhecido mesmo antes 
UNIDADE 
 
 
 
 
 
 
 
 
 
34 
 
 
de iniciar o percurso. É importante destacar que este não é o tipo de fenômeno 
estudado pela probabilidade. 
Fenômenos aleatórios: são aqueles que, mesmo sendo repetidos sob as 
mesmas condições iniciais, podem conduzir a resultados diferentes. As condições 
iniciais não determinam o resultado do fenômeno. Ou seja, não é possível prever o 
resultado antes que o fenômeno ocorra. Nestes casos, o resultado depende de 
fatores imprevisíveis, ou dito de outra forma, depende o acaso. Por exemplo, quando 
arremessamos uma moeda, não podemos prever se ocorrerá “cara” ou “coroa”. Este 
é o tipo de fenômeno estudado pela probabilidade. 
 
 
 
Dando seguimentos às definições importantes, é necessário entender a 
diferença entre espaço amostral e evento. 
Num fenômeno aleatório, embora não possamos conhecer o resultado de 
antemão, na maioria das vezes é possível saber quais são os resultados possíveis. Por 
exemplo, ao lançar um dado, não sabemos qual será o resultado, mas sabemos que 
as possibilidades são 1; 2; 3; 4; 5 e 6. 
 Dessa forma, podemos definir o seguinte: 
 
Espaço amostral: simbolizado por Ω, é o conjunto de todos os resultados possíveis de 
um experimento. No exemplo do lançamento de um dado, o espaço amostral será 
Ω = {1; 2; 3; 4; 5; 6}. 
Evento: Podemos definir um evento como um resultado em particular do 
experimento. Ou seja, um evento é um subconjunto do espaço amostral. No exemplo 
do dado poderíamos ter os seguintes eventos: 
 
 A = sair número 6; 
 B = sair um número par; 
 C = sair um número maior que 4; etc. 
 
 
 
 
 
 
 
 
 
35 
 
 
Como os eventos são subconjuntos do espaço amostral, podemos então usar 
a notação e as operações de conjuntos para os eventos. Sendo assim, se A e B são 
dois conjuntos quaisquer, temos as seguintes operações: 
 
𝐴 ∪ 𝐵 = {𝑥 ∈ Ω | 𝑥 ∈ 𝐴 𝐨𝐮 𝑥 ∈ 𝐵} 
 
𝐴 ∩ 𝐵 = {𝑥 ∈ Ω | 𝑥 ∈ 𝐴 𝐞 𝑥 ∈ 𝐵} 
 
𝐶 = {𝑥 ∈ Ω | 𝑥 ∉ 𝐴} 
 
𝐴 − 𝐵 = {𝑥 ∈ Ω | 𝑥 ∈ 𝐴 𝐞 𝑥 ∉ 𝐵} 
 
Exemplo: Continuando com o lançamento de um dado, temos que o espaço 
amostral, conforme vimos acima, é 𝛺 = {1; 2; 3; 4; 5; 6}. Definindo os eventos 𝐴 =
 {1; 2; 3}, 𝐵 = {2; 3; 6} e 𝐶 = {2; 3; 4}, temos o seguinte: 
 
𝐴 ∪ 𝐵 = {1; 2; 3; 6} 
 
𝐴 ∩ 𝐶 = {2; 3} 
 
𝐶 = {4; 5; 6} 
 
𝐶 = {1; 4; 5} 
 
𝐴 – 𝐵 = {1} 
 
O que desejamos aqui é calcular a probabilidade de ocorrência de cada 
evento do experimento e, para isso, podemos utilizar algumas das definições de 
probabilidade. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
36 
 
 
 DEFINIÇÕES DE PROBABILIDADE 
 Probabilidade Clássica 
Podemos utilizar a probabilidade clássica quando temos eventos que ocorrem 
com a mesma “regularidade”, ou seja, quando temos eventos equiprováveis (que 
têm a mesma chance de ocorrer). Dessa forma, a probabilidade de um evento A 
qualquer seria calculada com a equação (15): 
 
 
𝑃(𝐴) =
𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑓𝑎𝑣𝑜𝑟á𝑣𝑒𝑖𝑠
𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑝𝑜𝑠𝑠í𝑣𝑒𝑖𝑠
 (15) 
 
Exemplo: Se, no lançamento de um dado, definirmos o evento A como sendo “sair 
um número par”, teríamos 𝐴 = {2; 4; 6}. Portanto, são três casos favoráveis. Como o 
espaço amostral é 𝛺 = {1; 2; 3; 4; 5; 6}, temos seis casos possíveis. Assim a 
probabilidade de ocorrência deste evento seria calculada da seguinte forma: 
 
𝑃(𝐴) = 
3
6
 = 
1
2
 
 
𝑃(𝐴) = 0,5 𝑜𝑢 50% 
 
Como esperávamos, uma vez que metade dos números é par, a 
probabilidade de sair um deles é de 50%, uma vez que cada resultado tem a mesma 
chance de ocorrer. 
 
 Probabilidade frequentista 
Pode ser usada quando não sabemos se todos os eventos têm a mesma 
chance de ocorrer. Neste caso, a probabilidade de ocorrência se basearia na sua 
frequência relativa. Ou seja, para calcularmos a probabilidade de ocorrência de um 
evento deveríamos realizar o experimento um grande número de vezes e dividir o 
número de vezes que o evento ocorre pelo número de vezes que o experimento foi 
realizado. 
Exemplo: Dizemos que uma moeda é viciada quando a probabilidade de sair 
cara é diferente (maior ou menor) que a probabilidade de sair coroa. Normalmente, 
 
 
 
 
 
 
 
 
 
37 
 
 
são moedas fabricadas especialmente para que isso ocorra. Suponha então que 
tenhamos um destas moedas e queiramos saber qual é probabilidade de sair cara. 
Neste caso, poderíamos, por exemplo, lançar a moeda 1.000 vezes e observar 
quantas caras ocorreriam. Se ocorresse, digamos, 350 vezes a probabilidade de sair 
cara, seria: 
𝑃(𝑐𝑎𝑟𝑎) = 
350
1000
 = 0,35 
 
Ou seja, a probabilidade de sair cara nesta moeda é de aproximadamente 
35%. Percebam que, quanto maior o número de vezes que arremessarmos a moeda, 
mais precisa será nossa estimativa desta probabilidade. O problema com esta 
definição é que não temos como saber exatamente quantas vezes o experimento 
deve ser realizado para que tenhamos uma estimativa precisa. Dizer que deve ser um 
“grande número de vezes” não ajuda muito, não é mesmo? 
 
 Definição axiomática de probabilidade 
Em matemática, axioma é uma proposição que não necessita ser 
demonstrada. Em geral, são afirmações óbvias, aceitas sem discussão. Costumam ser 
a base sobre a qual um argumento é construído. No início do século XX, o 
matemático russo Andrei Kolmogorov definiu a probabilidade através de três axiomas 
que se tornaram a base da moderna teoria das probabilidades. Esta definição é 
chamada de “definição axiomática” ou “definição matemática” de probabilidade. 
Esses três axiomas são os seguintes: 
 
1) 0 ≤ 𝑃(𝐴) ≤ 1; 
2) 𝑃(𝛺) = 1; 
3) Se A e B são eventos tais que 𝐴 ∩ 𝐵 = {∅}, então 𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵). 
O primeiro axioma afirma que a probabilidade de um evento qualquer se 
encontra sempre entre 0 e 1. Neste caso, 0 é a probabilidade de um evento 
impossível e 1 é a probabilidade de um evento certo. 
O segundo axioma afirma que a probabilidade de todo o espaço amostral é 
sempre igual a 1. 
Por fim, o terceiro axioma afirma que, se A e B forem dois eventos tais que não 
 
 
 
 
 
 
 
 
 
38 
 
 
possam ocorrer simultaneamente (𝐴 ∩ 𝐵 = {∅}), então a probabilidade da união dos 
dois eventos é igual à soma das probabilidades de cada evento isoladamente. 
 
 REGRA DA ADIÇÃO 
 Eventos excludentes 
Dizemos que dois eventos quaisquer são excludentes (ou mutualmente 
excludentes) quando eles não podem ocorrer simultaneamente. Por exemplo, se 
arremessarmos um dado e definirmos o evento A como sendo a ocorrência de um 
número par e o evento B como sendo a ocorrência de um evento B, podemos dizer 
que A e B são dois eventos excludentes. Seria diferente, por exemplo, se definíssemos 
o evento B como a ocorrência de um número maior que 4. Neste caso, se saísse o 
número 6 os dois eventos ocorreriam. Usamos este conceito para definir uma regra: 
a probabilidade de ocorrência de um evento A ou de um evento B será dada 
conforme a equação (16): 
 
 𝑃(𝐴 𝑜𝑢 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) – 𝑃(𝐴 𝑒 𝐵) (16) 
 
Onde 𝑃(𝐴 𝑒 𝐵) é a probabilidade de ambos os eventos ocorrerem 
simultaneamente. Podemos perceber que, no caso em que A e B são excludentes, 
essa probabilidade é igual a zero. 
 
Exemplo: Considerando o lançamento de um dado, podemos definir os seguintes 
eventos:𝐴 = sair um número par; 
𝐵 = sair um número maior que 4. 
Usando a notação de conjuntos, teremos o seguinte: 
𝐴 = {2; 4; 6} (três elementos) 
𝐵 = {5; 6} (dois elementos) 
𝐴 𝑒 𝐵 = {6} (único elemento que é para e ao mesmo tempo maior que 4). 
 
Se quisermos saber qual a probabilidade de sair um número par ou um número 
maior que 4, teríamos o seguinte: 
 
 
 
 
 
 
 
 
 
39 
 
 
𝑃(𝐴 𝑜𝑢 𝐵) = 
3
6
+ 
2
6
− 
1
6
 
 
𝑃(𝐴 𝑜𝑢 𝐵) = 
4
6
 
 
𝑃(𝐴 𝑜𝑢 𝐵) ≈ 0,67 𝑜𝑢 67% 
 
 REGRA DO PRODUTO 
 Eventos independentes 
Dizemos que dois eventos quaisquer são independentes quando a ocorrência 
de um deles não altera a probabilidade de ocorrência do outro. Existem situações 
em que a probabilidade de ocorrência de um evento é alterada devido à 
ocorrência de outro evento. Por exemplo, no lançamento de um dado, suponha o 
evento A = {2; 4; 6} (sair um número par) e o evento B = {5; 6} (sair um número maior 
que 4). Sabemos que a probabilidade do evento B é: 
 
𝑃(𝐵) = 
2
6
= 
1
3
 
 
Entretanto, qual seria esta probabilidade se soubéssemos, com certeza, que o 
evento A ocorreu, ou seja, que saiu um número para no lançamento do dado? Neste 
caso, não teríamos seis casos possíveis, mas apenas três. Assim a probabilidade do 
evento B seria: 
 
𝑃(𝐵) = 
2
3
 
 
Neste caso, os eventos A e B não seriam independentes, uma vez que a 
ocorrência do evento A altera a probabilidade de ocorrência do evento B. Tendo 
em mente essa relação, podemos definir outra regra: a probabilidade de ocorrência 
de um evento A e de um evento B será dado pela equação (17): 
 
 𝑃(𝐴 𝑒 𝐵) = 𝑃(𝐴) × 𝑃(𝐵|𝐴) (17) 
 
Neste caso, P(B|A) é a probabilidade de ocorrência do evento B, sabendo 
que (ou dado que) o evento A ocorreu antes. Isso é o que chamamos de 
 
 
 
 
 
 
 
 
 
40 
 
 
probabilidade condicional. 
 
Exemplo: Suponha que tenhamos uma caixa com 4 bolas pretas, 5 bolas brancas e 3 
bolas azuis. Suponha ainda que vamos retirar bolas ao acaso, sem saber qual delas 
iremos pegar e, uma vez retirada, a bola não retorna para a caixa. Sendo assim, a 
probabilidade de retirarmos uma bola branca, por exemplo, será: 
 
𝑃(𝑏𝑟𝑎𝑛𝑐𝑎) = 
5
12
 
Isso porque temos 5 bolas brancas e um total de 12 bolas na caixa. Essa 
probabilidade mudaria se alguma bola fosse retirada antes (lembremos que uma 
bola retirada não retorna para a caixa). Imagine, agora, que uma bola preta tenha 
sido retirada. Neste caso, qual a probabilidade de retirarmos uma bola branca? 
 
𝑃(𝑏𝑟𝑎𝑛𝑐𝑎 | 𝑝𝑟𝑒𝑡𝑎) = 
5
11
 
 
Isso porque continuamos tendo 5 bolas brancas, mas somente 11 no total, 
devido à retirada da bola preta. 
 
Exemplo: Tendo o exemplo anterior como base (tendo as 12 bolas na caixa), qual 
seria a probabilidade de retirarmos uma bola azul e, em seguida, uma bola branca? 
Para resolvermos, vamos definir os seguintes eventos: 
 
𝐴 = retirar uma bola azul; 
𝐵 = retirar uma bola branca. 
 
Dessa forma, estamos buscando 𝑃(𝐴 𝒆 𝐵), tendo em mente que a ocorrência 
de um destes eventos, irá alterar a probabilidade de ocorrência do outro (os dois 
eventos não são independentes). Assim, teremos: 
 
𝑃(𝐴 𝑒 𝐵) = 𝑃(𝐴) × 𝑃(𝐵|𝐴) 
𝑃(𝐴 𝑒 𝐵) = 
3
12
×
5
11
 
𝑃(𝐴 𝑒 𝐵) = 
15
132
 
 
 
 
 
 
 
 
 
 
41 
 
 
𝑃(𝐴 𝑒 𝐵) = 0,1136 𝑜𝑢 11,35% 
 
 PROBABILIDADE TOTAL 
O chamado “Teorema da probabilidade total” é desenvolvido a partir da 
divisão do espaço amostral de um experimento em vários eventos mutuamente 
excludentes. Na linguagem dos conjuntos, seria a divisão de um conjunto em vários 
subconjuntos sem nenhuma interseção entre eles. Suponha que dividíssemos o 
espaço amostral 𝛺 em três eventos: 𝑅1, 𝑅2 e 𝑅3, conforme Figura 5 abaixo. 
 
Figura 5: Divisão do espaço amostral 
 
Fonte: Elaborado pelo Autor (2020) 
 
𝑅1 ∩ 𝑅2 = ∅ 
 
𝑅1 ∩ 𝑅3 = ∅ 
 
𝑅2 ∩ 𝑅3 = ∅ 
 
𝑅1 ∪ 𝑅2 ∪ 𝑅3 = 𝛺 
 
Considerando um evento 𝐵 qualquer (conforme Figura 5), ele pode ser escrito 
como: 
 
𝐵 = 𝐵 ∩ 𝛺 
Como temos também que 𝛺 = 𝑅1 ∪ 𝑅2 ∪ 𝑅3, podemos escrever: 
 
 
 
 
 
 
 
 
 
 
42 
 
 
𝐵 = 𝐵 ∩ (𝑅1 ∪ 𝑅2 ∪ 𝑅3). 
 
Assim, a probabilidade de B será: 
 
𝑃(𝐵) = 𝑃 [𝐵 ∩ (𝑅1 ∪ 𝑅2 ∪ 𝑅3)]. 
 
Com um pouco de álgebra de conjuntos e levando em consideração que os 
eventos 𝑅1, 𝑅2 e 𝑅3 são mutuamente excludentes, chegamos à fórmula: 
 
𝑷(𝑩) = [𝑷(𝑩 | 𝑹𝟏) ∙ 𝑷(𝑹𝟏)] + [𝑷(𝑩 | 𝑹𝟐) ∙ 𝑷(𝑹𝟐)] + [𝑷(𝑩 | 𝑹𝟑) ∙ 𝑷(𝑹𝟑)] 
 
Lembrando que este resultado pode ser generalizado para qualquer 
quantidade de conjuntos. 
 
Exemplo: Suponha que um time de futebol tenha 50% de chance de vencer uma 
partida se seu melhor jogador estiver em campo e 25% de chance se ele não estiver. 
O departamento médico do clube estima que há uma chance de 30% de que o 
jogador esteja em campo. Sendo assim, qual a probabilidade deste time ganhar o 
jogo? Para resolver, vamos, primeiramente, definir alguns eventos. 
 
𝐴 = ganhar o jogo 
𝐵 = jogador estar em campo 
𝐶 = jogador não estar em campo 
 
Neste caso, teremos: 
 
𝑃(𝐴) = 𝑃(𝐴|𝐵) ∙ 𝑃(𝐵) + 𝑃(𝐴|𝐶) ∙ 𝑃(𝐶) 
𝑃(𝐴) = (0,50) ∙ (0,30) + (0,25) ∙ (0,70) 
𝑃(𝐴) = 0,15 + 0,175 
𝑃(𝐴) = 0,325 𝑜𝑢 32,5% 
 
Observe que, se a probabilidade do melhor jogador estiver em campo é 30%, 
então a probabilidade de ele não estar é de 70% (100% - 30%). 
 
 
 
 
 
 
 
 
 
 
 
43 
 
 
 TEOREMA DE BAYES 
O chamado “Teorema de Bayes” ou “Regra de Bayes” (em homenagem ao 
matemático inglês Thomas Bayes que viveu no século XVIII) se refere ao cálculo da 
probabilidade de um evento quando temos algum conhecimento a priori que pode 
estar relacionado ao evento. Ou seja, ele fornece a possibilidade de aprimorarmos a 
probabilidade de um evento levando em consideração o conhecimento que temos 
sobre o fenômeno. 
 
 
 
O teorema é expresso através da equação (18): 
 
 
𝑃(𝐴|𝐵) = 
𝑃(𝐵|𝐴) ∙ 𝑃(𝐴)
𝑃(𝐵)
 (18) 
 
Exemplo: Suponha que uma fábrica de peças disponha de duas máquinas: A e B. 
Sabe-se que a máquina A é responsável pela produção de 60% das peças e a 
máquina B é responsável pela produção de 40% delas. Além disso, sabe-se também 
que 3% das peças produzidas pela máquina A e 7% das peças produzidas pela 
máquina B são defeituosas. Dessa forma, ao encontrar uma peça defeituosa, qual a 
probabilidade de que ela tenha sido produzida pela máquina B? Para resolver, 
vamos definir os seguintes eventos: 
 
𝐴 = peça produzida pela máquina 𝐴; 
𝐵 = peça produzida pela máquina 𝐵; 
𝑑 = peça defeituosa. 
 
Queremos, então, saber qual a probabilidade de peça ter sido produzida pela 
máquina B, sabendo que a peça é defeituosa. Ou seja, queremos calcular 𝑃(𝐵|𝑑). 
Sendo assim, temos o seguinte, de acordo com a fórmula de Bayes: 
 
 
 
 
 
 
 
 
 
44 
 
 
𝑃(𝐵|𝑑) = 
𝑃(𝑑|𝐵) ∙ 𝑃(𝐵)
𝑃(𝑑)
 
 
Neste caso, 𝑃(𝑑) é a probabilidade total de uma peça ser defeituosa 
independente da máquina que a produziu. Assim: 
 
𝑃(𝑑) = 𝑃(𝑑│𝐴) ∙ 𝑃(𝐴) + 𝑃(𝑑│𝐵) ∙ 𝑃(𝐵) 
 
𝑃(𝑑) = (0,03) ∙ (0,60) + (0,07) ∙ (0,40) 
 
𝑃(𝑑) = 0,018 + 0,028 
 
𝑃(𝑑) = 0,046 
 
Substituindo na fórmula de Bayes, temos: 
 
𝑃(𝐵|𝑑) = 
(0,07) ∙ (0,40)
0,046
 
 
𝑃(𝐵|𝑑) = 
0,028
0,046
 
 
𝑃(𝐵|𝑑) = 0,6087 𝑜𝑢 60,87% 
 
Exemplo: Uma situação muito utilizada como exemplo da aplicação do teorema de 
Bayes se refere aos testes usados para detectar doenças. É sabido que o resultado 
destes testes pode estar errado em uma proporção muito pequena dos casos. São 
os chamados falso positivo e falso negativo. Um falso positivo ocorre quando uma 
pessoa está sadia, mas o teste indica que ela tem a doença. No falso negativo ocorre 
o oposto: a pessoa tem a doença, mas o teste dá negativo. Em geral, quando um 
teste é desenvolvido, já se estima a probabilidade destes erros ocorrerem,de forma 
que estas probabilidades são conhecidas (além de serem muito pequenas, via de 
regra). Então, ao se deparar com o resultado positivo de um teste, como saber se a 
pessoa está mesmo doente ou se trata de um falso positivo? Na verdade, não 
podemos saber com certeza (com base unicamente no teste) mas podemos calcular 
a probabilidade de uma pessoa estar realmente doente, uma vez que o resultado 
deu positivo. Podemos fazemos isso através da fórmula de Bayes. 
Sabe-se que 1% das mulheres acima de 40 anos são portadores de câncer de 
 
 
 
 
 
 
 
 
 
45 
 
 
mama, ou seja, 99% das mulheres nessa faixa etária não são portadoras. Sabe-se 
também que mamografia apresenta resultados positivos em 80% das mulheres que 
realmente têm câncer, mas este teste dá positivo também para 9,6% das mulheres 
que não têm câncer, ou seja, há um falso positivo em 9,6% dos casos. Sendo assim, 
se uma mulher faz o teste e tem um resultado positivo, qual a probabilidade de que 
ela realmente tenha câncer de mama? Para calcular esta probabilidade, vamos 
definir os seguintes eventos: 
 
𝐴 = a mulher ter câncer de mama; 
𝐵 = o teste dar positivo; 
�̅� = a mulher não ter câncer de mama 
 
Assim, temos o seguinte: 
𝑃(𝐴) = 0,01 
𝑃(𝐵|𝐴) = 0,80 (Probabilidade de dar positivo, dado que tem câncer) 
𝑃(𝐵|�̅�) = 0,096 (Probabilidade de dar positivo, dado que não tem câncer) 
Então, pela fórmula de Bayes: 
 
𝑃(𝐴|𝐵) = 
𝑃(𝐵|𝐴) ∙ 𝑃(𝐴)
𝑃(𝐵)
 
 
𝑃(𝐴|𝐵) = 
(0,80) ∙ (0,01)
(0,80)(0,01) + (0,096)(0,99)
 
 
𝑃(𝐴|𝐵) = 
0,008
0,008 + 0,09504
 
 
𝑃(𝐴|𝐵) = 
0,008
0,10304
 
 
𝑃(𝐴|𝐵) = 0,078 𝑜𝑢 7,8% 
 
 DISTRIBUIÇÕES DE PROBABILIDADE 
Uma distribuição de probabilidade pode ser entendida como uma função que 
associa uma probabilidade a cada resultado de uma variável aleatória. 
 
 
 
 
 
 
 
 
 
46 
 
 
 
 
Por exemplo, se arremessarmos dois dados, a soma dos resultados obtidos é 
uma variável aleatória. Por mais que saibamos os possíveis resultados, não temos 
como saber qual deles vai ocorrer. Podemos, entretanto, associar uma probabilidade 
para cada resultado possível e assim teremos a distribuição de probabilidade dessa 
variável aleatória. Se fizermos isso, teremos a seguinte situação: 
 
Tabela 2: Resultados da Probabilidade 
Soma dos resultados Probabilidade 
2 2,8% 
3 5,6% 
4 8,3% 
5 11,1% 
6 13,9% 
7 16,7% 
8 13,9% 
9 11,1% 
10 8,3% 
11 5,6% 
12 2,8% 
Total 100% 
Fonte: Elaborado pelo Autor (2020) 
 
O gráfico desta variável aleatória ficaria assim: 
 
Figura 6: Gráfico desta variável aleatória 
 
Fonte: Elaborado pelo Autor (2020) 
 
 
 
 
 
 
 
 
 
47 
 
 
A maioria das distribuições de probabilidade podem ser expressas 
algebricamente e se constituem em modelos usados para estudar o comportamento 
da variável em questão. Segundo Novaes e Coutinho (2013, p. 142): 
 
Por serem funções, as distribuições de probabilidade admitem diversas 
representações e algumas [...] podem ser expressas por uma 
expressão algébrica ou por uma tabela que resume os principais 
valores assumidos pela função. A maior parte dos usuários da 
estatística nas mais diversas áreas de atuação precisa aprender a usar 
essas representações de forma a otimizar e potencializar o uso desta 
ferramenta tão importante. Não basta saber aplicar uma fórmula ou 
usar uma tabela, mas interpretar o problema proposto 
adequadamente, escolhendo assim os recursos adequados para sua 
resolução e interpretando seus resultados dentro do contexto no qual 
o problema foi proposto. 
 
Vários fenômenos aleatórios podem ser modelados através de uma 
distribuição de probabilidade teórica. Para isso, entretanto, é preciso conhecer o 
fenômeno em questão e, pelo menos, as principais distribuições teóricas. Algumas 
dessas distribuições serão apresentadas a seguir. 
 
 Distribuição Binomial 
A distribuição binomial é usada para modelar aqueles experimentos que são 
repetidos um certo número de vezes e que possuem somente dois resultados possíveis 
(sucesso e fracasso). É importante notar que existem alguns critérios que o 
experimento precisa ter: 
 
 Os valores assumidos pela variável devem sempre ser inteiros; 
 Os eventos devem ser independentes; 
 Durante o experimento, a probabilidade de sucesso (𝑝) e a probabilidade de 
fracasso (1 – 𝑝) devem permanecer constantes. 
 Assim, as probabilidades associadas a cada resultado da variável aleatória em 
questão podem ser calculadas com a equação (19): 
 
 
𝑃(𝑥) = 
𝑛!
𝑥! (𝑛 − 𝑥)!
∙ 𝑝 ∙ (1 − 𝑝) (19) 
 
Onde: 
𝑛 = número de vezes que o experimento é realizado; 
 
 
 
 
 
 
 
 
 
48 
 
 
𝑥 = número de sucessos pretendidos; 
𝑝 = probabilidade de sucesso (deve permanecer constante em cada 
repetição). 
 
Exemplo: Suponha que uma moeda não viciada seja arremessada 5 vezes. Assim, 
qual seria a probabilidade de sair “cara” 3 vezes? 
 
Percebam que neste caso o experimento está sendo repetido (cinco vezes) e cada 
vez em que isso ocorre, há somente dois resultados possíveis (cara e coroa). Além 
disso, a probabilidade de sucesso (neste caso, sair cara) é sempre a mesma e o fato 
de sair cara num lançamento não interfere na probabilidade de sair cara em outro, 
ou seja, os eventos são independentes. Assim, podemos utilizar a distribuição binomial 
para modelar este experimento. Então, temos o seguinte: 
 
𝑛 = 5 
𝑥 = 3 
𝑝 = 0,5 (perceba que a moeda não é viciada, então a probabilidade de sair 
cara é 50%) 
 
Logo: 
𝑃(𝑥) = 
5!
3! (5 − 3)!
∙ (0,5) ∙ (1 − 0,5) 
 
𝑃(𝑥) =
120
6 × 2
∙ (0,125) ∙ (0,25) 
 
𝑃(𝑥) = 10 × 0,03125 
 
𝑃(𝑥) = 0,3125 𝑜𝑢 31,25% 
 
Exemplo: Suponha que um casal deseje ter 4 filhos. Se a probabilidade de nascer um 
menino fosse igual a 45%, qual seria a probabilidade de que 3 dos filhos fossem 
meninos? 
𝑛 = 4 
𝑥 = 3 
𝑝 = 0,45 
 
 
 
 
 
 
 
 
 
49 
 
 
𝑃(𝑥) = 
4!
3! (4 − 3)!
∙ (0,45) ∙ (1 − 0,45) 
 
𝑃(𝑥) = 
24
6 × 1
∙ (0,091125) ∙ (0,55) 
 
𝑃(𝑥) = 4 × 0,050 
 
𝑃(𝑥) = 0,2 𝑜𝑢 20 
 
Exemplo: O gerente de uma empresa sabe que a probabilidade de uma peça ser 
produzida com defeito é igual a 3%. Na análise de um lote contendo 10 peças, qual 
a probabilidade de serem encontradas 5 peças defeituosas? 
𝑛 = 10 
𝑥 = 5 
𝑝 = 0,03 
 
𝑃(𝑥) = 
10!
5! (10 − 5)!
∙ (0,03) ∙ (1 − 0,03) 
 
𝑃(𝑥) = 5,26 × 10 𝑜𝑢 𝑎𝑝𝑟𝑜𝑥𝑖𝑚𝑎𝑑𝑎𝑚𝑒𝑛𝑡𝑒 0,0005% 
 
 Parâmetros da distribuição binomial 
A distribuição binomial tem como parâmetros a média (que chamaremos de 
μ) e a variância (que chamaremos de 𝜎 ). Desta forma, ao dizer que uma 
determinada variável aleatória segue uma distribuição binomial, devem dizer qual é 
a sua média e qual é a sua variância. Se uma determinada variável aleatória “X” 
segue uma distribuição binomial com média igual a 3, por exemplo, e variância igual 
a 5, podemos escrever na forma da equação (20): 
 
 𝑋~ 𝐵𝑖(3; 5) (20) 
 
De forma geral, se a média é 𝜇 e a variância é 𝜎 , escrevemos: 
 
 𝑋~ 𝐵𝑖(μ ; 𝜎 ) (21) 
 
 
 
 
 
 
 
 
 
 
 
50 
 
 
A média e a variância da distribuição binomial são calculadas então por meio 
das equações () e (): 
 
 𝜇 = 𝑛 ∙ 𝑝 (22) 
 
 𝜎 = 𝑛 ∙ 𝑝 ∙ (1 − 𝑝) (23) 
 
Exemplo: Suponha que a probabilidade de uma pessoa se atrasar para um voo seja 
2%. Se em um determinado voo estão previstos 250 passageiros, quantos se atrasarão 
em média? Qual é a variância? 
 
𝑛 = 250 
𝑝 = 0,02 
𝜇 = 250 ∙ 0,02 
𝜇 = 5 
𝜎 = 250 ∙ 0,02 ∙ 0,98 
𝜎 = 4,9 
 
 Distribuição normal 
A distribuição normal é uma das mais importantes distribuições de 
probabilidade. Além de sua grande importância teórica, ela pode ser usada para 
modelar uma grande quantidade de fenômenos. Por ter sido estudada por Laplace 
no tratamento analítico de probabilidades e por Gauss nos erros acidentais, ela 
também pode ser chamada de Curva de Laplace-Gauss, ou simplesmente,Curva 
de Gauss. Os fenômenos que podem ser modelados por esta distribuição são 
chamados de “fenômenos gaussianos”. Seu gráfico tem a forma de um sino, como 
na figura abaixo. É importante notar que a curva se distribui em torno da média da 
distribuição (𝜇). 
 
 
 
 
 
 
 
 
 
 
 
 
 
51 
 
 
Figura 7: Curva de Laplace-Gauss 
 
Fonte: Elaborado pelo Autor (2020) 
 
Cabe ressaltar que a distribuição normal tem certas características que 
precisamos conhecer: 
 
Conforme mencionado acima, seu gráfico tem a forma de um sino; 
A curva é simétrica em torno da média (os dois lados são idênticos); 
A área total abaixo da curva é igual a 1; 
Como consequência, a área de cada lado da média é igual a 0,5; 
As áreas abaixo da curva nos fornecem a probabilidade de a variável assumir 
determinados conjuntos de valores. 
A distribuição normal se caracteriza por dois parâmetros: a média (𝜇) e o 
desvio-padrão (𝜎). Dessa forma, se “X” é uma variável aleatória que segue uma 
distribuição normal, então podemos escrever da seguinte forma: 𝑋 ~𝑁(𝜇; 𝜎 ). Para 
cada valor da média e da variância, existe uma curva (gráfico) diferente. Assim, a 
forma da curva depende da variância e, quanto menor ela for, mais alta e estreita 
será a curva. 
 
 
 
 
 
 
 
 
 
 
 
 
52 
 
 
A função que representa a distribuição normal é dada pela equação (24): 
 
 
𝑓(𝑥) = 
𝑒
( )
𝜎√2𝜋
 (24) 
Onde: 
𝜋 = 3,1416 … 
𝑒 = 2,7183 … 
𝜎 = 𝑑𝑒𝑠𝑣𝑖𝑜 − 𝑝𝑎𝑑𝑟ã𝑜 𝑑𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑖çã𝑜 
𝜇 = 𝑚é𝑑𝑖𝑎 𝑑𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑖çã𝑜 
 
Apesar de ser uma função aparentemente complexa, na maioria dos casos 
práticos (inclusive naqueles que estudaremos aqui) não é necessário manuseá-la, 
desde que entendamos suas características mais importantes. Os gráficos abaixo 
ilustram outras características importantes acerca da distribuição normal e sua curva: 
 
Figura 8: Principais características da distribuição normal e sua curva 
 
Fonte: Elaborado pelo Autor (2020) 
 
 
 
 
 
 
 
 
 
53 
 
 
Através destes gráficos, podemos perceber que, se uma variável aleatória “X” 
segue uma distribuição normal com média igual a μ e desvio-padrão igual a 𝜎, então 
68,26% dos seus valores encontram-se a 1𝜎 (um desvio-padrão) de distância da 
média (para mais ou para menos). Da mesma forma, 95,44% dos valores encontram-
se a 2𝜎 (dois desvios-padrão) de distância da média (também para mais ou para 
menos) e 99,73% dos valores encontram-se a 3𝜎 (três desvios-padrão) de distância da 
média. Observe que, como a distribuição é simétrica em relação à média, as 
probabilidades acima e abaixo da média são iguais, de forma que valores negativos 
de desvios servem apenas para dizer que se trata de valores abaixo da média. 
 
Exemplo: Suponha que a altura das pessoas adultas de um determinado município 
siga uma distribuição normal com média igual a 1,70m e desvio-padrão igual a 0,20m. 
Se uma pessoa for selecionada ao acaso neste município, qual a probabilidade de 
que ela tenha entre 1,70m e 1,90m? 
 
Para resolver, perceba que o valor 1,90 está exatamente a um desvio-padrão 
da média que é 1,70 (1,90 = 𝜇 + 1𝜎). Como vimos acima, 34,13% dos valores 
encontram-se neste intervalo. Sendo assim a probabilidade de encontrarmos alguém 
neste intervalo é exatamente 34,13%, como mostra o gráfico da Figura 9. 
 
Figura 9: Gráfico de distribuição normal para resolução do 1º exemplo 
 
Fonte: Elaborado pelo Autor (2020) 
 
Considerando ainda o exemplo anterior, qual seria a probabilidade de selecionar 
uma pessoa com mais de 1,90m? 
Para resolver precisamos lembrar a área à direita da média é igual a 0,5. Uma 
 
 
 
 
 
 
 
 
 
54 
 
 
vez que a área entre a média e 1,90 é igual a 0,3413, então a área acima de 1,90 
seria 0,5 menos 0,3413, o que daria 0,1587. Dessa forma, a probabilidade de 
encontrarmos, ao acaso, uma pessoa com mais de 1,90m será 15,87%. 
 
Figura 10: Gráfico de distribuição normal para resolução do 2º exemplo 
 
Fonte: Elaborado pelo Autor (2020) 
 
Para encerrar o exemplo, qual seria a probabilidade de encontrarmos, ao acaso, 
uma pessoa cuja altura estivesse entre 1,30m e 1,90m? 
 
Neste caso, é importante perceber que 1,30 está a dois desvios da média 
(para menos), ou seja: 1,70 − 2𝜎 = 1,30. Como vimos acima, 47,72% dos valores de 
uma variável que segue a distribuição normal estão a dois desvios de distância da 
média. Portanto, a probabilidade de encontrar uma pessoa com altura entre 1,30m 
e 1,70m (que é a média) é igual a 47,72%. Entretanto, precisamos ainda da 
probabilidade de encontrarmos uma pessoa com altura entre 1,70m (média) e 
1,90m. Essa probabilidade foi calculada acima e é igual a 34,13%. Dessa forma, temos 
o seguinte: 
 
𝑃(1,30 ≤ 𝑥 ≤ 1,90) = 𝑃(1,30 ≤ 𝑥 ≤ 1,70) + 𝑃(1,70 ≤ 𝑥 ≤ 1,90) 
𝑃(1,30 ≤ 𝑥 ≤ 1,90) = 0,4772 + 0,3413 
𝑃(1,30 ≤ 𝑥 ≤ 1,90) = 0,8185 𝑜𝑢 81,85% 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
55 
 
 
Figura 11: Gráfico de distribuição normal para resolução do 3º exemplo 
 
Fonte: Elaborado pelo Autor (2020) 
 
 Distribuição normal padrão 
Conforme vimos anteriormente, a curva de uma distribuição normal varia 
conforme o desvio-padrão. Quando o desvio-padrão é muito alto, temos uma 
distribuição baixa e achatada. Por outro lado, quando o desvio-padrão é pequeno, 
temos uma curva mais alta e alongada. Isso dificulta o cálculo das probabilidades. 
Para contornar este problema, no entanto, podemos transformar uma distribuição 
normal qualquer (com qualquer média e desvio-padrão) em distribuição norma 
padrão. A isso chamamos padronização da distribuição. 
 
 
 
Para convertermos uma distribuição normal qualquer em uma distribuição 
normal padrão, usamos a equação (25): 
 
 𝑧 = 
𝑥 − 𝜇
𝜎
 (25) 
 
Lembrando que “𝜇” é a média da distribuição que queremos padronizar e “𝜎” 
é o seu desvio-padrão. A vantagem em fazermos isso é poder utilizar uma tabela com 
valores de probabilidades já calculados, ao invés de calcularmos diretamente 
através da função. Esta tabela nos informa a probabilidade de encontrarmos valores 
A distribuição normal padrão (geralmente simbolizada por 𝑍) é uma distribuição normal 
cuja média é igual a zero e cujo desvio-padrão é igual a um. Assim 𝑍~𝑁(0; 1). 
 
 
 
 
 
 
 
 
 
56 
 
 
que se encontram entre zero e algum valor z que teremos calculado através da 
fórmula acima. 
 
Exemplo: Suponha que o tempo necessário para concluir uma prova siga uma 
distribuição normal com média igual a 60min e desvio padrão igual a 15min. Se um 
aluno for selecionado ao acaso, qual a probabilidade de que demore mais de 40min 
para concluir a prova? 
 
O gráfico da Figura 11 ilustra esta situação. Percebam que procuramos pela 
área que se encontra à direita de 40. Isso inclui a área que vai de 40 a 60 e toda a 
área que está acima de 60. Sabemos que esta área que está acima de 60 é igual a 
0,5 (uma vez que 60 é a média). Mas qual o tamanho da área que vai de 40 a 60? 
Ou seja, qual a probabilidade de uma pessoa concluir a prova com tempo entre 
40min e 60min? Para descobrirmos, vamos primeiramente padronizar a distribuição. 
 
𝑧 = 
𝑥 − 𝜇
𝜎
 
 
𝑧 =
40 − 60
15
 
 
𝑧 = −1,33 
 
Lembre-se que o sinal negativo indica apenas que o valor se encontra abaixo 
da média. 
 
Figura 12: Gráfico de distribuição normal para resolução do exemplo anterior 
 
Fonte: Elaborado pelo Autor (2020) 
 
 
 
 
 
 
 
 
 
 
57 
 
 
Ao padronizar a distribuição, percebemos que a probabilidade da variável “𝑋” 
(tempo para finalizar a prova) seja maior que 45 iguais à probabilidade da variável 
“𝑍” (variável padronizada) seja maior que -1,33. Graficamente, teríamos a Figura 13: 
(Lembre que a média da variável 𝑍 é sempre zero). 
 
Figura 13: Gráfico de distribuição normal (padronização da distribuição) 
 
Fonte: Elaborado pelo Autor (2020) 
 
Consultando a tabela3, vemos que a probabilidade da variável Z assumir 
algum valor entre -1,33 e 0 é igual a 0,40824, ou seja: 
 
𝑃(−1,33 ≤ 𝑧 ≤ 0) = 0,40824 = 40,824% 
 
 
 
Mas, como mencionado acima, precisamos acrescentar a probabilidade de 
𝑍 assumir um valor maior que zero (que é igual à probabilidade de X assumir um valor 
maior que 60). Como vimos, essa probabilidade é igual a 0,5. Então temos que: 
 
𝑃(𝑧 ≥ 1,33) = 𝑃(−1,33 ≤ 𝑧 ≤ 0) + 𝑃(𝑧 ≥ 0) 
 
𝑃(𝑧 ≥ −1,33) = 0,40824 + 0,5 
 
𝑃(𝑧 ≥ −1,33) = 0,90824 𝑜𝑢 90,82% 
 
 
 
 
 
 
 
 
 
58 
 
 
 
Dessa forma, a probabilidade de um aluno escolhido ao acaso demorar mais 
de 40min para finalizar a prova é igual a 90,82%. 
 
Tabela 3: Distribuição Normal Padrão 
parte 
inteira e 
primeira 
decimal 
de Zc 
Segunda decimal de Zc 
 0 1 2 3 4 5 6 7 8 9 
 p = 0 
0,0 00000 00399 00798 01197 01595 01994 02392 02790 03188 03586 
0,1 03983 04380 04776 05172 05567 05962 06356 06749 07142 07535 
0,2 07926 08317 08706 09095 09483 09871 10257 10642 11026 11409 
0,3 11791 12172 12552 12930 13307 13683 14058 14431 14803 15173 
0,4 15542 15910 16276 16640 17003 17364 17724 18082 18439 18793 
0,5 19146 19497 19847 20194 20540 20884 21226 21566 21904 22240 
0,6 22575 22907 23237 23565 23891 24215 24537 24857 25175 25490 
0,7 25804 26115 26424 26730 27035 27337 27637 27935 28230 28524 
0,8 28814 29103 29389 29673 29955 30234 30511 30785 31057 31327 
0,9 31594 31859 32121 32381 32639 32894 33147 33398 33646 33891 
1,0 34134 34375 34614 34850 35083 35314 35543 35769 35993 36214 
1,1 36433 36650 36864 37076 37286 37493 37698 37900 38100 38298 
1,2 38493 38686 38877 39065 39251 39435 39617 39796 39973 40147 
1,3 40320 40490 40658 40824 40988 41149 41309 41466 41621 41774 
1,4 41924 42073 42220 42364 42507 42647 42786 42922 43056 43189 
1,5 43319 43448 43574 43699 43822 43943 44062 44179 44295 44408 
1,6 44520 44630 44738 44845 44950 45053 45154 45254 45352 45449 
1,7 45543 45637 45728 45818 45907 45994 46080 46164 46246 46327 
1,8 46407 46485 46562 46638 46712 46784 46856 46926 46995 47062 
1,9 47128 47193 47257 47320 47381 47441 47500 47558 47615 47670 
2,0 47725 47778 47831 47882 47932 47982 48030 48077 48124 48169 
2,1 48214 48257 48300 48341 48382 48422 48461 48500 48537 48574 
2,2 48610 48645 48679 48713 48745 48778 48809 48840 48870 48899 
2,3 48928 48956 48983 49010 49036 49061 49086 49111 49134 49158 
2,4 49180 49202 49224 49245 49266 49286 49305 49324 49343 49361 
2,5 49379 49396 49413 49430 49446 49461 49477 49492 49506 49520 
2,6 49534 49547 49560 49573 49585 49598 49609 49621 49632 49643 
2,7 49653 49664 49674 49683 49693 49702 49711 49720 49728 49736 
2,8 49744 49752 49760 49767 49774 49781 49788 49795 49801 49807 
2,9 49813 49819 49825 49831 49836 49841 49846 49851 49856 49861 
3,0 49865 49869 49874 49878 49882 49886 49889 49893 49897 49900 
3,1 49903 49906 49910 49913 49916 49918 49921 49924 49926 49929 
3,2 49931 49934 49936 49938 49940 49942 49944 49946 49948 49950 
3,3 49952 49953 49955 49957 49958 49960 49961 49962 49964 49965 
3,4 49966 49968 49969 49970 49971 49972 49973 49974 49975 49976 
3,5 49977 49978 49978 49979 49980 49981 49981 49982 49983 49983 
3,6 49984 49985 49985 49986 49986 49987 49987 49988 49988 49989 
3,7 49989 49990 49990 49990 49991 49991 49992 49992 49992 49992 
3,8 49993 49993 49993 49994 49994 49994 49994 49995 49995 49995 
3,9 49995 49995 49996 49996 49996 49996 49996 49996 49997 49997 
4,0 49997 49997 49997 49997 49997 49997 49998 49998 49998 49998 
4,5 49999 50000 50000 50000 50000 50000 50000 50000 50000 50000 
Fonte: Adaptado de Morettin e Bussab (2010) 
 
 
 
 
 
 
 
 
 
 
 
 
59 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 Nos Livros abaixo vocês encontrarão mais informações e explicação mais detalhada 
sobre probabilidade. 
MCCLAVE, J. T. Estatística para administração e economia. São Paulo: Pearson Prentice 
Hall, 2009. Disponível em: https://bit.ly/2QNFMKU 
 
DOANE, D. P.; SEWARD, L. E. Estatística Aplicada à Administração e Economia. 4. ed. 
Porto Alegre: AMGH, 2014. Disponível em: https://bit.ly/3hWvWSI 
As companhias aéreas frequentemente vendem mais passagens que a capacidade dos 
aviões contando com o fato de que nem todos os passageiros se apresentam para o 
embarque. Se a companhia tem uma estimativa da probabilidade de um passageiro não 
comparecer, qual distribuição de probabilidades poderia ser usada para calcular a 
probabilidade de haver overbooking (situação onde a venda de passagens é superior ao 
número de assentos no avião)? 
 
 
 
 
 
 
 
 
 
60 
 
 
FIXANDO O CONTEÚDO 
1. Assinale a alternativa correta no que se refere à probabilidade. 
 
a) Pode ser entendida como uma medida da chance de algo acontecer. 
b) Fenômenos determinísticos são aqueles em que o acaso tem papel importante. 
c) Fenômenos aleatórios são aqueles que produzem o mesmo resultado sempre que 
são realizados sob as mesmas condições. 
d) O objeto de estudo da probabilidade são os fenômenos determinísticos. 
e) Um evento é o conjunto de todos os resultados possíveis de um experimento. 
 
2. Calcule a probabilidade de sair um número maior que 4 no lançamento de um 
dado. 
 
a) 25% 
b) 33,33% 
c) 66,67% 
d) 15% 
e) 50% 
 
3. Calcule a probabilidade de sair um número ímpar ou um número maior que 4 no 
lançamento de um dado. 
 
a) 83,33% 
b) 75% 
c) 25,45% 
d) 33% 
e) 66% 
 
4. Suponha que a probabilidade de uma pessoa se atrasar para um voo seja 25% 
(0,25). Assim, qual a probabilidade de 3 pessoas estarem atrasadas num grupo de 
5 pessoas? 
 
a) 1,3% 
 
 
 
 
 
 
 
 
 
61 
 
 
b) 3,4% 
c) 8,8% 
d) 4,4% 
e) 5,1% 
 
5. Em uma caixa, há um total de 10 bolas, sendo 3 bolas brancas, 5 bolas pretas e 2 
bolas azuis. Se uma única bola for retirada ao acaso, calcule a probabilidade de 
que seja azul. 
 
a) 50% 
b) 60% 
c) 20% 
d) 70% 
e) 75% 
 
6. Considerando a questão anterior, suponha que fossem retiradas duas bolas (sem 
que nenhuma retornasse para a caixa). Calcule a probabili-dade da primeira bola 
ser branca ea segunda, azul. 
 
a) 6,67% 
b) 7,39% 
c) 5,25% 
d) 8,5% 
e) 5,95% 
 
7. Suponha que uma moeda equilibrada seja arremessada 5 vezes. Calcu-le a 
probabilidade de sair cara 2 vezes. 
 
a) 15,87% 
b) 26,2% 
c) 54,25% 
d) 83,5% 
e) 31,25% 
 
 
 
 
 
 
 
 
 
 
62 
 
 
8. Uma variável “X” segue uma distribuição normal com média igual a 10 e desvio-
padrão igual a 4. Assim, calcule a probabilidade desta variável assumir um valor 
maior que 15. 
 
a) 25,51% 
b) 10,56% 
c) 15,32% 
d) 18,37% 
e) 19,53% 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
63 
 
 
INFERÊNCIA ESTATÍSTICA 
 
 
 
 INTRODUÇÃO 
Vimos, na primeira unidade que, quando queremos conhecer uma 
característica ou conjunto de características de um universo não é necessário 
pesquisarmos todos os seus elementos. Muitas vezes, isso nem é possível. Dessa forma, 
selecionamos uma amostra e estudamos tais características nesta parte selecionada 
do universo. A estatística descritiva, que vimos na unidade 2, contém uma série de 
técnicas e métodos utilizados para trabalhar, resumir e apresentar os dados 
trabalhados dentro da amostra (os dados “coletados”) sem, no entanto, fazer 
nenhuma referência ao universo do qual a amostra foi retirada. Quando desejamos 
fazer alguma afirmação a respeito de uma característica do universo com base nos 
dados de uma amostra dele retirada, entramos no campo da inferência estatística. 
 
A inferência estatística é uma das partes da Estatística [...] que tem por 
objetivo a coleta, redução, análise e modelagem dos dados, a partir 
do que, finalmente, faz-se a inferência para uma população da qual 
os dados (a amostra) foram obtidos. Um aspecto importante da 
modelagem dos dados é fazer previsões, a partir das quais se podem 
tomar decisões (MORETTIN; BUSSAB, 2010, p. 01). 
 
Como exemplo, podemos imaginar a necessidade de conhecer a média de 
altura dos brasileiros adultos. Imagine que, para isso, foi selecionada uma amostra 
(seguindo todos os critérios já estudados), uma vez que não seria necessário (ou, 
talvez, nem possível do ponto de vista prático) pesquisar todos os habitantes adultos. 
Imagine ainda que, após medir a altura das pessoas selecionadas para amostra e 
calcular a média de altura dessas pessoas, tenhamos encontrado o valor 1,70m. Esta 
seria a média amostral. A pergunta que fica é: com base neste valor (calculado a 
partir de uma amostra), podemos afirmar que a média de altura considerando todos 
os brasileiros adultos é 1,70m? Ou seja, se tivéssemos medido todos os brasileiros 
adultos, ao invés de termos utilizado uma amostra, ainda encontraríamos o mesmo 
valor? Indiretamente, estamos querendo saber se a média amostral representa bem 
a média do universo (também chamada de média populacional). A resposta é sim 
e, para que possamos entender, precisaremos de alguns conceitos. 
UNIDADE 
 
 
 
 
 
 
 
 
 
64 
 
 
 
 
No exemplo que estamos vendo, a média de altura de todos os brasileiros 
adultos (que desejamos conhecer) seria nosso parâmetro. Da mesma forma, a média 
de altura dos brasileiros que compõem a amostra é uma estatística. É através dela 
que faremos uma estimativa da média populacional. 
 
Figura 14: Relações da Inferência Estatística 
 
Fonte: Elaborado pelo Autor (2020) 
 
É importante ressaltar que o parâmetro populacional é fixo (único), ao passo 
que a estatística amostral pode variar à medida que selecionamos amostras 
diferentes. Nesse sentido podemos falar de um conjunto de estatísticas calculadas a 
partir de um conjunto de amostras diferentes do mesmo universo. O quadro 1 abaixo 
resume os principais parâmetros e sua respectiva estatística. 
 
Quadro 1: Relação de Parâmetros Estatísticos 
Característica Parâmetro Estatística 
Média 𝜇 𝑋 
Desvio-padrão 𝜎 𝑆 
Tamanho 𝑁 𝑛 
Fonte: Elaborado pelo Autor (2020) 
 
 
Quando nos referimos a alguma característica de um universo, usamos o termo parâmetro 
(ou parâmetro populacional). Ao nos referirmos a uma característica de uma amostra, 
usamos o termo estatística, e o usamos para estimar o parâmetro populacional. 
 
 
 
 
 
 
 
 
 
65 
 
 
 ESTIMAÇÃO 
Chamamos de estimação ao processo de estimar um parâmetro através de 
uma estatística amostral. Este processo é realizado de duas formas: estimação por 
ponto e estimação por intervalo. Para nossos propósitos, é suficiente que entendamos 
a estimação por ponto, de forma que não trataremos, aqui, da estimação por 
intervalo. 
 
 
 
 Estimação por ponto 
Quando escolhemos uma amostra representativa do universo, uma estatística 
como 𝑋 por exemplo, é uma variável aleatória. Dessa forma, podemos utilizar uma 
distribuição de probabilidade para modelar o comportamento desta estatística. 
Assim temos o que chamamos de “distribuição amostral” que consiste na distribuição 
de probabilidade obtida com todas as possíveis amostras de “𝑛” elementos que 
podemos extrair do universo. Neste caso, é importante que possamos estimar a média 
e o desvio-padrão da distribuição amostral. No caso específico da média, sabemos 
que a distribuição amostral é uma distribuição normal (quando o tamanho da 
amostra é suficientemente grande) e que a média populacional (𝜇) é igual à média 
de todas as médias obtidas com todas as amostras possíveis. Este resultado é o que 
chamamos de “Teorema Central do Limite”. 
 
 
 
 
 
 
Teorema Central do Limite: a média de uma distribuição amostral de médias sempre 
será igual à média populacional. 
 
 
 
 
 
 
 
 
 
66 
 
 
Podemos escrever este resultado na forma da equação (26): 
 
 
𝜇 =
∑ 𝑋
𝑘
 (26) 
 
Onde “k” é a quantidade total de amostras de “n” elementos que podemos 
extrair do universo. O seguinte exemplo ilustra essa situação. 
 
Exemplo: Imagine que uma turma tenha apenas quatro alunos e que suas notas 
(elementos do universo ou da população em questão) sejam: 9; 6; 8; 5. Neste caso, a 
média populacional será: 
 
𝜇 = 
9 + 6 + 8 + 5
4
 
 
𝜇 = 7 
 
Se retirarmos amostras de três elementos deste universo, teríamos as seguintes 
possibilidades: (9; 6; 8) (9; 8; 5) (6; 8; 5) (5; 9; 6). Ou seja, temos quatro amostras 
possíveis e a média de cada uma delas será: 
 
𝑋 =
9 + 6 + 8
3
= 7,67 
 
𝑋 =
9 + 8 + 5
3
= 7,33 
 
𝑋 =
6 + 8 + 5
3
= 6,33 
 
𝑋 =
5 + 9 + 6
3
= 6,67 
 
Assim, a média das médias seria: 
 
𝜇 =
7,67 + 7,33 + 6,33 + 6,67
4
 
 
 
 
 
 
 
 
 
 
67 
 
 
𝜇 =
28
4
 
 
𝜇 = 7 
 
A partir de agora, discutiremos como podemos estimar o desvio-padrão de 
uma distribuição amostral. Para isso, precisamos considerar duas possiblidades: se 
conhecemos ou não o desvio-padrão da população. Em ambas as considerações, 
assumimos que os dados seguem uma distribuição normal. 
No caso em que o desvio-padrão da população é conhecido ou o número 
de elementos da amostra é grande (𝑛 > 30), o desvio-padrão da distribuição 
amostral poderá ser calculado pela equação (27): 
 
 𝜎 =
𝜎
√𝑛
 (27) 
 
Onde: 
𝜎 = desvio-padrão da distribuição amostral; 
𝜎 = desvio-padrão da população; 
𝑛 = tamanho da amostra. 
 
No caso em que não conhecemos o desvio-padrão da população e o número 
de elementos da amostra é grande, o desvio-padrão da distribuição amostral poderá 
ser calculado na equação (28): 
 
 
𝜎 =
𝑆
√𝑛
 (28) 
 
Onde “𝑆” é o desvio-padrão da amostra. 
 
Exemplo: Em uma pesquisa realizada com uma amostra de 120 funcionários de uma 
determinada empresa, descobriu-se que as despesas mensais decorrentes de 
aquisições de materiais de escritório diversos é de R$150,00 em média por funcionário, 
com um desvio-padrão de R$50,00. Dessa forma, qual seria a média de gastos da 
distribuição amostral (considerando todas as possíveis amostras com 120 
funcionários)? Qual seria o desvio-padrão da distribuição amostral? 
 
 
 
 
 
 
 
 
 
68A média da média da distribuição amostral seria: 
 
𝜇 = 𝑋 = 150 
 
Como não conhecemos o desvio-padrão da população, usaremos o desvio-
padrão da amostra. Assim: 
 
𝜎 =
50
√120
≈ 4,56 
 
 
 
 
 
MCCLAVE, J. T. Estatística para administração e economia. São Paulo: Pearson Prentice 
Hall, 2009. Disponivél em: https://bit.ly/2QNFMKU 
DOANE, D. P.; SEWARD, L. E. Estatística Aplicada à Administração e Economia. 4. ed. 
Porto Alegre: AMGH, 2014. Disponivel em: https://bit.ly/3jFdRZO 
 
 
 
 
 
 
 
 
 
69 
 
 
FIXANDO O CONTEÚDO 
1. Assinale a alternativa correta no que se refere à inferência estatística. 
 
a) Trata-se de uma área da estatística que nos permite fazer afirmações sobre uma 
população (universo) com base nos dados de uma amostra. 
b) Trata-se de uma área da estatística que nos fornece elementos para extrairmos 
uma parte representativa do universo para estudarmos. 
c) Um parâmetro é uma característica de uma amostra. 
d) Os parâmetros são usados para estimar valores das estatísticas com base em uma 
amostra. 
e) Os parâmetros variam de acordo com a amostra extraída do universo. 
 
2. Considerando uma amostra de 120 elementos cuja média é igual a 50, calcule 
uma estimativa para a média populacional. 
 
a) 50 
b) 35 
c) 65 
d) 75 
e) 58 
 
3. Considerando uma amostra de 144 elementos cujo desvio padrão é igual a 45, 
calcule uma estimativa para o desvio padrão da distribuição amostral. 
 
a) 3,25 
b) 4,75 
c) 2,27 
d) 3,75 
e) 4,54 
 
4. Uma amostra de 49 elementos possui desvio-padrão igual a 0,3. Calcule a 
estimativa para o desvio-padrão da distribuição amostral. 
 
 
 
 
 
 
 
 
 
 
70 
 
 
a) 0,04 
b) 0,09 
c) 1,00 
d) 1,5 
e) 0,1 
5. No que se refere ao processo de estimação, é correto afirmar que: 
 
a) trata-se de “conhecer” um parâmetro populacional com base numa estatística 
amostral. 
b) a estimação pontual é a única forma de realizarmos este processo. 
c) uma estatística qualquer sempre segue uma distribuição normal padrão. 
d) um parâmetro populacional pode variar dependendo da amostra extraída. 
e) estimação por ponto é a única forma de estimar um parâmetro populacional. 
 
6. Um universo é formado pelos seguintes valores: 27; 29; 21; 28. Retirando-se as 
possíveis amostras de 3 elementos; calcule uma estimativa para a média da 
população (composta por todos os funcionários) e assinale a alternativa correta. 
 
a) 27,5 
b) 26,25 
c) 28,35 
d) 29,25 
e) 25,31 
 
7. Uma amostra de 36 elementos apresenta média igual a 150 e desvio padrão igual 
a 127. Sendo assim, calcule uma estimativa para média populacional e assinale a 
alternativa correta. 
 
a) 235 
b) 127 
c) 175 
d) 210 
e) 150 
 
 
 
 
 
 
 
 
 
 
71 
 
 
8. Uma amostra de 169 elementos apresenta desvio padrão igual a 26. Calcule uma 
estimativa do desvio padrão da distribuição amostral. 
 
a) 5 
b) 2 
c) 4 
d) 7 
e) 9 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
72 
 
 
INFERÊNCIA ESTATÍSTICA: TESTE 
DE HIPÓTESES 
 
 
 
 
 INTRODUÇÃO 
Na unidade anterior, vimos que o valor de uma estatística calculada com base 
em uma única amostra do universo, não é necessariamente igual ao parâmetro 
populacional que estamos tentando conhecer. Imagine que estamos tentando 
conhecer a média 𝜇 de uma determinada população (ou universo). Para isso, 
retiramos uma amostra (de tamanho “𝑛”) e, com os valores desta amostra, 
calculamos a estatística 𝑋. Como vimos, se tivéssemos selecionado uma outra 
amostra do mesmo tamanho, a estatística teria provavelmente um valor diferente. 
Então, como fazer alguma afirmação sobre μ com base em 𝑋? Dito de outra forma, 
ao fazermos uma afirmação sobre um parâmetro populacional, é natural que 
queiramos saber se os dados provenientes de uma amostra contrariam ou não esta 
afirmação. Neste caso, o que deveríamos fazer é um “teste de hipóteses”. Vejamos 
o seguinte exemplo: 
 
Exemplo: Suponha que um cientista esteja realizando um estudo sobre a altura dos 
habitantes do seu município. Em um estudo anterior, foi encontrado que a média de 
altura destes habitantes era 1,70m. Embora outros estudiosos afirmem que esta média 
aumentou, o cientista acredita que ela permanece a mesma. Assim, ele seleciona 
uma amostra e calcula a média amostral. Suponha que ele tenha encontrado 1,72m 
como média e 0,36m como variância amostral (não confunda com a variância 
populacional que neste caso é desconhecida). Isso prova definitivamente que o 
cientista estava errado? Sabemos que não. Ele pode ter encontrado este valor por 
uma coincidência devido à amostra que ele selecionou. Se tivesse selecionado outra 
amostra, muito provavelmente encontraria outro valor. O que ele deve fazer então é 
testar a hipótese de que a média de altura dos habitantes de todo o município é 
igual a média encontrada na amostra ou se é diferente dela. Na notação estatística 
escrevemos isso da seguinte forma: 
UNIDADE 
 
 
 
 
 
 
 
 
 
73 
 
 
𝐻 : 𝜇 = 1,70
𝐻 : 𝜇 > 1,70
 
 
Onde: 
𝐻 é chamada de “hipótese nula” 
𝐻 é chamada de “hipótese alternativa”. 
 
O que se faz em um teste de hipótese é formular uma hipótese nula (alguma 
conjectura sobre o universo) e verificar se os dados contidos na amostra me permitem 
aceitar ou não esta hipótese. Assim, a hipótese alternativa, é aquela hipótese que 
aceitamos caso a hipótese nula seja rejeitada. Usamos 𝐻 : 𝜇 > 1,70 como hipótese 
alternativa porque havia suposições que a altura média da população pudesse ter 
aumentado. Entretanto, poderíamos formular as hipóteses das seguintes formas: 
 
𝐻 : 𝜇 = 1,70
𝐻 : 𝜇 < 1,70
 (teste unilateral) 
𝐻 : 𝜇 = 1,70
𝐻 : 𝜇 ≠ 1,70
 (teste bilateral) 
É importante ressaltar que ao aceitarmos a hipótese nula ou ao rejeitá-la, 
poderíamos estar cometendo algum erro uma vez que não conhecemos de fato 
média populacional. Os dois tipos de erro que podemos cometer são: 
 
 Erro tipo I: Aquele que cometemos ao rejeitar a hipótese nula, sendo ela 
verdadeira; 
 Erro tipo II: Aquele que cometemos ao aceitar a hipótese nula, sendo ela falsa. 
 
Decisão Se H0 é verdadeira Se H0 é falsa 
Rejeitar H0 Erro tipo I Nenhum erro 
Aceitar H0 Nenhum erro Erro tipo II 
 
A probabilidade de cometermos um erro do tipo I é chamada de “nível de 
significância” do teste e representada por 𝛼. Assim, temos a equação (29): 
 
 𝛼 = 𝑃(𝑒𝑟𝑟𝑜 𝑡𝑖𝑝𝑜 𝐼) = 𝑃(𝑟𝑒𝑗𝑒𝑖𝑡𝑎𝑟 𝐻 | 𝐻 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑎) (29) 
 
 
 
 
 
 
 
 
 
 
 
74 
 
 
Os níveis de significância mais utilizados na prática são 0,01; 0,05 e 0,10. Ou seja, 
o mais aceito na prática é que a probabilidade de rejeitar a hipótese nula sendo ela 
verdadeira deve ser no máximo 10%. 
Um conceito parecido com o nível de significância é o chamado “𝑝 − 𝑣𝑎𝑙𝑜𝑟” 
(ou 𝑉𝑎𝑙𝑜𝑟 − 𝑝). Assim como o nível de significância, o 𝑝 − 𝑣𝑎𝑙𝑜𝑟 também é uma 
probabilidade. 
 
 
 
Voltando ao exemplo da altura dos habitantes de um determinado município, 
vimos que o cientista em questão encontrou o valor 1,72 para a média de sua 
amostra (estatística). O 𝑝 − 𝑣𝑎𝑙𝑜𝑟 seria a probabilidade de este valor ter sido 
encontrado por acaso devido à amostra selecionada e não porque a média de 
altura dos habitantes (parâmetro) realmente tenha aumentado. 
 
 TESTE DE HIPÓTESES PARA A MÉDIA POPULACIONAL 
Para a construção de um teste de hipóteses, devemos antes de tudo, construir 
uma “estatística de teste”. Esta grandeza é calculada com base no valor da 
estatística encontrada na amostra e no valor do parâmetro que está sendo testado 
na hipótese nula. A estatística de teste é uma variável aleatória e pode estar 
associada a várias distribuições de probabilidade, dependendo do parâmetro que 
estamos testando e de alguns outros fatores. No caso específico do teste de hipótese 
para a média populacional,a estatística de teste pode seguir uma distribuição 
normal, caso a variância da população seja conhecida ou pode seguir uma 
distribuição chamada de “t de Student” (ou somente distribuição t), caso a variância 
populacional não seja conhecida. Vejamos cada um destes casos. 
 
 
 
 
 
 
 
 
 
 
75 
 
 
 Teste com variância populacional conhecida 
Quando conhecemos a variância da população da qual nossa amostra foi 
extraída, a estatística de teste é calculada por meio da equação (): 
 
 
𝑍 =
𝑋 − 𝜇
𝜎
√𝑛
 (30) 
 
Aqui, 𝜇 é o valor que se supõe para o parâmetro (valor que está sendo 
testado em H0), σ é o desvio-padrão da população e 𝑛 é o tamanho da amostra. 
Como dito acima, esta estatística de teste segue uma distribuição normal padrão, ou 
seja, 𝑍 ~ 𝑁(0; 1). 
Neste caso, como em qualquer teste de hipótese, iremos rejeitar 𝐻 somente 
quando a estatística de teste (neste caso 𝑍) for mais extrema (maior ou menor, 
dependendo do caso) que um valor de referência. Este valor de referência é obtido 
a partir do nível de significância pretendido e da distribuição de probabilidade que 
a estatística segue. 
 
Exemplo: Considerando novamente o exemplo do cientista que estuda a altura dos 
habitantes do seu município, queremos realizar o seguinte teste de hipóteses. 
 
𝐻 : 𝜇 = 1,70
𝐻 : 𝜇 > 1,70
 
 
Agora, suponhamos que a variância populacional seja igual a 0,25m (neste 
caso o desvio-padrão seria igual a 0,5) e que o cientista tenha selecionado uma 
amostra de 100 pessoas. Assim teríamos a seguinte estatística de teste: 
 
𝑍 =
𝑋 − 𝜇
𝑆
√𝑛
 
𝑍 =
1,72 − 1,70
0,5
√100
 
𝑍 =
0,02
0,5
10
 
 
 
 
 
 
 
 
 
 
76 
 
 
𝑍 =
0,02
0,05
 
𝑍 = 0,4 
 
Para obtermos o valor de referência, vamos estabelecer um nível de 
significância de 5% (ou 0,05). Sabendo que 𝑍 segue uma distribuição normal padrão, 
podemos usar a tabela (Tabela 3) desta distribuição. O valor correspondente a uma 
probabilidade igual a 0,05 é 1,64. Como nossa estatística de teste foi menor que este 
valor, não rejeitamos a hipótese nula. Isso significa que os dados não contêm 
evidência suficiente para afirmarmos que a média de altura dos habitantes seja 
maior que 1,70. Uma outra forma de chegarmos a esta conclusão é através do 𝑝 −
𝑣𝑎𝑙𝑜𝑟 associado à estatística de teste. Consultando o valor desta estatística na tabela, 
encontramos uma probabilidade igual a 0,15542 (quinta linha com a primeira 
coluna). Este valor é claramente maior que o nível de significância (0,05). Sempre que 
o 𝑝 − 𝑣𝑎𝑙𝑜𝑟 for maior que o nível de significância, não rejeitamos 𝐻 . 
O que aconteceria se não houvesse motivo para suspeitar que a média de 
altura dos habitantes fosse maior que 1,70? Neste caso, o teste de hipótese seria 
bilateral, ou seja, nosso teste seria da seguinte forma: 
 
𝐻 : 𝜇 = 1,70
𝐻 : 𝜇 ≠ 1,70
 
 
Quando temos um teste bilateral, o nível de significância deve ser dividido por 
2. Assim, ele serial igual a 0,025 e o valor correspondente na tabela da distribuição 
normal padrão seria 1,96. Como nossa estatística de teste é menor que este valor, 
ainda assim não rejeitaríamos H0, ou seja, nossa conclusão seria a mesma. 
 
 
 Teste com variância populacional desconhecida 
Quando não conhecemos a variância da população da qual nossa amostra 
foi extraída e o número de elementos da amostra é pequeno (n < 30), a estatística 
de teste é calculada de outra forma e possui outras características. Neste caso, ela 
seria calculada pela equação (31): 
 
 
 
 
 
 
 
 
 
 
77 
 
 
 
𝑇 =
𝑋 − 𝜇
𝑆
√𝑛
 (31) 
 
Como se pode perceber, quando não conhecemos a variância populacional, 
o desvio-padrão é substituído pelo desvio-padrão populacional. Como 
consequência, a estatística de teste “T” segue a distribuição t de Student e não 
podemos mais utilizar a tabela da distribuição normal para obtermos o valor de 
referência ou o 𝑝 − 𝑣𝑎𝑙𝑜𝑟. Para isso, teremos outra tabela como aquela representada 
na figura abaixo. Para consulta-la, além de conhecermos o nível de significância, 
precisamos conhecer os “graus de liberdade” (𝑣). O grau de liberdade de uma 
distribuição amostral 𝑣 = 𝑛 – 1, sendo n o tamanho da amostra. 
 
Exemplo: Ainda considerando o exemplo anterior, como faríamos o teste de 
hipóteses se não conhecêssemos a variância populacional? No caso de um teste 
unilateral (como o primeiro que fizemos na seção anterior), teríamos o seguinte: 
 
𝐻 : 𝜇 = 1,70
𝐻 : 𝜇 > 1,70
 
 
Lembrando que a variância amostral encontrada pelo cientista é igual a 0,36 
e supondo que o cientista tenha selecionado uma amostra de 25 pessoas, a 
estatística de teste seria calculada da seguinte forma: 
 
𝑇 =
𝑋 − 𝜇
𝑠
√𝑛
 
𝑇 =
1,72 − 1,70
0,6
√25
 
𝑇 =
0,02
0,6
5
≈ 1,17 
Consultando a tabela abaixo com nível de significância de 0,05 (na tabela 
consta 0,95 na primeira linha pois trás o a probabilidade acumulada) com v = 24 graus 
de liberdade (𝑣 = 25 – 1), encontramos o valor de referência igual a 1,711. Como 
nossa estatistica de teste é menor que o valor de referência, então não rejeitamos a 
hipótese nula. Da mesma forma, isso significa que os dados da amostra não contêm 
 
 
 
 
 
 
 
 
 
78 
 
 
evidência suficiente para afirmarmos que a média de altura dos habitantes deste 
município seja maior que 1,70m. 
 
 
 
Obs.: Para usar a tabela, procuramos o nível de significância na primeira linha 
e os graus de liberdade na primeira coluna. 
 
 
 
 
 
 
 
 
O nível de significância desejado deve ser subtraído de 1 para que possamos usar a 
tabela. Assim, o nível de significância de 0,05 será α = 1 – 0,05 (α = 0,95). Obviamente, o 
nível de significância de 0,01 seria α = 1 – 0,01 (α = 0,99).
 Nos link a seguir https://bit.ly/3lM7ndx, você encontrará mais sobre testes de hipóteses 
como testes para outros parâmetros populacionais e exemplos de aplicações. 
MCCLAVE, J. T. Estatística para administração e economia. São Paulo: Pearson Prentice 
Hall, 2009. Disponivél em: https://bit.ly/2QNFMKU 
DOANE, D. P.; SEWARD, L. E. Estatística Aplicada à Administração e Economia. 4. ed. 
Porto Alegre: AMGH, 2014. Disponivel em: https://bit.ly/3hRzWUu 
Um teste de hipóteses é frequentemente comparado ao julgamento de um réu. Quando 
uma pessoa vai a julgamento, existe o que chamam de “presunção de inocência”, ou 
seja, o réu é inocente até que se prove o contrário (assim, a hipótese nula seria: o réu é 
inocente). O promotor, procura demonstrar através de provas documentais e/ou 
testemunhais que o réu é culpado, ou seja, procura refutar (ou rejeitar) a hipótese nula. 
Neste contexto, dois erros podem ser cometidos ao condenar ou absolver o réu. Que erros 
seriam esses? Algun seria mais prejudicial que o outro? Se sim, qual deles? 
 
 
 
 
 
 
 
 
 
79 
 
 
Tabela 4: Tabela de valores críticos – t de Student 
 
dt 0.05 0.025 0.01 0.005 
1 
2 
3 
4 
5 
6 
7 
8 
9 
 
10 
11 
12 
13 
14 
15 
16 
17 
18 
19 
 
20 
21 
22 
23 
24 
25 
26 
27 
28 
29 
30 
40 
50 
 
100 
6.314 12.706 31.821 63.657 
2.920 4.303 6.965 9.925 
2.353 3.182 4.541 5.841 
2.132 2.776 3.747 4.604 
2.015 2.571 3.365 4.032 
1.943 2.447 3.143 3.707 
1.895 2.365 2.998 3.499 
1.860 2.306 2.8963.355 
1.833 2.262 2.821 3.250 
 
1.812 2.228 2.764 3.169 
1.796 2.201 2.718 3.106 
1.782 2.179 2.681 3.055 
1.771 2.160 2.650 3.012 
1.761 2.145 2.624 2.977 
1.753 2.131 2.602 2.947 
1.746 2.120 2.583 2.921 
1.740 2.110 2.567 2.898 
1.734 2.101 2.552 2.878 
1.729 2.093 2.539 2.861 
 
1.725 2.086 2.528 2.845 
1.721 2.080 2.518 2.831 
1.717 2.074 2.508 2.819 
1.714 2.069 2.500 2.807 
1.711 2.064 2.492 2.797 
1.708 2.060 2.485 2.787 
1.706 2.056 2.479 2.779 
1.703 2.052 2.473 2.771 
1.701 2.048 2.467 2.763 
1.699 2.045 2.462 2.756 
1.697 2.042 2.457 2.750 
1.684 2.021 2.423 2.704 
1.676 2.009 2.403 2.678 
 
1.660 1.984 2.364 2.626 
∞ 1.645 1.960 2.326 2.576 
Fonte: Adaptado de Guimarães (2012) 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
80 
 
 
FIXANDO O CONTEÚDO 
1. Assinale a alternativa correta. 
 
a) Testes de hipóteses fazem parte do processo de amostragem. 
b) Fazemos um teste de hipóteses porque não conhecemos o parâmetro 
populacional. 
c) A distribuição amostral da média segue uma distribuição t de Student. 
d) A distribuição normal padrão é ideal para modelarmos a distribuição amostral do 
desvio-padrão. 
e) Nenhuma das alternativas anteriores está correta. 
 
2. Suponha que a média de uma amostra seja igual a 1,75. Indique qual seria a 
hipótese nula em um teste de hipóteses. 
 
a) 𝐻 = 1,75 
b) 𝐻 ≠1,75 
c) 𝐻 =1,80 
d) 𝐻 >1,75 
e) 𝐻 < 1,75 
 
3. Na questão anterior qual deveria ser a hipótese alternativa, se acreditássemos que 
a média populacional é maior que a média amostral? 
 
a) 𝐻 < 1,75 
b) 𝐻 > 1,75 
c) 𝐻 = 1,75 
d) 𝐻 ≠ 1,75 
e) 𝐻 = 1,80 
 
4. Baseando-se no teste de hipóteses abaixo, assinale a alternativa correta. 
 
𝐻 : 𝜇 = 1,5
𝐻 : 𝜇 ≠ 1,5
 
 
 
 
 
 
 
 
 
 
 
81 
 
 
a) Trata-se de um teste bilateral. 
b) A hipótese alternativa é μ = 1,5. 
c) A hipótese nula é μ ≠ 1,5. 
d) Trata-se de um teste unilateral. 
e) Todas as alternativas anteriores estão incorretas. 
 
5. Seja o seguinte teste de hipóteses para a média populacional: 
 
𝐻 : 𝜇 = 120
𝐻 : 𝜇 ≠ 120
 
 
Suponha que tenha sido encontrada uma estatística de teste igual a 2,41 e que o 
valor de referência seja 1,96. Neste caso, assinale a alternativa correta. 
 
a) Devemos rejeitar 𝐻 
b) Devemos aceitar 𝐻 
c) Não podemos afirmar que a média populacional seja diferente de 120. 
d) Nada pode ser afirmado com este teste. 
e) Trata-se de um teste unilateral. 
 
6. Considere o seguinte teste de hipóteses: 
 
𝐻 : 𝜇 = 50
𝐻 : 𝜇 ≠ 50
 
 
Se o nível de significância é de 5% (ou seja, α = 0,05) e o p-valor igual a 0,01, assinale 
a alternativa correta. 
 
a) Devemos rejeitar 𝐻 
b) Devemos aceitar 𝐻 
c) Não há evidência suficiente para afirmarmos que a média populacional seja 
menor que 50. 
d) Nada pode ser afirmado com este teste. 
e) Trata-se de um teste bilateral. 
 
 
 
 
 
 
 
 
 
 
82 
 
 
7. Assinale a alternativa correta no que se refere a testes de hipóteses. 
 
a) A estatística de teste para a média populacional sempre seguirá uma distribuição 
normal padrão. 
b) O valor de referência considerado depende apenas do nível de significância do 
teste. 
c) Devemos rejeitar a hipótese nula sempre que o p-valor for menor que o nível de 
significância. 
d) Não devemos rejeitar a hipótese nula quando o p-valor for menor que o nível de 
significância. 
e) Nenhuma das alternativas anteriores está correta. 
 
8. Calcule uma estatística de teste, considerando uma amostra de tamanho 
𝑛 = 64, e os seguintes valores: 
 
 
a) T = 5,25 
b) T = 3,75 
c) T = 6,25 
d) T = 3,25 
e) T = 4,44 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
83 
 
 
RESPOSTAS FIXANDO CONTEÚDO 
 
UNIDADE 01 
 
 
 
UNIDADE 02 
 
QUESTÃO 1 C QUESTÃO 1 B 
QUESTÃO 2 A QUESTÃO 2 B 
QUESTÃO 3 B QUESTÃO 3 A 
QUESTÃO 4 B QUESTÃO 4 D 
QUESTÃO 5 C QUESTÃO 5 A 
QUESTÃO 6 A QUESTÃO 6 C 
QUESTÃO 7 E QUESTÃO 7 B 
QUESTÃO 8 D QUESTÃO 8 C 
 
 
UNIDADE 03 
 
 
 
 
UNIDADE 04 
 
QUESTÃO 1 A QUESTÃO 1 A 
QUESTÃO 2 A QUESTÃO 2 B 
QUESTÃO 3 A QUESTÃO 3 A 
QUESTÃO 4 A QUESTÃO 4 C 
QUESTÃO 5 C QUESTÃO 5 C 
QUESTÃO 6 C QUESTÃO 6 A 
QUESTÃO 7 D QUESTÃO 7 B 
QUESTÃO 8 D QUESTÃO 8 A 
 
 
UNIDADE 05 
 
 
 
UNIDADE 06 
 
QUESTÃO 1 A QUESTÃO 1 B 
QUESTÃO 2 A QUESTÃO 2 A 
QUESTÃO 3 D QUESTÃO 3 B 
QUESTÃO 4 A QUESTÃO 4 A 
QUESTÃO 5 A QUESTÃO 5 A 
QUESTÃO 6 B QUESTÃO 6 B 
QUESTÃO 7 E QUESTÃO 7 C 
QUESTÃO 8 B QUESTÃO 8 E 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
84 
 
 
REFERÊNCIAS 
DOANE, D. P.; SEWARD, L. E. Estatística Aplicada à Administração e Economia. 4. ed. 
Porto Alegre: AMGH, 2014. 
GUIMARÃES, P. R. B. Métodos Quantitativos Estatísticos. 1. ed. rev. Curitiba: IESDE Brasil, 
2012. 252 p. 
HOUAISS, A. Simetria. In: Dicionário Houaiss da Língua Portuguesa. 1. ed. Rio de 
Janeiro: Editora Objetiva, 2001. p. 2922 p. 
LOPES, L. F. D. Apostila de Estatística. Departamento de Estatística, Universidade 
Federal de Santa Maria, Santa Maria, 2003. Disponível em: https://bit.ly/31ReUzN. 
Acesso em: 08 maio 2020. 
MCCLAVE, J. T. Estatística para administração e economia. São Paulo: Pearson 
Prentice Hall, 2009. 
MORETTIN, P. A.; BUSSAB, W. D. O. Estatística Básica. 6. ed. rev. e atual. São Paulo: 
Saraiva, 2010. 
NOVAES, D. V.; COUTINHO, C. Q. Estatística para educação profissional e tecnológica. 
2. ed. São Paulo: Atlas, 2013.

Mais conteúdos dessa disciplina