Buscar

EST_ebook_Walter_Sande

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 140 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 140 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 140 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Estatística
 
Rio de Janeiro
UVA
2016
Walter Sande
Estatística
 
Rio de Janeiro
UVA
2016
Copyright © UVA 2016
Nenhuma parte desta publicação pode ser reproduzida por qualquer 
meio sem a prévia autorização desta instituição.
Texto de acordo com as normas do Novo Acordo Ortográfico 
da Língua Portuguesa.
ISBN: 978-85-69287-29-2
Autoria do Conteúdo
Walter Sande
Projeto Gráfico
UVA
Diagramação
Isabelle Martins
Revisão
Janaína Senna
Isabel Oliveira
Lydianna Lima
Ficha Catalográfica elaborada pelo Sistema de Bibliotecas da UVA.
Biblioteca Maria Anunciação Almeida de Carvalho.
S214 Sande, Walter 
 
 Estatística [livro eletrônico] / Walter Sande. – Rio de 
 Janeiro : UVA, 2016. 
 
 2,4 MB. 
 ISBN 978-85-69287-29-2
 Disponível também impresso. 
 
 1. Estatística. I. Universidade Veiga de Almeida. 
 II. Título. 
 CDD – 519.5
SUMÁRIO
Apresentação...............................................................................................................7
Sobre o autor...................................................................................................................9
Capítulo 1 - Estatística descritiva..................................11
Diferentes tipos de dados.........................................................................13
Resumos gráficos..........................................................................................15
Medidas de tendência central..................................................................20
Medidas de variação....................................................................................28
Medidas de posição......................................................................................34
Referências......................................................................................................40
Capítulo 2 - Distribuições de probabilidade...............41
Introdução à probabilidade........................................................................42
Variáveis aleatórias e distribuições de probabilidade.................51
Valor esperado e variância......................................................................55
Principais distribuições discretas...........................................................58
Principais distribuições contínuas..........................................................63
Referências......................................................................................................72
Capítulo 3 - Amostragem...............................................73
Noções de inferência estatística e amostragem...............................74
Intervalo de confiança...............................................................................78
Teste de hipóteses.........................................................................................86
Referências......................................................................................................100
Capítulo 4 - Covariância, correlação e regressão linear...101
Diagrama de dispersão...............................................................................104
Medida da associação entre duas variáveis.......................................107
Regressão linear............................................................................................119
Referências......................................................................................................135
Considerações finais......................................................136 
7
APRESENTAÇÃO
 
APRESENTAÇÃO
Quantos filmes você assiste por mês? Qual 
a quantidade de filmes assistidos por mês 
pelas pessoas na sua faculdade?
A primeira pergunta é para uma pessoa em particular, e, portanto, só 
há uma resposta. A segunda pergunta é para muitas pessoas, e, nesse 
caso, a quantidade de filmes assistidos vai ser variada. Então, qual res-
posta a ser informada? Todas as idades? Vamos precisar da estatística 
para encontrar traços desse conjunto e chegar a conclusões. Como ve-
remos mais adiante, podemos usar alguma medida de tendência cen-
tral, como a média, para responder. 
Muitas vezes, recorremos à estatística para responder a alguns ques-
tionamentos do dia a dia. A estatística é uma ferramenta valiosa de 
pesquisa que consiste em uma forma de aprender a partir de um con-
junto de dados. Seu objetivo é traduzir os dados em conhecimento e 
compreensão para outras pessoas. Saber quantificar a incerteza em tor-
no desses dados também é necessário. Podemos dizer que um método 
estatístico está dividido em quatro etapas: 
1. Formulação do problema estatístico de interesse. 
2. Coleta de dados.
3. Análise dos dados, fase em que procuramos descrever os da-
dos obtidos.
4. Inferência dos resultados, momento em que tomamos deci-
sões e fazemos previsões. 
Qual a quantidade média de filmes assistidos 
por mês pelas pessoas em sua faculdade?
8
Para descobrirmos a verdadeira resposta, todos os alunos deveriam 
ser entrevistados. Mas isso não seria muito trabalhoso? Não existe um 
modo mais eficiente? Sim. Podemos escolher algumas pessoas ao acaso 
e calcular a média para elas, esperando que o valor encontrado seja 
uma boa indicação da média de todas as pessoas. Em termos mais for-
mais, a ideia aqui, então, seria escolher uma amostra aleatória e calcu-
lar a média para essa amostra, de modo a ser possível fazer inferências 
a respeito da média para a população. 
Toda pesquisa estatística possui um conjunto de elementos de interes-
se, a partir do qual os dados são coletados e analisados. O conjunto de 
todos os elementos que possuem pelo menos uma característica em 
comum é chamado de população. No entanto, na prática, geralmente 
não dispomos da totalidade das observações de um fenômeno em estu-
do, mas dados de apenas alguns desses elementos, pois seria inviável 
obter informações de todos, seja por falta de tempo ou de recursos. 
Chamamos de amostra esse subconjunto representativo da população, 
a partir do qual todos os elementos serão analisados para o estudo 
estatístico desejado. 
Quando temos um cálculo baseado na amostra e de alguma forma ten-
tamos estimá-lo para a população inteira, chamamos de estatística, ou 
seja, uma característica da amostra. Esse valor que desejamos estimar 
é chamado de parâmetro, que é uma medida para descrever uma carac-
terística da população. 
Sendo assim, podemos dizer que usamos a estatística descritiva para 
resumir os dados da amostra e, a partir de análises, usamos a esta-
tística inferencial para tomar decisões e fazer previsões sobre uma 
população.
9
SOBRE O AUTOR
Walter Wagner Carvalho Sande é doutor em Administração pela Esco-
la Brasileira de Administração Pública e de Empresas da Fundação Ge-
túlio Vargas – Ebape/FGV e mestre em Administração pelo Instituto de 
Pós-Graduação e Pesquisa em Administração da Universidade Federal 
do Rio de Janeiro – Coppead/UFRJ, formado em Engenharia Mecânica 
pelo Instituto Militar de Engenharia – IME e em Análise de Sistemas 
pela Universidade do Estado do Rio de Janeiro – Uerj. Após anos de 
carreira profissional dedicada a empresas como Golden Cross, Varig, 
Michelin, entre outras, atualmente é professor de graduação na FGV/RJ e de pós-graduação em diversas instituições de ensino, além de se 
dedicar à pesquisa, com foco nos métodos quantitativos aplicados às 
ciências sociais.
......................................................................................................................................................................................................................
10
11Diferentes tipos de dados
......................................................................................................................................................................................................................
CAPÍTULO 1 
ESTATÍSTICA DESCRITIVA
Quando temos uma grande quantidade de dados e quere-
mos revelar algo sobre eles, sem ter que divulgá-los por 
completo, podemos descrevê-los por meio de um conjunto 
menor de números. Trata-se da estatística descritiva. Esses 
resumos dos dados devem buscar evitar distorções e per-
da de muitas informações, constituindo-se, geralmente, em 
gráficos e números, como médias e percentagens. A fim de 
ilustrar o que se segue, consideremos o seguinte exemplo: 
Exemplo 1: um pesquisador está interessado em analisar 
algumas características dos alunos da faculdade em que 
estuda. Usando as informações obtidas por meio de entre-
vistas a 30 pessoas escolhidas aleatoriamente, ele elaborou 
a tabela 1.
Tabela 1 – Tabela de dados.
Id. 
Aluno
Sexo Idade Altura
Período 
da 
faculdade
CR
Filmes 
assisti-
dos por 
mês
Nível de 
simpatia
1 F 20 1,65 Veterano 6 7 10
2 M 23 1,90 Veterano 6 4 1
3 F 18 1,60 Calouro 3 3 8
4 F 19 1,65 Veterano 6,6 8 2
5 M 20 1,92 Veterano 6,7 10 7
6 F 20 1,65 Veterano 6,8 7 2
7 M 18 1,70 Veterano 6,8 8 0
Estatística descritiva12
......................................................................................................................................................................................................................
8 M 22 1,73 Veterano 6,9 9 9
9 F 19 1,60 Calouro 4,7 20 3
10 F 19 1,60 Veterano 7,4 9 8
11 F 24 1,59 Calouro 5,9 4 10
12 M 18 1,70 Calouro 6,5 5 2
13 M 20 1,70 Calouro 6,8 4 7
14 M 21 1,72 Calouro 6,8 6 3
15 F 20 1,60 Veterano 7,5 7 5
16 M 18 1,70 Calouro 7,5 6 7
17 M 19 1,74 Calouro 7,5 6 4
18 M 19 1,72 Calouro 7,5 6 2
19 M 17 1,77 Calouro 8,8 5 8
20 M 18 1,79 Veterano 7,5 7 9
21 M 19 1,76 Calouro 8,9 10 8
22 M 19 1,76 Veterano 7,5 11 1
23 M 20 1,75 Veterano 7,5 5 2
24 M 21 1,78 Veterano 7,7 7 3
25 M 22 1,76 Veterano 7,7 6 6
26 M 20 1,83 Calouro 9,8 9 6
27 M 22 1,8 Veterano 7,9 6 8
28 M 23 1,8 Veterano 7,9 6 1
29 M 24 1,8 Veterano 8 4 4
30 M 19 1,79 Calouro 9,9 8 9
Fonte: Elaborado pelo autor com dados hipotéticos.
13Diferentes tipos de dados
......................................................................................................................................................................................................................
DIFERENTES TIPOS DE DADOS
Uma variável é qualquer característica medida ou avalia-
da em cada elemento da amostra ou população. Como o 
próprio nome diz, seus valores (observações) variam de 
elemento para elemento. 
Diz-se que uma variável é qualitativa (ou categórica) se 
cada observação pertence a um subconjunto de um con-
junto de categorias, que correspondem aos possíveis atri-
butos do elemento pesquisado. Esses possíveis resultados 
ainda podem ser classificados como ordinais, quando 
existe uma noção de ordenação ou hierarquia entre eles, 
ou nominais, em caso contrário. Muitas vezes utiliza-
mos números para representar variáveis qualitativas, por 
exemplo, 1 para o sexo feminino e 2 para o masculino. No 
entanto, esses valores têm função puramente de classifica-
ção e, portanto, não podem ser operados aritmeticamente, 
muito menos serem usados para ordenar as categorias ou 
lhes atribuir algum tipo de valor comparativo.
Dizemos que uma variável é quantitativa (ou numérica) 
se as observações assumem valores numéricos resultantes 
de um processo de contagem ou mensuração. As variá-
veis quantitativas ainda possuem uma classificação dico-
tômica: (a) discretas, se possuem uma quantidade finita 
ou enumerável de valores possíveis, (b) contínuas, se pos-
suem uma quantidade infinita de valores possíveis, per-
tencentes a um intervalo de números reais. 
......................................................................................................................................................................................................................
Estatística descritiva14
......................................................................................................................................................................................................................
A tabela 2 apresenta a classificação de algumas das variá-
veis presentes no exemplo 1:
Tabela 2 – Tipos de dados (classificação).
Variável Observações possíveis Classificação
Sexo
Feminino (F) e
masculino (M)
Qualitativa nominal
Período da 
faculdade
Calouro e
veterano
Qualitativa ordinal
Idade …,17,18,19,… Quantitativa discreta
Altura …,1,60,…,1,65,…,1,90,… Quantitativa contínua
15Resumos gráficos
............................................................................................................................................................................................................................................................................................................................................................................................................................................
RESUMOS GRÁFICOS
Os dados podem ser sumarizados e descritos por meio da 
construção de gráficos e tabelas. É sempre uma boa ideia 
analisar inicialmente os dados por meio de gráficos, pois 
isso ajuda na obtenção do feeling acerca dos fenômenos 
observados, proporcionando maiores informações a res-
peito do comportamento de cada variável.
Como temos dois tipos bem distintos de variáveis, é de se 
esperar que tenham tipos de gráficos que se adequem a 
um conjunto de dados melhor do que outros.
Para as variáveis qualitativas, usamos o gráfico de pizza 
e o gráfico de barras. Em um gráfico de pizza, cada fatia 
corresponde à porcentagem de observações de cada atri-
buto observado da variável analisada. Por exemplo, pela 
figura 1, podemos verificar que a variável “Período da fa-
culdade” possui apenas dois atributos possíveis, calouros 
e veteranos, de tal forma que, do total das entrevistas 
realizadas, 43% das observações foram respondidas por 
calouros, e 57%, por veteranos. 
16
......................................................................................................................................................................................................................
Estatística descritiva
Figura 1 – Gráfico de pizza.
Período da faculdade
Como é possível verificar pela figura 2, a diferença para 
um gráfico de barras é que, em vez de fatias, temos barras 
verticais, e a altura de cada barra corresponde à contagem 
de ocorrências de cada atributo associado à variável.
Figura 2 – Gráfico de barras.
Período da faculdade
Para as variáveis quantitativas, em geral, usamos histo-
gramas, bem semelhantes aos gráficos de barras verticais. 
Nesse tipo de gráfico, a ideia é definir faixas de valores e 
calcular a frequência de observações pertencentes a cada 
um desses intervalos. Essas frequências podem ser abso-
lutas (contagem de ocorrência) ou relativas (porcentagens 
17Resumos gráficos
......................................................................................................................................................................................................................do total), como mostra a figura 3. Ou seja, o histograma é 
criado em cima desse resumo (tabela) de frequências. 
Figura 3 – Histogramas.
Histograma de idades (frequência absoluta) 
Histograma de idades (frequência relativa)
Forma das distribuições
As distribuições também podem ser classificadas pelo 
formato de gráfico que exibem. Se uma linha vertical tra-
çada sobre a mediana produz duas imagens espelhadas, 
dizemos que a distribuição é simétrica. Se a distribuição 
apresenta todas as observações com a mesma frequência 
(o que, em um gráfico de barras, corresponde a todas as 
barras com mesma altura), classificamos a distribuição 
como sendo uniforme, o que também permite classificá-la 
como simétrica. A figura 4 apresenta exemplos de ambos 
os gráficos.
18
......................................................................................................................................................................................................................
Estatística descritiva
Figura 4 – Distribuições simétricas.
Distribuição simétrica
Distribuição uniforme
Caso contrário, como mostra a figura 5, temos uma dis-
tribuição assimétrica, que ainda pode ser classificada em 
dois tipos, de acordo com o lado que registra a maior fre-
quência: assimétrica à esquerda (ou negativamente assi-
métrica) e assimétrica à direita (ou positivamente assimé-
trica). 
Figura 5 – Distribuições assimétricas.
Distribuição assimétrica à direita
19Resumos gráficos
......................................................................................................................................................................................................................
Distribuição assimétrica à esquerda
20
......................................................................................................................................................................................................................
Estatística descritiva
MEDIDAS DE TENDÊNCIA CENTRAL
Além dos resumos gráficos, também devemos considerar 
os resumos numéricos da amostra. Uma medida de ten-
dência central é um valor único cuja função é representar 
o conjunto de dados como um todo, por meio da identifi-
cação de um valor típico (ou central). Ou seja, representa 
um valor em torno do qual os dados se agrupam. 
As três medidas mais utilizadas são a moda, a média e a 
mediana. Uma forma de entendermos o quanto cada uma 
dessas medidas é representativa (ou não) dentro do con-
junto de dados que estamos analisando é por meio do au-
xílio dos gráficos tratados no tópico anterior. 
Moda
A moda é o valor que ocorre com mais frequência em um 
conjunto de dados, se ele existir. Se não temos números 
repetidos, se não temos um que seja mais comum, então 
não temos moda. 
Trata-se de uma medida que é mais usada, em geral, para 
identificar a categoria de uma variável qualitativa que te-
nha a frequência mais alta. Portanto, um gráfico de pizza é 
de grande auxílio nesse tipo de identificação. Pelo gráfico 
da figura 1, verifica-se que a categoria veterano é a mais 
frequente para a variável período da faculdade. Também 
podemos identificar a moda de uma variável quantitativa, 
como a idade. A tabela 3 apresenta a frequência em que 
21Medidas de tendência central
......................................................................................................................................................................................................................
os valores ocorrem para o conjunto de dados coletados. 
Conclui-se que a maioria das pessoas entrevistadas tem 
19 anos. 
Tabela 3 – Frequência de idades.
Idade Frequência
17 1
18 5
19 8
20 7
21 2
22 3
23 2
24 2
Em alguns casos, podemos ter duas ou mais modas. Con-
siderando o exemplo, um dos interesses do pesquisador 
foi medir o nível de simpatia dele na faculdade. Então, 
para isso, cada pessoa entrevistada teve que lhe atribuir 
um valor de uma escala de 0 (extremamente antipático) 
a 10 (extremamente simpático) de quão simpático ela o 
considera. A figura 6 mostra o histograma resultante des-
se estudo. Podemos verificar que os alunos da faculdade 
são bastante divididos quanto ao nível de simpatia que 
atribuem ao pesquisador, pois algumas pessoas o consi-
deram muito simpático, enquanto outras o consideram 
muito antipático.
22
......................................................................................................................................................................................................................
Estatística descritiva
Figura 6 – Distribuição bimodal.
Nível de simpatia
Fonte: Elaborado pelo autor com dados hipotéticos.
Nesse caso, podemos concluir que essa distribuição apre-
senta duas modas, 2 e 8, e que ambas possuem frequência 
igual a 5. Trata-se, então, de uma distribuição bimodal.
Média
A medida mais conhecida e mais utilizada de tendência 
central de uma variável quantitativa é a média. Existem 
muitos tipos de média, mas estamos considerando aqui a 
média aritmética, ou seja, aquela que corresponde à soma 
de todas as observações da variável em questão dividido 
pelo número delas. Podemos interpretá-la como o ponto 
de equilíbrio da distribuição. 
Sejam x
1
, x
2
, …, x
n
 os n valores de uma variável X, distintos 
ou não, a média amostral, denotada por x̅ (lê-se x barra), 
é dada por:
x̅ =
x
1
 + x
2
 + ... + x
n =
∑ x
i
n n
i
n
23Medidas de tendência central
......................................................................................................................................................................................................................
Retornando ao exemplo, sabemos que um dos interesses 
do pesquisador foi perguntar aos alunos de sua faculdade 
sobre a quantidade de filmes que eles assistem por mês. 
Os resultados para os calouros e veteranos podem ser vi-
sualizados pelos gráficos da figura 7.
Figura 7 – Filmes assistidos por mês.
Filmes assistidos por mês (calouros).
Filmes assistidos por mês (veteranos)
A média de filmes assistidos é calculada para os calouros 
da seguinte forma:
3 + (2×4) + (2×5) + (4×6) + 8 + 9 + 10 + 2 × 20
=
92
= 7,07
14 14
24
......................................................................................................................................................................................................................
Estatística descritiva
E para os veteranos:
(3×4) + 5 + (3×6) + (5×7) + (2×8) + 9 + 10 + 11
=
116
= 6,82
17 17
Portanto, a média de filmes assistidos por mês é maior 
para os calouros. Analisando o gráfico dos calouros, ve-
rifica-se que o fato de a média ser 7,07 tem uma grande 
influência da pessoa que respondeu que assiste 20 filmes 
por mês. Se tivéssemos desconsiderado essa observação, a 
média teria sido 6, ou seja, a observação com valor 20 des-
locou a média para a direita. Por outro lado, analisando o 
gráfico dos veteranos, a média 6,82 representa bem uma 
medida central da distribuição, pois não sofreu distorções 
de nenhum elemento muito distante do restante da distri-
buição. Portanto, a média é uma boa medida para o centro 
da distribuição dos veteranos. 
A média é muito sensível aos valores que ficam bem dis-
tantes do resto da distribuição. Ou seja, a média pode ser 
altamente influenciada pelo que chamamos de outliers, 
observações que possuem valores muito acima ou muito 
abaixo da grande parte dos dados. A suspeita de outliers 
requer uma investigação mais aprofundada sobre os da-
dos coletados,pois podem ter sido originados por um erro 
na entrada de dados ou podem corresponder realmente a 
ocorrências incomuns da variável analisada. 
Mediana
A mediana corresponde ao valor do meio em um conjunto 
de dados que tenha sido ordenado do menor para o maior 
25Medidas de tendência central
......................................................................................................................................................................................................................
(ou do maior para o menor). É uma boa solução quando 
temos uma observação com valor atípico, que pode dis-
torcer a média.
Se a quantidade de observações é ímpar, então a mediana 
corresponde exatamente à observação do meio do conjun-
to ordenado. No caso de ser par, a mediana corresponde 
à média entre os dois valores que estão no meio na or-
dem de classificação. Consideremos as n observações da 
variável X colocadas em ordem crescente, de modo que a 
menor observação seja denotada por x
(1)
 e a maior por x
(n) 
: 
x
(1) 
≤ x
(2) 
… ≤ x
(n–1) 
≤ x
(n)
. 
As observações ordenadas dessa forma recebem o nome 
de estatísticas de ordem. E, com isso, podemos calcular a 
mediana de X.
Med (X) =
X , se n ímpar
X , se n par
Por exemplo, vamos considerar a variável X que corres-
ponde à quantidade de filmes que os alunos assistem por 
mês. Ordenando as n = 30 observações podemos calcular 
a mediana.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
3 4 4 4 4 4 5 5 5 6 6 6 6 6 6 6
17 18 19 20 21 22 23 24 25 26 27 28 29 30
7 7 7 7 7 8 8 8 9 9 10 10 11 20
{ ( )n + 12n
2
( )
26
......................................................................................................................................................................................................................
Estatística descritiva
Med (X) =
x
15 
+ x
16 =
6 + 6
= 6
2 2
Vamos supor que só tivéssemos as 29 primeiras observa-
ções, então Med(X) = x
15
 = 6.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
3 4 4 4 4 4 5 5 5 6 6 6 6 6 6 6
17 18 19 20 21 22 23 24 25 26 27 28 29
7 7 7 7 7 8 8 8 9 9 10 10 11
Comparando média e mediana
A forma como os dados estão distribuídos influencia se a 
média é maior, igual ou menor do que a mediana. 
Como mostra a figura 8, para distribuições perfeitamente 
simétricas, média e mediana coincidem. Para uma distri-
buição assimétrica, a média é puxada na direção da cauda 
mais longa em relação à mediana. Logo, distribuições as-
simétricas à direita possuem média maior do que a me-
diana. Para distribuições assimétricas à esquerda, ocorre 
o inverso. 
Figura 8 – Média e mediana em diferentes distribuições.
Fonte: Adaptado de Agresti e Franklin (2013).
27Medidas de tendência central
......................................................................................................................................................................................................................
Pelo fato de a mediana não ser afetada por observações 
com valores extremos, dizemos que ela é uma medida 
mais robusta (resistente a esse efeito) do que a média. 
Portanto, se temos uma distribuição assimétrica, em geral 
escolhemos como medida de tendência central a mediana, 
pois representa melhor o que é típico. Quando temos uma 
distribuição simétrica ou bem perto disso, em geral a mé-
dia é escolhida, pois usa os valores numéricos de todas as 
observações.
28
......................................................................................................................................................................................................................
Estatística descritiva
MEDIDAS DE VARIAÇÃO
Apenas as medidas de tendência central não são suficien-
tes para descrever as variáveis quantitativas. Precisamos 
também de resumos numéricos que nos ajudem a compre-
ender o quanto os dados analisados variam entre si. 
Figura 9 – Variabilidade dos dados.
Na figura 9, temos dois conjuntos de dados diferentes, 
mas ambos com a mesma média (x̅ = y̅). Embora eles te-
nham a mesma média, a distribuição dos valores em cada 
um desses conjuntos é diferente. Os dados em cinza-claro 
estão bem mais dispersos, mais distantes da média, do 
que os dados em cinza-escuro. Como podemos medir essa 
dispersão em torno da média? As medidas mais frequen-
temente usadas são a amplitude, a variância e o desvio 
médio padrão e servem para medir a representatividade 
da média. 
Para exemplificar o cálculo das medidas de variação nas 
subseções a seguir, vamos utilizar as observações da vari-
ável coeficiente de rendimento – CR analisada pelo pesqui-
29Medidas de variação
......................................................................................................................................................................................................................
sador do exemplo. Dividiremos essas observações em dois 
conjuntos: X
A
: calouros e X
B
: veteranos, conforme mostra a 
tabela 4. Para ambos os conjuntos temos que a moda (7,5), 
a mediana (7,5) e a média (7,2) são iguais. 
Tabela 4 – CR dos calouros e veteranos.
CR dos 
calouros Frequência
CR dos 
veteranos Frequência
3 1 6 2
4,7 1 6,6 1
5,9 1 6,7 1
6,5 1 6,8 2
6,8 2 6,9 1
7,5 3 7,4 1
8,8 1 7,5 4
8,9 1 7,7 2
9,8 1 7,9 2
9,9 1 8 1
Como mostram os gráficos da figura 10, temos dois con-
juntos com mesmas moda, mediana e média, mas com va-
riabilidades dos dados distintas. 
Figura 10 – Distribuição do CR.
CR dos calouros
30
......................................................................................................................................................................................................................
Estatística descritiva
CR dos veteranos
Amplitude
A amplitude (total) da distribuição nos dá a ideia da faixa 
máxima de variação dos dados, sendo calculada pela dife-
rença entre o maior e o menor valores observados. 
R = x
máx
 – x
mín
Apesar de ser facilmente calculada, a amplitude não é uma 
medida muito utilizada em cálculos estatísticos, pois ig-
nora os valores numéricos de quase todas as observações, 
trabalhando apenas com os dois valores extremos. Desse 
modo, podemos ter dois conjuntos com os mesmos va-
lores extremos, o que resulta em uma mesma amplitude, 
mas com os dados distribuídos de modo bem distinto, não 
nos permitindo afirmar nada sobre a variabilidade. 
Para os dados do exemplo, temos que R
A
= 9,8 – 3 = 5,8 e 
R
B
= 8,2 – 4,9 = 3,3. Ou seja, há indícios de que o CR dos 
calouros esteja mais disperso do que o dos veteranos, pois 
a faixa de variação do CR é mais ampla para os calouros 
do que para os veteranos. 
31Medidas de variação
......................................................................................................................................................................................................................
Variância e desvio-padrão
Acabamos de ver que o porquê de a amplitude não ser 
uma medida muito eficiente para realizar afirmações acer-
ca da variabilidade dos dados. Talvez nos fosse mais útil 
uma medida que levasse em consideração todas as n ob-
servações da variável analisada, em vez de apenas duas 
delas. Como estamos interessados em medir a dispersão 
dos dados em torno da média, uma boa solução seria co-
meçarmos calculando a dispersão de cada observação em 
relação à média x̅, calculando a diferença entre cada valor 
observado, x
i
, e a média, x̅: (x
i 
– x̅). 
Tabela 5 – Calculando a variância do CR dos calouros.
CR dos 
calouros(xi – x̅) (xi – x̅)2
3 -4,2 17,64
4,7 -2,5 6,25
5,9 -1,3 1,69
6,5 -0,7 0,49
6,8 -0,4 0,16
6,8 -0,4 0,16
7,5 0,3 0,09
7,5 0,3 0,09
7,5 0,3 0,09
8,8 1,6 2,56
8,9 1,7 2,89
9,8 2,6 6,76
9,9 2,7 7,29
TOTAL 0 46,16
Podemos verificar pela tabela 5 que existem desvios po-
sitivos e negativos. De fato, observações acima da média 
possuem (x
i
 – x̅) > 0, e observações abaixo da média pos-
32
......................................................................................................................................................................................................................
Estatística descritiva
suem (x
i 
– x̅) < 0. Como a média corresponde ao ponto de 
equilíbrio da distribuição, ao somarmos esses desvios, os 
valores negativos se cancelam com os valores positivos, 
totalizando zero. Solução? Eliminar o sinal negativo dos 
desvios. Para isso, ou trabalhamos com os desvios abso-
lutos (|x
i 
– x̅|) ou com o quadrado dos desvios ((x
i
 – x̅)2). 
Por questões matemáticas que envolvem peculiaridades 
de cada função, a segunda opção é escolhida. A expressão 
∑
i=1 
(x
i
 – x̅)2 recebe o nome de soma dos quadrados. 
Com isso, definimos variância (σ2) como a soma dos qua-
drados das diferenças de cada observação em relação à 
média (soma dos desvios ao quadrado), dividida pelo ta-
manho da amostra. 
σ2 =
∑
i=1 
(x
i
 – x̅)2
n
Calculada dessa forma, essa medida é chamada de vari-
ância populacional. Veremos nos próximos capítulos que, 
para calcular a variância amostral, representada por S2, 
devemos repetir o mesmo procedimento apresentado, no 
entanto, usando o denominador n – 1 em vez de n.
Como podemos observar, a variância representa uma mé-
dia dos quadrados dos desvios dos valores observados em 
relação à média (pois, no final das contas, é uma divisão 
entre a soma de valores pela quantidade de valores nessa 
soma). No entanto, como esses desvios são elevados ao 
quadrado, resulta que as unidades de medida da média, 
x̅, e da variância, σ2, não são as mesmas, o que dificulta 
bastante o uso da variância com a finalidade de analisar a 
dispersão em torno da média.
n
n
33Medidas de variação
......................................................................................................................................................................................................................
Uma medida de dispersão usada com maior frequência é 
o desvio-padrão (σ), que corresponde à raiz quadrada da 
variância e pode ser interpretado como a distância média 
de uma observação a partir da média. 
Um desvio-padrão próximo de zero significa que os dados 
estão próximos da média. Conjuntos de dados com valo-
res muito afastados da média apresentam desvio-padrão 
elevado. 
Para os dados do exemplo, temos que:
σ2 = 46,16 ≈ 3,55 → σ
A 
= √3,55 ≈ 1,88
13
σ2 = 6,42 ≈ 0,37 → σ
B 
= √0,37 ≈ 0,61
17
Portanto, como era de se esperar, o CR dos calouros apre-
senta uma variância maior do que o CR dos veteranos. 
Como quanto maior for o desvio, mais dispersos em rela-
ção à média são os valores observados, os resultados aci-
ma comprovam o que havíamos observado anteriormente, 
ao analisarmos os gráficos e calcularmos a amplitude de 
cada conjunto de dados. 
A
B
34
......................................................................................................................................................................................................................
Estatística descritiva
MEDIDAS DE POSIÇÃO
Além das medidas já estudadas, devemos considerar algu-
mas outras, pois elas podem não ser suficientes para uma 
sumarização adequada do conjunto de dados analisado. 
São necessárias medidas que nos ajudem a compreender 
melhor a simetria (ou assimetria) da distribuição de dados.
Já vimos que a mediana é uma medida mais robusta que a 
média para valores extremos. Será que não podemos cal-
cular outras medidas semelhantes, mas que sejam capa-
zes de nos dar mais informações?
Quantis
Sabemos que a mediana é uma medida que divide o con-
junto amostral ordenado, do menor para o maior, em duas 
partes, de modo que metade das observações encontra-se 
abaixo, e a outra metade, acima dela. De modo geral, po-
demos definir uma medida capaz de dizer o quão longe 
uma observação está em relação a um determinado ponto. 
Chamamos essa medida de quantil. A figura 11 mostra 
um quantil de ordem p, denotado por q(v), que correspon-
de a uma proporção p (0 < p < 1), tal que p por cento (p%) 
das observações são menores ou iguais a esse valor. En-
tão, para p = 50, temos o 50º percentil, em que 50% das 
observações estão abaixo de q(0,50). E isso corresponde 
exatamente à mediana!
35Medidas de posição
......................................................................................................................................................................................................................
Figura 11 – Quantil de ordem p.
Os quantis mais usados são os quartis, que, como o pró-
prio nome já induz, correspondem a quartos do conjunto. 
Ao dividir o conjunto total em quatro partes iguais, temos:
 
Q1 = q(0,25): corresponde ao primeiro quartil.
Q2 = q(0,50): corresponde ao segundo quartil, tam-
bém chamado de mediana.
Q3 = q(0,75): corresponde ao terceiro quartil.
Isso significa dizer que 25% dos dados estão abaixo do 
primeiro quartil, 25% estão entre o primeiro e o segundo 
quartis, 25% estão entre o segundo e o terceiro quartis e 
25% estão acima do terceiro quartil.
Vamos considerar as observações do CR dos calouros. 
1. Ordenam-se em ordem crescente os dados para 
encontrar a mediana; com isso, temos Q2.
36
......................................................................................................................................................................................................................
Estatística descritiva
3 4,7 5,9 6,5 6,8 6,8 7,5 7,5 7,5 8,8 8,9 9,8 9,9
Q2
2. Encontra-se a mediana da metade inferior; com 
isso, temos Q1. Encontra-se a mediana da metade 
superior; com isso, temos Q3.
3 4,7 5,9 6,5 6,8 6,8 7,5 7,5 7,5 8,8 8,9 9,8 9,9
Q2
Amplitude interquartil
Uma outra forma de medir a variabilidade dos dados é por 
meio da amplitude interquartil. Trata-se de uma medida 
de dispersão melhor do que a amplitude total, pois des-
considera os valores dos extremos. A sua principal van-
tagem é que não é afetada pela presença de outliers na 
distribuição, pois não leva em consideração observações 
abaixo do primeiro quartil nem as que estão acima do ter-
ceiro quartil. 
A amplitude interquartil é calculada pela diferença entre o 
terceiro e o primeiro quartis.
ΔQ = Q
3
 – Q
1
Quanto mais os dados variarem em uma distribuição, 
maior o valor de ΔQ. Para o CR dos calouros, temos que 
ΔQ
A 
= 8,85 – 6,2 = 2,65, e dos veteranos, ΔQ
B 
= 7,7 – 6,75 = 
0,95, ou seja, o CR dos calouros apresenta maior variação. 
Q1 =
5,9 + 6,5
= 6,2
2
Q3 =
8,8 + 8,9
8,85
2
37Medidas de posição
......................................................................................................................................................................................................................
Detectando possíveis outliers
Outra importante função da amplitude interquartil está re-
lacionada ao fato de ela funcionar com uma ferramenta na 
identificação de potenciais outliers da distribuição. Uma 
observação é classificada como sendo potencial outlier se 
ela se encontra a mais do que 1,5 × ΔQ abaixo do primeiro 
quartil(cerca inferior) ou mais do que 1,5 × ΔQ acima do 
terceiro quartil (cerca superior). 
Cerca inferior = Q
1 
– 1,5 × ΔQ
Cerca superior = Q
3 
+ 1,5 × ΔQ
Para o CR dos calouros, temos que possíveis outliers se-
riam valores menores que 6,2 – 1,5 × 2,65 = 2,225 ou maio-
res que 8,85 + 1,5 × 2,65 = 12,825. E, para o CR dos vetera-
nos, seriam valores menores que 6,75 – 1,5 × 0,95 = 5,325 
ou maiores que 7,7 + 1,5 × 0,95 = 12,825. Em nenhum 
desses conjuntos aparecem observações fora dessa faixa, 
portanto, não há suspeita da existência de outliers. 
É importante ressaltar que, com esse critério, estamos 
apenas identificando valores como outliers em potencial, 
mas não dando a certeza dessa classificação. Em alguns 
casos, como nas distribuições que apresentam o que se 
chama de cauda longa, embora distantes da maior parte 
dos dados, alguns valores extremos podem ser encontra-
dos, sem que isso configure um caso raro ou praticamente 
impossível de ocorrer. Sendo assim, esses dados, mesmo 
fora da faixa determinada pelas cercas superior e inferior, 
não podem ser classificados como outliers. 
38
......................................................................................................................................................................................................................
Estatística descritiva
Box plot: o resumo gráfico dos cinco números
Os quartis, juntamente com os valores mínimo e máximo 
da distribuição, formam o que chamamos de resumo dos 
cinco números. Esses números, em conjunto, funcionam 
como a base de um gráfico denominado box plot, que for-
nece informações sobre posição, dispersão, assimetria, 
caudas e outliers. 
A posição central é dada pela mediana, e a dispersão, pelo 
tamanho da caixa, que corresponde à amplitude inter-
quartil. As posições relativas dos quartis dão uma noção 
sobre a assimetria da distribuição. As linhas verticais que 
partem da caixa até os valores mínimo e máximo corres-
pondem aos comprimentos das caudas esquerda e direita, 
respectivamente. Os pontos que ficam além dessa estrutu-
ra correspondem aos possíveis outliers. 
A figura 12 apresenta box plots correspondentes às obser-
vações do CR dos calouros (à esquerda) e dos veteranos 
(à direita). 
Figura 12 – Box plots.
CR dos calouros versus CR dos veteranos
 
39Medidas de posição
......................................................................................................................................................................................................................
Comparando os gráficos, notamos que, no box plot do CR 
dos calouros, os dados encontram-se mais dispersos em 
relação à média (pois a caixa tem um tamanho maior), com 
uma certa simetria entre a maior parte dos dados (pois a 
mediana está bem próxima ao centro da caixa), e há pre-
sença de valores extremos de grande magnitude (o que 
se vê pelo grande comprimento das linhas verticais). Já 
no box plot do CR dos veteranos, observamos dados bem 
concentrados ao redor da média (pois o tamanho da caixa 
é menor), com uma assimetria à direita (a maior parte dos 
dados se encontra abaixo da mediana), e que os valores 
extremos não estão muito distantes da média (já que as 
linhas não são muito longas).
......................................................................................................................................................................................................................
40
......................................................................................................................................................................................................................
Estatística descritiva
REFERÊNCIAS
AGRESTI, A.; FRANKLIN, C. A. Statistics: the art and science 
of learning from data. 3. ed. Boston: Pearson, 2013.
ANDERSON, D. R.; SWEENEY, D. J.; WILLIAMS, T. A. Esta-
tística aplicada à administração e economia. 3. ed. São 
Paulo: Cengage Learning, 2014. 
BUSSAB, W. O.; MORETTIN, P. A. Estatística básica. 8. ed. 
São Paulo: Saraiva, 2013. 
LEVINE, D. M. et al. Estatística: teoria e aplicações: usando o 
Microsoft Excel em português. 6. ed. Rio de Janeiro: LTC, 2013. 
MCCLAVE, J. T.; BENSON, P. G.; TERRY, S. Estatística para 
administração e economia. 10. ed. São Paulo: Pearson 
Prentice Hall, 2009. 
STEVENSON, W. J. Estatística aplicada à administração. 
São Paulo: Harper & Row do Brasil, 1981. 
Links interessantes
Portal Action – Estatística básica: 
<http://www.portalaction.com.br/estatistica-basica>.
Portal Action – Estatística descritiva: 
<http://www.portalaction.com.br/estatistica-basica/esta-
tisticas-descritivas>.
Portal Action – Análises gráficas: 
<http://www.portalaction.com.br/estatistica-basica/grafi-
cos>.
41Introdução à probabilidade
............................................................................................................................................................................................................................................................................................................................................................................................................................................
CAPÍTULO 2 
DISTRIBUIÇÕES DE 
PROBABILIDADE
Preciso sair com um guarda-chuva hoje? Quantas pessoas 
estarão na fila do almoço no horário de pico? Quantos pro-
dutos a empresa irá vender no próximo mês? Quanto tem-
po irá demorar até o fornecedor entregar a encomenda que 
fizemos hoje? Quantos produtos defeituosos irão escapar 
do controle de qualidade?
Todos os dias, estamos sempre tomando decisões sobre si-
tuações que, por mais que sejam observadas repetidamen-
te sob as mesmas condições, geram resultados distintos 
e não previsíveis com certeza absoluta. Conhecemos os 
possíveis resultados, mas, por causa da aleatoriedade, o 
resultado de uma determinada observação é incerto. Nes-
te capítulo, vamos, portanto, abordar esse assunto e seus 
desdobramentos.
42
......................................................................................................................................................................................................................
Distribuições de probabilidade
INTRODUÇÃO À PROBABILIDADE
A probabilidade é uma medida capaz de mensurar essa 
incerteza, de modo a indicar o quão provável é a ocor-
rência desse evento de interesse. O processo de coleta de 
dados associados a um fenômeno em que obtemos resul-
tados com essas características é chamado de experimen-
to aleatório. 
No entanto, apesar da incerteza associada ao resultado de 
uma observação futura de um experimento aleatório, exis-
te uma certa previsibilidade estatística, garantida pela lei 
dos grandes números. Ao lançarmos uma moeda, sabe-
mos intuitivamente que temos 50% de chance de cair cara, 
e 50% de cair coroa. Essa é uma noção intuitiva, que vem 
do conhecimento implícito de que há dois resultados pos-
síveis, ambos com mesma chance de ocorrer. Quando re-
petimos o lançamento quatro vezes seguidas, é de esperar 
que em dois deles tenhamos cara e, nos outros dois, coroa. 
Porém, é possível que ocorram quatro caras, ou quatro 
coroas... Contudo, como mostra a figura 13, com um nú-
mero de observações suficientemente grande, a frequên-
cia relativa de um resultado possível (cara, por exemplo) 
se estabiliza e converge para um número específico (50%, 
nesse caso), o qual é esperado. Essa proporção de vezes 
que o resultado cara ocorre, no longo prazo, é a base do 
conceito de probabilidade. 
43Introdução à probabilidade
......................................................................................................................................................................................................................Figura 13 – A lei dos grandes números.
Frequência acumulada de “cara” 
Portanto, quando lidamos com experimentos aleatórios, a 
frequência que um determinado resultado ocorre no curto 
prazo (ou seja, com poucas repetições do experimento) é alta-
mente aleatória, mas, à medida que repetimos o experimento 
uma quantidade grande de vezes, ela se torna bem mais pre-
visível. Essa proporção de vezes que um determinado resul-
tado ocorre no longo prazo corresponde a sua probabilidade.
Como calcular essas probabilidades? A fim de ilustrar o que 
se apresenta a seguir, consideremos o seguinte exemplo.
Exemplo 2: a disciplina de Estatística é cursada por alu-
nos de três cursos diferentes: Administração, Economia 
e Matemática. Como o nível exigido de matemática varia 
entre os cursos, a solução encontrada pelo professor foi 
aplicar três modelos de prova (A, B e C, respectivamente) 
que reflitam esse nível de exigência. Em uma turma de 60 
alunos, 15 deles (25%) fizeram a prova A, que reprova o 
aluno com uma probabilidade 0,4; 36 (60%) fizeram a pro-
va B, que reprova o aluno com uma probabilidade 0,25; e 
9 (15%) fizeram a prova C, que reprova o aluno com uma 
probabilidade 0,33. 
44
......................................................................................................................................................................................................................
Distribuições de probabilidade
Conceitos fundamentais
Inicialmente devemos listar todos os casos possíveis. O 
conjunto composto por todos os resultados possíveis ori-
ginados a partir de um experimento aleatório é denomina-
do espaço amostral, representado normalmente por S ou 
Ω. A figura 14 exibe a árvore de probabilidades corres-
pondente ao exemplo 2, com S = {AR, AR̅, BR, BR̅, CR, CR̅}, em 
que R corresponde à categoria de reprovado, e R̅, à de não 
reprovado (aprovado). Ou seja, o evento AR corresponde à 
proporção de alunos que fizeram a prova A e foram repro-
vados, enquanto o evento AR̅, à proporção de alunos que 
fizeram a prova A e não foram reprovados.
Figura 14 – Árvore de probabilidades.
Pergunta-se, então: escolhendo aleatoriamente um aluno 
dessa turma, qual a probabilidade de que ele tenha feito 
a prova A? 
Um evento E é o subconjunto desse espaço amostral for-
mado por todos os resultados possíveis que respondam a 
nossa pergunta de interesse. 
45Introdução à probabilidade
......................................................................................................................................................................................................................
A = alunos que fizeram a prova A = {AR, AR̅}
Cada resultado do espaço amostral e, consequentemente, 
cada evento têm uma probabilidade de ocorrência associa-
da. Se o modelo é equiprobabilístico1, a probabilidade de 
um evento E, indicada por P(E), é dada por:
P(E) =
Número de resultados do evento E
Número total de resultados do espaço amostral
Dessa forma,
P(A) =
Número de alunos que fizeram a prova A
Total do número de alunos
P(A) =
15
 = 0,25
60
No nosso exemplo, AR e AR̅ são eventos mutuamente ex-
cludentes, ou seja, não podem ocorrer simultaneamente, 
pois um aluno que tenha feito a prova A não pode ter sido 
reprovado e não reprovado simultaneamente. Em outras 
palavras, a interseção entre AR e AR̅ é o conjunto vazio (AR 
∩ AR̅ = Ø). Sendo assim, podemos calcular P(A) somando 
diretamente as probabilidades dos resultados individuais 
que compõem o evento A: P(A) = P(AR) + P(AR̅ ) = 0,1 + 0,15 
= 0,25. Quando, ao contrário, dois eventos não são mu-
tuamente excludentes, devemos subtrair a probabilidade 
associada à interseção entre eles da regra da soma.
1 Ou seja, todos os elementos do modelo têm a mesma probabilidade de 
serem “sorteados”. Nesse nosso exemplo, todos.
46
......................................................................................................................................................................................................................
Distribuições de probabilidade
Podemos dizer que a probabilidade é uma função que 
associa um número real P(E) a cada evento E do espaço 
amostral S, satisfazendo às seguintes regras:
1. Para todo evento E ∈ S, 0 ≤ P(E) ≤ 1. Em outras 
palavras, a probabilidade é um número entre 0 e 
um, inclusive.
2. P(Ø) = 0 (evento impossível). Em outras palavras, 
a probabilidade associada a um evento impossível 
(com nenhum resultado possível) é zero.
3. P(S) = 1 (evento certo). Ou seja, um evento que te-
nha todas as ocorrências do espaço amostral como 
resultados possíveis tem probabilidade um.
4. ∑EϵS P(E) = 1. Ou seja, a soma das probabilidades 
de todos os eventos do espaço amostral é um.
Probabilidade conjunta, marginal e 
condicional
Outra forma de ilustrar o exemplo 2 é por meio de uma 
tabela de dupla entrada (ou tabela de contingência), como 
a apresentada pela tabela 6. 
Tabela 6 – Tabela de dupla entrada. 
Graduação 
Reprovação
TOTAL
Não Sim
Administração 
(Prova A)
0,15 0,1 0,25
Economia 
(Prova B)
0,45 0,15 0,6
Matemática 
(Prova C)
0,1 0,05 0,15
TOTAL 0,7 0,3 1
47Introdução à probabilidade
......................................................................................................................................................................................................................
Podemos, então, fazer uma outra pergunta: escolhendo 
aleatoriamente um aluno dessa turma, qual a probabilida-
de que ele tenha feito a prova B e não tenha sido reprova-
do em Estatística? 
Nessa tabela, cada uma das seis probabilidades centrais 
é chamada de probabilidade conjunta, calculada pela in-
terseção dos resultados das variáveis. A soma de todas 
as probabilidades conjuntas é igual a 1. Para responder a 
essa pergunta, cruzamos a linha da Prova B com a coluna 
Não, ou seja, P(B e R̅) = 0,45.
Outras possíveis perguntas são: escolhendo aleatoriamen-
te um aluno dessa turma, qual a probabilidade de que ele 
não tenha sido reprovado em Estatística? Qual a probabi-
lidade de que ele tenha feito a prova B?
Na tabela 6, os valores presentes na linha Total e coluna 
Total são chamados de probabilidades marginais e levam 
em consideração somente a probabilidade de uma variá-
vel. As probabilidades marginais são obtidas por meio da 
soma das probabilidades conjuntas em ambas as direções 
da tabela. Portanto, a probabilidade de que um aluno es-
colhido ao acaso não tenha sido reprovado, independen-
temente do modelo de prova que tenha feito, é calculada 
pela seguinte expressão:
P(R̅) = P(AR̅) + P(BR̅) + P(CR̅) = 0,15 + 0,45 + 0,1 = 0,7
48
......................................................................................................................................................................................................................
Distribuições de probabilidade
E a probabilidade de esse mesmo aluno ter feito a prova B, 
independentemente de ter sido aprovado, é:
P(B) = P(BR) + P(BR̅) = 0,45 + 0,15 = 0,6
Temos agora uma nova pergunta: escolhendo aleatoria-
mente um aluno dessa turma, sabendo que ele fez a prova 
B, qual a probabilidade de que ele não tenha sido reprova-
do em Estatística? 
Agora que já sabemos calcular as probabilidades conjun-
tas e marginais, já podemos calcular a probabilidade con-
dicional. A probabilidade de um evento A ocorrer, dado 
que o evento B já ocorreu, é representada por P(A│B) e cal-
culada dividindo-se a probabilidade conjunta dos eventos 
A e B pela probabilidade de ocorrência do evento B.
P(A│B) =
P(A e B)
 P(B)
Ou seja, sabemoso resultado de uma das variáveis (ter 
feito a prova B) e queremos, com isso, calcular a probabili-
dade de a outra variável ocorrer (não reprovação).
P(não reprovou│fez a prova B) =
P(B e R̅)
=
0,45
= 0,75
 P(B) 0,6
Note que, ao calcularmos a probabilidade condicional, re-
duzimos o espaço amostral ao espaço do evento condicio-
nante, que, nesse caso, é fazer a prova B. 
49Introdução à probabilidade
......................................................................................................................................................................................................................
Probabilidade total e teorema de Bayes
Vamos pensar, agora, em outra pergunta: escolhendo ale-
atoriamente um aluno dessa turma, qual a probabilidade 
de que ele tenha feito a prova B sabendo-se que ele não 
reprovou em Estatística? 
Se, na árvore de probabilidades da figura 14, trocarmos 
a ordem entre os três nós que correspondem ao tipo de 
prova e os dois nós que correspondem a ter havido ou não 
reprovação, a probabilidade conjunta não seria alterada. 
De fato, reescrevendo a fórmula da probabilidade condi-
cional, obtemos:
P(A e B) = P(A│B) ⋅ P(B)=P(B│A) ⋅ P(A)
Ou seja,
P(A│B) = P(B│A) ⋅ P(A)
P(B) 
Essa fórmula, que expressa uma probabilidade condicio-
nal em termos de outras probabilidades condicionais, é 
conhecida como o teorema de Bayes. 
Podemos calcular P(B) a partir de probabilidades condicio-
nais de B para os diferentes valores de A. Essa é a chama-
da lei da probabilidade total. 
P(B) = P(B│A1) P(A1) + P(B│A2) P(A2) 
+ ⋯ = ∑ P (B│An) P(An) 
......................................................................................................................................................................................................................
50
......................................................................................................................................................................................................................
Distribuições de probabilidade
Dessa forma,
P(A│B) = P(B│A) P(A)
∑ P (B│An) P(An)
Agora já podemos calcular a probabilidade P(fez a prova 
B|não reprovou).
P(B│R̅) = P(R̅│B)P(B)
(P(R̅│A)P(A) + P(R̅│B)P(B) + P(R̅│C)P(C)
P(B│R̅) = 0,75 × 0,6 
0,6 × 0,25 + 0,75 × 0,6 + 0,67 × 0,15
P(B│R̅) = 0,45 ≈ 0,65
0,15 + 0,45 + 0,1
Independência dos eventos
Dizemos que dois eventos, A e B, são independentes se o 
fato de um evento ter ocorrido não altera a probabilidade 
de ocorrência do outro evento. Ou seja, P(B│A) = P(B). 
Portanto, 
P(A e B) = P(A)P(B) ⇔ A e B são independentes
No exemplo 2, para que os eventos sejam considerados 
independentes, a relação de independência deve ser válida 
para todas as interseções presentes na tabela 6.
51Variáveis aleatórias e distribuições de probabilidade
............................................................................................................................................................................................................................................................................................................................................................................................................................................
VARIÁVEIS ALEATÓRIAS E DISTRIBUIÇÕES 
DE PROBABILIDADE
Nem sempre estamos interessados apenas nos resultados 
dos experimentos aleatórios, e sim em funções numéri-
cas associadas a esses resultados. Nesse contexto, surge o 
conceito de variável aleatória (v. a.), uma função que as-
socia cada elemento do espaço amostral a um número real 
(X: Ω→R). Ou seja, trata-se de um valor numérico originado 
de algum experimento aleatório. 
Uma variável aleatória X pode assumir um conjunto de 
valores possíveis, x
1
, x2, …, xn, cada um com uma probabi-
lidade pi associada, sendo ∑pi=1, para i entre 1 e n. Dessa 
forma, temos a distribuição de probabilidade dessa variá-
vel como nosso principal objetivo de estudo neste ponto. 
Sendo assim, as distribuições de probabilidade são capa-
zes de descrever os possíveis resultados de uma variável 
aleatória e suas probabilidades. 
Existem dois tipos de variáveis aleatórias: discretas e con-
tínuas. Ambas serão discutidas a seguir.
Variáveis aleatórias discretas
Uma variável aleatória discreta é aquela que possui um con-
junto de valores possíveis finito ou infinito, porém enume-
rável. Vamos supor uma pesquisa fictícia sobre a quantida-
de total de disciplinas feitas pelos alunos de Administração 
durante um período. Sabe-se que há um limite de cinco ma-
térias por período. Trata-se de um exemplo de uma v. a. 
52
......................................................................................................................................................................................................................
Distribuições de probabilidade
discreta, pois sabemos todos os possíveis valores {0, 1, 2, 3, 
4 e 5} da variável X = “quantidade de disciplinas cursadas 
em um período por um aluno de Administração”. A tabela 7 
apresenta um resumo dos resultados dessa pesquisa.
Tabela 7 – Distribuição de frequências.
X Frequência
1 15
2 20
3 45
4 50
5 60
Total 190
A primeira coluna é a lista de possíveis valores da variável 
X, e a segunda coluna é a quantidade de vezes que cada 
valor ocorreu na pesquisa.
Função (massa) de probabilidade
A distribuição de probabilidade de uma v. a. discreta é 
chamada de função (massa) de probabilidade. Nesse 
caso, podemos especificar a probabilidade de a variável 
X ser igual a um determinado valor x, que representamos 
por p
X
 (x) ou P(X = x). A tabela 8 mostra a distribuição de 
probabilidade para essa variável. 
Tabela 8 – Distribuição de probabilidades.
X Frequência P(X = x)
1 15 0,08
2 20 0,11
3 45 0,24
53Variáveis aleatórias e distribuições de probabilidade
......................................................................................................................................................................................................................
4 50 0,26
5 60 0,32
Total 190 1,00
Nessa tabela, a terceira coluna é o resultado da divisão 
da frequência de cada valor pelo total de casos contados 
(190). Sendo assim, representa a probabilidade de que, 
sorteando-se um aluno qualquer que tenha respondido a 
essa pesquisa, sua resposta tenha sido cada um dos valo-
res da variável X.
Variáveis aleatórias contínuas
Uma variável aleatória contínua é aquela que possui um 
conjunto de valores possíveis infinito não numerável. Va-
mos supor uma pesquisa fictícia sobre o total de tempo 
que cada aluno passa estudando Estatística. Trata-se de 
um exemplo de uma v. a. contínua, pois não somos ca-
pazes de definir uma faixa precisa de todos os possíveis 
resultados para a variável X = “tempo gasto por um aluno 
estudando Estatística”. 
Função densidade de probabilidade
A distribuição de probabilidade de uma v.a. contínua é 
chamada de função densidade de probabilidade (f. d. p.). 
Nesse caso, só podemos especificar a probabilidade de a 
variável X estar entre os valores a e b, que representamos 
por P(a < X < b). Não há como calcular a probabilidade de 
ocorrer um resultado exato para a variável X.
......................................................................................................................................................................................................................
54
......................................................................................................................................................................................................................Distribuições de probabilidade
Figura 15 – Função densidade de probabilidade.
Como podemos verificar na figura 15, isso significa que, 
graficamente, estamos considerando a área abaixo da cur-
va determinada pelo intervalo de interesse. Ou seja:
P(a < X < b) = ∫a f(x)dx = F(b) – F(a)
Com f(x)≥0 e ∫
– ∞ 
f(x)dx = 1, e onde F(a) e F(b) são distribui-
ções acumuladas, como explicado a seguir.
Função de distribuição acumulada
A função de distribuição acumulada (f. d. a.) calcula a pro-
babilidade de a v. a. X ser menor ou igual a um determina-
do valor x. Para uma v. a. discreta, temos F(x) = P(X ≤ x) e, 
para uma v. a. contínua, temos F(x)= ∫
– ∞
 fx(x)dx.
Sendo assim, conseguimos calcular a probabilidade de 
uma variável X estar dentro de um intervalo. 
P(a < X ≤ b) = F(b) – F(a)
b
+ ∞
x
55
......................................................................................................................................................................................................................
Valor esperado e variância
......................................................................................................................................................................................................................
VALOR ESPERADO E VARIÂNCIA
Com a distribuição de probabilidade definida, podemos 
calcular algumas estatísticas de resumo, tais como a mé-
dia e a variância, assim como fizemos no Capítulo 1 com 
os dados observacionais. 
Valor esperado
O valor esperado (ou esperança matemática ou média) de 
uma variável aleatória X, denotado por E(X), é uma medida 
que dá mais (menos) ênfase aos valores mais (menos) pro-
váveis da variável aleatória, ou seja, valores elevados de X 
ocasionam E(X) grande, assim como valores pequenos de 
X ocasionam E(X) baixo. 
A média μ
X
 de uma distribuição de probabilidade corres-
ponde ao valor esperado da variável aleatória X, ou seja, 
μ
X 
= E(X). 
Então, o que significa dizer que o número esperado de 
pessoas em uma fila é três? Significa que, observando o 
número de pessoas na fila durante vários dias, teremos, 
em média, três pessoas. 
Para uma v. a. discreta X, o valor esperado E(X) é uma mé-
dia ponderada de todos os possíveis valores de X com pe-
sos iguais às respectivas probabilidades desses valores. 
56
......................................................................................................................................................................................................................
Distribuições de probabilidade
E(X) = ∑ x ⋅ P(X = x)
Por exemplo, para os dados da tabela 8, temos que:
E(X) = (1 × 0,08) + (2 × 0,11) + (3 × 0,24) 
+ (4 × 0,26) + (5 × 0,32) ≈ 3,63
Note que esse valor de 3,63 nunca irá ocorrer!
Para uma v. a. contínua X, o raciocínio é o mesmo. No en-
tanto, substituímos o símbolo do somatório pela integral 
e modificamos a função de probabilidade. 
E(X) = ∫-∞ x ⋅ fX (x)dx
Propriedades do valor esperado
Ao calcular o valor esperado de uma variável aleatória, é 
pertinente ter o conhecimento de algumas propriedades 
associadas a essa medida. 
1. E(aX + b) = E(aX) + E(b) = aE(X) + b, em que a e b 
são constantes.
2. E(X + Y) = E(X) + E(Y), em que X e Y são variáveis 
aleatórias. 
3. E(XY) = E(X)E(Y), se e somente se X e Y forem in-
dependentes. 
Variância 
A variância corresponde ao valor esperado do quadrado 
de quanto uma variável aleatória X se afasta de seu valor 
esperado e é calculada pelas seguintes fórmulas:
x∈S
∞
57
......................................................................................................................................................................................................................
Valor esperado e variância
Var(X) = E[(X – E(X))2] = E(X2 ) – [E(X)]2
Quando X é uma v. a. contínua, Var(X) = ∫-∞ (x – E(X))2 f(x)dx. 
 
O valor dado por X – E(X) corresponde ao desvio de X em 
relação à sua média. 
Se uma variável aleatória Y é uma combinação linear da 
variável X, de tal forma que Y = aX + b (com a e b constan-
tes), temos a seguinte propriedade:
Var(Y) = Var(aX + b) = a2 Var(X) + Var(b) 
= a2 Var(X) + 0 = a2 Var(X)
Ou seja, a soma de um valor constante a uma variável ale-
atória não altera a sua variância, mas a multiplicação dela 
por um valor constante faz com que a variância fique mul-
tiplicada pelo quadrado desse valor.
Além disso, se X e Y são independentes, temos que:
Var(X + Y) = Var(X) + Var(Y)
∞
58
......................................................................................................................................................................................................................
Distribuições de probabilidade
PRINCIPAIS DISTRIBUIÇÕES DISCRETAS
Distribuição de Bernoulli
Exemplo 3: experimentos indicam que os alunos de Ad-
ministração que cursam Estatística têm 75% de chance de 
passar na matéria. Qual a probabilidade de um aluno des-
ta turma ser aprovado em Estatística? 
Vamos considerar uma variável aleatória X que possui 
apenas dois resultados possíveis, mutuamente excluden-
tes: fracasso e sucesso, representados por 0 e 1, respec-
tivamente. Com probabilidade p, ocorre sucesso, e, com 
probabilidade q = (1 – p), ocorre fracasso. 
Quando uma v. a. X tem essas características, dizemos que 
ela tem distribuição de Bernoulli com probabilidade p, e a 
representamos da seguinte forma:
X ~ Be(p)
A função de probabilidade de Bernoulli é dada por:
P(X = x) =
p, se x = 1
q, se x = 0
0, c.c.
Portanto: 
E(X) = 0 × q + 1 × p = p
Var(X) = [(02 × q) + (12 × p)] – p2 = p (1 – p) = pq
{
59Principais distribuições discretas
......................................................................................................................................................................................................................
Para o exemplo 3, X = “ser aprovado ou não em Estatís-
tica” tem distribuição de Bernoulli, representada por X ~ 
Be(0,75). Ou seja, há uma probabilidade de 0,75 de suces-
so (ser aprovado).
Distribuição binomial
Exemplo 4: experimentos indicam que os alunos de Ad-
ministração que cursam Estatística têm 75% de chance de 
passar na matéria. Se sortearmos três alunos dessa turma, 
qual a probabilidade de que nenhum deles seja aprovado 
em Estatística? E de que pelo menos dois sejam aprovados? 
Muitas vezes não estamos interessados em saber se um 
sucesso ocorre ou não, mas na quantidade de vezes em 
que ele ocorre. Nesse tipo de distribuição, o número de 
experimentos a serem realizados é conhecido (serão fei-
tos n ensaios, cada qual com distribuição de Bernoulli), e 
a v. a. X corresponde ao número de sucessos observados 
nas n tentativas do processo de Bernoulli realizadas. Cada 
experimento tem a mesma probabilidade p de sucesso e é 
independente de todos os outros. Trata-se da distribuição 
binomial, representada por:
X ~ Bin(n; p)
A função de probabilidade da distribuição binomial é dada 
por:
 
P(X = x) = ( n ) px qn – x = n! px qn – xx x! (n – x)!
 
60
......................................................................................................................................................................................................................
Distribuições de probabilidade
O termo px qn – x indica a probabilidade de exatamente x su-
cessos ocorrerem nas n observações em uma determinada 
sequência de resultados. E o termo indica a quanti-
dade de combinações existentes de x sucessos ocorrerem 
em sequências de n observações. Por isso, a probabilidade 
de x sucessos é dada peloproduto do número de todas 
as sequências possíveis pela probabilidade de sucesso de 
uma determinada sequência. 
Para a distribuição binomial, temos
E(X) = E(X
1
) + E(X
2
) + ... + E(X
n
) = np
Var(X) = Var(X
1
) + Var(X
2
) + ... + Var(X
n
) = npq
Isso ocorre porque as variáveis X
1
, X
2
, ..., X
n
 ~ Be(p) e todas 
elas são independentes entre si.
Para o exemplo 4, X = “número de alunos aprovados em 
Estatística” tem distribuição binomial, representada por X 
~ Bin(3; 0,75). Sendo assim,
P(X = 0) = 0,750 × 0,253 ≈ 0,016
Isso corresponde à probabilidade de que nenhum aluno 
seja aprovado em Estatística. Além disso:
P (X ≥ 2) = 1 – P(X = 0) – P(X = 1) = 1 – 
0,016 – 0,751 × 0,252 ≈ 0,844
( n )x
( 3 )0
( 3 )1
61Principais distribuições discretas
......................................................................................................................................................................................................................
E isso corresponde à probabilidade de que dois ou mais 
alunos sejam aprovados em Estatística2.
Distribuição de Poisson 
Exemplo 5: a fila da secretaria de uma faculdade tem, em 
média, quatro alunos de administração por hora. Qual a 
probabilidade de, em uma hora, não ter nenhum aluno de 
Administração na fila? E de ter pelo menos dois alunos?
A princípio, podemos pensar em utilizar a distribuição bi-
nomial para resolver o exemplo 5. Contudo, não sabemos 
o número (n) de testes e, consequentemente, desconhece-
mos também o número de fracassos ocorridos. Acontece 
que não estamos interessados no número de sucessos ob-
tidos em n tentativas, mas no número de sucessos ocorri-
dos dentro de um espaço contínuo de tempo, representa-
do pela variável X. Dizemos que X segue uma distribuição 
de Poisson, em que o parâmetro corresponde à frequência 
média de sucesso, denotada por λ, e não à probabilidade p 
de ocorrência de um sucesso. Representamos essa distri-
buição da seguinte forma:
X ~ Poi(λ)
A função de probabilidade da distribuição de Poisson é 
dada por:
P(X = x) = e-λ
2 Como os eventos (X ≥ 2) = “número de alunos aprovados em Estatística é 
maior ou igual a 2” e (X < 2) = “número de alunos aprovados em Estatística 
é menor que 2” são mutuamente excludentes, P(X ≥ 2) = 1 – P(X < 2). Além 
disso, P(X < 2) = P(X = 0) + P(X = 1). Logo, P(X ≥ 2) = 1 – P(X = 0) – P(X = 1).
λx
x!
......................................................................................................................................................................................................................
62
......................................................................................................................................................................................................................
Distribuições de probabilidade
Há uma relação interessante entre a distribuição binomial 
e a distribuição de Poisson. Quando X ~ Bin(n; ), se fi-
zermos n → ∞, de modo a ter um número de tentativas 
suficientemente grande (espaço de tempo contínuo), a dis-
tribuição binomial se aproxima da distribuição de Poisson.
lim Bin(n; ) ≈ Poi(λ)
Portanto, 
E(X) = Var(X) = λ
Para o exemplo 5, X = “número de alunos de Administra-
ção na fila da secretaria no horário de pico” tem distribui-
ção de Poisson, representada por X ~ Poi(4). Sendo assim:
P(X = 0) = e-4 ≈ 0,0183
Isso corresponde à probabilidade de não haver alunos na 
fila da secretaria no horário de pico. Além disso: 
P(X ≥ 2) = 1 – [P(X = 0) + P(X = 1)] = 1–
[0,0183 + e-4 ] = 0,9084
E isso corresponde à probabilidade de haver dois ou mais 
alunos.
λ
n
n → ∞
λ
n
40
0!
41
1!
63Principais distribuições contínuas
............................................................................................................................................................................................................................................................................................................................................................................................................................................
PRINCIPAIS DISTRIBUIÇÕES CONTÍNUAS
Distribuição uniforme
Exemplo 6: as aulas de Estatística começam às 7h30 toda 
segunda-feira. O tempo de chegada de um determinado 
aluno é uniformemente distribuído, de modo que ele che-
ga entre 7h15 e 7h45. Qual a probabilidade de esse aluno 
chegar cinco minutos depois de a aula ter começado?
 
Seja X uma v. a. contínua que assume todos os possíveis 
valores do intervalo [a,b], se a probabilidade de se obter 
qualquer resultado é proporcional ao tamanho do inter-
valo, e a probabilidade de ocorrência de resultados com 
intervalos de tamanhos iguais é a mesma, dizemos que X 
possui distribuição uniforme sobre o intervalo [a,b] e o 
representamos da seguinte forma:
X ~ U(a,b)
Figura 16 – Distribuição uniforme.
64
......................................................................................................................................................................................................................
Distribuições de probabilidade
Como apresentado na figura 16, a f. d. p. da distribuição 
uniforme é constante sobre o intervalo em que a variável 
X está definida. Como ∫-∞ f(x)dx = 1, a probabilidade de 
ocorrência de cada resultado corresponde ao inverso do 
tamanho do intervalo do espaço amostral.
f(x) =
 , se a ≤ x ≤ b
 0, c.c.
Sendo assim, a f. d. a. de X é:
F(x) = P(X ≤ x) =
 0, se x < a
 , se a ≤ x ≤ b
 1, se x > b
Portanto,
E(X) =
a + b
2
Var(X) =
(b – a)2
12
Para o exemplo 6, X ~ U(–15,15), e a probabilidade de o 
aluno chegar no máximo cinco minutos depois da aula ter 
começado é calculada da seguinte forma:
P(X ≤ 5) = F(10) =
5 – (–15)
=
2
15 – (–15) 3
∞
{ 1b – a
{x – ab – a
65Principais distribuições contínuas
......................................................................................................................................................................................................................
Distribuição exponencial 
Exemplo 7: na fila da secretaria de uma faculdade, che-
gam, em média, quatro alunos de Administração por 
hora. Qual a probabilidade de passar mais de 30 minutos 
(0,5 hora) até chegar um aluno de Administração na fila 
da secretaria?
A distribuição exponencial é geralmente associada ao 
tempo de espera e modela tempos entre dois eventos 
consecutivos que seguem uma distribuição de Poisson. 
Vamos supor que os eventos corram segundo uma distri-
buição de Poisson, com uma taxa média de λ eventos por 
unidade de tempo. Seja X o número de eventos ocorridos 
no intervalo [0,t], então X ~ Poi(λt). Se T é uma v. a. contí-
nua que corresponde ao tempo de ocorrência do primeiro 
evento, dizemos que T tem distribuição exponencial e o 
representamos da seguinte forma:
T ~ Exp(λ)
Existe, portanto, uma relação entre a distribuição de Pois-
son e a distribuição exponencial. A distribuição de Pois-
son analisa a quantidade de observações por intervalo 
(evento discreto), e a distribuição exponencial analisa o 
intervalo por observação. As distribuições exponencial e 
de Poisson correspondentes possuem o mesmo parâme-
tro λ.
 
A f. d. p. da distribuição exponencial é dada por:
f(t) =
λe-λt, se t≥0
 0, c.c.{ 
66
......................................................................................................................................................................................................................

Outros materiais