Livro 03_INTRODUC¸AO A ESTATISTICA(RICADO EHLERS)

•
UFMA

Francisco Dias
13/10/2020
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Estatística I

57.102 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
INTRODUÇÃO À ESTATÍSTICA
RICARDO S. EHLERS
Departamento de Estat́ıstica
Universidade Federal do Paraná
Primeira publicação 2002
Segunda edição publicada em 2005
Terceira edição publicada em 2006
c© RICARDO SANDES EHLERS 2002-2006
Prefácio
O objetivo principal deste texto é oferecer um material didático básico em por-
tuguês para um curso de Introdução à Estat́ıstica a ńıvel de graduação. São
apresentados os mais importantes conceitos e métodos de análise estat́ıstica de
dados. O texto se originou de notas de aulas de disciplinas de introdução à Es-
tat́ıstica ministradas para diferentes cursos na Universidade Federal do Paraná.
O manuscrito foi preparado usando o LATEX e todas as ilustrações e tabelas
estat́ısticas foram produzidas no pacote estat́ıstico R (R Development Core Team
2006), gratuito e de código aberto, que pode ser obtido em
http://www.r-project.org/
Este texto certamente não está livre de erros, e comentários e sugestões dos
leitores são bem vindos. Citar este texto como:
Ehlers, R.S. (2005) Introdução à Estat́ıstica. Departamento de Estat́ıstica,
UFPR. Dispońıvel em http://www.est.ufpr.br/˜ ehlers/notas/. Acesso em: 21
nov. 2005.
Ricardo S. Ehlers
Curitiba, novembro de 2005.
i
Sumário
1 Estat́ıstica Descritiva 1
1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Tipos de Variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Variáveis qualitativas . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.4 Variáveis quantitativas . . . . . . . . . . . . . . . . . . . . . . . . 4
1.5 Resumos numéricos . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5.1 Média, variância e desvio padrão . . . . . . . . . . . . . . 9
1.5.2 A mediana e a amplitude inter-quartis . . . . . . . . . . . 11
1.5.3 A moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.6 Dados múltiplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.6.1 Diagramas de dispersão . . . . . . . . . . . . . . . . . . . 15
1.6.2 Dados Pareados . . . . . . . . . . . . . . . . . . . . . . . . 17
1.7 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2 Probabilidades 24
2.1 Experimento aleatório . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2 Definição de probabilidade . . . . . . . . . . . . . . . . . . . . . . 25
2.3 Probabilidade Condicional e Independência . . . . . . . . . . . . . 26
2.4 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.5 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.6 Algumas distribuições de probabilidade . . . . . . . . . . . . . . . 33
2.6.1 A distribuição Uniforme Discreta . . . . . . . . . . . . . . 34
2.6.2 A distribuição Binomial . . . . . . . . . . . . . . . . . . . 34
2.6.3 A distribuição de Poisson . . . . . . . . . . . . . . . . . . 36
2.6.4 Distribuição Geométrica . . . . . . . . . . . . . . . . . . . 38
2.6.5 Variáveis Aleatórias Discretas . . . . . . . . . . . . . . . . 38
2.6.6 A Distribuição Uniforme Cont́ınua . . . . . . . . . . . . . 40
2.6.7 A Distribuição Normal . . . . . . . . . . . . . . . . . . . . 40
2.6.8 Distribuição Exponencial . . . . . . . . . . . . . . . . . . . 43
ii
SUMÁRIO iii
2.6.9 Variáveis Aleatórias Cont́ınuas . . . . . . . . . . . . . . . . 43
2.6.10 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.7 Ajuste de Modelos Teóricos . . . . . . . . . . . . . . . . . . . . . 45
2.8 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3 Estimação 56
3.1 Inferência Estat́ıstica . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.2 Prinćıpios de estimação . . . . . . . . . . . . . . . . . . . . . . . . 57
3.3 Obtendo uma amostra . . . . . . . . . . . . . . . . . . . . . . . . 58
3.4 Teorema Central do Limite . . . . . . . . . . . . . . . . . . . . . . 59
3.5 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.6 Intervalos de Confiança . . . . . . . . . . . . . . . . . . . . . . . . 63
3.6.1 Intervalos de confiança para a média . . . . . . . . . . . . 63
3.6.2 Intervalos de confiança para uma proporção . . . . . . . . 66
3.6.3 Comparação de intervalos de confiança . . . . . . . . . . . 67
3.6.4 Intervalo de Confiança para Variância . . . . . . . . . . . . 68
3.7 Comentário . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.8 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4 Testes de Hipóteses 72
4.1 Introdução e notação . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.1.1 Decisões e poder . . . . . . . . . . . . . . . . . . . . . . . 74
4.2 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.3 Probabilidade de significância (P -valor) . . . . . . . . . . . . . . . 76
4.4 Procedimento geral de teste . . . . . . . . . . . . . . . . . . . . . 77
4.5 Teste para a média . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.6 Teste para a proporção . . . . . . . . . . . . . . . . . . . . . . . . 79
4.7 Testes para a variância da distribuição normal . . . . . . . . . . . 79
4.8 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.9 Dimensionamento de amostras . . . . . . . . . . . . . . . . . . . . 82
4.10 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.11 Testes de Aderência (Testes χ2) . . . . . . . . . . . . . . . . . . . 85
4.12 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.13 Comentários . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5 Comparando Grupos 89
5.1 Diferença entre médias de dois grupos . . . . . . . . . . . . . . . . 89
5.1.1 Desvios padrão iguais . . . . . . . . . . . . . . . . . . . . . 90
5.1.2 Desvios padrão diferentes . . . . . . . . . . . . . . . . . . 91
iv SUMÁRIO
5.2 Comparação de variâncias . . . . . . . . . . . . . . . . . . . . . . 92
5.3 Amostras pareadas . . . . . . . . . . . . . . . . . . . . . . . . . . 93
5.4 Comparando proporções . . . . . . . . . . . . . . . . . . . . . . . 94
5.5 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
6 Correlação e Regressão 99
6.1 Definições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
6.2 Interpretação do coeficiente de correlação . . . . . . . . . . . . . . 101
6.3 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
6.4 Regressão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
6.4.1 Modelo de regressão linear simples . . . . . . . . . . . . . 111
6.4.2 Estimando os parâmetros do modelo . . . . . . . . . . . . 112
6.4.3 Construindo intervalos e testando hipóteses . . . . . . . . 114
6.4.4 Transformações de dados . . . . . . . . . . . . . . . . . . . 115
6.4.5 Representação Matricial . . . . . . . . . . . . . . . . . . . 116
6.4.6 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
6.5 Regressão Linear Múltipla . . . . . . . . . . . . . . . . . . . . . . 118
6.6 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
References 126
A Tabelas Estat́ısticas 127
B Soluções de Exerćıcios Selecionados 136
Caṕıtulo 1
Estat́ıstica Descritiva
1.1 Introdução
A Estat́ıstica está presente em todas as áreas da ciência que envolvam a coleta e
análise de dados e sua consequente transformação em informação, para postular,
refutar ou validar hipóteses cient́ıficas sobre um fenômeno observável. Sendo
assim, a Estat́ıstica pode ser pensada como a ciência de aprendizagem a partir
de dados.
Em linhas gerais, o papel da Estat́ıstica consiste em desenvolver métodos
de análise de dados que auxiliam o processo de tomada de decisão nos mais
variados problemas onde existe incerteza. Em função disto, fica evidente que os
métodos estat́ısticospodem ser empregados em praticamente todas as áreas do
conhecimento, sempre que estiver envolvida a coleta ou análise de dados. Em
ciência, são realizados estudos experimentais ou observacionais que dâo origem a
um conjunto de dados numéricos. O propósito da investigação é responder uma
questão cient́ıfica, mas o padrão de variação nos dados faz com que a resposta
não seja óbvia.
Em geral, a disciplina de Estat́ıstica refere-se a métodos para coleta e descrição
de dados, e para quantificação da evidência nos dados pró ou contra uma questão
cient́ıfica. A presença de uma variação não previśıvel (aleatória) nos dados faz
disso uma tarefa pouco trivial. Neste caṕıtulo serão apresentadas técnicas para
organização e descrição dos dados. No Caṕıtulo 2 serão estudados conceitos asso-
ciados à teoria das probabilidades, necessários para desenvolver os métodos dos
caṕıtulos seguintes. A partir do Caṕıtulo 3 serão estudados métodos estat́ısticos
que auxiliam na tomada de decisões com base nos dados.
1
2 CAPÍTULO 1. ESTATÍSTICA DESCRITIVA
1.2 Tipos de Variáveis
Ao invés de tentar interpretar listas de números é mais informativo produzir
um resumo numérico e usar métodos gráficos para descrever as caracteŕısticas
principais dos dados. O método mais apropriado dependerá da natureza dos
dados, e podemos distinguir dois tipos principais apresentados abaixo.
• Variáveis qualitativas ou categóricas que podem ser:
– nominais, por exemplo sexo (masculino, feminino), classificação de
defeitos em uma máquina.
– ordinais, com categorias ordenadas, por exemplo salinidade (baixa,
média, alta).
• Variáveis quantitativas que podem ser:
– discretos, i.e. contagens ou número inteiros, por exemplo número de
ataques de asma no ano passado.
– cont́ınuos, i.e. medidas numa escala cont́ınua, tais como volume, área
ou peso.
As distinções podem ser menos ŕıgidas na prática. Por exemplo, em geral
trataŕıamos a “idade” como uma variável cont́ınua, mas se a idade for registrada
pelo ano mais próximo, podemos tratá-la como discreta, e se agruparmos os dados
em “crianças”, “adultos jovens”, “adultos” e “idosos”, então temos “faixa etária”
como uma variável ordenada categórica. No entanto, em geral é recomendado
manter os dados em sua forma original e criar categorias somente para propósitos
de apresentação.
1.3 Variáveis qualitativas
Para resumir dados qualitativos numericamente, utiliza-se contagens, proporções,
porcentagens, taxas por 1000, taxas por 1.000.000, etc, dependendo da escala
apropriada. Por exemplo, se encontrarmos que 7 de uma amostra de 5000 pes-
soas são portadoras de uma doença rara podeŕıamos expressar isto como uma
proporção observada (0,0014) ou percentual (0,14%), mas melhor seria 1,4 casos
por mil.
Frequentemente o primeiro passo da descrição de dados é criar uma tabela de
frequências. Por exemplo, na Tabela 1.1 abaixo temos as frequências observadas
1.3. VARIÁVEIS QUALITATIVAS 3
Tabela 1.1: Frequências observadas para os dados de itens defeituosos.
Estado ni ni/n pi Porcentagem
Defeituoso 6 6/25 0,24 24,0%
Perfeito 12 12/25 0,48 48,0%
Recuperável 5 5/25 0,20 20,0%
Outros 2 2/25 0,08 8,0%
Totais n = 25 Σpi = 1
de itens produzidos e classificados segundo seu estado (defeituoso, perfeito, recu-
perável, outros). Note que foi definida também a categoria “outros”. Em geral, se
muitos dados forem classificados em poucas categorias, então é conveniente unir
as categorias com somente uma ou duas observações em outra categoria chamada
“outros”. Tabelas simples como esta são na maioria das vezes suficientes para
descrever dados qualitativos especialmente quando existem apenas duas ou três
categorias.
Dados qualitativos são usualmente bem ilustrados num simples gráfico de bar-
ras onde a altura da barra é igual à frequência. O gráfico na Figura 1.1 apresenta
as frequências observadas na Tabela 1.1. Note que a ordem das categorias poderia
Figura 1.1: Gráfico de barras das frequências observadas na Tabela 1.1
defeituoso perfeito recuperavel outros
fre
qu
en
cia
s
0
2
4
6
8
10
12
ser alterada no eixo horizontal já que não existe ordenação natural. Além disso
a distância horizontal entre as barras não tem nenhuma interpretação.
4 CAPÍTULO 1. ESTATÍSTICA DESCRITIVA
Gráficos de setores também costumam ser utilizados para apresentação de
dados categóricos. Os setores do gráfico são desenhados de tal forma que eles
tenham área proporcional à frequência. A Figura 1.2 abaixo ilustra as frequências
observadas na Tabela 1.1.
Figura 1.2: Gráfico de setores com as frequências observadas na Tabela 1.1
defeituoso
perfeito
recuperavel
outros
No entanto, gráficos de setores constituem uma forma muito ruim de apre-
sentar informação já que em geral temos dificuldade em comparar áreas. Um
gráfico de barras ou de pontos é prefeŕıvel para representar este tipo de dados.
Duas ótimas referências para este assunto são Cleveland (1993, 1994) e Good and
Hardin (2003).
1.4 Variáveis quantitativas
Analogamente, para resumir dados quantitativos discretos, podemos utilizar uma
tabela de frequências como no exemplo a seguir.
Exemplo 1.1 : Foram inspecionados 35 lotes de componentes eletrônicos e ob-
tidos os números de itens defeituosos em cada lote. Os dados estão resumidos na
1.4. VARIÁVEIS QUANTITATIVAS 5
Tabela 1.2. Note que foram incluidas as frequências acumuladas Ni e Fi, assim
Tabela 1.2: Frequências observadas do número de itens defeituosos em 35 lotes.
defeituosos 0 1 2 3 4 5 6 8
ni 1 3 5 4 9 5 6 2
pi 0,03 0,09 0,14 0,11 0,26 0,14 0,17 0,06
Ni 1 4 9 13 22 27 33 35
Fi 0,03 0,11 0,26 0,37 0,63 0,77 0,94 1,00
por exemplo podemos dizer que aproximadamente 77% dos lotes inspecionados
tem 5 itens defeituosos ou menos. Neste caso, frequências absolutas e frequências
acumuladas podem ser representadas graficamente como na Figura 1.3 abaixo.
0 2 4 6 8
0.
0
0.
2
0.
4
0.
6
0.
8
1.
0
defeituosos
Fr
eq
. a
cu
mu
lad
as
(a)
0
2
4
6
8
defeituosos
fre
qu
ên
cia
s
0 1 2 3 4 5 6 8
(b)
Figura 1.3: Gráfico de frequências do número de itens defeituosos em 35 lotes. (a)
Frequências acumuladas. (b) Frequências absolutas.
A construção de tabelas de frequências para variáveis quantitativas cont́ınuas
requer certo cuidado uma vez que não existirão observações repetidas. A solução
então é agrupar os dados em classes e obter as frequências observadas em cada
classe. É importante notar que ao resumir dados referentes a uma variável
cont́ınua sempre se perde alguma informação já que não temos idéia de como
se distribuem as observações dentro de cada classe.
O método mais comum de representação gráfica de dados cont́ınuos é através
de um histograma. Neste caso, a frequência de cada classe é representada por
6 CAPÍTULO 1. ESTATÍSTICA DESCRITIVA
um retângulo cuja base é igual a amplitude da classe e a altura é proporcional à
frequência.
Exemplo 1.2 : Em um rio foram encontrados mortos 150 peixes v́ıtimas de
contaminação e seus comprimentos foram medidos em miĺımetros. As medidas
observadas foram agrupadas em classes e as frequências de cada classe aparecem
na Tabela 1.3. O histograma constrúıdo com base nestes dados é apresentado na
Figura 1.4.
Tabela 1.3: Frequências dos comprimentos de peixes encontrados mortos em um rio.
Comprimento (mm) ni pi Ni Fi
100 ⊢ 110 7 0,05 7 0,05
110 ⊢ 120 16 0,11 23 0,15
120 ⊢ 130 19 0,13 42 0,28
130 ⊢ 140 31 0,21 73 0,49
140 ⊢ 150 41 0,27 114 0,76
150 ⊢ 160 23 0,15 137 0,91
160 ⊢ 170 10 0,07 147 0,98
170 ⊢ 180 3 0,02 150 1,00
Figura 1.4: Histograma das frequências de comprimentos de peixes mortos dadas na
Tabela 1.3
comprimentos
fre
qu
en
cia
s
100 120 140 160 180
0
10
20
30
40
1.4. VARIÁVEIS QUANTITATIVAS 7
Algumas vezes é conveniente agregar classes de frequência nos extremosda
distribuição de forma que os intervalos passam a ter larguras diferentes. Neste
caso deve-se ter certo cuidado ao interpretar o histograma. A idéia é que a área
de cada retângulo deve ser preservada, assim por exemplo se a amplitude de um
intervalo for duplicada ele deve ter altura igual à metada de sua frequência.
Neste texto não discutiremos em detalhes a especificação do número e da am-
plitude das classes já que os pacotes estat́ısticos utilizam algoritmos para escolha
ótima destes valores. A idéia é que um número muito grande de classes não re-
sume satisfatoriamente os dados e com um número muito pequeno perde-se muita
informação.
Outro método gráfico que vale à pena ser utilizado quando o número de ob-
servações não for muito grande é o gráfico de ramo-e-folhas que será ilustrado
nos exemplos a seguir. Cada observação é separada em um ramo (geralmente a
parte inteira) e uma folha (geralmente a parte decimal). O gráfico terá a forma
de um histograma porém retendo a informação dos valores observados. A técnica
é ilustrada nos exemplo 1.3 abaixo.
Exemplo 1.3 : Um estudo geoqúımico foi realizado utilizando-se amostras de
sedimentos provenientes de riachos e obteve-se as concentrações de Cromo (em
ppm) abaixo. Podemos facilmente escrever os dados no gráfico de ramo-e-folhas
como na Figura 1.5.
10,6 14,1 13,7 15,2 15,4 12,5 12,9 14,3
13,0 12,6 12,0 14,0 10,0 18,2 11,5 9,4
16,5 13,7 14,7 16,6 11,4 18,4 17,4 11,1
15,8 17,0 13,6 16,6 11,8 15,8 13,5
Note que os ramos são números inteiros e as folhas são os valores depois
da v́ırgula decimal. É importante escrever as folhas em colunas igualmente
espaçadas, caso contrário a figura ficará distorcida. Além de ser um resumo
visual dos dados o gráfico de ramo-e-folhas fornece mais informação do que o
histograma já que os dados podem ser lidos no gráfico.
Exemplo 1.4 : Os valores abaixo correspondem ao tempo (em minutos) que os
alunos matriculados em uma disciplina do curso de Estat́ıstica utilizaram para
resolução da prova no segundo semestre de 2002.
23 31 42 45 51 52 57 61 61 64
68 69 73 75 75 82 89 94 118 120
8 CAPÍTULO 1. ESTATÍSTICA DESCRITIVA
Figura 1.5: Gráfico de ramo-e-folhas dos dados geoqúımicos do Exemplo 1.3.
9|4
10|0 6
11|1 4 5 8
12|0 5 6 9
13|0 5 6 7 7
14|0 1 3 7
15|2 4 8 8
16|5 6 6
17|0 4
18|2 4
A representação no gráfico de ramo-e-folhas é feita de forma que os ramos
contenham dezenas de minutos e as folhas contenham unidades de minutos.
2|3 2|F
3|1 3|F
4|2 5 4|M F
5|1 2 7 5|F F M
6|1 1 4 8 9 6|F F F F M
7|3 5 5 7|M M M
8|2 9 8|M F
9|4 9|F
10| 10|
11|8 11|M
12|0 12|M
Pode-se notar que os valores estão simetricamente dispersos em torno de um valor
central e não há a indicação de valores at́ıpicos ou discrepantes (outliers). No
diagrama da direita a informação sobre o sexo dos alunos foi adicionada e há
indicação de que os homens (M) gastaram um tempo maior do que as mulheres
(F).
1.5 Resumos numéricos
Para resumir numericamente dados de uma variável quantitativa o objetivo é
escolher medidas apropriadas de locação e de dispersão. Existem três escolhas
mais frequentemente utilizadas para medidas de locação que estão ligadas a certas
medidas de dispersão como será visto adiante.
1.5. RESUMOS NUMÉRICOS 9
1.5.1 Média, variância e desvio padrão
Para resumir dados quantitativos aproximadamente simétricos, é usual calcular
a média aritmética como uma medida de locação. Se x1, x2, . . . , xn são os valores
dos dados, então podemos escrever a média como
x =
x1 + x2 + · · ·+ xn
n
=
∑n
i=1 xi
n
.
A variância é definida como o desvio quadrático médio em torno da média e
é calculada a partir de uma amostra de dados como
s2 =
∑n
i=1(xi − x)2
n − 1 .
Note que, sendo definida a partir de uma soma de quadrados a variância sempre
assume valores positivos. Além disso, a divisão por n−1 retira o efeito do tamanho
do conjunto de dados, assim as dispersões de dois conjuntos ficam comparáveis
mesmo que um deles tenha muito mais observações do que o outro. Não é dif́ıcil
mostrar que a expressão da variância pode ser reescrita como
s2 =
∑n
i=1 x
2
i − nx2
n − 1
que é uma versão mais fácil de ser calculada quando não se dispõe de recursos
computacionais. Mas cuidado porque os erros de arrendondamento podem gerar
um valor negativo se a variância for muito pequena.
A raiz quadrada positiva da variância, chamada de desvio padrão, é uma
medida de dispersão que está na mesma escala dos dados. A notação usual é
s =
√
s2.
Algumas propriedades destas mediadas são,
1. a soma de desvios em torno da média é sempre igual a zero,
∑n
i=1(xi−x) =
0.
2. a soma de desvios quadráticos em torno de um valor a,
∑n
i=1(xi − a)2, é
mı́nima se somente se a = x.
3. somando-se uma constante k aos dados a média será somada da mesma
constante enquanto a variância fica inalterada.
4. multiplicando-se os dados por uma constante k a média será multiplicada
pela mesma constante enquanto a variância será multiplicada pelo quadrado
da constante.
10 CAPÍTULO 1. ESTATÍSTICA DESCRITIVA
5. a média aritmética sempre pertence ao intervalo de variação dos dados, i.e.
min(xi) ≤ x̄ ≤ max(xi)
Das propriedades 3 e 4 é fácil verificar que se yi = a + bxi, i = 1, . . . , n então
a média aritmética e a variância de y são
y = a + bx e s2y = b
2s2.
Exemplo 1.5 : Sete homens foram pesados, e os resultados em Kg foram:
57,0; 62,9; 63,5; 64,1; 66,1; 67,1; 73,6.
Utilizando uma calculadora não é dif́ıcil verificar que a média é 64,9 kg, a variância
é 25,16 kg2 e o desvio padrão é 5,02 kg.
Exemplo 1.6 : Foram inspecionados 30 aparelhos fabricados por uma indústria
e obteve-se a distribuição de frequências do número de defeitos por aparelho dada
na Tabela 1.4.
Tabela 1.4: Frequências dos números de defeitos por aparelho inspecionado.
Número de defeitos 0 1 2 3 4
ni 12 8 7 1 2
Neste caso o número médio de defeitos por aparelho será
x =
12 × 0 + 8 × 1 + 7 × 2 + 1 × 3 + 2 × 4
30
=
33
30
= 1, 1
e sua variância será
s2 =
12 × 02 + 8 × 12 + 7 × 22 + 1 × 32 + 2 × 42 − 30 × 1, 12
29
=
40, 7
29
≈ 1, 4.
Vale notar que estas medidas são extremamente senśıveis a observações dis-
crepantes. No Exemplo 1.6, se um único aparelho apresentasse 15 defeitos ao
invés de 4 a média passaria a ser aproximadamente 1,5 e a variância passaria a
ser aproximadamente 7,6.
Uma medida de dispersão relativa particularmente útil quando se deseja com-
parar dispersões em dois conjuntos de dados com médias bem diferentes é o
1.5. RESUMOS NUMÉRICOS 11
coeficiente de variação definido como s/|x|. Assim a escala das observações está
sendo levada em conta.
Exemplo 1.7 : Suponha por exemplo que 2 conjuntos de dados apresentam
desvios-padrões s1 = 3 e s2 = 4 com médias x1 = 30 e x2 = 80. Embora
em termos absolutos a dispersão seja maior no segundo conjunto as dispersões
relativas são 10% e 5% respectivamente.
Exemplo 1.8 : Sejam agora as variáveis X e Y cujos valores observados são 0,0,
0,05 e 0,10 e 1000, 110 e 1200 respectivamente. É fácil verificar que
x = 0, 05 s2x = 0, 05
2 sx = 0, 05
y = 1100 s2y = 100
2 sx = 100
e a variabilidade de X é bem menor em termos absolutos. Porém, em termos
relativos,
CV (X) = 100% e CV (Y ) =
100
1100
≈ 6%.
1.5.2 A mediana e a amplitude inter-quartis
Aqui vamos apresentar medidas de locação e dispersão baseadas em dados orde-
nados (ou estat́ısticas de ordem) que são particularmente úteis para distribuições
assimétricas e são pouco senśıveis a observações muito discrepantes.
A mediana é definida como o valor que divide os dados ordenados em duas
partes de mesmo tamanho. Quando há um número ı́mpar de observações a me-
diana é o valor central (de ordem (n + 1)/2) enquanto que para um número par
de observações a mediada é calculada comoa média dos dois valores centrais (de
ordem n/2 e n/2 + 1). Por exemplo, as medianas dos conjuntos ordenados
5, 7, 9, 13, 17, 19, 20 e 3, 7, 8, 10, 12, 15
são 13 e (8+10)/2=9 respectivamente.
A definição pode ser estendida para valores que dividem a distribuição em 4
partes de mesmo tamanho (quartis) ou 100 partes de mesmo tamanho (percentis).
Os quartis inferior e superior, usualmente denotados por Q1 e Q3, são definidos
como os valores abaixo dos quais estão 1/4 e 3/4, respectivamente, dos dados.
Estes valores são frequentemente usados para resumir os dados juntamente com o
mı́nimo, o máximo e a mediana. Para um número par de observações, os quartis
também serão uma média de valores.
12 CAPÍTULO 1. ESTATÍSTICA DESCRITIVA
Podemos agora definir uma medida de dispersão aproprida, a amplitude inter-
quartis, que é a diferença entre o quartil superior e o inferior, Q3 − Q1. Note
também que 50% dos dados estarão entre os quartis inferior e superior.
Exemplo 1.9 : O número de crianças em 19 famı́lias foi contado e obteve-se os
seguintes valores (já ordenados),
0, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 5, 6, 6, 7, 8, 10.
Assim, o número mediano de crianças é o valor de ordem (19+1)/2=10, i.e. 3
crianças. Analogamente, os quartis inferior e superior são os valores de ordem 5
e 15 respectivamente, i.e. 2 e 6 crianças. Portanto a amplitude inter-quartis é de
4 crianças.
Vale notar também que no Exemplo 1.6 se um único aparelho apresentasse 15
defeitos ao invés de 4 a mediana e os quartis ficariam inalterados.
Um importante método gráfico para apresentar caracteŕısticas de um con-
junto de dados chama-se “Box-and-Whisker plot” ou simplesmente “Box-plot”
e é baseado nas medidas vistas acima, i.e. o mı́nimo, o máximo, os quartis e a
mediana. Um box-plot para os dados do Exemplo 1.3 é mostrado na Figura 1.6.
A altura do retângulo representa a distância inter-quartis e as linhas se estendem
Figura 1.6: Box-plot dos dados geoqúımicos do Exemplo 1.3.
10
12
14
16
18
co
nc
en
tra
çõ
es
 d
e 
Cr
até as observações extremas, exceto aquelas consideradas discrepantes (outliers).
1.5. RESUMOS NUMÉRICOS 13
Para efeito de construção do Box-plot, uma observação x será considerada um
outlier se,
x < Q1 − 1, 5(Q3 − Q1) ou x > Q3 + 1, 5(Q3 − Q1).
Exemplo 1.10 : Um box-plot para os dados do Exemplo 1.4 é mostrado na
Figura 1.7. Os dados originais foram adicionados ao eixo vertical e pode-se notar
que o valor 120 minutos foi considerado um outlier segundo o critério acima.
Figura 1.7: Box-plot dos dados do Exemplo 1.4.
20
40
60
80
10
0
12
0
te
mp
os
 e
m 
mi
nu
to
s
A presença de outliers em um conjunto de dados pode ser perfeitamente nor-
mal, embora eles possam viesar cálculos baseados em somas. Eles também podem
ser devido a erros (que podem ser corrigidos), ou ainda revelar que a distribuição
dos dados tem “caudas pesadas” (e.g. dados intra-diários do mercado financeiro).
Vale notar que este tipo de gráfico é particularmente útil para comparar ca-
racteŕısticas de diferentes conjuntos de dados (como será visto na Seção 1.6.5).
1.5.3 A moda
Algumas vezes, especialmente para dados de contagem, um único valor domina
a amostra. Neste caso, a medida de locação apropriada é a moda, definida como
o valor que ocorre com maior frequência. A proporção da amostra que assume
este valor modal pode ser utilizada no lugar de uma medida formal de dispersão.
14 CAPÍTULO 1. ESTATÍSTICA DESCRITIVA
Na prática pode haver situações aonde se pode distinguir claramente dois ou
mais ‘picos’ na frequência dos valores observados. Neste caso dizemos que os
dados apresentam multimodalidade e devemos reportar todas os valores modais.
Dados deste tipo são particularmente dif́ıceis de resumir e analisar.
Exemplo 1.11 : O conjunto de dados discretos 3, 5, 7, 7, 7, 8, 10, 10, 10, 15, 20
apresenta duas modas 7 e 10 sendo assim chamado de bimodal.
1.6 Dados múltiplos
Os resultados de um estudo tipicamente envolverão mais do que um único con-
junto de dados. Neste caso, representações gráficas são úteis para comparar
grupos de dados ou para verificar se exitem relações entre eles. Existem mui-
tas possibilidades, mas a mais adequada dependerá das peculiaridades de cada
conjunto de dados.
Podemos criar combinações dos métodos já discutidos. Por exemplo, se me-
dirmos as alturas e pesos de um conjunto de pessoas, podemos produzir box-plots
de alturas lado a lado para homens e mulheres, ou gráficos ramo-e-folhas lado a
lado (com as alturas dos homens à esquerda do ramo, e as alturas das mulheres à
direita), ou um histograma acima do outro com a mesma escala no eixo horizontal
de forma que eles possam ser facilmente comparados. Para um número diferente
de grupos, uma série de box-plots verticais funciona bem como um simples resumo
dos dados.
Exemplo 1.12 : Na Figura 1.8 são apresentados os box-plots da renda familiar
mediana (em salários mı́nimos) nos 75 bairros de Curitiba no ano de 2000, agru-
pados por número de homićıdios (menor ou igual a 4 ou maior do que 41). Os
valores originais dos dados aparecem nos eixos verticais. Que informações podem
ser tiradas deste gráfico?
Para combinações de dados categóricos, uma série de gráficos de setores ou
de barras podem ser produzidos. No caso de dois ou três grupos de uma mesma
variável categórica pode ser mais interessante colocar toda a informação em um
mesmo gráfico de barras.
Exemplo 1.13 : Em um estudo foram medidos os comprimentos de um dos
dentes em cada um de 10 porquinhos da India submetidos a 3 doses de Vitamina
1O valor 4 foi fixado somente para fins de ilustração
1.6. DADOS MÚLTIPLOS 15
Figura 1.8: Box-plots dos dados de renda mediana em Curitiba no ano de 2000 agru-
pados de acordo com o número de homicidios.
Num. homic. > 4 Num. homic. <= 4
5
10
15
20
C (0,5, 1 e 2 mg) em 2 formas de ingestão (Ácido ascórbico e suco de laranja).
Na Figura 1.9 são apresentados os box-plots das medidas separados por dosagem
e forma de ingestão.
1.6.1 Diagramas de dispersão
Para avaliar se existe uma relação entre duas variáveis cont́ınuas podemos pro-
duzir um gráfico de pontos, em geral chamado de diagrama de dispersão. Neste
caso faz pouco sentido unir os pontos, exceto quando o eixo horizontal representa
peŕıodos de tempo. Śımbolos diferentes podem ser usados para diferentes grupos
adicionando assim uma nova dimensão ao gráfico.
Exemplo 1.14 : O gráfico na Figura 1.10 mostra as taxas de mortalidade por
homicidio (por 100 mil habitantes) em São Paulo (capital mais região metropoli-
tana e interior do estado) entre janeiro de 1979 e agosto de 1995. Os histogramas
das duas variáveis aparecem nas margens e uma reta de regressão foi estimada.
Que informações podem ser tiradas deste gráfico?
Para mais do que duas variáveis, deve-se produzir diagramas de dispersão
16 CAPÍTULO 1. ESTATÍSTICA DESCRITIVA
Figura 1.9: Box-plots dos dados de comprimento de dente separados por dosagem e
forma de ingestão.
0.5 1 2
0
5
10
15
20
25
30
35
Dose de Vitamina C em mg
Co
mp
rim
en
to
 d
o 
de
nt
e
0.5 1 2
0
5
10
15
20
25
30
35
Acido Ascorbico
suco de laranja
para todos os pares posśıveis produzindo assim uma matriz de gráficos de pontos
(Ver Caṕıtulo 6).
Gráfico temporal
Um caso especial de um gráfico de pontos é um gráfico temporal onde a variável
“tempo” está no eixo horizontal. Ou seja, as medidas dos dados são feitas ao
longo do tempo. Nestes casos é usual unir pontos sucessivos por segmentos de
reta, e é em geral uma boa prática deixar o eixo horizontal mais longo do que o
vertical.
Como exemplo deste tipo de dados, na Figura 1.11 são apresentados os gráficos
temporais com medidas diárias de quatro indicadores de qualidade do ar em Nova
Iorque entre maio e setembro de 1973. Uma referência para análise deste tipo de
dadosé Morettin e Toloi (2004).
1.6. DADOS MÚLTIPLOS 17
Figura 1.10: Diagrama de dispersão das taxas de mortalidade por homicidio em São
Paulo.
1
23
2 4 6 8 10 12 14 16
1.
0
1.
5
2.
0
2.
5
3.
0
Metropolitana
In
te
rio
r
1.6.2 Dados Pareados
O exemplo abaixo ilustra um tipo de representação gráfica que pode ser útil para
visualizar dados pareados.
Exemplo 1.15 : Uma alteração foi introduzida na linha de montagem de um
aparelho com o objetivo de reduzir o tempo gasto pelos operários para execução
de certas tarefas. Uma amostra de 10 operários foi observada antes e depois da
alteração e a Tabela 1.5 abaixo mostra os tempos de execução medidos. Uma
representação gráfica destes dados é dada na Figura 1.12. É muito mais fácil ver
do gráfico do que da tabela que os operários tenderam a reduzir seus tempos de
execução, e que aqueles que não reduziram já tendiam a ter os menores tempos
e provavelmente não necessitavam da alteração.
18 CAPÍTULO 1. ESTATÍSTICA DESCRITIVA
dias
Oz
on
io
0 50 100 150
0
50
10
0
15
0
(a)
dias
Ra
dia
çã
o 
so
lar
0 50 100 150
0
50
10
0
15
0
20
0
25
0
30
0
(b)
dias
Ve
nt
o
0 50 100 150
5
10
15
20
(c)
dias
Te
mp
er
at
ur
a
0 50 100 150
60
70
80
90
(d)
Figura 1.11: Gráficos com as séries temporais de quatro indicadores de qualidade do
ar em Nova Iorque, EUA.
1.6. DADOS MÚLTIPLOS 19
Tabela 1.5: Tempos de execução de tarefas por operário.
Operário Tempo antes Tempo depois
1 10,3 12,2
2 11,4 12,1
3 10,9 13,1
4 12,0 11,9
5 10,0 12,0
6 11,9 12,9
7 12,2 11,4
8 12,3 12,1
9 11,7 13,5
10 12,0 12,3
Figura 1.12: Gráfico dos tempos de execução de tarefas por operários observados antes
e depois de uma alteração.
10
11
12
13
14
tem
po
 de
 ex
ecu
ção
20 CAPÍTULO 1. ESTATÍSTICA DESCRITIVA
1.7 Problemas
1. Para um conjunto de n valores observados x1, . . . , xn mostre que:
(a) a variância também pode ser escrita como (
∑n
i=1 x
2
i − nx2)/(n − 1);
(b) somando-se uma constante k aos dados a variância não se altera e a
média fica somada de k;
(c) multiplicando-se os dados por uma constante k a média fica multipli-
cada por k e a variância fica multiplicada por k2.
(d) Calcule a média e a variância da transformação yi = axi + b para duas
constantes a e b quaisquer.
2. No Exemplo 1.6 verifique que se um único aparelho apresentasse 15 defeitos
ao invés de 4 a mediana e os quartis ficariam inalterados.
3. O salário médio dos funcionários de uma empresa era de R$500,00 com
variância 100 reais2 e o salário mediano era de R$450,00. Se todos os
salários forem duplicados o que ocorre com a média, variância, mediana e
coeficiente de variação?
4. Descreva em palavras quais informações podem ser tiradas das Figuras 1.8,
1.9 e 1.10.
5. Forneça dois exemplos de variáveis qualitativas e dois de variáveis quanti-
tativas (diferentes da apostila).
6. Descreva de forma concisa os seguintes dados usando suas palavras e algu-
mas estat́ısticas descritivas, apontando caracteŕısticas principais observa-
das.
(a) As notas (de um total de 100 e ordenadas por tamanho) de 20 estu-
dantes de estat́ıstica no primeiro exame do semestre:
30 35 37 40 40 49 51 54 54 55
57 58 60 60 62 62 65 67 74 89
(b) O número de faltas de 20 trabalhadores num ano (ordenados por ta-
manho):
0 0 0 0 0 0 0 1 1 1
2 2 3 3 4 5 5 5 8 45
(c) O número de exemplares de um jornal mensal em particular lidos por
20 pessoas num ano:
1.7. PROBLEMAS 21
0 1 11 0 0 0 2 12 0 0
12 1 0 0 0 0 12 0 11 0
7. Faça um gráfico ramo-e-folhas para apresentação dos dados de altura (em
metros) de 20 mulheres sendo estudadas para uma certa condição médica.
1,52 1,60 1,57 1,52 1,60
1,75 1,73 1,63 1,55 1,63
1,65 1,55 1,65 1,60 1,68
2.50 1,52 1,65 1,60 1,65
8. Os dados a seguir fornecem a concentração de um determinado poluente
(em ppm) em 8 pontos de um afluente medidos antes e uma hora depois de
um acidente ambiental:
Antes Depois
4,67 5,44
4,97 6,11
5,11 6,49
5,17 6,61
5,33 6,67
6,22 6,67
6,50 6,78
7,00 7,89
Faça um gráfico destes dados, e use o gráfico para ajudar a avaliar se o
acidente provocou um aumento significativo nos ńıveis do poluente no aflu-
ente.
9. A tabela abaixo fornece o número de grânulos de arenito por cm3 em 20
amostras tomadas de uma certa localidade (A) e 20 amostras tomadas de
uma outra localidade (B).
22 CAPÍTULO 1. ESTATÍSTICA DESCRITIVA
A B
171 397 116 375
431 795 375 440
288 257 151 192
1283 902 752 503
554 1621 979 1252
295 1004 208 688
568 1378 426 771
958 435 675 377
2415 1104 410 700
1212 396 736 315
(a) Calcule as médias e desvios-padrão nas duas localidades.
(b) Faça histogramas dos dois conjuntos de dados, e compare-os.
(c) Obtenha o mı́nimo, máximo, mediana, e os quartis de cada grupo?
(d) Usando sua resposta ao item (c), construa boxplots para os dois con-
juntos de dados e compare-os.
(e) Você acha que existe uma diferença real entre os números de grânulos
de arenito nas duas localidades, ou as diferenças observadas poderiam
ter simplesmente ocorrido como uma consequência dos grupos consis-
tirem de somente 20 observações cada?
(f) Descreva as principais caracteŕısticas dos dados em uma ou duas sen-
tenças.
10. O percentual de açúcar e sal em 9 cereais matinais mais populares foram
medidos, com os seguintes resultados:
Cereal açúcar sal
1 19 8
2 36 5
3 3 10
4 8 4
5 26 6
6 16 6
7 8 9
8 10 3
9 54 3
1.7. PROBLEMAS 23
(a) Faça um gráfico desses dados para investigar a relação entre o conteúdo
de açúcar e sal nos cereais matinais.
(b) Comente brevemente qualquer padrão observado nos dados.
Caṕıtulo 2
Probabilidades
Um conceito fundamental
Os métodos estat́ısticos para análise de dados estão associados ao conceito
de incerteza. Uma forma de quantificar o grau de incerteza (ou aleatoriedade) é
através do conceito de probabilidade. Neste caṕıtulo serão apresentadas definições
e propriedades em termos de teoria dos conjuntos.
2.1 Experimento aleatório
Qualquer experimento cujo resultado não pode ser previsto com certeza absoluta
é chamado de experimento aleatório. O espaço amostral é conjunto de todos os
posśıveis resultados de um experimento aleatório, que aqui será denotado por S.
Qualquer subconjunto A de S (i.e. A ⊂ S) é chamado de evento.
Alguns exemplos de experimentos aleatórios com os respectivos espaços amos-
trais e um evento associado são os seguintes,
1. Lançamento de uma moeda e observação da face superior. S =
{cara, coroa}, A = {cara}.
2. Lançamento de um dado e observação da face superior. S = {1, 2, 3, 4, 5, 6},
A = {2, 4, 6}
3. Contagem do número de peças defeituosas em um lote com 100 peças.
S = {0, 1, 2, . . . , 100}, A = {0, 1, . . . , 10}
4. Medição do tempo de vida de um equipamento eletrônico em horas. S =
(0,∞), A = (0, 100].
Note que o último espaço amostral é uma construção teórica já que na prática
haverá sempre um limite superior para o intervalo.
24
2.2. DEFINIÇÃO DE PROBABILIDADE 25
Algumas operações com eventos serão muito úteis e são definidas a seguir.
Para dois eventos A e B quaisquer:
1. A união entre eles (A∪B) ocorre se somente se pelo menos um deles ocorre.
Em outras palavras, se ocorre apenas o evento A, ou ocorre apenas o evento
B, ou ambos ocorrem simultaneamente. Podemos dizer ainda que A ou B
ocorrem.
2. A interseção entre eles (A∩B) ocorre se somente se ambos ocorrem simul-
taneamente, isto é, A e B ocorrem. Em particular, se A ∩ B = ∅ dizemos
que A e B são mutuamente exclusivos.
3. Se A não ocorre dizemos que ocorre o seu complementar, A.
Vale notar que as operações de interseção e união são comutativas, i.e.
A ∩ B = B ∩ A e A ∪ B = B ∪ A.
Algumas propriedades das operações de união, interseção e complementação
também serão bastante úteis na resolução de problemas. A seguir listamos aquelas
mais importantes,1. A ∩ S = A, A ∪ S = S, A ∩ ∅ = ∅ e A ∪ ∅ = A.
2. A ∩ A = ∅, A ∪ A = S, A ∩ A = A e A ∪ A = A.
3. A ∪ B = A ∩ B e A ∩ B = A ∪ B.
4. A = (A ∩ B) ∪ (A ∩ B).
2.2 Definição de probabilidade
Seja um espaço amostral S associado a um dado experimento aleatório. A cada
posśıvel evento A de S podemos associar um número real, representado por P (A)
e denominado probabilidade do evento A, satisfazendo as seguintes propriedades,
1. 0 ≤ P (A) ≤ 1,
2. P (S) = 1,
3. P (A1 ∪ A2) = P (A1) + P (A2) se A1 e A2 são mutuamente exclusivos.
26 CAPÍTULO 2. PROBABILIDADES
Esta última propriedade pode ser generalizada para um número finito ou infinito
de eventos mutuamente exclusivos, A1, A2, . . . , An, ou seja
P (A1 ∪ A2 ∪ · · · ∪ An) = P (A1) + P (A2) + · · ·+ P (An),
se Ai ∩ Aj = ∅, para todo i 6= j.
A partir destes axiomas outras propriedades bastante úteis podem ser obtidas,
por exemplo
1. P (A) = 1 − P (A) onde A é o evento complementar de A.
2. P (A ∪ A) = 1 e P (∅) = 0.
3. Se A ⊂ B então P (A) ≤ P (B).
4. P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
Uma definição mais simples de probabilidade é a chamada definição clássica.
Neste caso a regra prática para obter P (A) consiste em simplesmente contar o
número de resultados favoráveis ao evento A e dividir pelo número de resultados
posśıveis do experimento. Assim,
P (A) =
número de resultados favoráveis a A
número de resultados posśıveis
.
No entanto esta definição só faz sentido quando o espaço amostral é finito, de
modo que possamos fazer as contagens requeridas, e também se todos os posśıveis
resultados têm a mesma chance de ocorrer.
2.3 Probabilidade Condicional e Independência
Para dois eventos A e B, sendo que P (B) > 0, definimos a probabilidade condi-
cional de A dado que B ocorreu como
P (A|B) = P (A ∩ B)
P (B)
.
Vale notar que todas as propriedades vistas anteriormente continuam válidas
para probabilidades condicionais. Por exemplo,
P (A | B) = 1 − P (A | B).
2.3. PROBABILIDADE CONDICIONAL E INDEPENDÊNCIA 27
A partir desta definição obtemos a chamada regra do produto de probabilida-
des,
P (A ∩ B) = P (A|B)P (B).
Esta é chamada probabilidade conjunta dos eventos A e B e também pode ser
escrita como P (A, B). P (A) e P (B) são chamadas probabilidades marginais dos
eventos A e B.
Exemplo 2.1 : Duas bolas são retiradas ao acaso de uma urna contendo 2 bolas
brancas (B) e 3 vermelhas (V ), sem reposição. Neste caso os posśıveis resultados
do experimento são {BB, BV, V B, V V } e suas probabilidades são,
P (B ∩ B) = P (B)P (B|B) = 2
5
× 1
4
=
2
20
P (B ∩ V ) = P (B)P (V |B) = 2
5
× 3
4
=
6
20
P (V ∩ B) = P (V )P (B|V ) = 3
5
× 2
4
=
6
20
P (V ∩ V ) = P (V )P (V |V ) = 3
5
× 2
4
=
6
20
.
No exemplo acima imagine agora que as retiradas são feitas com reposição.
Neste caso a informação sobre a cor da bola na primeira retirada não altera em
nada chances de obtermos uma bola branca na segunda retirada. Em outras pa-
lavras, P (B|V ) = P (B|B) = P (B) e dizemos que as retiradas são independentes.
Em geral dizemos que dois eventos A e B são independentes se e somente se
P (A|B) = P (A) e P (B|A) = P (B)
e isto também equivalente a dizer que
P (A ∩ B) = P (A)P (B).
O conceito de independência pode ser estendido a um número qualquer de
eventos, i.e.
P (A1 ∩ · · · ∩ Ak) = P (A1) . . . P (Ak)
se somente se os eventos A1, . . . , Ak forem independentes.
28 CAPÍTULO 2. PROBABILIDADES
2.4 Teorema de Bayes
Suponha agora que os eventos A1, A2, . . . , Ak são dois a dois mutuamente ex-
clusivos e a união deles é o próprio espaço amostral. Em outras palavras, um
destes eventos necessariamente irá ocorrer porém dois deles não podem ocorrer
simultaneamente,
A1 ∪ A2 ∪ · · · ∪ Ak = S e Ai ∩ Aj = ∅, i 6= j.
Então, qualquer outro evento B pode ser escrito como
B = (B ∩ A1) ∪ (B ∩ A2) ∪ · · · ∪ (B ∩ Ak)
sendo que estes k eventos do lado direito também são mutuamente exclusivos
(verifique!). Além disso, P (B ∩ Aj) = P (B|Aj)P (Aj), j = 1, . . . k e portanto
podemos escrever que
P (B) = P (B ∩ A1) + P (B ∩ A2) + · · ·+ P (B ∩ Ak)
= P (B|A1)P (A1) + P (B|A2)P (A2) + · · ·+ P (B|Ak)P (Ak)
=
k∑
j=1
P (B|Aj)P (Aj).
O fato é que em muitas aplicações conhecemos as probabilidades do lado
direito desta igualdade e estaremos interessados em calcular a probabilidade de
um dos eventos Ai ocorrer dado que B ocorreu, isto é
P (Ai|B) =
P (Ai ∩ B)
P (B)
=
P (B|Ai)P (Ai)
∑k
j=1 P (B|Aj)P (Aj)
.
Chamamos esta última igualdade de teorema de Bayes ou regra de Bayes, que nos
mostra como atualizar a nossa crença no evento Ai após receber novas informações
(i.e. que B ocorreu).
• P (Ai) é a probabilidade a priori do evento Ai, porque antecede a informação
sobre o evento B.
• P (Ai|B) é a probabilidade a posteriori do evento Ai porque é calculada
após termos informação sobre B.
• Para um valor espećıfico de B, P (B|Ai) é chamada função de verossimi-
lhança de Ai.
2.4. TEOREMA DE BAYES 29
Veremos uma aplicação no exemplo a seguir.
Exemplo 2.2 : Um médico, ao examinar uma pessoa, “desconfia” que ela possa
ter uma certa doença. Baseado na sua experiência, ele assume que a probabilidade
do paciente ter a doença é 0,7. Para aumentar sua quantidade de informação
sobre a doença o médico aplica um teste que tem probabilidades 0,4 e 0,95 de dar
resultado positivo em pessoas sadias e pessoas doentes respectivamente. Sabendo
que o teste deu positivo como fica a probabilidade da pessoa ter a doença?
Aqui o evento de interesse é A= “o paciente tem a doença” e definimos o
evento B= “teste deu resultado positivo”. Assim,
P (B|Ā) = 0, 40 e P (B|A) = 0, 95.
É bem intuitivo que a probabilidade de doença deve ter aumentado após este
resultado e a questão aqui é quantificar este aumento. Usando o teorema de
Bayes segue que
P (A|B) = P (B|A)P (A)
P (B|A)P (A) + P (B|A)P (A)
=
(0, 95)(0, 7)
(0, 95)(0, 7) + (0, 40)(0, 30)
= 0, 847.
Exemplo 2.3 : No Exemplo 2.1 suponha que foram retiradas 2 bolas brancas
mas não sabemos se as retiradas foram com ou sem reposição. Definindo o evento
A=’retiradas com reposição’ gostariamos de calcular a probabilidade de A à luz
do resultado do experimento (B ∩ B). Suponha que antes do sorteio não temos
informação sobre o tipo de experimento (com ou sem reposição) e atribuimos a
probabilidade a priori P (A) = 0, 5. Usando o Teorema de Bayes obtemos que
P (A|BB) = P (BB|A)P (A)
P (BB|A)P (A) + P (BB|A)P (A)
=
0, 16 × 0, 5
0, 16 × 0, 5 + 0, 1 × 0, 5 = 0, 615.
Assim, é mais provável agora (a posteriori) que o experimento tenha sido com
reposição.
Em muitas situações podemos estar interessados em comparar probabilidades
a posteriori através da razão
P (Ai|B)
P (Aj|B)
,
ou seja, quanto o evento Ai é mais provável do que o evento Aj após observar o
30 CAPÍTULO 2. PROBABILIDADES
evento B? Aplicando o teorema de Bayes ao numerador e denominador e notando
que P (B) se cancela obtemos que
P (Ai|B)
P (Aj|B)
︸ ︷︷ ︸
razão de chances
a posteriori
=
P (B|Ai)
P (B|Aj)
︸ ︷︷ ︸
fator de Bayes
P (Ai)
P (Aj)
.
︸ ︷︷ ︸
razão de chances
a priori
No Exemplo 2.2, ter a doença era 2,33 vezes mais provável do que não ter a
doença antes de realizar o teste. Após realizar o teste e obter resultado positivo,
o fator de Bayes indicou que ter a doença era 2,375 vezes mais plauśıvel do que
não ter. Combinando estas duas informações conclui-se que ter a doença ficou
5,54 vezes mais provável a posteriori.
No exemplo 2.3 temos que
P (A|BB)
P (A|BB)
=
0, 615
1 − 0, 615 = 1, 597
ou seja, é 1,597 mais provável que o experimento tenha sido com reposição.
2.5 Problemas
1. Sejam os eventos S = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, A = {1, 2, 3, 4, 5}, B =
{2, 3, 5, 6} e {3, 4, 5, 6}. Obtenha A, A ∩ B, A ∩ C, A ∩ B, e A ∩ B.
2. Sejam os eventos A1, . . . , Ak tais que A1 ∪ · · · ∪ Ak = S e Ai ∩ Aj = ∅,
i 6= j. Para um evento B qualquer verifiqueque B ∩ Ai são mutuamente
exclusivos.
3. Duas moedas são lançadas. Escreva o espaço amostral para este experi-
mento e liste os seguintes eventos,
(a) pelo menos duas caras
(b) exatamente duas caras
(c) o complementar do item anterior
Agora calcule as probabilidades dos eventos acima.
4. Suponha que 300 estudantes de uma universidade foram classificados o sexo
e sua área de estudo. Obteve-se a distribuição de frequências abaixo.
Se um estudante for selecionado ao acaso calcule,
2.5. PROBLEMAS 31
Area
Sexo Biologicas Exatas Sociais
masculino 50 58 54
feminino 43 34 90
(a) a probabilidade de que seja do sexo feminino e das ciencias sociais.
(b) a probabilidade de que seja do sexo masculino e não seja das ciências
biológicas.
(c) a probabilidade de que seja do sexo masculino dado que é da área de
exatas.
5. Considere o lançamento de dois dados e os seguintes eventos A: soma dos
números obtidos igual a 6 e B: número obtido no primeiro dado maior ou
igual a 3.
(a) Enumere os elementos de A e B.
(b) Obtenha A ∪ B, A ∩ B e B.
(c) Calcule as probabilidades dos eventos no item anterior.
6. Dois dados são lançados e observa-se S, a soma dos valores obtidos nas
faces.
(a) Calcule a probabilidade da soma ser menor do que 8 sabendo que é
um número ı́mpar.
(b) Os dados são lançados até que se obtenha soma 7 ou 8. Calcule a
probabilidade do evento A = {S = 7} sabendo que o experimento
terminou.
7. Dois eventos independentes A e B ocorrem com probabilidades p e q, res-
pectivamente. Qual a probabilidade de que
(a) nenhum destes eventos ocorra?
(b) pelo menos um destes eventos ocorra?
8. Dois eventos independentes A e B são tais que P (A) = 0, 4, P (B) = p e
P (A ∪ B) = 0, 7. Para que valores de p os eventos serão:
(a) mutuamente exclusivos,
(b) independentes.
32 CAPÍTULO 2. PROBABILIDADES
9. Duas máquinas operam de forma independente em uma linha de produção.
Em um peŕıodo de 8 horas as probabilidades de que cada uma delas apre-
sente defeito são 1/3 e 1/4. Qual a probabilidade de que pelo menos uma
das máquinas apresente defeito neste peŕıodo?
10. Um dado é viciado de tal forma que a probabilidade de sair uma face é
proporcional ao seu valor, i.e. P (face x) ∝ x. Calcular:
(a) A probabilidade de sair 5, sabendo-se que a face que saiu é ı́mpar.
(b) A probabilidade de sair um número par, sabendo-se que saiu um
número maior que 3.
11. Expresse as seguintes afirmações em termos de operações entre eventos.
(a) A ocorre mas B não ocorre.
(b) Exatamente um dos eventos A e B ocorre.
(c) Nenhum dos dois eventos ocorre.
(d) No máximo um deles ocorre.
12. Se A e B são eventos independentes mostre que também são independentes
A e B, A e B, A e B.
13. Se A, B e C são eventos independentes verifique se
(a) A e B ∪ C são independentes,
(b) A ∩ B e A ∩ C são independentes.
14. Um médico, ao examinar uma pessoa, “desconfia” que ela possa ter uma
certa doença e assume que a probabilidade do paciente ter a doença é 0,7.
Para aumentar sua quantidade de informação o médico aplica um teste, que
dá resultado positivo em 40% das pessoas sadias e em 95% das pessoas com
esta doença.
(a) Qual a probabilidade do teste dar resultado positivo?
(b) Sabendo-se que o teste deu resultado positivo qual a probabilidade
desta pessoa estar doente?
(c) Foi aplicado um segundo teste que dá resultado positivo com pro-
babilidades 0,04 e 0,98 em pessoas sadias e doentes respectivamente.
Calcule a probabilidade deste teste dar positivo e a probabilidade de
doença sabendo que ele deu negativo.
2.6. ALGUMAS DISTRIBUIÇÕES DE PROBABILIDADE 33
15. Um componente eletrônico está sendo testado e sabe-se que ele pode ter
sido produzido por máquinas do tipo I, II ou III com probabilidades 0,35,
0,25 e 0,40 respectivamente. Sabe-se também que as probabilidades deste
componente ser defeituoso são 0,01, 0,02 e 0,03 respectivamente para cada
tipo de máquina. Calcule a probabilidade deste componente eletrônico
(a) Defina os eventos e enumere as probabilidades fornecidas no problema.
(b) Qual a probabilidade deste componente eletrônico não ter sido fabri-
cada por uma máquina do tipo I?
(c) Qual a probabilidade dele ser defeituoso?
(d) Qual a probabilidade dele ter sido fabricado por uma máquina do tipo
II sabendo-se que é defeituoso?
16. Uma empresa de crédito precisa saber como a inadimplência está distribúıda
entre seus clentes. Sabe-se que um cliente pode pertencer à uma de 4 clas-
ses distintas com probabilidades 0,50, 0,20, 0,20 e 0,10 respectivamente.
Para cada uma destas classes as probabilidade de um cliente estar inadim-
plente são 0,30, 0,10, 0,05 e 0,05 respectivamente. Um cliente é sorteado
aleatoriamente.
(a) Defina os eventos e enumere as probabilidades fornecidas no problema.
(b) Calcule a probabilidade de pertencer às classes A ou B.
(c) Calcule a probabilidade de estar inadimplente e pertencer à classe A.
(d) Qual a probabilidade dele estar inadimplente ?
(e) Sabendo que ele está inadimplente, qual a probabilidade dele pertencer
à classe B?
17. Sejam duas moedas, uma honesta e a outra com 2 caras. Uma destas
moedas foi sorteada e lançada.
(a) Se o resultado foi cara, qual a probabilidade de ter sido usada a moeda
honesta?
(b) A moeda selecionada foi lançada novamente e o resultado foi cara.
Qual a probabilidade de ser a moeda honesta?
2.6 Algumas distribuições de probabilidade
Nesta seção estudaremos alguns modelos teóricos que se adequam a uma série
de problemas práticos. Veremos que estes modelos envolvem parâmetros cujo
34 CAPÍTULO 2. PROBABILIDADES
conhecimento é necessário para calcular probabilidades. Vale notar que na maio-
ria dos problemas reais estes parâmetros serão desconhecidos e será preciso fazer
algum tipo de inferência sobre eles, e este assunto será abordado no próximo
caṕıtulo. Por enquanto vamos assumir que estes parâmetros são conhecidos e nos
concentrar nas principais caracteŕısticas dos modelos apresentados.
2.6.1 A distribuição Uniforme Discreta
Suponha um experimento com um número finito de posśıveis resultados e cada um
deles com a mesma probabilidade de ocorrer. Definindo uma variável aleatória
(v.a) X cujos posśıveis valores {x1, . . . , xk} estão associados aos resultados deste
experimento, então
P (X = xi) =
1
k
, i = 1, . . . , k.
O valor médio (ou valor esperado) é E(X) = (1/k)
∑k
i=1 xi e sua variância é
V ar(X) =
1
k
k∑
i=1
[xi − E(X)]2 =
1
k
[
k∑
i=1
x2i − kE(X)2]
2.6.2 A distribuição Binomial
Em muitos experimentos os posśıveis resultados apresentam ou não uma deter-
minada caracteŕıstica. Esta caracteŕıstica será muitas vezes determinada pelo
pesquisador dependendo dos objetivos do experimento. Por exemplo, se uma
pessoa for escolhida ao acaso dentre 1000 podemos estar interessados apenas se
ela é do sexo masculino ou não. Neste tipo de experimento estaremos interessados
na ocorrência de um sucesso ou falha e esta terminologia será utilizada daqui em
diante. É usual denotar a probabilidade de sucesso por p, isto é P (sucesso) = p
e portanto P (fracasso) = 1 − p.
Podemos definir uma variável aleatória (v.a) X como a variável indicadora de
sucesso em um experimento binário, i.e.
X =
{
1, se ocorre sucesso
0, se ocorre fracasso
e a probabilidade de X assumir cada um dos seus posśıveis valores é
P (X = x) =
{
px(1 − p)1−x se x = 0, 1
0 caso contrário.
2.6. ALGUMAS DISTRIBUIÇÕES DE PROBABILIDADE 35
Dizemos que X tem distribuição de Bernoulli com parâmetro p ou equivalente-
mente X ∼ Bernoulli(p), 0 < p < 1.
Suponha agora que n experimentos (ou ensaios) independentes, são executa-
dos, onde n é um número fixo, e que cada experimento resulta num sucesso com
probabilidade p ou numa falha com probabilidade 1− p. Ou seja, o experimento
consiste na observação das v.a. X1, . . . , Xn onde Xi ∼ Bernoulli(p), i = 1, . . . , n.
Frequentementeestaremos interessados no número total de sucessos obtidos,
independente da ordem em que eles ocorrem. Por exemplo, uma moeda é lançada
10 vezes e o número total de caras é contado (aqui “cara” é um sucesso).
O número total de sucessos, Y =
∑n
i=1 Xi, cujos posśıveis valores são
0, 1, . . . , n é uma variável aleatória com distribuição binomial com parâmetros
n e p, ou Y ∼ Binomial(n, p). As probabilidades de cada um destes posśıveis
valores são dadas por
P (Y = k) =
(
n
k
)
pk(1 − p)n−k, k = 0, 1, . . . , n (2.1)
sendo (
n
k
)
=
n!
k!(n − k)!
e m! =
∏m
i=1 i é o fatorial de m (define-se 0! = 1). Além disso, o número médio (ou
esperado) de sucessos é E(Y ) = np e a variância é V ar(Y ) = np(1−p). Na Figura
2.1 estão representadas graficamente distribuições Binomiais com probabilidades
de sucesso p=0,2, 0,5, 0,7 e 0,9. Note como a distribuição é simétrica em torno
da média quando p = 1/2 e é assimétrica para os outros valores de p.
Exemplo 2.4 : Em uma linha de montagem estima-se que a proporção de itens
defeituosos é aproximadamente 0,1. Se esta proporção é (aproximadamente) cons-
tante ao longo do processo e 20 itens são selecionados de forma independente
então o número médio ou esperado de defeituosos é 2 com variância 1,8 itens2.
Definindo a v.a. Y : número de itens defeituosos podemos calcular por exemplo
a probabilidade de no máximo 2 itens defeituosos como
P (Y ≤ 2) = P (Y = 0) + P (Y = 1) + P (Y = 2)
=
(
20
0
)
0, 10 0, 920 +
(
20
1
)
0, 11 0, 919 +
(
20
2
)
0, 12 0, 918
= 0, 1216 + 0, 2702 + 0, 2852 = 0, 677.
36 CAPÍTULO 2. PROBABILIDADES
2.6.3 A distribuição de Poisson
Um outro modelo bastante utilizado em aplicações práticas é a distribuição de
Poisson. Ela é frequentemente usada para modelar dados de contagem, i.e. o
número de ocorrências de um certo fenômeno, durante um intervalo fixo de tempo
ou região fixa do espaço. Alguns exemplos são: o número de chamadas recebidas
por uma central telefônica durante uma hora, o número de defeitos por unidade
de comprimento de uma fita magnética, o número de nmetóides encontrados por
unidade de superf́ıcie de solo, o número diário de novos casos de câncer de mama,
etc.
Neste caso, o número de ocorrências X por intervalo fixo (de tempo ou espaço)
tem distribuição de Poisson e a probabilidade de exatamente k ocorrências é dada
por
P (X = k) =
λke−λ
k!
, λ > 0, k = 0, 1, . . . . (2.2)
sendo e a base do logaritmo natural (e = 2, 71828 . . . ).
A constante λ (que é sempre positiva) pode ser interpretada como o número
esperado (ou número médio) de ocorrências por unidade de tempo ou espaço.
Assim, a média de uma variável aleatória com distribuição de Poisson é igual a
λ e pode-se mostrar que a variância é igual a sua média,
E(X) = V ar(X) = λ.
Na Figura 2.2 estão representadas graficamente distribuições de Poisson com
média λ=1, 2, 5 e 15.
Exemplo 2.5 : O número de part́ıculas radioativas emitidas em cada intervalo
de 5 segundos tem distribuição de Poisson e sabe-se que em média 2 part́ıculas
são emitidas por intervalo. Se forem observados 10 intervalos de tempo qual a
probabilidade de que em cada um deles menos de 3 part́ıculas sejam emitidas?
Neste caso, podemos definir a v.a. X como o número de part́ıculas emitidas
por intervalo sendo que o número médio de emissões é λ=2. Portanto X tem
distribuição de Poisson com parâmetro igual a 2 e queremos calcular P (X < 3).
Mas,
P (X < 3) = P (X = 0) + P (X = 1) + P (X = 2) =
20e−2
0!
+
21e−2
1!
+
22e−2
2!
= 0, 1351 + 0, 2707 + 0, 2707 = 0, 6767.
Esta é a probabilidade de emissão de menos de 3 part́ıculas em um intervalo de
2.6. ALGUMAS DISTRIBUIÇÕES DE PROBABILIDADE 37
tempo. Portanto, para 10 intervalos a probabilidade será 0, 676710 = 0, 0201.
A distribuição de Poisson também pode ser vista como uma aproximação para
a distribuição binomial quando n é grande e p é pequeno. Assim, intuitivamente
podemos dizer que a distribuição de Poisson pode ser usada no estudo de eventos
raros, i.e. com pequena probabilidade de ocorrência, quando o experimento é
repetido um número grande de vezes. Neste caso o número médio de ocorrências
é λ = np. Na prática esta aproximação é geralmente utilizada quando n ≥ 50 e
np < 5.
Exemplo 2.6 : Sabe-se que a proporção de pessoas com uma certa doença em
uma população é 0,01. Em uma amostra aleatória de 200 pessoas qual a proba-
bilidade de que pelo menos 4 delas tenham esta doença?
Podemos assumir que a distribuição exata do número X de pessoas com a
doença dentre estas 200 é binomial com parâmetros n = 200 e p = 0, 01. Como
n > 50 e np = 2 < 5 podemos aproximá-la pela distribuição de Poisson com
parâmetro λ = np = 2. Neste caso a probabilidade pedida é
P (X ≥ 4) =
∞∑
k=4
P (X = k) = 1 − P (X < 4)
= 1 − [P (X = 0) + P (X = 1) + P (X = 2) + P (X = 3)]
= 1 −
[
20e−2
0!
+
21e−2
1!
+
22e−2
2!
+
23e−2
3!
]
= 1 − (0, 1353 + 0, 2707 + 0, 2707 + 0, 1804) = 0, 1428.
Note que P (X ≥ 4) é uma soma infinita e foi mais fácil calcular a probabilidade
do complementar.
Finalmente, uma propriedade importante é que se temos n v.a. X1, . . . , Xn
independentes e cada uma delas com distribuição Poisson(λ) então
X = X1 + · · · + Xn ∼ Poisson(nλ)
e
X =
X1 + · · ·+ Xn
n
tem média igual a λ e vriância igual a λ/n.
38 CAPÍTULO 2. PROBABILIDADES
2.6.4 Distribuição Geométrica
A distribuição geométrica também está relacionada a experimentos dicotômicos
realizados de forma independente e com a mesma probabilidade de sucesso. O
evento de interesse neste caso é o número de experimentos X necessários para a
ocorrência do primeiro sucesso. Por exemplo o número de inspeções necessárias
até encontrar-se um item defeituoso em um lote.
A probabilidade de que exatamente k experimentos sejam necessários até a
ocorrência do primeiro sucesso é dada por
P (X = k) = (1 − p)k−1p, k = 1, 2, . . . .
Também pode-se mostrar que o número médio de repetições do experimento
até ocorrer o primeiro sucesso é E(X) = (1 − p)/p e a variância é V ar(X) =
(1 − p)/p2 = E(X)/p. Ou seja, quanto menor a probabilidade de sucesso menor
será o número esperado de repetições para que ele ocorra.
Exemplo 2.7 : Um motorista vê uma vaga de estacionamento em uma rua. Há
cinco carros na frente dele, e cada um deles tem probabilidade 0,2 de tomar a vaga.
Qual a probabilidade de a vaga ser tomada pelo carro que está imediatamente a
frente dele?
Neste caso, podemos definir a v.a. X como o número de carros que pas-
sam pela vaga até que ela seja tomada (este é o evento definido como sucesso).
Assume-se também que cada motorista toma a vaga ou não de forma indepen-
dente. Ou seja queremos calcular
P (X = 5) = (0, 8)4 0, 2 = 0, 082.
2.6.5 Variáveis Aleatórias Discretas
Os modelos vistos até agora são chamados distribuições de probabilidade dis-
cretas já que a v.a. associada assume valores em um conjunto finito ou infinito
enumerável. Neste caso, probabilidades são calculadas como somas, i.e.
P (X ∈ A) =
∑
k∈A
P (X = k),
2.6. ALGUMAS DISTRIBUIÇÕES DE PROBABILIDADE 39
para um conjunto A qualquer. Para distribuições discretas de probabilidade
também é sempre posśıvel mostrar que
∑
k
P (X = k) = 1.
As definições de valor esperado (ou valor médio) e variância também podem
ser generalizados para qualquer v.a. discreta X. Usaremos a seguinte notação,
E(X) = µX =
∑
k
kP (X = k)
V ar(X) = σ2X =
∑
k
P (X = k) (k − µX)2
para valor médio e variância respectivamente. O equivalente teórico ao conceito
de frequências acumuladas vistas no Caṕıtulo 1 é a função de distribuição acu-
mulada ou simplesmente função de distribuição definida como,
F (x) = P (X ≤ x) =
∑
k≤x
P (X = k), ∀x ∈ R
Exemplo 2.8 : Em um experimento 5 peças foram inspecionadas e a v.a. X
representao número de peças defeituosas com a seguinte distribuição de proba-
bilidades
x 0 1 2 3 4 5
P (X = x) 0,35 0,45 0,1 0,05 0,04 0,01
Neste caso podemos calcular o número médio de defeituosos e a variância
como
E(X) = 0× 0, 35 + 1× 0, 45 + 2× 0, 1 + 3× 0, 05 + 4× 0, 04 + 5× 0, 01 ≈ 1 peça
V ar(X) = (0 − 1)20, 35 + (1 − 1)20, 45 + (2 − 1)20, 1 + (3 − 1)20, 05
+ (4 − 1)20, 04 + (5 − 1)20, 01 ≈ 0, 9 peças2
Exemplo 2.9 : Um empresário vai abrir uma nova filial de sua empresa. Com
base na experiência sobre outras filiais e outras empresas do ramo o lucro foi
representado como uma v.a. discreta com a distribuição abaixo.
40 CAPÍTULO 2. PROBABILIDADES
lucro -100 0 50 100 200
P (lucro = k) 0,05 0,05 0,30 0,50 0,10
E(Lucro) = −1000, 05 + 00, 05 + 500, 30 + 1000, 50 + 2000, 10 = 80.
A seguir estudaremos distribuições de probabilidade chamadas cont́ınuas
quando a v.a. associada assume valores no conjunto dos números reais.
2.6.6 A Distribuição Uniforme Cont́ınua
A forma mais simples de modelar um fenômeno aleatório cujos valores ocorrem
no intervalo (a, b) da reta dos reais é através de uma v.a. X cuja probabilidade
de pertencer a qualquer subintervalo de (a, b) seja proporcional ao comprimento
do subintervalo. Matematicamente, se (c, d) ⊆ (a, b) então
P (c ≤ X ≤ d) ∝ d − c.
Isto significa que função de densidade de probabilidade de X deve ser escrita
como
f(x) =



1
b − a, a ≤ x ≤ b
0, caso contrário
Deste modo, P (c ≤ X ≤ d) = (d − c)/(b − a). Pode-se mostrar também que
E(X) = (a + b)/2 e V ar(X) = (b − a)2/12.
Exemplo 2.10 : Seja X uma v.a. com distribuição uniforme no intervalo (-1,4).
Então a função de densidade de probabilidade de X é
f(x) =
{
1/5, −1 ≤ x ≤ 4
0, caso contrário
e também P (0 ≤ X ≤ 2) = 2/5.
2.6.7 A Distribuição Normal
A distribuição normal é a mais familiar das distribuições de probabilidade e
também uma das mais importantes em Estat́ıstica. Esta distribuição é carac-
terizada por uma função de densidade de probabilidade cujo gráfico tem uma
forma de sino como na Figura 2.3.
2.6. ALGUMAS DISTRIBUIÇÕES DE PROBABILIDADE 41
Esta distribuição é apropriada para modelar variáveis aleatórias cont́ınuas,
que assumem valores em algum subconjunto dos números reais. Neste caso, só
faz sentido falar na probabilidade da variável pertencer a um certo intervalo [a, b]
que é dada pela área sob a curva e dentro deste intervalo.
A equação da curva normal é especificada usando dois parâmetros: a média
µ, e o desvio padrão σ, ou equivalentemente a variância σ2. Denotamos N(µ, σ2)
à curva normal com média µ e variância σ2. A média refere-se ao centro da
distribuição e o desvio padrão ao grau de espalhamento de curva. A distribuição
normal é simétrica em torno da média o que implica que a média, a mediana e a
moda são todas coincidentes. Para referência, a equação da curva é dada por
f(x) =
1√
2πσ2
exp
{
−(x − µ)
2
2σ2
}
, µ ∈ R, σ2 > 0. (2.3)
O importante é que se entenda como a curva é afetada pelos valores numéricos
de µ e σ. A forma da curva é mostrada na Figura 2.4 para alguns valores da média
e desvio padrão.
A área sob a curva normal (na verdade abaixo de qualquer função de densidade
de probabilidade) é 1. Então, para quaisquer dois valores espećıficos podemos
determinar a proporção de área sob a curva entre esses dois valores. Em particular
para a distribuição normal, a proporção de valores localizados dentro de um, dois,
ou três desvios padrão em torno da média são:
Intervalo Proporção
µ ± 1σ 68,3%
µ ± 2σ 95,5%
µ ± 3σ 99,7%
Um exemplo de como utilizar este resultado é o seguinte.
Exemplo 2.11 : Suponha que os comprimentos de um particular tipo de peixe
podem ser descritos por uma distribuição normal, com média 140mm e desvio
padrão 15mm. Neste caso, a proporção dos peixes que têm comprimentos entre
110mm e 170mm, por exemplo, é a proporção da área sob a curva normal entre
110 e 170. Então neste exemplo, cerca de 95% dos peixes tem comprimentos entre
110mm e 170mm. Em termos probabiĺısticos, se a variável aleatória X representa
o comprimento dos peixes e se um peixe for selecionado ao acaso então
P (µ − 2σ < X < µ + 2σ) = P (110 < X < 170) = 0, 95.
Em geral as probabilidades são obtidas calculando-se a integral definida da
42 CAPÍTULO 2. PROBABILIDADES
função f(x) em (2.3), i.e.
P (a < X < b) =
∫ b
a
f(x)dx.
Neste caso, P (X = x) = 0 e portanto segue que
P (a < X < b) = P (a ≤ X < b) = P (a < X ≤ b) = P (a ≤ X ≤ b).
Na prática desejamos calcular probabilidades para diferentes valores de µ e
σ. Para isso, a variável X cuja distribuição é N(µ, σ2) é transformada numa
forma padronizada Z com distribuição N(0, 1) (distribuição normal padrão) pois
tal distribuição é tabelada. A quantidade Z é dada por
Z =
X − µ
σ
(2.4)
Exemplo 2.12 : A concentração de um poluente em água liberada por uma
fábrica tem distribuição normal com média 8 ppm e desvio padrão 1,5 ppm.
Qual a probabilidade, de que num dado dia, a concentração do poluente exceda
o limite regulatório de 10 ppm?
A solução deste problema resume-se em determinar qual proporção da dis-
tribuição está acima de 10 ppm. Assim, definindo a v.a. X como sendo a con-
centração do poluente na água segue que X ∼ N(9; 1, 52), e devemos calcular
P (X > 10). Usando a estat́ıstica Z temos que
P (X > 10) = P
(
Z >
10 − 8
1, 5
)
= P (Z > 1, 33) = 1 − P (Z ≤ 1, 33)
= 0, 5 − P (0 < Z < 1, 33)
Consultando a tabela da distribuição normal padronizada obtemos que
P (0 < Z < 1, 33) = 0, 4082 e assim P (X > 10) = 0, 0918. Portanto, espera-
se que a água liberada pela fábrica exceda os limites regulatórios cerca de 9% do
tempo.
Vale notar que a propriedade de simetria da curva normal em torno da média
é bastante útil no cálculo de probabilidades. Por exemplo, se X tem distribuição
N(µ, σ2) então, para quaisquer valores de µ, σ2 e h > 0,
1. P (X > µ) = P (X < µ) = 0, 50 uma vez que a área total abaixo da curva é
igual a 1.
2.6. ALGUMAS DISTRIBUIÇÕES DE PROBABILIDADE 43
2. P (X > µ + h) = P (X < µ − h).
2.6.8 Distribuição Exponencial
Frequentemente usada para modelar o tempo entre eventos que ocorrem a uma
taxa média constante. Se X é uma v.a. com distribuição exponencial sua função
de densidade de probabilidade tem a forma
f(x) = λe−λx, x > 0, λ > 0, (2.5)
sendo λ o parâmetro da distribuição. Usamos a notação X ∼ Exponencial(λ).
Pode-se mostrar que o valor médio de X é 1/λ e sua variância é 1/λ2. Probabi-
lidades são facilmente calculadas como
P (a < X < b) =
∫ b
a
λe−λxdx = e−λa − e−λb
Na Figura 2.5 estão representadas graficamente as funções de densidade (2.5)
com λ=1, 2, e 0,5.
Exemplo 2.13 : Em uma empresa os acidentes de trabalho ocorrem a uma taxa
média de 0,1 por dia. Seja T o tempo (em dias) até a ocorrência do primeiro
acidente, então T tem distribuição exponencial com parâmetro λ = 0, 1. Assim,
o tempo médio até ocorrer o primeiro acidente é igual a 10 dias (E(T )=10). A
probabilidade de não haver acidentes em uma semana de trabalho (de 5 dias) é
dada por
P (T > 5) =
∫ ∞
5
0, 1e−0,1tdt = e−0,1×5 ≈ 0, 607.
O modelo exponencial tem inúmeras aplicações práticas, por exemplo em
teoria das filas (tempo entre chegadas de clientes em um sistema), confiabilidade
(tempo até a falha de um equipamento), etc.
2.6.9 Variáveis Aleatórias Cont́ınuas
Estes últimos modelos são chamados distribuições de probabilidade cont́ınuas
já que a v.a. associada assume valores em um conjunto infinito. Neste caso,
probabilidades são calculadas como integrais, i.e.
P (X ∈ A) =
∫
A
f(x)dx,
44 CAPÍTULO 2. PROBABILIDADES
para um conjunto A ⊂ R qualquer. Também é sempre posśıvel mostrar que
∫ ∞
−∞
f(x)dx = 1.
As definições de valor esperado (ou valor médio) e variância também podem
ser generalizados paraqualquer v.a. cont́ınua X,
E(X) = µX =
∫ ∞
−∞
xf(x)dx
V ar(X) = σ2X =
∫ ∞
−∞
f(x) (x − µX)2.
Neste caso a função de distribuição acumulada é definida como
F (x) = P (X ≤ x) =
∫ x
−∞
f(t)dt, ∀x ∈ R
2.6.10 Problemas
1. Mostre que as funções abaixo são funções de densidade de probabilidade e
determine o valor da constante k.
(a) f(x) = kx2 para 0 < x < 4.
(b) f(x) = k(1 + 2x) para 0 < x < 2.
(c) f(x) = k exp(−x) para x > 0.
2. Considerando a função de densidade no item (b) do problema 1.
(a) Calcule P (X > 1, 5).
(b) Calcule P (0, 7 < X < 1, 2).
(c) Calcule o valor esperado de X.
(d) Calcule a variância de X.
(e) Calcule a mediana de X.
(f) Calcule os quartis da distribuição de X.
3. A função de distribuição acumulada de uma certa variável aleatória é
F (x) =



0, x < −2
0, 25x + 0, 5, −2 ≤ x < 2
x x ≥ 2
2.7. AJUSTE DE MODELOS TEÓRICOS 45
(a) Calcule P (X < 1, 8)
(b) Calcule P (X > −1, 5)
(c) Calcule P (X < −2)
(d) Calcule P (−1 < X < 1)
(e) Calcule a média e mediana de X
2.7 Ajuste de Modelos Teóricos
Um problema de grande importância prática é o ajuste de distribuições teóricas
às distribuições dos dados observados. Em outras palavras, queremos saber se
a distribuição das frequências observadas nos dados segue o padrão de algum
modelo teórico (normal, binomial, etc.). Nos exemplos a seguir veremos como
fazer este ajuste.
Exemplo 2.14 : Em uma amostra de 100 lotes com 5 itens cada um, verificou-se
que o número de itens defeituosos tem a seguinte distribuição de frequências,
Tabela 2.1: Frequências observadas para os dados de itens defeituosos.
no de defeituosos 0 1 2 3 4 5 total
no de lotes 75 21 3 1 0 0 100
Podemos ajustar uma distribuição binomial a estes dados com n = 5 e p a
probabilidade de um item ser defeituoso. Neste caso a média teórica é np = 5p
e o número médio de itens defeituosos observados é x̄ = 0, 3. Igualando as duas
médias obtemos que 5p = 0, 3, e portanto p = 0, 06. Assim, se X representa o
número de itens defeituosos em cada lote, a distribuição binomial ajustada será,
P (X = k) =
(
5
k
)
(0, 06)k(0, 94)5−k, k = 0, 1, 2, 3, 4, 5.
Agora podemos calcular as frequências teóricas (ou ajustadas) e comparar
com aquelas observadas, como na Tabela 2.2 a seguir.
Com base nesta tabela podemos afirmar que o modelo binomial parece ser
adequado já que as frequências observadas ficaram muitos próximas das ajusta-
das. Em outras palavras, aquilo que foi observado parece estar de acordo com o
modelo teórico.
46 CAPÍTULO 2. PROBABILIDADES
Tabela 2.2: Frequências ajustadas e observadas para os dados de itens defeituosos.
frequências
no de defeituosos (k) P (X = k) ajustada observada
0 0,7339 73 75
1 0,2342 23 21
2 0,0299 3 3
3 0,0019 0 1
4 0,0001 0 0
5 0,0000 0 0
Tabela 2.3: Frequências observadas de defeitos em 300 itens.
no de defeitos 0 1 2 3 4 total
no de itens 80 122 53 31 14 300
Exemplo 2.15 : Em uma amostra de 300 itens, o número de defeitos observados
em cada um deles tem a distribuição de frequências dada na Tabela 2.3 abaixo.
Podemos pensar em ajustar uma distribuição de Poisson com parâmetro (λ)
dado pelo número médio de defeitos observados por item. Neste caso a média
amostral é x̄ = 1, 26, e portanto se X representa o número de defeitos por item
então a distribuição ajustada será,
P (X = k) =
(1, 26)ke−1,26
k!
, k = 0, 1, . . .
A partir deste modelo podemos calcular as frequências ajustadas, e obtemos
a Tabela 2.4 a seguir.
Podemos dizer que o modelo ainda parece adequado embora as frequências
observadas não estejam mais tão próximas das ajustadas (como no exemplo an-
terior). Nos próximos caṕıtulos veremos como testar esta adequação mais for-
malmente.
Exemplo 2.16 : Em um determinada seção de um rio foram efetuadas 1000
medições de sua vazão (em m3/s), e obteve-se a distribuição apresentada na
Tabela 2.5 abaixo.
Podemos ajustar uma distribuição normal com parâmetros (média e variância)
dados pela média amostral e variância amostral respectivamente. Neste caso,
2.7. AJUSTE DE MODELOS TEÓRICOS 47
Tabela 2.4: Frequências ajustadas e observadas para os dados de defeitos por
item.
frequências
no de defeitos (k) P (X = k) ajustada observada
0 0,28 85 80
1 0,36 107 122
2 0,23 68 53
3 0,09 28 31
4 0,03 9 14
Tabela 2.5: Frequências observadas para os dados de vazão agrupados em classes.
classes de vazão frequência observada
10-14 55
14-18 126
18-22 325
22-26 315
26-30 130
30-34 49
x̄ = 21, 9 e s = 4, 71 e portanto se X representa as medições de vazão então X
tem distribuição N(21, 9; 4, 712) (esta é a distribuição ajustada). Calculado as
probabilidades de obter uma medição em cada uma das classes podemos construir
a Tabela 2.6 com as frequências ajustadas.
A probabilidade da primeira classe foi obtida calculando-se
P (10 < X < 14) = P
(
10 − 21, 9
4, 71
< Z <
14 − 21, 9
4, 71
)
= P (−2, 53 < Z < −1, 68) = P (1, 68 < Z < 2, 53)
= P (Z < 2, 53) − P (Z < 1, 68) = 0, 9945− 0, 9535 = 0, 041
e este cálculo foi repetido para as outras classes.
Novamente parece razoável afirmar que o modelo é adequado para estes da-
dos uma vez que as frequências observadas ficaram relativamente próximas das
ajustadas.
48 CAPÍTULO 2. PROBABILIDADES
Tabela 2.6: Frequências ajustadas e observadas para os dados de vazão agrupados
em classes.
frequências
classes de vazão Probabilidades das classes ajustada observada
10-14 0,041 41 55
14-18 0,157 157 126
18-22 0,305 305 325
22-26 0,300 300 315
26-30 0,150 150 130
30-34 0,038 38 49
2.8 Problemas
1. Suponha que a variável aleatória X possa assumir os seguintes valores -3,-
2,-1,0,1,2,3 com a mesma probabilidade. Determine distribuição de proba-
bilidades de Y = X2 − X.
2. Considere um modelo uniforme discreto para a v.a. X no conjunto
{1, 2, . . . , 10}. Calcule P (3 ≤ X < 7) e P (X ≤ 9|X ≥ 6).
3. A probabilidade de um atirador acertar no alvo num único tiro é 1/4. Se o
atirador atira 20 vezes no alvo qual a probabilidade de acertar
(a) exatamente 5 vezes;
(b) pelo menos 3 vezes;
(c) nenhuma vez;
(d) no máximo 2 vezes.
4. Um professor aplica um teste do tipo certo-errado com 20 questões. Calcule
a probabilidade de um aluno acertar mais de 80% das questões supondo que
ele está respondendo ao acaso.
5. O número de part́ıculas alfa emitidas por segundo em sedimentos radioati-
vos pode ser descrito por uma distribuição Poisson com média 6.
(a) Qual a probabilidade de não haver nenhuma part́ıcula emitida num
dado segundo?
(b) Qual a probabilidade de pelo menos quatro part́ıculas serem emitidas
num segundo?
2.8. PROBLEMAS 49
6. O número médio de colônias de bactérias por 10 ml de água retirada de um
lago é igual a 3.
(a) Qual a probabilidade de se achar pelo menos duas colônias em 10 ml
de água deste lago?
(b) Qual a probabilidade de não se achar nenhuma colônia em 10 ml de
água deste lago?
7. Um curso de especialização garante que 9 em cada 10 alunos seus têm au-
mento de produtividade. Uma empresa decide enviar uma turma de 15
funcionários para fazer o curso e verificar quantos aumentaram a produti-
vidade.
(a) Indique um modelo apropriado para este experimento e diga quais as
hipóteses necessárias para que ele seja válido.
(b) Assumindo que este modelo é válido, qual a probabilidade de que no
máximo 2 funcionários não aumentem sua produtividade ?
(c) O que ocorre com o item anterior se a empresa enviar 100 funcionários
? (Dê uma solução aproximada).
8. A tabela abaixo representa uma distribuição de frequências para o número
de defeitos observados em certo tipo de componente eletrônico.
no defeitos 1 2 3 4 5 6 7
frequência 3 9 8 5 3 1 1
(a) Você diria que a distribuição normal é adequada para modelar estes
dados? (Justifique).
(b) Assumindo que o modelo de Poisson é apropriado calcule a proba-
bilidade de um componente escolhido