Buscar

Livro 03_INTRODUC¸AO A ESTATISTICA(RICADO EHLERS)

Prévia do material em texto

INTRODUÇÃO À ESTATÍSTICA
RICARDO S. EHLERS
Departamento de Estat́ıstica
Universidade Federal do Paraná
Primeira publicação 2002
Segunda edição publicada em 2005
Terceira edição publicada em 2006
c© RICARDO SANDES EHLERS 2002-2006
Prefácio
O objetivo principal deste texto é oferecer um material didático básico em por-
tuguês para um curso de Introdução à Estat́ıstica a ńıvel de graduação. São
apresentados os mais importantes conceitos e métodos de análise estat́ıstica de
dados. O texto se originou de notas de aulas de disciplinas de introdução à Es-
tat́ıstica ministradas para diferentes cursos na Universidade Federal do Paraná.
O manuscrito foi preparado usando o LATEX e todas as ilustrações e tabelas
estat́ısticas foram produzidas no pacote estat́ıstico R (R Development Core Team
2006), gratuito e de código aberto, que pode ser obtido em
http://www.r-project.org/
Este texto certamente não está livre de erros, e comentários e sugestões dos
leitores são bem vindos. Citar este texto como:
Ehlers, R.S. (2005) Introdução à Estat́ıstica. Departamento de Estat́ıstica,
UFPR. Dispońıvel em http://www.est.ufpr.br/˜ ehlers/notas/. Acesso em: 21
nov. 2005.
Ricardo S. Ehlers
Curitiba, novembro de 2005.
i
Sumário
1 Estat́ıstica Descritiva 1
1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Tipos de Variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Variáveis qualitativas . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.4 Variáveis quantitativas . . . . . . . . . . . . . . . . . . . . . . . . 4
1.5 Resumos numéricos . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5.1 Média, variância e desvio padrão . . . . . . . . . . . . . . 9
1.5.2 A mediana e a amplitude inter-quartis . . . . . . . . . . . 11
1.5.3 A moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.6 Dados múltiplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.6.1 Diagramas de dispersão . . . . . . . . . . . . . . . . . . . 15
1.6.2 Dados Pareados . . . . . . . . . . . . . . . . . . . . . . . . 17
1.7 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2 Probabilidades 24
2.1 Experimento aleatório . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2 Definição de probabilidade . . . . . . . . . . . . . . . . . . . . . . 25
2.3 Probabilidade Condicional e Independência . . . . . . . . . . . . . 26
2.4 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.5 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.6 Algumas distribuições de probabilidade . . . . . . . . . . . . . . . 33
2.6.1 A distribuição Uniforme Discreta . . . . . . . . . . . . . . 34
2.6.2 A distribuição Binomial . . . . . . . . . . . . . . . . . . . 34
2.6.3 A distribuição de Poisson . . . . . . . . . . . . . . . . . . 36
2.6.4 Distribuição Geométrica . . . . . . . . . . . . . . . . . . . 38
2.6.5 Variáveis Aleatórias Discretas . . . . . . . . . . . . . . . . 38
2.6.6 A Distribuição Uniforme Cont́ınua . . . . . . . . . . . . . 40
2.6.7 A Distribuição Normal . . . . . . . . . . . . . . . . . . . . 40
2.6.8 Distribuição Exponencial . . . . . . . . . . . . . . . . . . . 43
ii
SUMÁRIO iii
2.6.9 Variáveis Aleatórias Cont́ınuas . . . . . . . . . . . . . . . . 43
2.6.10 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.7 Ajuste de Modelos Teóricos . . . . . . . . . . . . . . . . . . . . . 45
2.8 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3 Estimação 56
3.1 Inferência Estat́ıstica . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.2 Prinćıpios de estimação . . . . . . . . . . . . . . . . . . . . . . . . 57
3.3 Obtendo uma amostra . . . . . . . . . . . . . . . . . . . . . . . . 58
3.4 Teorema Central do Limite . . . . . . . . . . . . . . . . . . . . . . 59
3.5 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.6 Intervalos de Confiança . . . . . . . . . . . . . . . . . . . . . . . . 63
3.6.1 Intervalos de confiança para a média . . . . . . . . . . . . 63
3.6.2 Intervalos de confiança para uma proporção . . . . . . . . 66
3.6.3 Comparação de intervalos de confiança . . . . . . . . . . . 67
3.6.4 Intervalo de Confiança para Variância . . . . . . . . . . . . 68
3.7 Comentário . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.8 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4 Testes de Hipóteses 72
4.1 Introdução e notação . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.1.1 Decisões e poder . . . . . . . . . . . . . . . . . . . . . . . 74
4.2 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.3 Probabilidade de significância (P -valor) . . . . . . . . . . . . . . . 76
4.4 Procedimento geral de teste . . . . . . . . . . . . . . . . . . . . . 77
4.5 Teste para a média . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.6 Teste para a proporção . . . . . . . . . . . . . . . . . . . . . . . . 79
4.7 Testes para a variância da distribuição normal . . . . . . . . . . . 79
4.8 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.9 Dimensionamento de amostras . . . . . . . . . . . . . . . . . . . . 82
4.10 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.11 Testes de Aderência (Testes χ2) . . . . . . . . . . . . . . . . . . . 85
4.12 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.13 Comentários . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5 Comparando Grupos 89
5.1 Diferença entre médias de dois grupos . . . . . . . . . . . . . . . . 89
5.1.1 Desvios padrão iguais . . . . . . . . . . . . . . . . . . . . . 90
5.1.2 Desvios padrão diferentes . . . . . . . . . . . . . . . . . . 91
iv SUMÁRIO
5.2 Comparação de variâncias . . . . . . . . . . . . . . . . . . . . . . 92
5.3 Amostras pareadas . . . . . . . . . . . . . . . . . . . . . . . . . . 93
5.4 Comparando proporções . . . . . . . . . . . . . . . . . . . . . . . 94
5.5 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
6 Correlação e Regressão 99
6.1 Definições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
6.2 Interpretação do coeficiente de correlação . . . . . . . . . . . . . . 101
6.3 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
6.4 Regressão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
6.4.1 Modelo de regressão linear simples . . . . . . . . . . . . . 111
6.4.2 Estimando os parâmetros do modelo . . . . . . . . . . . . 112
6.4.3 Construindo intervalos e testando hipóteses . . . . . . . . 114
6.4.4 Transformações de dados . . . . . . . . . . . . . . . . . . . 115
6.4.5 Representação Matricial . . . . . . . . . . . . . . . . . . . 116
6.4.6 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
6.5 Regressão Linear Múltipla . . . . . . . . . . . . . . . . . . . . . . 118
6.6 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
References 126
A Tabelas Estat́ısticas 127
B Soluções de Exerćıcios Selecionados 136
Caṕıtulo 1
Estat́ıstica Descritiva
1.1 Introdução
A Estat́ıstica está presente em todas as áreas da ciência que envolvam a coleta e
análise de dados e sua consequente transformação em informação, para postular,
refutar ou validar hipóteses cient́ıficas sobre um fenômeno observável. Sendo
assim, a Estat́ıstica pode ser pensada como a ciência de aprendizagem a partir
de dados.
Em linhas gerais, o papel da Estat́ıstica consiste em desenvolver métodos
de análise de dados que auxiliam o processo de tomada de decisão nos mais
variados problemas onde existe incerteza. Em função disto, fica evidente que os
métodos estat́ısticospodem ser empregados em praticamente todas as áreas do
conhecimento, sempre que estiver envolvida a coleta ou análise de dados. Em
ciência, são realizados estudos experimentais ou observacionais que dâo origem a
um conjunto de dados numéricos. O propósito da investigação é responder uma
questão cient́ıfica, mas o padrão de variação nos dados faz com que a resposta
não seja óbvia.
Em geral, a disciplina de Estat́ıstica refere-se a métodos para coleta e descrição
de dados, e para quantificação da evidência nos dados pró ou contra uma questão
cient́ıfica. A presença de uma variação não previśıvel (aleatória) nos dados faz
disso uma tarefa pouco trivial. Neste caṕıtulo serão apresentadas técnicas para
organização e descrição dos dados. No Caṕıtulo 2 serão estudados conceitos asso-
ciados à teoria das probabilidades, necessários para desenvolver os métodos dos
caṕıtulos seguintes. A partir do Caṕıtulo 3 serão estudados métodos estat́ısticos
que auxiliam na tomada de decisões com base nos dados.
1
2 CAPÍTULO 1. ESTATÍSTICA DESCRITIVA
1.2 Tipos de Variáveis
Ao invés de tentar interpretar listas de números é mais informativo produzir
um resumo numérico e usar métodos gráficos para descrever as caracteŕısticas
principais dos dados. O método mais apropriado dependerá da natureza dos
dados, e podemos distinguir dois tipos principais apresentados abaixo.
• Variáveis qualitativas ou categóricas que podem ser:
– nominais, por exemplo sexo (masculino, feminino), classificação de
defeitos em uma máquina.
– ordinais, com categorias ordenadas, por exemplo salinidade (baixa,
média, alta).
• Variáveis quantitativas que podem ser:
– discretos, i.e. contagens ou número inteiros, por exemplo número de
ataques de asma no ano passado.
– cont́ınuos, i.e. medidas numa escala cont́ınua, tais como volume, área
ou peso.
As distinções podem ser menos ŕıgidas na prática. Por exemplo, em geral
trataŕıamos a “idade” como uma variável cont́ınua, mas se a idade for registrada
pelo ano mais próximo, podemos tratá-la como discreta, e se agruparmos os dados
em “crianças”, “adultos jovens”, “adultos” e “idosos”, então temos “faixa etária”
como uma variável ordenada categórica. No entanto, em geral é recomendado
manter os dados em sua forma original e criar categorias somente para propósitos
de apresentação.
1.3 Variáveis qualitativas
Para resumir dados qualitativos numericamente, utiliza-se contagens, proporções,
porcentagens, taxas por 1000, taxas por 1.000.000, etc, dependendo da escala
apropriada. Por exemplo, se encontrarmos que 7 de uma amostra de 5000 pes-
soas são portadoras de uma doença rara podeŕıamos expressar isto como uma
proporção observada (0,0014) ou percentual (0,14%), mas melhor seria 1,4 casos
por mil.
Frequentemente o primeiro passo da descrição de dados é criar uma tabela de
frequências. Por exemplo, na Tabela 1.1 abaixo temos as frequências observadas
1.3. VARIÁVEIS QUALITATIVAS 3
Tabela 1.1: Frequências observadas para os dados de itens defeituosos.
Estado ni ni/n pi Porcentagem
Defeituoso 6 6/25 0,24 24,0%
Perfeito 12 12/25 0,48 48,0%
Recuperável 5 5/25 0,20 20,0%
Outros 2 2/25 0,08 8,0%
Totais n = 25 Σpi = 1
de itens produzidos e classificados segundo seu estado (defeituoso, perfeito, recu-
perável, outros). Note que foi definida também a categoria “outros”. Em geral, se
muitos dados forem classificados em poucas categorias, então é conveniente unir
as categorias com somente uma ou duas observações em outra categoria chamada
“outros”. Tabelas simples como esta são na maioria das vezes suficientes para
descrever dados qualitativos especialmente quando existem apenas duas ou três
categorias.
Dados qualitativos são usualmente bem ilustrados num simples gráfico de bar-
ras onde a altura da barra é igual à frequência. O gráfico na Figura 1.1 apresenta
as frequências observadas na Tabela 1.1. Note que a ordem das categorias poderia
Figura 1.1: Gráfico de barras das frequências observadas na Tabela 1.1
defeituoso perfeito recuperavel outros
fre
qu
en
cia
s
0
2
4
6
8
10
12
ser alterada no eixo horizontal já que não existe ordenação natural. Além disso
a distância horizontal entre as barras não tem nenhuma interpretação.
4 CAPÍTULO 1. ESTATÍSTICA DESCRITIVA
Gráficos de setores também costumam ser utilizados para apresentação de
dados categóricos. Os setores do gráfico são desenhados de tal forma que eles
tenham área proporcional à frequência. A Figura 1.2 abaixo ilustra as frequências
observadas na Tabela 1.1.
Figura 1.2: Gráfico de setores com as frequências observadas na Tabela 1.1
defeituoso
perfeito
recuperavel
outros
No entanto, gráficos de setores constituem uma forma muito ruim de apre-
sentar informação já que em geral temos dificuldade em comparar áreas. Um
gráfico de barras ou de pontos é prefeŕıvel para representar este tipo de dados.
Duas ótimas referências para este assunto são Cleveland (1993, 1994) e Good and
Hardin (2003).
1.4 Variáveis quantitativas
Analogamente, para resumir dados quantitativos discretos, podemos utilizar uma
tabela de frequências como no exemplo a seguir.
Exemplo 1.1 : Foram inspecionados 35 lotes de componentes eletrônicos e ob-
tidos os números de itens defeituosos em cada lote. Os dados estão resumidos na
1.4. VARIÁVEIS QUANTITATIVAS 5
Tabela 1.2. Note que foram incluidas as frequências acumuladas Ni e Fi, assim
Tabela 1.2: Frequências observadas do número de itens defeituosos em 35 lotes.
defeituosos 0 1 2 3 4 5 6 8
ni 1 3 5 4 9 5 6 2
pi 0,03 0,09 0,14 0,11 0,26 0,14 0,17 0,06
Ni 1 4 9 13 22 27 33 35
Fi 0,03 0,11 0,26 0,37 0,63 0,77 0,94 1,00
por exemplo podemos dizer que aproximadamente 77% dos lotes inspecionados
tem 5 itens defeituosos ou menos. Neste caso, frequências absolutas e frequências
acumuladas podem ser representadas graficamente como na Figura 1.3 abaixo.
0 2 4 6 8
0.
0
0.
2
0.
4
0.
6
0.
8
1.
0
defeituosos
Fr
eq
. a
cu
mu
lad
as
(a)
0
2
4
6
8
defeituosos
fre
qu
ên
cia
s
0 1 2 3 4 5 6 8
(b)
Figura 1.3: Gráfico de frequências do número de itens defeituosos em 35 lotes. (a)
Frequências acumuladas. (b) Frequências absolutas.
A construção de tabelas de frequências para variáveis quantitativas cont́ınuas
requer certo cuidado uma vez que não existirão observações repetidas. A solução
então é agrupar os dados em classes e obter as frequências observadas em cada
classe. É importante notar que ao resumir dados referentes a uma variável
cont́ınua sempre se perde alguma informação já que não temos idéia de como
se distribuem as observações dentro de cada classe.
O método mais comum de representação gráfica de dados cont́ınuos é através
de um histograma. Neste caso, a frequência de cada classe é representada por
6 CAPÍTULO 1. ESTATÍSTICA DESCRITIVA
um retângulo cuja base é igual a amplitude da classe e a altura é proporcional à
frequência.
Exemplo 1.2 : Em um rio foram encontrados mortos 150 peixes v́ıtimas de
contaminação e seus comprimentos foram medidos em miĺımetros. As medidas
observadas foram agrupadas em classes e as frequências de cada classe aparecem
na Tabela 1.3. O histograma constrúıdo com base nestes dados é apresentado na
Figura 1.4.
Tabela 1.3: Frequências dos comprimentos de peixes encontrados mortos em um rio.
Comprimento (mm) ni pi Ni Fi
100 ⊢ 110 7 0,05 7 0,05
110 ⊢ 120 16 0,11 23 0,15
120 ⊢ 130 19 0,13 42 0,28
130 ⊢ 140 31 0,21 73 0,49
140 ⊢ 150 41 0,27 114 0,76
150 ⊢ 160 23 0,15 137 0,91
160 ⊢ 170 10 0,07 147 0,98
170 ⊢ 180 3 0,02 150 1,00
Figura 1.4: Histograma das frequências de comprimentos de peixes mortos dadas na
Tabela 1.3
comprimentos
fre
qu
en
cia
s
100 120 140 160 180
0
10
20
30
40
1.4. VARIÁVEIS QUANTITATIVAS 7
Algumas vezes é conveniente agregar classes de frequência nos extremosda
distribuição de forma que os intervalos passam a ter larguras diferentes. Neste
caso deve-se ter certo cuidado ao interpretar o histograma. A idéia é que a área
de cada retângulo deve ser preservada, assim por exemplo se a amplitude de um
intervalo for duplicada ele deve ter altura igual à metada de sua frequência.
Neste texto não discutiremos em detalhes a especificação do número e da am-
plitude das classes já que os pacotes estat́ısticos utilizam algoritmos para escolha
ótima destes valores. A idéia é que um número muito grande de classes não re-
sume satisfatoriamente os dados e com um número muito pequeno perde-se muita
informação.
Outro método gráfico que vale à pena ser utilizado quando o número de ob-
servações não for muito grande é o gráfico de ramo-e-folhas que será ilustrado
nos exemplos a seguir. Cada observação é separada em um ramo (geralmente a
parte inteira) e uma folha (geralmente a parte decimal). O gráfico terá a forma
de um histograma porém retendo a informação dos valores observados. A técnica
é ilustrada nos exemplo 1.3 abaixo.
Exemplo 1.3 : Um estudo geoqúımico foi realizado utilizando-se amostras de
sedimentos provenientes de riachos e obteve-se as concentrações de Cromo (em
ppm) abaixo. Podemos facilmente escrever os dados no gráfico de ramo-e-folhas
como na Figura 1.5.
10,6 14,1 13,7 15,2 15,4 12,5 12,9 14,3
13,0 12,6 12,0 14,0 10,0 18,2 11,5 9,4
16,5 13,7 14,7 16,6 11,4 18,4 17,4 11,1
15,8 17,0 13,6 16,6 11,8 15,8 13,5
Note que os ramos são números inteiros e as folhas são os valores depois
da v́ırgula decimal. É importante escrever as folhas em colunas igualmente
espaçadas, caso contrário a figura ficará distorcida. Além de ser um resumo
visual dos dados o gráfico de ramo-e-folhas fornece mais informação do que o
histograma já que os dados podem ser lidos no gráfico.
Exemplo 1.4 : Os valores abaixo correspondem ao tempo (em minutos) que os
alunos matriculados em uma disciplina do curso de Estat́ıstica utilizaram para
resolução da prova no segundo semestre de 2002.
23 31 42 45 51 52 57 61 61 64
68 69 73 75 75 82 89 94 118 120
8 CAPÍTULO 1. ESTATÍSTICA DESCRITIVA
Figura 1.5: Gráfico de ramo-e-folhas dos dados geoqúımicos do Exemplo 1.3.
9|4
10|0 6
11|1 4 5 8
12|0 5 6 9
13|0 5 6 7 7
14|0 1 3 7
15|2 4 8 8
16|5 6 6
17|0 4
18|2 4
A representação no gráfico de ramo-e-folhas é feita de forma que os ramos
contenham dezenas de minutos e as folhas contenham unidades de minutos.
2|3 2|F
3|1 3|F
4|2 5 4|M F
5|1 2 7 5|F F M
6|1 1 4 8 9 6|F F F F M
7|3 5 5 7|M M M
8|2 9 8|M F
9|4 9|F
10| 10|
11|8 11|M
12|0 12|M
Pode-se notar que os valores estão simetricamente dispersos em torno de um valor
central e não há a indicação de valores at́ıpicos ou discrepantes (outliers). No
diagrama da direita a informação sobre o sexo dos alunos foi adicionada e há
indicação de que os homens (M) gastaram um tempo maior do que as mulheres
(F).
1.5 Resumos numéricos
Para resumir numericamente dados de uma variável quantitativa o objetivo é
escolher medidas apropriadas de locação e de dispersão. Existem três escolhas
mais frequentemente utilizadas para medidas de locação que estão ligadas a certas
medidas de dispersão como será visto adiante.
1.5. RESUMOS NUMÉRICOS 9
1.5.1 Média, variância e desvio padrão
Para resumir dados quantitativos aproximadamente simétricos, é usual calcular
a média aritmética como uma medida de locação. Se x1, x2, . . . , xn são os valores
dos dados, então podemos escrever a média como
x =
x1 + x2 + · · ·+ xn
n
=
∑n
i=1 xi
n
.
A variância é definida como o desvio quadrático médio em torno da média e
é calculada a partir de uma amostra de dados como
s2 =
∑n
i=1(xi − x)2
n − 1 .
Note que, sendo definida a partir de uma soma de quadrados a variância sempre
assume valores positivos. Além disso, a divisão por n−1 retira o efeito do tamanho
do conjunto de dados, assim as dispersões de dois conjuntos ficam comparáveis
mesmo que um deles tenha muito mais observações do que o outro. Não é dif́ıcil
mostrar que a expressão da variância pode ser reescrita como
s2 =
∑n
i=1 x
2
i − nx2
n − 1
que é uma versão mais fácil de ser calculada quando não se dispõe de recursos
computacionais. Mas cuidado porque os erros de arrendondamento podem gerar
um valor negativo se a variância for muito pequena.
A raiz quadrada positiva da variância, chamada de desvio padrão, é uma
medida de dispersão que está na mesma escala dos dados. A notação usual é
s =
√
s2.
Algumas propriedades destas mediadas são,
1. a soma de desvios em torno da média é sempre igual a zero,
∑n
i=1(xi−x) =
0.
2. a soma de desvios quadráticos em torno de um valor a,
∑n
i=1(xi − a)2, é
mı́nima se somente se a = x.
3. somando-se uma constante k aos dados a média será somada da mesma
constante enquanto a variância fica inalterada.
4. multiplicando-se os dados por uma constante k a média será multiplicada
pela mesma constante enquanto a variância será multiplicada pelo quadrado
da constante.
10 CAPÍTULO 1. ESTATÍSTICA DESCRITIVA
5. a média aritmética sempre pertence ao intervalo de variação dos dados, i.e.
min(xi) ≤ x̄ ≤ max(xi)
Das propriedades 3 e 4 é fácil verificar que se yi = a + bxi, i = 1, . . . , n então
a média aritmética e a variância de y são
y = a + bx e s2y = b
2s2.
Exemplo 1.5 : Sete homens foram pesados, e os resultados em Kg foram:
57,0; 62,9; 63,5; 64,1; 66,1; 67,1; 73,6.
Utilizando uma calculadora não é dif́ıcil verificar que a média é 64,9 kg, a variância
é 25,16 kg2 e o desvio padrão é 5,02 kg.
Exemplo 1.6 : Foram inspecionados 30 aparelhos fabricados por uma indústria
e obteve-se a distribuição de frequências do número de defeitos por aparelho dada
na Tabela 1.4.
Tabela 1.4: Frequências dos números de defeitos por aparelho inspecionado.
Número de defeitos 0 1 2 3 4
ni 12 8 7 1 2
Neste caso o número médio de defeitos por aparelho será
x =
12 × 0 + 8 × 1 + 7 × 2 + 1 × 3 + 2 × 4
30
=
33
30
= 1, 1
e sua variância será
s2 =
12 × 02 + 8 × 12 + 7 × 22 + 1 × 32 + 2 × 42 − 30 × 1, 12
29
=
40, 7
29
≈ 1, 4.
Vale notar que estas medidas são extremamente senśıveis a observações dis-
crepantes. No Exemplo 1.6, se um único aparelho apresentasse 15 defeitos ao
invés de 4 a média passaria a ser aproximadamente 1,5 e a variância passaria a
ser aproximadamente 7,6.
Uma medida de dispersão relativa particularmente útil quando se deseja com-
parar dispersões em dois conjuntos de dados com médias bem diferentes é o
1.5. RESUMOS NUMÉRICOS 11
coeficiente de variação definido como s/|x|. Assim a escala das observações está
sendo levada em conta.
Exemplo 1.7 : Suponha por exemplo que 2 conjuntos de dados apresentam
desvios-padrões s1 = 3 e s2 = 4 com médias x1 = 30 e x2 = 80. Embora
em termos absolutos a dispersão seja maior no segundo conjunto as dispersões
relativas são 10% e 5% respectivamente.
Exemplo 1.8 : Sejam agora as variáveis X e Y cujos valores observados são 0,0,
0,05 e 0,10 e 1000, 110 e 1200 respectivamente. É fácil verificar que
x = 0, 05 s2x = 0, 05
2 sx = 0, 05
y = 1100 s2y = 100
2 sx = 100
e a variabilidade de X é bem menor em termos absolutos. Porém, em termos
relativos,
CV (X) = 100% e CV (Y ) =
100
1100
≈ 6%.
1.5.2 A mediana e a amplitude inter-quartis
Aqui vamos apresentar medidas de locação e dispersão baseadas em dados orde-
nados (ou estat́ısticas de ordem) que são particularmente úteis para distribuições
assimétricas e são pouco senśıveis a observações muito discrepantes.
A mediana é definida como o valor que divide os dados ordenados em duas
partes de mesmo tamanho. Quando há um número ı́mpar de observações a me-
diana é o valor central (de ordem (n + 1)/2) enquanto que para um número par
de observações a mediada é calculada comoa média dos dois valores centrais (de
ordem n/2 e n/2 + 1). Por exemplo, as medianas dos conjuntos ordenados
5, 7, 9, 13, 17, 19, 20 e 3, 7, 8, 10, 12, 15
são 13 e (8+10)/2=9 respectivamente.
A definição pode ser estendida para valores que dividem a distribuição em 4
partes de mesmo tamanho (quartis) ou 100 partes de mesmo tamanho (percentis).
Os quartis inferior e superior, usualmente denotados por Q1 e Q3, são definidos
como os valores abaixo dos quais estão 1/4 e 3/4, respectivamente, dos dados.
Estes valores são frequentemente usados para resumir os dados juntamente com o
mı́nimo, o máximo e a mediana. Para um número par de observações, os quartis
também serão uma média de valores.
12 CAPÍTULO 1. ESTATÍSTICA DESCRITIVA
Podemos agora definir uma medida de dispersão aproprida, a amplitude inter-
quartis, que é a diferença entre o quartil superior e o inferior, Q3 − Q1. Note
também que 50% dos dados estarão entre os quartis inferior e superior.
Exemplo 1.9 : O número de crianças em 19 famı́lias foi contado e obteve-se os
seguintes valores (já ordenados),
0, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 5, 6, 6, 7, 8, 10.
Assim, o número mediano de crianças é o valor de ordem (19+1)/2=10, i.e. 3
crianças. Analogamente, os quartis inferior e superior são os valores de ordem 5
e 15 respectivamente, i.e. 2 e 6 crianças. Portanto a amplitude inter-quartis é de
4 crianças.
Vale notar também que no Exemplo 1.6 se um único aparelho apresentasse 15
defeitos ao invés de 4 a mediana e os quartis ficariam inalterados.
Um importante método gráfico para apresentar caracteŕısticas de um con-
junto de dados chama-se “Box-and-Whisker plot” ou simplesmente “Box-plot”
e é baseado nas medidas vistas acima, i.e. o mı́nimo, o máximo, os quartis e a
mediana. Um box-plot para os dados do Exemplo 1.3 é mostrado na Figura 1.6.
A altura do retângulo representa a distância inter-quartis e as linhas se estendem
Figura 1.6: Box-plot dos dados geoqúımicos do Exemplo 1.3.
10
12
14
16
18
co
nc
en
tra
çõ
es
 d
e 
Cr
até as observações extremas, exceto aquelas consideradas discrepantes (outliers).
1.5. RESUMOS NUMÉRICOS 13
Para efeito de construção do Box-plot, uma observação x será considerada um
outlier se,
x < Q1 − 1, 5(Q3 − Q1) ou x > Q3 + 1, 5(Q3 − Q1).
Exemplo 1.10 : Um box-plot para os dados do Exemplo 1.4 é mostrado na
Figura 1.7. Os dados originais foram adicionados ao eixo vertical e pode-se notar
que o valor 120 minutos foi considerado um outlier segundo o critério acima.
Figura 1.7: Box-plot dos dados do Exemplo 1.4.
20
40
60
80
10
0
12
0
te
mp
os
 e
m 
mi
nu
to
s
A presença de outliers em um conjunto de dados pode ser perfeitamente nor-
mal, embora eles possam viesar cálculos baseados em somas. Eles também podem
ser devido a erros (que podem ser corrigidos), ou ainda revelar que a distribuição
dos dados tem “caudas pesadas” (e.g. dados intra-diários do mercado financeiro).
Vale notar que este tipo de gráfico é particularmente útil para comparar ca-
racteŕısticas de diferentes conjuntos de dados (como será visto na Seção 1.6.5).
1.5.3 A moda
Algumas vezes, especialmente para dados de contagem, um único valor domina
a amostra. Neste caso, a medida de locação apropriada é a moda, definida como
o valor que ocorre com maior frequência. A proporção da amostra que assume
este valor modal pode ser utilizada no lugar de uma medida formal de dispersão.
14 CAPÍTULO 1. ESTATÍSTICA DESCRITIVA
Na prática pode haver situações aonde se pode distinguir claramente dois ou
mais ‘picos’ na frequência dos valores observados. Neste caso dizemos que os
dados apresentam multimodalidade e devemos reportar todas os valores modais.
Dados deste tipo são particularmente dif́ıceis de resumir e analisar.
Exemplo 1.11 : O conjunto de dados discretos 3, 5, 7, 7, 7, 8, 10, 10, 10, 15, 20
apresenta duas modas 7 e 10 sendo assim chamado de bimodal.
1.6 Dados múltiplos
Os resultados de um estudo tipicamente envolverão mais do que um único con-
junto de dados. Neste caso, representações gráficas são úteis para comparar
grupos de dados ou para verificar se exitem relações entre eles. Existem mui-
tas possibilidades, mas a mais adequada dependerá das peculiaridades de cada
conjunto de dados.
Podemos criar combinações dos métodos já discutidos. Por exemplo, se me-
dirmos as alturas e pesos de um conjunto de pessoas, podemos produzir box-plots
de alturas lado a lado para homens e mulheres, ou gráficos ramo-e-folhas lado a
lado (com as alturas dos homens à esquerda do ramo, e as alturas das mulheres à
direita), ou um histograma acima do outro com a mesma escala no eixo horizontal
de forma que eles possam ser facilmente comparados. Para um número diferente
de grupos, uma série de box-plots verticais funciona bem como um simples resumo
dos dados.
Exemplo 1.12 : Na Figura 1.8 são apresentados os box-plots da renda familiar
mediana (em salários mı́nimos) nos 75 bairros de Curitiba no ano de 2000, agru-
pados por número de homićıdios (menor ou igual a 4 ou maior do que 41). Os
valores originais dos dados aparecem nos eixos verticais. Que informações podem
ser tiradas deste gráfico?
Para combinações de dados categóricos, uma série de gráficos de setores ou
de barras podem ser produzidos. No caso de dois ou três grupos de uma mesma
variável categórica pode ser mais interessante colocar toda a informação em um
mesmo gráfico de barras.
Exemplo 1.13 : Em um estudo foram medidos os comprimentos de um dos
dentes em cada um de 10 porquinhos da India submetidos a 3 doses de Vitamina
1O valor 4 foi fixado somente para fins de ilustração
1.6. DADOS MÚLTIPLOS 15
Figura 1.8: Box-plots dos dados de renda mediana em Curitiba no ano de 2000 agru-
pados de acordo com o número de homicidios.
Num. homic. > 4 Num. homic. <= 4
5
10
15
20
C (0,5, 1 e 2 mg) em 2 formas de ingestão (Ácido ascórbico e suco de laranja).
Na Figura 1.9 são apresentados os box-plots das medidas separados por dosagem
e forma de ingestão.
1.6.1 Diagramas de dispersão
Para avaliar se existe uma relação entre duas variáveis cont́ınuas podemos pro-
duzir um gráfico de pontos, em geral chamado de diagrama de dispersão. Neste
caso faz pouco sentido unir os pontos, exceto quando o eixo horizontal representa
peŕıodos de tempo. Śımbolos diferentes podem ser usados para diferentes grupos
adicionando assim uma nova dimensão ao gráfico.
Exemplo 1.14 : O gráfico na Figura 1.10 mostra as taxas de mortalidade por
homicidio (por 100 mil habitantes) em São Paulo (capital mais região metropoli-
tana e interior do estado) entre janeiro de 1979 e agosto de 1995. Os histogramas
das duas variáveis aparecem nas margens e uma reta de regressão foi estimada.
Que informações podem ser tiradas deste gráfico?
Para mais do que duas variáveis, deve-se produzir diagramas de dispersão
16 CAPÍTULO 1. ESTATÍSTICA DESCRITIVA
Figura 1.9: Box-plots dos dados de comprimento de dente separados por dosagem e
forma de ingestão.
0.5 1 2
0
5
10
15
20
25
30
35
Dose de Vitamina C em mg
Co
mp
rim
en
to
 d
o 
de
nt
e
0.5 1 2
0
5
10
15
20
25
30
35
Acido Ascorbico
suco de laranja
para todos os pares posśıveis produzindo assim uma matriz de gráficos de pontos
(Ver Caṕıtulo 6).
Gráfico temporal
Um caso especial de um gráfico de pontos é um gráfico temporal onde a variável
“tempo” está no eixo horizontal. Ou seja, as medidas dos dados são feitas ao
longo do tempo. Nestes casos é usual unir pontos sucessivos por segmentos de
reta, e é em geral uma boa prática deixar o eixo horizontal mais longo do que o
vertical.
Como exemplo deste tipo de dados, na Figura 1.11 são apresentados os gráficos
temporais com medidas diárias de quatro indicadores de qualidade do ar em Nova
Iorque entre maio e setembro de 1973. Uma referência para análise deste tipo de
dadosé Morettin e Toloi (2004).
1.6. DADOS MÚLTIPLOS 17
Figura 1.10: Diagrama de dispersão das taxas de mortalidade por homicidio em São
Paulo.
1
23
2 4 6 8 10 12 14 16
1.
0
1.
5
2.
0
2.
5
3.
0
Metropolitana
In
te
rio
r
1.6.2 Dados Pareados
O exemplo abaixo ilustra um tipo de representação gráfica que pode ser útil para
visualizar dados pareados.
Exemplo 1.15 : Uma alteração foi introduzida na linha de montagem de um
aparelho com o objetivo de reduzir o tempo gasto pelos operários para execução
de certas tarefas. Uma amostra de 10 operários foi observada antes e depois da
alteração e a Tabela 1.5 abaixo mostra os tempos de execução medidos. Uma
representação gráfica destes dados é dada na Figura 1.12. É muito mais fácil ver
do gráfico do que da tabela que os operários tenderam a reduzir seus tempos de
execução, e que aqueles que não reduziram já tendiam a ter os menores tempos
e provavelmente não necessitavam da alteração.
18 CAPÍTULO 1. ESTATÍSTICA DESCRITIVA
dias
Oz
on
io
0 50 100 150
0
50
10
0
15
0
(a)
dias
Ra
dia
çã
o 
so
lar
0 50 100 150
0
50
10
0
15
0
20
0
25
0
30
0
(b)
dias
Ve
nt
o
0 50 100 150
5
10
15
20
(c)
dias
Te
mp
er
at
ur
a
0 50 100 150
60
70
80
90
(d)
Figura 1.11: Gráficos com as séries temporais de quatro indicadores de qualidade do
ar em Nova Iorque, EUA.
1.6. DADOS MÚLTIPLOS 19
Tabela 1.5: Tempos de execução de tarefas por operário.
Operário Tempo antes Tempo depois
1 10,3 12,2
2 11,4 12,1
3 10,9 13,1
4 12,0 11,9
5 10,0 12,0
6 11,9 12,9
7 12,2 11,4
8 12,3 12,1
9 11,7 13,5
10 12,0 12,3
Figura 1.12: Gráfico dos tempos de execução de tarefas por operários observados antes
e depois de uma alteração.
10
11
12
13
14
tem
po
 de
 ex
ecu
ção
20 CAPÍTULO 1. ESTATÍSTICA DESCRITIVA
1.7 Problemas
1. Para um conjunto de n valores observados x1, . . . , xn mostre que:
(a) a variância também pode ser escrita como (
∑n
i=1 x
2
i − nx2)/(n − 1);
(b) somando-se uma constante k aos dados a variância não se altera e a
média fica somada de k;
(c) multiplicando-se os dados por uma constante k a média fica multipli-
cada por k e a variância fica multiplicada por k2.
(d) Calcule a média e a variância da transformação yi = axi + b para duas
constantes a e b quaisquer.
2. No Exemplo 1.6 verifique que se um único aparelho apresentasse 15 defeitos
ao invés de 4 a mediana e os quartis ficariam inalterados.
3. O salário médio dos funcionários de uma empresa era de R$500,00 com
variância 100 reais2 e o salário mediano era de R$450,00. Se todos os
salários forem duplicados o que ocorre com a média, variância, mediana e
coeficiente de variação?
4. Descreva em palavras quais informações podem ser tiradas das Figuras 1.8,
1.9 e 1.10.
5. Forneça dois exemplos de variáveis qualitativas e dois de variáveis quanti-
tativas (diferentes da apostila).
6. Descreva de forma concisa os seguintes dados usando suas palavras e algu-
mas estat́ısticas descritivas, apontando caracteŕısticas principais observa-
das.
(a) As notas (de um total de 100 e ordenadas por tamanho) de 20 estu-
dantes de estat́ıstica no primeiro exame do semestre:
30 35 37 40 40 49 51 54 54 55
57 58 60 60 62 62 65 67 74 89
(b) O número de faltas de 20 trabalhadores num ano (ordenados por ta-
manho):
0 0 0 0 0 0 0 1 1 1
2 2 3 3 4 5 5 5 8 45
(c) O número de exemplares de um jornal mensal em particular lidos por
20 pessoas num ano:
1.7. PROBLEMAS 21
0 1 11 0 0 0 2 12 0 0
12 1 0 0 0 0 12 0 11 0
7. Faça um gráfico ramo-e-folhas para apresentação dos dados de altura (em
metros) de 20 mulheres sendo estudadas para uma certa condição médica.
1,52 1,60 1,57 1,52 1,60
1,75 1,73 1,63 1,55 1,63
1,65 1,55 1,65 1,60 1,68
2.50 1,52 1,65 1,60 1,65
8. Os dados a seguir fornecem a concentração de um determinado poluente
(em ppm) em 8 pontos de um afluente medidos antes e uma hora depois de
um acidente ambiental:
Antes Depois
4,67 5,44
4,97 6,11
5,11 6,49
5,17 6,61
5,33 6,67
6,22 6,67
6,50 6,78
7,00 7,89
Faça um gráfico destes dados, e use o gráfico para ajudar a avaliar se o
acidente provocou um aumento significativo nos ńıveis do poluente no aflu-
ente.
9. A tabela abaixo fornece o número de grânulos de arenito por cm3 em 20
amostras tomadas de uma certa localidade (A) e 20 amostras tomadas de
uma outra localidade (B).
22 CAPÍTULO 1. ESTATÍSTICA DESCRITIVA
A B
171 397 116 375
431 795 375 440
288 257 151 192
1283 902 752 503
554 1621 979 1252
295 1004 208 688
568 1378 426 771
958 435 675 377
2415 1104 410 700
1212 396 736 315
(a) Calcule as médias e desvios-padrão nas duas localidades.
(b) Faça histogramas dos dois conjuntos de dados, e compare-os.
(c) Obtenha o mı́nimo, máximo, mediana, e os quartis de cada grupo?
(d) Usando sua resposta ao item (c), construa boxplots para os dois con-
juntos de dados e compare-os.
(e) Você acha que existe uma diferença real entre os números de grânulos
de arenito nas duas localidades, ou as diferenças observadas poderiam
ter simplesmente ocorrido como uma consequência dos grupos consis-
tirem de somente 20 observações cada?
(f) Descreva as principais caracteŕısticas dos dados em uma ou duas sen-
tenças.
10. O percentual de açúcar e sal em 9 cereais matinais mais populares foram
medidos, com os seguintes resultados:
Cereal açúcar sal
1 19 8
2 36 5
3 3 10
4 8 4
5 26 6
6 16 6
7 8 9
8 10 3
9 54 3
1.7. PROBLEMAS 23
(a) Faça um gráfico desses dados para investigar a relação entre o conteúdo
de açúcar e sal nos cereais matinais.
(b) Comente brevemente qualquer padrão observado nos dados.
Caṕıtulo 2
Probabilidades
Um conceito fundamental
Os métodos estat́ısticos para análise de dados estão associados ao conceito
de incerteza. Uma forma de quantificar o grau de incerteza (ou aleatoriedade) é
através do conceito de probabilidade. Neste caṕıtulo serão apresentadas definições
e propriedades em termos de teoria dos conjuntos.
2.1 Experimento aleatório
Qualquer experimento cujo resultado não pode ser previsto com certeza absoluta
é chamado de experimento aleatório. O espaço amostral é conjunto de todos os
posśıveis resultados de um experimento aleatório, que aqui será denotado por S.
Qualquer subconjunto A de S (i.e. A ⊂ S) é chamado de evento.
Alguns exemplos de experimentos aleatórios com os respectivos espaços amos-
trais e um evento associado são os seguintes,
1. Lançamento de uma moeda e observação da face superior. S =
{cara, coroa}, A = {cara}.
2. Lançamento de um dado e observação da face superior. S = {1, 2, 3, 4, 5, 6},
A = {2, 4, 6}
3. Contagem do número de peças defeituosas em um lote com 100 peças.
S = {0, 1, 2, . . . , 100}, A = {0, 1, . . . , 10}
4. Medição do tempo de vida de um equipamento eletrônico em horas. S =
(0,∞), A = (0, 100].
Note que o último espaço amostral é uma construção teórica já que na prática
haverá sempre um limite superior para o intervalo.
24
2.2. DEFINIÇÃO DE PROBABILIDADE 25
Algumas operações com eventos serão muito úteis e são definidas a seguir.
Para dois eventos A e B quaisquer:
1. A união entre eles (A∪B) ocorre se somente se pelo menos um deles ocorre.
Em outras palavras, se ocorre apenas o evento A, ou ocorre apenas o evento
B, ou ambos ocorrem simultaneamente. Podemos dizer ainda que A ou B
ocorrem.
2. A interseção entre eles (A∩B) ocorre se somente se ambos ocorrem simul-
taneamente, isto é, A e B ocorrem. Em particular, se A ∩ B = ∅ dizemos
que A e B são mutuamente exclusivos.
3. Se A não ocorre dizemos que ocorre o seu complementar, A.
Vale notar que as operações de interseção e união são comutativas, i.e.
A ∩ B = B ∩ A e A ∪ B = B ∪ A.
Algumas propriedades das operações de união, interseção e complementação
também serão bastante úteis na resolução de problemas. A seguir listamos aquelas
mais importantes,1. A ∩ S = A, A ∪ S = S, A ∩ ∅ = ∅ e A ∪ ∅ = A.
2. A ∩ A = ∅, A ∪ A = S, A ∩ A = A e A ∪ A = A.
3. A ∪ B = A ∩ B e A ∩ B = A ∪ B.
4. A = (A ∩ B) ∪ (A ∩ B).
2.2 Definição de probabilidade
Seja um espaço amostral S associado a um dado experimento aleatório. A cada
posśıvel evento A de S podemos associar um número real, representado por P (A)
e denominado probabilidade do evento A, satisfazendo as seguintes propriedades,
1. 0 ≤ P (A) ≤ 1,
2. P (S) = 1,
3. P (A1 ∪ A2) = P (A1) + P (A2) se A1 e A2 são mutuamente exclusivos.
26 CAPÍTULO 2. PROBABILIDADES
Esta última propriedade pode ser generalizada para um número finito ou infinito
de eventos mutuamente exclusivos, A1, A2, . . . , An, ou seja
P (A1 ∪ A2 ∪ · · · ∪ An) = P (A1) + P (A2) + · · ·+ P (An),
se Ai ∩ Aj = ∅, para todo i 6= j.
A partir destes axiomas outras propriedades bastante úteis podem ser obtidas,
por exemplo
1. P (A) = 1 − P (A) onde A é o evento complementar de A.
2. P (A ∪ A) = 1 e P (∅) = 0.
3. Se A ⊂ B então P (A) ≤ P (B).
4. P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
Uma definição mais simples de probabilidade é a chamada definição clássica.
Neste caso a regra prática para obter P (A) consiste em simplesmente contar o
número de resultados favoráveis ao evento A e dividir pelo número de resultados
posśıveis do experimento. Assim,
P (A) =
número de resultados favoráveis a A
número de resultados posśıveis
.
No entanto esta definição só faz sentido quando o espaço amostral é finito, de
modo que possamos fazer as contagens requeridas, e também se todos os posśıveis
resultados têm a mesma chance de ocorrer.
2.3 Probabilidade Condicional e Independência
Para dois eventos A e B, sendo que P (B) > 0, definimos a probabilidade condi-
cional de A dado que B ocorreu como
P (A|B) = P (A ∩ B)
P (B)
.
Vale notar que todas as propriedades vistas anteriormente continuam válidas
para probabilidades condicionais. Por exemplo,
P (A | B) = 1 − P (A | B).
2.3. PROBABILIDADE CONDICIONAL E INDEPENDÊNCIA 27
A partir desta definição obtemos a chamada regra do produto de probabilida-
des,
P (A ∩ B) = P (A|B)P (B).
Esta é chamada probabilidade conjunta dos eventos A e B e também pode ser
escrita como P (A, B). P (A) e P (B) são chamadas probabilidades marginais dos
eventos A e B.
Exemplo 2.1 : Duas bolas são retiradas ao acaso de uma urna contendo 2 bolas
brancas (B) e 3 vermelhas (V ), sem reposição. Neste caso os posśıveis resultados
do experimento são {BB, BV, V B, V V } e suas probabilidades são,
P (B ∩ B) = P (B)P (B|B) = 2
5
× 1
4
=
2
20
P (B ∩ V ) = P (B)P (V |B) = 2
5
× 3
4
=
6
20
P (V ∩ B) = P (V )P (B|V ) = 3
5
× 2
4
=
6
20
P (V ∩ V ) = P (V )P (V |V ) = 3
5
× 2
4
=
6
20
.
No exemplo acima imagine agora que as retiradas são feitas com reposição.
Neste caso a informação sobre a cor da bola na primeira retirada não altera em
nada chances de obtermos uma bola branca na segunda retirada. Em outras pa-
lavras, P (B|V ) = P (B|B) = P (B) e dizemos que as retiradas são independentes.
Em geral dizemos que dois eventos A e B são independentes se e somente se
P (A|B) = P (A) e P (B|A) = P (B)
e isto também equivalente a dizer que
P (A ∩ B) = P (A)P (B).
O conceito de independência pode ser estendido a um número qualquer de
eventos, i.e.
P (A1 ∩ · · · ∩ Ak) = P (A1) . . . P (Ak)
se somente se os eventos A1, . . . , Ak forem independentes.
28 CAPÍTULO 2. PROBABILIDADES
2.4 Teorema de Bayes
Suponha agora que os eventos A1, A2, . . . , Ak são dois a dois mutuamente ex-
clusivos e a união deles é o próprio espaço amostral. Em outras palavras, um
destes eventos necessariamente irá ocorrer porém dois deles não podem ocorrer
simultaneamente,
A1 ∪ A2 ∪ · · · ∪ Ak = S e Ai ∩ Aj = ∅, i 6= j.
Então, qualquer outro evento B pode ser escrito como
B = (B ∩ A1) ∪ (B ∩ A2) ∪ · · · ∪ (B ∩ Ak)
sendo que estes k eventos do lado direito também são mutuamente exclusivos
(verifique!). Além disso, P (B ∩ Aj) = P (B|Aj)P (Aj), j = 1, . . . k e portanto
podemos escrever que
P (B) = P (B ∩ A1) + P (B ∩ A2) + · · ·+ P (B ∩ Ak)
= P (B|A1)P (A1) + P (B|A2)P (A2) + · · ·+ P (B|Ak)P (Ak)
=
k∑
j=1
P (B|Aj)P (Aj).
O fato é que em muitas aplicações conhecemos as probabilidades do lado
direito desta igualdade e estaremos interessados em calcular a probabilidade de
um dos eventos Ai ocorrer dado que B ocorreu, isto é
P (Ai|B) =
P (Ai ∩ B)
P (B)
=
P (B|Ai)P (Ai)
∑k
j=1 P (B|Aj)P (Aj)
.
Chamamos esta última igualdade de teorema de Bayes ou regra de Bayes, que nos
mostra como atualizar a nossa crença no evento Ai após receber novas informações
(i.e. que B ocorreu).
• P (Ai) é a probabilidade a priori do evento Ai, porque antecede a informação
sobre o evento B.
• P (Ai|B) é a probabilidade a posteriori do evento Ai porque é calculada
após termos informação sobre B.
• Para um valor espećıfico de B, P (B|Ai) é chamada função de verossimi-
lhança de Ai.
2.4. TEOREMA DE BAYES 29
Veremos uma aplicação no exemplo a seguir.
Exemplo 2.2 : Um médico, ao examinar uma pessoa, “desconfia” que ela possa
ter uma certa doença. Baseado na sua experiência, ele assume que a probabilidade
do paciente ter a doença é 0,7. Para aumentar sua quantidade de informação
sobre a doença o médico aplica um teste que tem probabilidades 0,4 e 0,95 de dar
resultado positivo em pessoas sadias e pessoas doentes respectivamente. Sabendo
que o teste deu positivo como fica a probabilidade da pessoa ter a doença?
Aqui o evento de interesse é A= “o paciente tem a doença” e definimos o
evento B= “teste deu resultado positivo”. Assim,
P (B|Ā) = 0, 40 e P (B|A) = 0, 95.
É bem intuitivo que a probabilidade de doença deve ter aumentado após este
resultado e a questão aqui é quantificar este aumento. Usando o teorema de
Bayes segue que
P (A|B) = P (B|A)P (A)
P (B|A)P (A) + P (B|A)P (A)
=
(0, 95)(0, 7)
(0, 95)(0, 7) + (0, 40)(0, 30)
= 0, 847.
Exemplo 2.3 : No Exemplo 2.1 suponha que foram retiradas 2 bolas brancas
mas não sabemos se as retiradas foram com ou sem reposição. Definindo o evento
A=’retiradas com reposição’ gostariamos de calcular a probabilidade de A à luz
do resultado do experimento (B ∩ B). Suponha que antes do sorteio não temos
informação sobre o tipo de experimento (com ou sem reposição) e atribuimos a
probabilidade a priori P (A) = 0, 5. Usando o Teorema de Bayes obtemos que
P (A|BB) = P (BB|A)P (A)
P (BB|A)P (A) + P (BB|A)P (A)
=
0, 16 × 0, 5
0, 16 × 0, 5 + 0, 1 × 0, 5 = 0, 615.
Assim, é mais provável agora (a posteriori) que o experimento tenha sido com
reposição.
Em muitas situações podemos estar interessados em comparar probabilidades
a posteriori através da razão
P (Ai|B)
P (Aj|B)
,
ou seja, quanto o evento Ai é mais provável do que o evento Aj após observar o
30 CAPÍTULO 2. PROBABILIDADES
evento B? Aplicando o teorema de Bayes ao numerador e denominador e notando
que P (B) se cancela obtemos que
P (Ai|B)
P (Aj|B)
︸ ︷︷ ︸
razão de chances
a posteriori
=
P (B|Ai)
P (B|Aj)
︸ ︷︷ ︸
fator de Bayes
P (Ai)
P (Aj)
.
︸ ︷︷ ︸
razão de chances
a priori
No Exemplo 2.2, ter a doença era 2,33 vezes mais provável do que não ter a
doença antes de realizar o teste. Após realizar o teste e obter resultado positivo,
o fator de Bayes indicou que ter a doença era 2,375 vezes mais plauśıvel do que
não ter. Combinando estas duas informações conclui-se que ter a doença ficou
5,54 vezes mais provável a posteriori.
No exemplo 2.3 temos que
P (A|BB)
P (A|BB)
=
0, 615
1 − 0, 615 = 1, 597
ou seja, é 1,597 mais provável que o experimento tenha sido com reposição.
2.5 Problemas
1. Sejam os eventos S = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, A = {1, 2, 3, 4, 5}, B =
{2, 3, 5, 6} e {3, 4, 5, 6}. Obtenha A, A ∩ B, A ∩ C, A ∩ B, e A ∩ B.
2. Sejam os eventos A1, . . . , Ak tais que A1 ∪ · · · ∪ Ak = S e Ai ∩ Aj = ∅,
i 6= j. Para um evento B qualquer verifiqueque B ∩ Ai são mutuamente
exclusivos.
3. Duas moedas são lançadas. Escreva o espaço amostral para este experi-
mento e liste os seguintes eventos,
(a) pelo menos duas caras
(b) exatamente duas caras
(c) o complementar do item anterior
Agora calcule as probabilidades dos eventos acima.
4. Suponha que 300 estudantes de uma universidade foram classificados o sexo
e sua área de estudo. Obteve-se a distribuição de frequências abaixo.
Se um estudante for selecionado ao acaso calcule,
2.5. PROBLEMAS 31
Area
Sexo Biologicas Exatas Sociais
masculino 50 58 54
feminino 43 34 90
(a) a probabilidade de que seja do sexo feminino e das ciencias sociais.
(b) a probabilidade de que seja do sexo masculino e não seja das ciências
biológicas.
(c) a probabilidade de que seja do sexo masculino dado que é da área de
exatas.
5. Considere o lançamento de dois dados e os seguintes eventos A: soma dos
números obtidos igual a 6 e B: número obtido no primeiro dado maior ou
igual a 3.
(a) Enumere os elementos de A e B.
(b) Obtenha A ∪ B, A ∩ B e B.
(c) Calcule as probabilidades dos eventos no item anterior.
6. Dois dados são lançados e observa-se S, a soma dos valores obtidos nas
faces.
(a) Calcule a probabilidade da soma ser menor do que 8 sabendo que é
um número ı́mpar.
(b) Os dados são lançados até que se obtenha soma 7 ou 8. Calcule a
probabilidade do evento A = {S = 7} sabendo que o experimento
terminou.
7. Dois eventos independentes A e B ocorrem com probabilidades p e q, res-
pectivamente. Qual a probabilidade de que
(a) nenhum destes eventos ocorra?
(b) pelo menos um destes eventos ocorra?
8. Dois eventos independentes A e B são tais que P (A) = 0, 4, P (B) = p e
P (A ∪ B) = 0, 7. Para que valores de p os eventos serão:
(a) mutuamente exclusivos,
(b) independentes.
32 CAPÍTULO 2. PROBABILIDADES
9. Duas máquinas operam de forma independente em uma linha de produção.
Em um peŕıodo de 8 horas as probabilidades de que cada uma delas apre-
sente defeito são 1/3 e 1/4. Qual a probabilidade de que pelo menos uma
das máquinas apresente defeito neste peŕıodo?
10. Um dado é viciado de tal forma que a probabilidade de sair uma face é
proporcional ao seu valor, i.e. P (face x) ∝ x. Calcular:
(a) A probabilidade de sair 5, sabendo-se que a face que saiu é ı́mpar.
(b) A probabilidade de sair um número par, sabendo-se que saiu um
número maior que 3.
11. Expresse as seguintes afirmações em termos de operações entre eventos.
(a) A ocorre mas B não ocorre.
(b) Exatamente um dos eventos A e B ocorre.
(c) Nenhum dos dois eventos ocorre.
(d) No máximo um deles ocorre.
12. Se A e B são eventos independentes mostre que também são independentes
A e B, A e B, A e B.
13. Se A, B e C são eventos independentes verifique se
(a) A e B ∪ C são independentes,
(b) A ∩ B e A ∩ C são independentes.
14. Um médico, ao examinar uma pessoa, “desconfia” que ela possa ter uma
certa doença e assume que a probabilidade do paciente ter a doença é 0,7.
Para aumentar sua quantidade de informação o médico aplica um teste, que
dá resultado positivo em 40% das pessoas sadias e em 95% das pessoas com
esta doença.
(a) Qual a probabilidade do teste dar resultado positivo?
(b) Sabendo-se que o teste deu resultado positivo qual a probabilidade
desta pessoa estar doente?
(c) Foi aplicado um segundo teste que dá resultado positivo com pro-
babilidades 0,04 e 0,98 em pessoas sadias e doentes respectivamente.
Calcule a probabilidade deste teste dar positivo e a probabilidade de
doença sabendo que ele deu negativo.
2.6. ALGUMAS DISTRIBUIÇÕES DE PROBABILIDADE 33
15. Um componente eletrônico está sendo testado e sabe-se que ele pode ter
sido produzido por máquinas do tipo I, II ou III com probabilidades 0,35,
0,25 e 0,40 respectivamente. Sabe-se também que as probabilidades deste
componente ser defeituoso são 0,01, 0,02 e 0,03 respectivamente para cada
tipo de máquina. Calcule a probabilidade deste componente eletrônico
(a) Defina os eventos e enumere as probabilidades fornecidas no problema.
(b) Qual a probabilidade deste componente eletrônico não ter sido fabri-
cada por uma máquina do tipo I?
(c) Qual a probabilidade dele ser defeituoso?
(d) Qual a probabilidade dele ter sido fabricado por uma máquina do tipo
II sabendo-se que é defeituoso?
16. Uma empresa de crédito precisa saber como a inadimplência está distribúıda
entre seus clentes. Sabe-se que um cliente pode pertencer à uma de 4 clas-
ses distintas com probabilidades 0,50, 0,20, 0,20 e 0,10 respectivamente.
Para cada uma destas classes as probabilidade de um cliente estar inadim-
plente são 0,30, 0,10, 0,05 e 0,05 respectivamente. Um cliente é sorteado
aleatoriamente.
(a) Defina os eventos e enumere as probabilidades fornecidas no problema.
(b) Calcule a probabilidade de pertencer às classes A ou B.
(c) Calcule a probabilidade de estar inadimplente e pertencer à classe A.
(d) Qual a probabilidade dele estar inadimplente ?
(e) Sabendo que ele está inadimplente, qual a probabilidade dele pertencer
à classe B?
17. Sejam duas moedas, uma honesta e a outra com 2 caras. Uma destas
moedas foi sorteada e lançada.
(a) Se o resultado foi cara, qual a probabilidade de ter sido usada a moeda
honesta?
(b) A moeda selecionada foi lançada novamente e o resultado foi cara.
Qual a probabilidade de ser a moeda honesta?
2.6 Algumas distribuições de probabilidade
Nesta seção estudaremos alguns modelos teóricos que se adequam a uma série
de problemas práticos. Veremos que estes modelos envolvem parâmetros cujo
34 CAPÍTULO 2. PROBABILIDADES
conhecimento é necessário para calcular probabilidades. Vale notar que na maio-
ria dos problemas reais estes parâmetros serão desconhecidos e será preciso fazer
algum tipo de inferência sobre eles, e este assunto será abordado no próximo
caṕıtulo. Por enquanto vamos assumir que estes parâmetros são conhecidos e nos
concentrar nas principais caracteŕısticas dos modelos apresentados.
2.6.1 A distribuição Uniforme Discreta
Suponha um experimento com um número finito de posśıveis resultados e cada um
deles com a mesma probabilidade de ocorrer. Definindo uma variável aleatória
(v.a) X cujos posśıveis valores {x1, . . . , xk} estão associados aos resultados deste
experimento, então
P (X = xi) =
1
k
, i = 1, . . . , k.
O valor médio (ou valor esperado) é E(X) = (1/k)
∑k
i=1 xi e sua variância é
V ar(X) =
1
k
k∑
i=1
[xi − E(X)]2 =
1
k
[
k∑
i=1
x2i − kE(X)2]
2.6.2 A distribuição Binomial
Em muitos experimentos os posśıveis resultados apresentam ou não uma deter-
minada caracteŕıstica. Esta caracteŕıstica será muitas vezes determinada pelo
pesquisador dependendo dos objetivos do experimento. Por exemplo, se uma
pessoa for escolhida ao acaso dentre 1000 podemos estar interessados apenas se
ela é do sexo masculino ou não. Neste tipo de experimento estaremos interessados
na ocorrência de um sucesso ou falha e esta terminologia será utilizada daqui em
diante. É usual denotar a probabilidade de sucesso por p, isto é P (sucesso) = p
e portanto P (fracasso) = 1 − p.
Podemos definir uma variável aleatória (v.a) X como a variável indicadora de
sucesso em um experimento binário, i.e.
X =
{
1, se ocorre sucesso
0, se ocorre fracasso
e a probabilidade de X assumir cada um dos seus posśıveis valores é
P (X = x) =
{
px(1 − p)1−x se x = 0, 1
0 caso contrário.
2.6. ALGUMAS DISTRIBUIÇÕES DE PROBABILIDADE 35
Dizemos que X tem distribuição de Bernoulli com parâmetro p ou equivalente-
mente X ∼ Bernoulli(p), 0 < p < 1.
Suponha agora que n experimentos (ou ensaios) independentes, são executa-
dos, onde n é um número fixo, e que cada experimento resulta num sucesso com
probabilidade p ou numa falha com probabilidade 1− p. Ou seja, o experimento
consiste na observação das v.a. X1, . . . , Xn onde Xi ∼ Bernoulli(p), i = 1, . . . , n.
Frequentementeestaremos interessados no número total de sucessos obtidos,
independente da ordem em que eles ocorrem. Por exemplo, uma moeda é lançada
10 vezes e o número total de caras é contado (aqui “cara” é um sucesso).
O número total de sucessos, Y =
∑n
i=1 Xi, cujos posśıveis valores são
0, 1, . . . , n é uma variável aleatória com distribuição binomial com parâmetros
n e p, ou Y ∼ Binomial(n, p). As probabilidades de cada um destes posśıveis
valores são dadas por
P (Y = k) =
(
n
k
)
pk(1 − p)n−k, k = 0, 1, . . . , n (2.1)
sendo (
n
k
)
=
n!
k!(n − k)!
e m! =
∏m
i=1 i é o fatorial de m (define-se 0! = 1). Além disso, o número médio (ou
esperado) de sucessos é E(Y ) = np e a variância é V ar(Y ) = np(1−p). Na Figura
2.1 estão representadas graficamente distribuições Binomiais com probabilidades
de sucesso p=0,2, 0,5, 0,7 e 0,9. Note como a distribuição é simétrica em torno
da média quando p = 1/2 e é assimétrica para os outros valores de p.
Exemplo 2.4 : Em uma linha de montagem estima-se que a proporção de itens
defeituosos é aproximadamente 0,1. Se esta proporção é (aproximadamente) cons-
tante ao longo do processo e 20 itens são selecionados de forma independente
então o número médio ou esperado de defeituosos é 2 com variância 1,8 itens2.
Definindo a v.a. Y : número de itens defeituosos podemos calcular por exemplo
a probabilidade de no máximo 2 itens defeituosos como
P (Y ≤ 2) = P (Y = 0) + P (Y = 1) + P (Y = 2)
=
(
20
0
)
0, 10 0, 920 +
(
20
1
)
0, 11 0, 919 +
(
20
2
)
0, 12 0, 918
= 0, 1216 + 0, 2702 + 0, 2852 = 0, 677.
36 CAPÍTULO 2. PROBABILIDADES
2.6.3 A distribuição de Poisson
Um outro modelo bastante utilizado em aplicações práticas é a distribuição de
Poisson. Ela é frequentemente usada para modelar dados de contagem, i.e. o
número de ocorrências de um certo fenômeno, durante um intervalo fixo de tempo
ou região fixa do espaço. Alguns exemplos são: o número de chamadas recebidas
por uma central telefônica durante uma hora, o número de defeitos por unidade
de comprimento de uma fita magnética, o número de nmetóides encontrados por
unidade de superf́ıcie de solo, o número diário de novos casos de câncer de mama,
etc.
Neste caso, o número de ocorrências X por intervalo fixo (de tempo ou espaço)
tem distribuição de Poisson e a probabilidade de exatamente k ocorrências é dada
por
P (X = k) =
λke−λ
k!
, λ > 0, k = 0, 1, . . . . (2.2)
sendo e a base do logaritmo natural (e = 2, 71828 . . . ).
A constante λ (que é sempre positiva) pode ser interpretada como o número
esperado (ou número médio) de ocorrências por unidade de tempo ou espaço.
Assim, a média de uma variável aleatória com distribuição de Poisson é igual a
λ e pode-se mostrar que a variância é igual a sua média,
E(X) = V ar(X) = λ.
Na Figura 2.2 estão representadas graficamente distribuições de Poisson com
média λ=1, 2, 5 e 15.
Exemplo 2.5 : O número de part́ıculas radioativas emitidas em cada intervalo
de 5 segundos tem distribuição de Poisson e sabe-se que em média 2 part́ıculas
são emitidas por intervalo. Se forem observados 10 intervalos de tempo qual a
probabilidade de que em cada um deles menos de 3 part́ıculas sejam emitidas?
Neste caso, podemos definir a v.a. X como o número de part́ıculas emitidas
por intervalo sendo que o número médio de emissões é λ=2. Portanto X tem
distribuição de Poisson com parâmetro igual a 2 e queremos calcular P (X < 3).
Mas,
P (X < 3) = P (X = 0) + P (X = 1) + P (X = 2) =
20e−2
0!
+
21e−2
1!
+
22e−2
2!
= 0, 1351 + 0, 2707 + 0, 2707 = 0, 6767.
Esta é a probabilidade de emissão de menos de 3 part́ıculas em um intervalo de
2.6. ALGUMAS DISTRIBUIÇÕES DE PROBABILIDADE 37
tempo. Portanto, para 10 intervalos a probabilidade será 0, 676710 = 0, 0201.
A distribuição de Poisson também pode ser vista como uma aproximação para
a distribuição binomial quando n é grande e p é pequeno. Assim, intuitivamente
podemos dizer que a distribuição de Poisson pode ser usada no estudo de eventos
raros, i.e. com pequena probabilidade de ocorrência, quando o experimento é
repetido um número grande de vezes. Neste caso o número médio de ocorrências
é λ = np. Na prática esta aproximação é geralmente utilizada quando n ≥ 50 e
np < 5.
Exemplo 2.6 : Sabe-se que a proporção de pessoas com uma certa doença em
uma população é 0,01. Em uma amostra aleatória de 200 pessoas qual a proba-
bilidade de que pelo menos 4 delas tenham esta doença?
Podemos assumir que a distribuição exata do número X de pessoas com a
doença dentre estas 200 é binomial com parâmetros n = 200 e p = 0, 01. Como
n > 50 e np = 2 < 5 podemos aproximá-la pela distribuição de Poisson com
parâmetro λ = np = 2. Neste caso a probabilidade pedida é
P (X ≥ 4) =
∞∑
k=4
P (X = k) = 1 − P (X < 4)
= 1 − [P (X = 0) + P (X = 1) + P (X = 2) + P (X = 3)]
= 1 −
[
20e−2
0!
+
21e−2
1!
+
22e−2
2!
+
23e−2
3!
]
= 1 − (0, 1353 + 0, 2707 + 0, 2707 + 0, 1804) = 0, 1428.
Note que P (X ≥ 4) é uma soma infinita e foi mais fácil calcular a probabilidade
do complementar.
Finalmente, uma propriedade importante é que se temos n v.a. X1, . . . , Xn
independentes e cada uma delas com distribuição Poisson(λ) então
X = X1 + · · · + Xn ∼ Poisson(nλ)
e
X =
X1 + · · ·+ Xn
n
tem média igual a λ e vriância igual a λ/n.
38 CAPÍTULO 2. PROBABILIDADES
2.6.4 Distribuição Geométrica
A distribuição geométrica também está relacionada a experimentos dicotômicos
realizados de forma independente e com a mesma probabilidade de sucesso. O
evento de interesse neste caso é o número de experimentos X necessários para a
ocorrência do primeiro sucesso. Por exemplo o número de inspeções necessárias
até encontrar-se um item defeituoso em um lote.
A probabilidade de que exatamente k experimentos sejam necessários até a
ocorrência do primeiro sucesso é dada por
P (X = k) = (1 − p)k−1p, k = 1, 2, . . . .
Também pode-se mostrar que o número médio de repetições do experimento
até ocorrer o primeiro sucesso é E(X) = (1 − p)/p e a variância é V ar(X) =
(1 − p)/p2 = E(X)/p. Ou seja, quanto menor a probabilidade de sucesso menor
será o número esperado de repetições para que ele ocorra.
Exemplo 2.7 : Um motorista vê uma vaga de estacionamento em uma rua. Há
cinco carros na frente dele, e cada um deles tem probabilidade 0,2 de tomar a vaga.
Qual a probabilidade de a vaga ser tomada pelo carro que está imediatamente a
frente dele?
Neste caso, podemos definir a v.a. X como o número de carros que pas-
sam pela vaga até que ela seja tomada (este é o evento definido como sucesso).
Assume-se também que cada motorista toma a vaga ou não de forma indepen-
dente. Ou seja queremos calcular
P (X = 5) = (0, 8)4 0, 2 = 0, 082.
2.6.5 Variáveis Aleatórias Discretas
Os modelos vistos até agora são chamados distribuições de probabilidade dis-
cretas já que a v.a. associada assume valores em um conjunto finito ou infinito
enumerável. Neste caso, probabilidades são calculadas como somas, i.e.
P (X ∈ A) =
∑
k∈A
P (X = k),
2.6. ALGUMAS DISTRIBUIÇÕES DE PROBABILIDADE 39
para um conjunto A qualquer. Para distribuições discretas de probabilidade
também é sempre posśıvel mostrar que
∑
k
P (X = k) = 1.
As definições de valor esperado (ou valor médio) e variância também podem
ser generalizados para qualquer v.a. discreta X. Usaremos a seguinte notação,
E(X) = µX =
∑
k
kP (X = k)
V ar(X) = σ2X =
∑
k
P (X = k) (k − µX)2
para valor médio e variância respectivamente. O equivalente teórico ao conceito
de frequências acumuladas vistas no Caṕıtulo 1 é a função de distribuição acu-
mulada ou simplesmente função de distribuição definida como,
F (x) = P (X ≤ x) =
∑
k≤x
P (X = k), ∀x ∈ R
Exemplo 2.8 : Em um experimento 5 peças foram inspecionadas e a v.a. X
representao número de peças defeituosas com a seguinte distribuição de proba-
bilidades
x 0 1 2 3 4 5
P (X = x) 0,35 0,45 0,1 0,05 0,04 0,01
Neste caso podemos calcular o número médio de defeituosos e a variância
como
E(X) = 0× 0, 35 + 1× 0, 45 + 2× 0, 1 + 3× 0, 05 + 4× 0, 04 + 5× 0, 01 ≈ 1 peça
V ar(X) = (0 − 1)20, 35 + (1 − 1)20, 45 + (2 − 1)20, 1 + (3 − 1)20, 05
+ (4 − 1)20, 04 + (5 − 1)20, 01 ≈ 0, 9 peças2
Exemplo 2.9 : Um empresário vai abrir uma nova filial de sua empresa. Com
base na experiência sobre outras filiais e outras empresas do ramo o lucro foi
representado como uma v.a. discreta com a distribuição abaixo.
40 CAPÍTULO 2. PROBABILIDADES
lucro -100 0 50 100 200
P (lucro = k) 0,05 0,05 0,30 0,50 0,10
E(Lucro) = −1000, 05 + 00, 05 + 500, 30 + 1000, 50 + 2000, 10 = 80.
A seguir estudaremos distribuições de probabilidade chamadas cont́ınuas
quando a v.a. associada assume valores no conjunto dos números reais.
2.6.6 A Distribuição Uniforme Cont́ınua
A forma mais simples de modelar um fenômeno aleatório cujos valores ocorrem
no intervalo (a, b) da reta dos reais é através de uma v.a. X cuja probabilidade
de pertencer a qualquer subintervalo de (a, b) seja proporcional ao comprimento
do subintervalo. Matematicamente, se (c, d) ⊆ (a, b) então
P (c ≤ X ≤ d) ∝ d − c.
Isto significa que função de densidade de probabilidade de X deve ser escrita
como
f(x) =



1
b − a, a ≤ x ≤ b
0, caso contrário
Deste modo, P (c ≤ X ≤ d) = (d − c)/(b − a). Pode-se mostrar também que
E(X) = (a + b)/2 e V ar(X) = (b − a)2/12.
Exemplo 2.10 : Seja X uma v.a. com distribuição uniforme no intervalo (-1,4).
Então a função de densidade de probabilidade de X é
f(x) =
{
1/5, −1 ≤ x ≤ 4
0, caso contrário
e também P (0 ≤ X ≤ 2) = 2/5.
2.6.7 A Distribuição Normal
A distribuição normal é a mais familiar das distribuições de probabilidade e
também uma das mais importantes em Estat́ıstica. Esta distribuição é carac-
terizada por uma função de densidade de probabilidade cujo gráfico tem uma
forma de sino como na Figura 2.3.
2.6. ALGUMAS DISTRIBUIÇÕES DE PROBABILIDADE 41
Esta distribuição é apropriada para modelar variáveis aleatórias cont́ınuas,
que assumem valores em algum subconjunto dos números reais. Neste caso, só
faz sentido falar na probabilidade da variável pertencer a um certo intervalo [a, b]
que é dada pela área sob a curva e dentro deste intervalo.
A equação da curva normal é especificada usando dois parâmetros: a média
µ, e o desvio padrão σ, ou equivalentemente a variância σ2. Denotamos N(µ, σ2)
à curva normal com média µ e variância σ2. A média refere-se ao centro da
distribuição e o desvio padrão ao grau de espalhamento de curva. A distribuição
normal é simétrica em torno da média o que implica que a média, a mediana e a
moda são todas coincidentes. Para referência, a equação da curva é dada por
f(x) =
1√
2πσ2
exp
{
−(x − µ)
2
2σ2
}
, µ ∈ R, σ2 > 0. (2.3)
O importante é que se entenda como a curva é afetada pelos valores numéricos
de µ e σ. A forma da curva é mostrada na Figura 2.4 para alguns valores da média
e desvio padrão.
A área sob a curva normal (na verdade abaixo de qualquer função de densidade
de probabilidade) é 1. Então, para quaisquer dois valores espećıficos podemos
determinar a proporção de área sob a curva entre esses dois valores. Em particular
para a distribuição normal, a proporção de valores localizados dentro de um, dois,
ou três desvios padrão em torno da média são:
Intervalo Proporção
µ ± 1σ 68,3%
µ ± 2σ 95,5%
µ ± 3σ 99,7%
Um exemplo de como utilizar este resultado é o seguinte.
Exemplo 2.11 : Suponha que os comprimentos de um particular tipo de peixe
podem ser descritos por uma distribuição normal, com média 140mm e desvio
padrão 15mm. Neste caso, a proporção dos peixes que têm comprimentos entre
110mm e 170mm, por exemplo, é a proporção da área sob a curva normal entre
110 e 170. Então neste exemplo, cerca de 95% dos peixes tem comprimentos entre
110mm e 170mm. Em termos probabiĺısticos, se a variável aleatória X representa
o comprimento dos peixes e se um peixe for selecionado ao acaso então
P (µ − 2σ < X < µ + 2σ) = P (110 < X < 170) = 0, 95.
Em geral as probabilidades são obtidas calculando-se a integral definida da
42 CAPÍTULO 2. PROBABILIDADES
função f(x) em (2.3), i.e.
P (a < X < b) =
∫ b
a
f(x)dx.
Neste caso, P (X = x) = 0 e portanto segue que
P (a < X < b) = P (a ≤ X < b) = P (a < X ≤ b) = P (a ≤ X ≤ b).
Na prática desejamos calcular probabilidades para diferentes valores de µ e
σ. Para isso, a variável X cuja distribuição é N(µ, σ2) é transformada numa
forma padronizada Z com distribuição N(0, 1) (distribuição normal padrão) pois
tal distribuição é tabelada. A quantidade Z é dada por
Z =
X − µ
σ
(2.4)
Exemplo 2.12 : A concentração de um poluente em água liberada por uma
fábrica tem distribuição normal com média 8 ppm e desvio padrão 1,5 ppm.
Qual a probabilidade, de que num dado dia, a concentração do poluente exceda
o limite regulatório de 10 ppm?
A solução deste problema resume-se em determinar qual proporção da dis-
tribuição está acima de 10 ppm. Assim, definindo a v.a. X como sendo a con-
centração do poluente na água segue que X ∼ N(9; 1, 52), e devemos calcular
P (X > 10). Usando a estat́ıstica Z temos que
P (X > 10) = P
(
Z >
10 − 8
1, 5
)
= P (Z > 1, 33) = 1 − P (Z ≤ 1, 33)
= 0, 5 − P (0 < Z < 1, 33)
Consultando a tabela da distribuição normal padronizada obtemos que
P (0 < Z < 1, 33) = 0, 4082 e assim P (X > 10) = 0, 0918. Portanto, espera-
se que a água liberada pela fábrica exceda os limites regulatórios cerca de 9% do
tempo.
Vale notar que a propriedade de simetria da curva normal em torno da média
é bastante útil no cálculo de probabilidades. Por exemplo, se X tem distribuição
N(µ, σ2) então, para quaisquer valores de µ, σ2 e h > 0,
1. P (X > µ) = P (X < µ) = 0, 50 uma vez que a área total abaixo da curva é
igual a 1.
2.6. ALGUMAS DISTRIBUIÇÕES DE PROBABILIDADE 43
2. P (X > µ + h) = P (X < µ − h).
2.6.8 Distribuição Exponencial
Frequentemente usada para modelar o tempo entre eventos que ocorrem a uma
taxa média constante. Se X é uma v.a. com distribuição exponencial sua função
de densidade de probabilidade tem a forma
f(x) = λe−λx, x > 0, λ > 0, (2.5)
sendo λ o parâmetro da distribuição. Usamos a notação X ∼ Exponencial(λ).
Pode-se mostrar que o valor médio de X é 1/λ e sua variância é 1/λ2. Probabi-
lidades são facilmente calculadas como
P (a < X < b) =
∫ b
a
λe−λxdx = e−λa − e−λb
Na Figura 2.5 estão representadas graficamente as funções de densidade (2.5)
com λ=1, 2, e 0,5.
Exemplo 2.13 : Em uma empresa os acidentes de trabalho ocorrem a uma taxa
média de 0,1 por dia. Seja T o tempo (em dias) até a ocorrência do primeiro
acidente, então T tem distribuição exponencial com parâmetro λ = 0, 1. Assim,
o tempo médio até ocorrer o primeiro acidente é igual a 10 dias (E(T )=10). A
probabilidade de não haver acidentes em uma semana de trabalho (de 5 dias) é
dada por
P (T > 5) =
∫ ∞
5
0, 1e−0,1tdt = e−0,1×5 ≈ 0, 607.
O modelo exponencial tem inúmeras aplicações práticas, por exemplo em
teoria das filas (tempo entre chegadas de clientes em um sistema), confiabilidade
(tempo até a falha de um equipamento), etc.
2.6.9 Variáveis Aleatórias Cont́ınuas
Estes últimos modelos são chamados distribuições de probabilidade cont́ınuas
já que a v.a. associada assume valores em um conjunto infinito. Neste caso,
probabilidades são calculadas como integrais, i.e.
P (X ∈ A) =
∫
A
f(x)dx,
44 CAPÍTULO 2. PROBABILIDADES
para um conjunto A ⊂ R qualquer. Também é sempre posśıvel mostrar que
∫ ∞
−∞
f(x)dx = 1.
As definições de valor esperado (ou valor médio) e variância também podem
ser generalizados paraqualquer v.a. cont́ınua X,
E(X) = µX =
∫ ∞
−∞
xf(x)dx
V ar(X) = σ2X =
∫ ∞
−∞
f(x) (x − µX)2.
Neste caso a função de distribuição acumulada é definida como
F (x) = P (X ≤ x) =
∫ x
−∞
f(t)dt, ∀x ∈ R
2.6.10 Problemas
1. Mostre que as funções abaixo são funções de densidade de probabilidade e
determine o valor da constante k.
(a) f(x) = kx2 para 0 < x < 4.
(b) f(x) = k(1 + 2x) para 0 < x < 2.
(c) f(x) = k exp(−x) para x > 0.
2. Considerando a função de densidade no item (b) do problema 1.
(a) Calcule P (X > 1, 5).
(b) Calcule P (0, 7 < X < 1, 2).
(c) Calcule o valor esperado de X.
(d) Calcule a variância de X.
(e) Calcule a mediana de X.
(f) Calcule os quartis da distribuição de X.
3. A função de distribuição acumulada de uma certa variável aleatória é
F (x) =



0, x < −2
0, 25x + 0, 5, −2 ≤ x < 2
x x ≥ 2
2.7. AJUSTE DE MODELOS TEÓRICOS 45
(a) Calcule P (X < 1, 8)
(b) Calcule P (X > −1, 5)
(c) Calcule P (X < −2)
(d) Calcule P (−1 < X < 1)
(e) Calcule a média e mediana de X
2.7 Ajuste de Modelos Teóricos
Um problema de grande importância prática é o ajuste de distribuições teóricas
às distribuições dos dados observados. Em outras palavras, queremos saber se
a distribuição das frequências observadas nos dados segue o padrão de algum
modelo teórico (normal, binomial, etc.). Nos exemplos a seguir veremos como
fazer este ajuste.
Exemplo 2.14 : Em uma amostra de 100 lotes com 5 itens cada um, verificou-se
que o número de itens defeituosos tem a seguinte distribuição de frequências,
Tabela 2.1: Frequências observadas para os dados de itens defeituosos.
no de defeituosos 0 1 2 3 4 5 total
no de lotes 75 21 3 1 0 0 100
Podemos ajustar uma distribuição binomial a estes dados com n = 5 e p a
probabilidade de um item ser defeituoso. Neste caso a média teórica é np = 5p
e o número médio de itens defeituosos observados é x̄ = 0, 3. Igualando as duas
médias obtemos que 5p = 0, 3, e portanto p = 0, 06. Assim, se X representa o
número de itens defeituosos em cada lote, a distribuição binomial ajustada será,
P (X = k) =
(
5
k
)
(0, 06)k(0, 94)5−k, k = 0, 1, 2, 3, 4, 5.
Agora podemos calcular as frequências teóricas (ou ajustadas) e comparar
com aquelas observadas, como na Tabela 2.2 a seguir.
Com base nesta tabela podemos afirmar que o modelo binomial parece ser
adequado já que as frequências observadas ficaram muitos próximas das ajusta-
das. Em outras palavras, aquilo que foi observado parece estar de acordo com o
modelo teórico.
46 CAPÍTULO 2. PROBABILIDADES
Tabela 2.2: Frequências ajustadas e observadas para os dados de itens defeituosos.
frequências
no de defeituosos (k) P (X = k) ajustada observada
0 0,7339 73 75
1 0,2342 23 21
2 0,0299 3 3
3 0,0019 0 1
4 0,0001 0 0
5 0,0000 0 0
Tabela 2.3: Frequências observadas de defeitos em 300 itens.
no de defeitos 0 1 2 3 4 total
no de itens 80 122 53 31 14 300
Exemplo 2.15 : Em uma amostra de 300 itens, o número de defeitos observados
em cada um deles tem a distribuição de frequências dada na Tabela 2.3 abaixo.
Podemos pensar em ajustar uma distribuição de Poisson com parâmetro (λ)
dado pelo número médio de defeitos observados por item. Neste caso a média
amostral é x̄ = 1, 26, e portanto se X representa o número de defeitos por item
então a distribuição ajustada será,
P (X = k) =
(1, 26)ke−1,26
k!
, k = 0, 1, . . .
A partir deste modelo podemos calcular as frequências ajustadas, e obtemos
a Tabela 2.4 a seguir.
Podemos dizer que o modelo ainda parece adequado embora as frequências
observadas não estejam mais tão próximas das ajustadas (como no exemplo an-
terior). Nos próximos caṕıtulos veremos como testar esta adequação mais for-
malmente.
Exemplo 2.16 : Em um determinada seção de um rio foram efetuadas 1000
medições de sua vazão (em m3/s), e obteve-se a distribuição apresentada na
Tabela 2.5 abaixo.
Podemos ajustar uma distribuição normal com parâmetros (média e variância)
dados pela média amostral e variância amostral respectivamente. Neste caso,
2.7. AJUSTE DE MODELOS TEÓRICOS 47
Tabela 2.4: Frequências ajustadas e observadas para os dados de defeitos por
item.
frequências
no de defeitos (k) P (X = k) ajustada observada
0 0,28 85 80
1 0,36 107 122
2 0,23 68 53
3 0,09 28 31
4 0,03 9 14
Tabela 2.5: Frequências observadas para os dados de vazão agrupados em classes.
classes de vazão frequência observada
10-14 55
14-18 126
18-22 325
22-26 315
26-30 130
30-34 49
x̄ = 21, 9 e s = 4, 71 e portanto se X representa as medições de vazão então X
tem distribuição N(21, 9; 4, 712) (esta é a distribuição ajustada). Calculado as
probabilidades de obter uma medição em cada uma das classes podemos construir
a Tabela 2.6 com as frequências ajustadas.
A probabilidade da primeira classe foi obtida calculando-se
P (10 < X < 14) = P
(
10 − 21, 9
4, 71
< Z <
14 − 21, 9
4, 71
)
= P (−2, 53 < Z < −1, 68) = P (1, 68 < Z < 2, 53)
= P (Z < 2, 53) − P (Z < 1, 68) = 0, 9945− 0, 9535 = 0, 041
e este cálculo foi repetido para as outras classes.
Novamente parece razoável afirmar que o modelo é adequado para estes da-
dos uma vez que as frequências observadas ficaram relativamente próximas das
ajustadas.
48 CAPÍTULO 2. PROBABILIDADES
Tabela 2.6: Frequências ajustadas e observadas para os dados de vazão agrupados
em classes.
frequências
classes de vazão Probabilidades das classes ajustada observada
10-14 0,041 41 55
14-18 0,157 157 126
18-22 0,305 305 325
22-26 0,300 300 315
26-30 0,150 150 130
30-34 0,038 38 49
2.8 Problemas
1. Suponha que a variável aleatória X possa assumir os seguintes valores -3,-
2,-1,0,1,2,3 com a mesma probabilidade. Determine distribuição de proba-
bilidades de Y = X2 − X.
2. Considere um modelo uniforme discreto para a v.a. X no conjunto
{1, 2, . . . , 10}. Calcule P (3 ≤ X < 7) e P (X ≤ 9|X ≥ 6).
3. A probabilidade de um atirador acertar no alvo num único tiro é 1/4. Se o
atirador atira 20 vezes no alvo qual a probabilidade de acertar
(a) exatamente 5 vezes;
(b) pelo menos 3 vezes;
(c) nenhuma vez;
(d) no máximo 2 vezes.
4. Um professor aplica um teste do tipo certo-errado com 20 questões. Calcule
a probabilidade de um aluno acertar mais de 80% das questões supondo que
ele está respondendo ao acaso.
5. O número de part́ıculas alfa emitidas por segundo em sedimentos radioati-
vos pode ser descrito por uma distribuição Poisson com média 6.
(a) Qual a probabilidade de não haver nenhuma part́ıcula emitida num
dado segundo?
(b) Qual a probabilidade de pelo menos quatro part́ıculas serem emitidas
num segundo?
2.8. PROBLEMAS 49
6. O número médio de colônias de bactérias por 10 ml de água retirada de um
lago é igual a 3.
(a) Qual a probabilidade de se achar pelo menos duas colônias em 10 ml
de água deste lago?
(b) Qual a probabilidade de não se achar nenhuma colônia em 10 ml de
água deste lago?
7. Um curso de especialização garante que 9 em cada 10 alunos seus têm au-
mento de produtividade. Uma empresa decide enviar uma turma de 15
funcionários para fazer o curso e verificar quantos aumentaram a produti-
vidade.
(a) Indique um modelo apropriado para este experimento e diga quais as
hipóteses necessárias para que ele seja válido.
(b) Assumindo que este modelo é válido, qual a probabilidade de que no
máximo 2 funcionários não aumentem sua produtividade ?
(c) O que ocorre com o item anterior se a empresa enviar 100 funcionários
? (Dê uma solução aproximada).
8. A tabela abaixo representa uma distribuição de frequências para o número
de defeitos observados em certo tipo de componente eletrônico.
no defeitos 1 2 3 4 5 6 7
frequência 3 9 8 5 3 1 1
(a) Você diria que a distribuição normal é adequada para modelar estes
dados? (Justifique).
(b) Assumindo que o modelo de Poisson é apropriado calcule a proba-
bilidade de um componente escolhido

Continue navegando