Estatística em todos os níveis

Probabilidade e Estatística

•
UFC

Vinícius Osterne
19/11/2021
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 560 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 560 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 560 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Probabilidade e Estatística

29.827 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
NOTAS DE AULA
VINÍCIUS SILVA OSTERNE RIBEIRO
ESTATÍSTICA
EM TODOS OS NÍVEIS
2
ACERVO PESSOAL E PROFISSIONAL
ESTATÍSTICA
EM TODOS OS NÍVEIS
VINÍCIUS SILVA OSTERNE RIBEIRO
vinicius@osterne.com | www.osterne.com
vinicius@osterne.com
www.osterne.com
2
Sumário
I Material preliminar 21
1 Elementos de análise combinatória . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.1 Considerações iniciais 23
1.2 Considerações iniciais 2 23
1.3 Considerações iniciais 3 23
2 Teoria (ingênua) dos conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.1 Considerações iniciais 25
2.2 Considerações iniciais 2 25
2.3 Considerações iniciais 3 25
3 Análise Exploratória de Dados (AED) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.1 Análise descritiva e análise inferencial 27
II Probabilidade 29
4 Conceitos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.1 Experimentos aleatórios 31
4.2 Espaço amostral, evento e sigma-álgebra 31
4.3 Definições de probabilidade: frequentista, subjetiva e axiomática 32
4.4 Propriedades da probabilidade 33
4.5 Probabilidade condicional 33
4.5.1 Regra do produto de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.5.2 Teorema da probabilidade total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.5.3 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.5.4 Independência de eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.6 Lema de Borel-Cantelli 37
3
4
5 Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.1 Conceito de variável aleatória 39
5.2 Variáveis aleatórias discretas, contínuas e mistas 40
5.3 Função de probabilidade e função densidade de probabilidade 41
5.4 Função de distribuição acumulada e função de sobrevivência 42
5.5 Histograma 42
5.6 Distribuições de probabilidade mais comuns 45
5.6.1 Distribuição Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.6.2 Distribuição Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.6.3 Distribuição Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.6.4 Distribuição Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.6.5 Distribuição Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.6.6 Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.6.7 Distribuição Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.6.8 Distribuição Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.6.9 Distribuição Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.6.10 Distribuição Lognormal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.6.11 Distribuição qui-quadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.6.12 Distribuição t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.6.13 Distribuição F de Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
6 Variáveis Aleatórias Multidimensionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
6.1 Introdução 53
6.2 Função de distribuição conjunta 53
6.2.1 Função de distribuição conjunta para o caso discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
6.2.2 Função de distribuição conjunta para o caso contínuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
6.3 Função de distribuição marginal 54
6.3.1 Função de distribuição marginal para o caso discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
6.3.2 Função de distribuição marginal para o caso contínuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
6.4 Distribuição condicional 55
6.5 Independência entre variáveis 55
6.6 Exemplos de distribuições multidimensionais 55
6.6.1 Distribuição multinomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
6.6.2 Distribuição normal multivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
6.7 Funções de variáveis aleatórias 56
6.7.1 Transformação integral de probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
6.7.2 Inversa de generalizada de F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5
6.7.3 Densidade da soma e da diferença de variáveis aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
6.7.4 Relações entre distribuições de probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
6.7.5 Densidade do produto e do quociente de variáveis aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
7 Momentos de variáveis aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
7.1 Definições e conceitos iniciais 57
7.2 Esperança e suas propriedades 58
7.3 Variância e suas propriedades 59
7.4 Coeficiente de assimetria 60
7.5 Coeficiente de curtose 60
7.6 Covariância 60
7.7 Coeficiente de correlação 60
8 Funções auxiliares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
8.1 Introdução 61
8.2 Esperança condicional 61
8.3 Variância condicional 61
8.4 Covariância condicional 61
8.5 Função geradora de momentos 61
8.6 Função característica 61
8.7 t.b.d 62
8.8 Esperança Condicional 62
8.9 Variância condicional 62
8.10 Covariância condicional 62
8.11 Função Geradora de Momentos 62
8.12 Função Característica 63
9 Convergência de Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
9.1 Introdução 65
9.2 Convergência quase certa 65
9.3 Convergência em probabilidade 65
9.4 Convergência em média r 65
9.5 Convergência em distribuição 65
9.6 Lei dos grandes números 65
6
9.7 Teorema central do limite 65
9.8 t.b.d. 65
9.9 Modos de convergência 65
9.10 Lei dos Grandes Números 65
9.11 Teorema Central do Limite 66
9.12 Teorema Central do Limite 66
III Inferência 67
10 Começando o estudo da Inferência Estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
10.1 Análise descritiva e análise inferencial 69
10.2 Pontos a serem discutidos sobre a análise inferencial 69
10.3 Motivação para o estudo da análise inferencial 70
11 Conceitos básicos em Inferência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
11.1 Consideraçõesiniciais 72
11.2 População e amostra 73
11.3 Métodos de amostragem 74
11.4 Parâmetro e espaço paramétrico 78
11.5 Estatísticas e estimadores 79
11.6 Estatísticas e suas particularidades 80
11.6.1 Estatística suficiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
11.6.2 Estatística suficiente a partir da família exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
11.6.3 Estatísticas equivalentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
11.6.4 Estatística completa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
11.7 Estimadores e suas particularidades 89
11.7.1 Estimador não viciado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
11.7.2 Estimador eficiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
11.7.3 Estimadores obtidos via estatística suficiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
11.7.4 Estimador ótimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
11.7.5 Estimador consistente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
12 Distribuição amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
12.1 Considerações iniciais 99
12.2 Distribuição amostral da média (com variância conhecida) 99
7
12.3 Distribuição amostral da média (com variância desconhecida) 100
12.4 Distribuição amostral da proporção 100
12.5 Distribuição amostral da variância (com média conhecida) 101
12.6 Distribuição amostral da variância (com média desconhecida) 101
12.7 Distribuição amostral da diferença de duas médias (com variância conhecidas) 101
12.8 Distribuição amostral da diferença de duas médias (com variâncias desconhecidas) 101
12.9 Distribuição amostral da diferença de proporções 102
12.10 Distribuição amostral da razão de duas variâncias (com médias conhecidas) 103
12.11 Distribuição amostral da razão de duas variâncias (com médias desconhecidas) 103
12.12 Considerações finais 104
13 Estimação pontual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
13.1 Considerações iniciais 105
13.2 Métodos de estimação 105
13.2.1 Método dos momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
13.2.2 Método da máxima verossimilhança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
13.2.3 Método da máxima verossimilhança perfilada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
13.2.4 Método da máxima verossimilhança restrita ou residual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
13.2.5 Método da quase verossimilhança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
13.2.6 Estimação bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
13.2.7 Estimação com base na estatística U . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
13.3 Métodos numéricos de estimação 112
13.3.1 Método Steepstest descent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
13.3.2 Método Newton-Rhapson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
13.3.3 Método Fisher scoring . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
13.3.4 Método Davidson-Fletcher-Powell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
13.3.5 Método Nelder-Mead . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
13.3.6 Método Gradiente conjugado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
13.3.7 Método Simulated annealing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
13.3.8 Algoritmo EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
13.4 Métodos para avaliação de estimadores pontuais 116
13.4.1 Erro Quadrático Médio (EQM) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
13.4.2 Melhores estimadores não viesados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
13.4.3 Suficiência e não viés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
13.4.4 Otimalidade da função de perda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
13.5 Bootstrap e Jackknife 118
13.6 Considerações finais 118
8
14 Estimação intervalar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
14.1 Considerações iniciais 119
14.2 Motivação para uso de um intervalo de confiança 119
14.3 Definição de intervalo de confiança 119
14.4 Métodos para construção de intervalos de confiança 120
14.4.1 Quantidade pivotal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
14.4.2 Intervalos bayesianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
14.4.3 Intervalo de confiança bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
14.4.4 Pivotagem da FDA (t.b.d) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
14.4.5 Inversão da estatística do teste (t.b.d) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
14.5 Os intervalos de confiança mais comuns (usando a quantidade pivotal) 121
14.5.1 Intervalo de confiança para a média (com variância conhecida) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
14.5.2 Intervalo de confiança para a média (com variância desconhecida) . . . . . . . . . . . . . . . . . . . . . . . . . . 123
14.5.3 Intervalo de confiança para a proporção . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
14.5.4 Intervalo de confiança para a variância com média conhecida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
14.5.5 Intervalo de confiança para a variância com média desconhecida . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
14.5.6 Intervalo de confiança para diferença de médias (com variâncias conhecidas) . . . . . . . . . . . . . . . . . . 127
14.5.7 Intervalo de confiança para diferença de médias (com variâncias desconhecidas e iguais) . . . . . . . . . . 128
14.5.8 Intervalo de confiança para diferença de médias (com variâncias desconhecidas e diferentes) . . . . . . . 129
14.5.9 Intervalo de confiança para a diferença de proporções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
14.5.10 Intervalo de confiançapara razão de duas variâncias (com médias conhecidas) . . . . . . . . . . . . . . . . . 130
14.5.11 Intervalo de confiança para razão de duas variâncias (com médias desconhecidas) . . . . . . . . . . . . . . . 131
14.6 Métodos para avaliação de estimadores intervalares 132
14.7 Cálculo do tamanho da amostra 132
15 Teste de Hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
15.1 Motivação para o uso dos teste de hipóteses 137
15.2 Os principais conceitos para testes de hipóteses 141
15.3 Aplicação dos conceitos 147
15.4 Métodos para construção de teste de hipóteses 161
15.5 Passo a passo para construir um teste de hipóteses 162
15.6 Os testes de hipóteses mais comuns 163
15.6.1 Teste de hipóteses para a média (com variância conhecida) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
15.6.2 Teste de hipóteses para a média (com variância desconhecida) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
15.6.3 Teste de hipóteses para a proporção . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
15.6.4 Teste de hipóteses para a variância (com média conhecida) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
15.6.5 Teste de hipóteses para a variância (com média desconhecida) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
9
15.6.6 Teste de hipóteses para diferença de duas médias (com variâncias conhecidas) . . . . . . . . . . . . . . . . . 180
15.6.7 Teste de hipóteses para a diferença de duas médias (variâncias desconhecidas e iguais) . . . . . . . . . . . 183
15.6.8 Teste de hipóteses para a diferença de duas médias (variâncias desconhecidas e diferentes) . . . . . . . . 186
15.6.9 Teste de hipóteses para diferença entre duas proporções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
15.6.10 Teste de hipóteses para razão entre duas variâncias (com médias conhecidas) . . . . . . . . . . . . . . . . . . 192
15.6.11 Teste de hipóteses para razão entre duas variâncias (com médias desconhecidas) . . . . . . . . . . . . . . . 195
15.7 Métodos para avaliação de teste de hipóteses 198
15.8 Outros teste de hipóteses 199
15.8.1 Teste de normalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
15.8.2 Testes qui-quadrado: aderência, homogeneidade e indepedência . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
16 Estatística não paramétrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
16.1 Introdução 209
16.2 Métodos de estimação para densidades de probalidade 209
16.2.1 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
16.2.2 Método de Kernel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
16.3 Teste de hipóteses 212
16.3.1 Teste dos Sinais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
16.3.2 Teste de Wilcoxon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
16.3.3 Teste de indepêndencia (χ2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
16.3.4 Teste de Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
16.3.5 Teste Exato de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
16.3.6 Teste de Mann-Whitney-Wilcoxon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
16.3.7 Teste de Siegel-Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
16.3.8 Teste de Kolmogorov-Sminorv . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
17 Técnicas de amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
17.1 Conceitos Iniciais 217
IV Modelos de Regressão 219
18 Análise de variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
18.1 Introdução 225
18.2 Modelo para uma população 225
18.3 Modelo para duas populações 226
18.4 Modelo para mais de duas populações 226
18.5 Teste de igualdade de médias 227
10
18.6 Comparação de médias 227
19 Modelo de regressão linear simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
19.1 Introdução 229
19.2 Pressupostos do modelo 230
19.3 Estimação dos parâmetros 231
19.4 Análise de variância 233
19.5 Teste de hipóteses 239
19.6 Intervalos de confiança 240
19.7 Técnicas de diagnóstico 242
19.8 Outros modelos lineares simples 243
19.9 Aplicações 247
19.9.1 Aplicação 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
19.9.2 Aplicação 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250
20 Modelo de regressão linear múltiplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255
20.1 Introdução 255
20.2 Estimação dos parâmetros 256
20.3 Análise de Variância 259
20.4 Teste de hipóteses 261
20.5 Intervalo de confiança 262
20.6 Técnicas de diagnóstico 264
20.7 Outros modelos 266
20.8 Aplicações 269
20.8.1 Aplicação 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
20.8.2 Aplicação 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273
21 Modelo de regressão linear multivariado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
21.1 Introdução 277
21.2 Estimação dos parâmetros 279
21.3 Testes de hipóteses 279
21.4 Técnicas de diagnóstico 279
21.5 Aplicações 280
21.5.1 Aplicação 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280
21.5.2 Aplicação 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285
11
22 Modelos Lineares Generalizados (MLGs) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287
22.1 Introdução 287
22.2 Família exponencial 287
22.3 Apresentação da estrutura 288
22.4 Função de ligação 288
22.5 Estimação dos parâmetros 290
22.6 Função desvio 293
22.7 Teste de hipóteses 293
22.7.1 Teste da razão de verossimilhanças . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
22.7.2 Teste F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294
22.7.3 Teste de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294
22.7.4 Estatística deviance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295
22.8 Técnicas de diagnóstico 295
22.8.1 Análise de resíduos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296
22.8.2 Técnicas gráficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . 296
22.8.3 Análise de influência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297
22.9 Estrutura dos MLGs em seus casos particulares 297
22.9.1 Resposta com distribuição normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297
22.9.2 Resposta com distribuição Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297
22.9.3 Resposta com distribuição binomial negativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297
22.9.4 Resposta com distribuição gama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297
22.9.5 Resposta com distribuição normal inversa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297
22.9.6 Resposta com distribuição binomial (tabelas de contigência) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297
22.9.7 Resposta com distribuição binomial (regressão logística) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297
22.10 Aplicações 300
22.10.1 Aplicação 1 (modelo de regressão gama) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300
22.10.2 Aplicação 2 (modelo de regressão normal inversa) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300
22.10.3 Aplicação 3 (modelo de regressão usando tabelas de contigência) . . . . . . . . . . . . . . . . . . . . . . . . . . . 300
22.10.4 Aplicação 4 (modelo de regressão logístico) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300
22.10.5 Aplicação 5 (modelo de regressão logístico) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303
22.10.6 Aplicação 6 (modelo de regressão logístico) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304
22.10.7 Aplicação 7 (modelo de regressão poisson e binomial negativo) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306
22.10.8 Aplicação 8 (modelo de regressão poisson e binomial negativo) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312
22.10.9 Aplicação 9 (modelo de regressão poisson e binomial negativo) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316
23 Modelos de regressão baseados na quase verossimilhança . . . . . . . . . . . . . . 319
23.1 Introdução 319
23.2 Apresentação da estrutura 319
12
23.3 Estimação dos parãmetros 321
23.4 Teste de hipóteses 322
23.5 Estrutura da QL em seus casos particualares 322
23.5.1 Resposta com distribuição normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322
23.5.2 Resposta com distribuição Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322
23.5.3 Resposta com distribuição binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322
23.6 Aplicações 322
23.6.1 Aplicação 1 (modelo quase normal) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322
23.6.2 Aplicação 2 (modelo quase Poisson) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322
23.6.3 Aplicação 3 (modelo quase binomial) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326
23.7 Extensões 326
23.7.1 Modelo de quase verossimilhança para medidas repetidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326
24 Modelos de regressão não lineares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 327
24.1 Introdução 327
24.2 Regressão Potência 327
25 Modelos de regressão não paramétricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329
25.1 Introdução 329
25.2 Modelo de regressão pelo método de Kernel 330
25.3 Modelo de regressão por splines 331
25.4 Modelo de regressão por polinômio local 331
25.5 Outros modelos de regressão não paramétricos 331
26 Modelos de regressão especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
26.1 Modelos de regressão beta 333
26.2 Modelo de regressão beta retangular 337
26.3 Modelos de regressão Birbaum-Saunders 342
V Tópicos especiais em Estatística 351
27 Estatística computacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353
27.1 Conceitos Iniciais 353
27.2 Geração de números aleatórios 355
27.2.1 Método da transformada inversa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
27.2.2 Método da amostragem por corte ("slice sampling") . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
13
27.2.3 Método da rejeição adaptativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
27.3 Álgebra linear computacional 355
27.3.1 Decomposições de matrizes: Cholesky, QR, SVD (decomposição do valor singular) . . . . . . . . . . . . . . 355
27.3.2 Solução de sistemas de equações lineares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
27.4 Integração numérica 355
27.4.1 Aproximação de Laplace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
27.4.2 Integração por quadratura e quadratura adaptativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
27.4.3 Integração por amostragem por importância ("importance sampling") . . . . . . . . . . . . . . . . . . . . . . . . 355
27.4.4 Integração por Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
27.5 Otimização de funções não-lineares 355
27.5.1 Algoritmos de Newton-Raphson e Escore de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
27.5.2 Algoritmo de Nelder-Mead . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
27.5.3 Algoritmo BFGS (Broyden–Fletcher–Goldfarb–Shanno) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
27.6 Algoritmo EM 355
27.7 Métodos de reamostragem 355
27.7.1 Jacknife . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
27.7.2 Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
27.8 Métodos de simulação de Monte Carlo via Cadeias de Markov (MCMC) 355
27.8.1 Amostrador de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
27.8.2 Metropolis-Hastings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
27.8.3 Amostragem por importância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
27.8.4 Rejeição adaptativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
28 Estatística multivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357
28.1 Conceitos Iniciais 357
28.2 Distribuição normal multivariada 357
28.3 Análise de variância multivariada 357
28.4 Análise de componentes principais 357
28.5 Análise fatorial 357
28.6 Análise de correspondência 357
28.7 Análise de correlações canônicas 357
28.8 Análise discriminante357
29 Planejamento de Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359
29.1 Conceitos iniciais 359
29.2 Delineamento Inteiramente Casualizado 360
14
29.3 Blocos Completos Inteiramente Casualizados (BIC) 360
29.4 Fatorial 361
29.5 Quadrado latino (t.b.d) 361
29.6 Superfície de resposta 361
30 Análise de dados longitudinais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 369
30.1 Conceitos Iniciais 369
30.2 Análise descritiva para dados longitudinais 369
30.2.1 Gráfico de dispersão multivariados (Draftman’s plot) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 369
30.2.2 Matriz de covariâncias/correlações amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 369
30.2.3 Gráfico de perfis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370
30.2.4 Variograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370
30.3 Redução de dados multivariados para univariados 370
30.4 Modelos lineares multivariados para análise de dados longitudinais 371
30.4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
30.4.2 Apresentação da estrutura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
30.4.3 Estimação dos parâmetros (pontual e intervalar) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
30.4.4 Diagnóstico do modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
30.5 Modelos lineares mistos para análise de dados longitudinais 371
30.5.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
30.5.2 Apresentação da estrutura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
30.5.3 Estimação dos parâmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373
30.5.4 Teste de hipoteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373
30.5.5 Diagnóstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373
30.5.6 Aplicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373
30.6 Modelos lineares generalizados mistos para análise de dados longitudinais 374
30.6.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374
30.7 Equações de Estimação Generalizadas para análise de dados longitudinais 374
30.7.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374
30.7.2 Apresentação da estrutura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375
30.7.3 Estimação dos parâmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376
30.7.4 Intervalo de confiança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 377
30.7.5 Teste de hipoteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 377
30.7.6 Aplicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 377
31 Análise de sobrevivência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379
31.1 Introdução 379
31.2 Análise descritiva em análise de sobrevivência 381
15
31.3 Análise inferencial em análise de sobrevivência 383
31.4 Modelos de regressão em análise de sobrevivência 383
31.5 Aplicação 386
32 Séries temporais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 441
32.1 Introdução 441
33 Teoria de Resposta ao Item . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443
33.1 Introdução 443
33.2 Apresentação da estrutura 444
33.3 Estimação dos parâmetros 448
33.4 Aplicação 449
34 Teoria das decisões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455
34.1 Introdução 455
34.2 Princípio Minimax 455
34.3 Princípio de Bayes 455
35 Estatística Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 457
35.1 Conceitos Iniciais 457
35.1.1 Dedução versus Inferência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 458
35.1.2 Probabilidade versus Inferência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 458
35.1.3 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 459
35.2 Componentes de uma análise Bayesiana 459
35.2.1 Verossimilhança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 459
35.2.2 Distribuição à priori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 459
35.2.3 Distribuição à posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460
35.2.4 Função de Perda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460
35.2.5 Formulação de inferência como problema de decisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460
35.3 Função de perda 460
35.4 Propriedades de um estimador Bayesiano 463
35.5 Priori conjugada 468
35.5.1 Modelo Poisson-Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 469
35.5.2 Modelo Binomial Negativa-Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 470
35.6 Componentes de uma análise Bayesiana 471
35.6.1 Triplet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 471
16
35.6.2 Sumário estatístico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 471
35.6.3 Gráficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 471
35.6.4 Inferências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472
35.7 Teste de hipóteses 473
35.8 Priori não-informativa 475
35.8.1 Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475
35.8.2 Priori de Jeffrey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 476
36 Estatística computacional . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 479
36.1 Conceitos Iniciais 479
37 Funções de Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 481
37.1 Conceitos iniciais 481
37.2 Função de estimação regular e informação de Godambe 482
37.3 Função de estimação ótima e função de estimação linear 484
38 Processos estocásticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 487
38.1 Processos especiais 487
38.1.1 Processo de ramificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 487
38.1.2 Probabilidade de extinção da população . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 489
38.2 Passeio aleatório 496
38.3 Ruína do jogador 498
38.4 Passeio aleatório em grafos 501
38.5 Movimento Browniano 503
38.5.1 Caracterização do Movimento Browniano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 504
38.5.2 Existência e Continuidade do Movimento Browniano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 505
38.5.3 Autosemelhança no Movimento Browniano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 506
38.5.4 Variações do Movimento Browniano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 506
38.5.5 Aplicações e simulações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 509
39 Teoria da Informação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 513
VI Tópicos especiais em Machine Learning 515
40 Conceitos iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 517
40.1 Componentes de um problema de classificação 517
17
40.2 Dissimilaridade e similaridade 517
40.3 Métrica e distância 518
40.3.1 Distância Quarteirão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 518
40.3.2 Distância Euclidiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 518
40.3.3 Distância de Chebyshev . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 518
40.3.4 Distância de Minkowski de Ordem m . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 519
40.3.5 Distância Quadrática (ou de Mahalanobis) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 519
40.3.6 Distância de Hamming . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 519
40.3.7 Distância de Hamming . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 519
40.3.8 Distância de Jaccard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 519
40.3.9 Índice de Haversine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 519
40.3.10 Índice de Soresen-Dice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 519
40.4 Normalização dos dados 519
41 Preparação dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 521
41.1 Escala 521
41.2 Centralização 521
41.3 Padronização 521
41.4 Normalização 521
41.5 Transformação de Box-Cox 521
41.6 Transformação de Yeo-Johnson 522
41.7 Análise de Componentes Principais 522
41.8 Análise de Componentes Independentes 523
41.9 Discriminante de Fisher 523
42 Métricas de avaliação para modelos de classificação . . . . . . . . . . . . . . . . . . . . 527
42.1 Para o caso supervisionado 527
42.1.1 Acurácia, precisão, sensibilidade e F1-score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 527
42.2 Para o caso não supervisionado 528
42.2.1 Índice de Dunn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 528
42.2.2 Índice de Davies-Bouldin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 528
42.2.3 Índice de Calinski-Harabasz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 528
43 Modelos de classificação supervisionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 529
43.1 Vizinho mais próximo 529
43.2 Centróide mais próximo 529
18
43.3 K-Nearest Neighbours (Vizinhos mais próximos - KNN) 529
43.4 Logistic regression (Regressão logística) 530
43.5 Decision tree (Árvore de decisão) 530
43.6 Random forest (Floresta aleatória) 530
43.7 Support Vector Machine (Máquina de vetores de suporte) 531
43.8 Stochastic Gradient Descent (Gradiente Estocástico Descendente) 532
43.9 Adaboost 532
43.10 Gradient boosting 532
43.11 XGBoost 532
43.12 Classificadores baseados na regra de Bayes 532
43.13 Classificador linear de mínimos quadrados 533
43.14 Perceptron 534
43.15 Redes neurais (Neural Network) 534
44 Modelos de classificação não supervisionados . . . . . . . . . . . . . . . . . . . . . . . . . . . 535
44.1 Introdução 535
44.2 Algoritmo k-means 535
44.3 Métodos Hierárquicos 539
44.4 Métodos Baseados em Densidade 539
44.5 Métodos Baseados em Grade 539
44.6 Métodos Baseados em Modelos 539
44.7 Métodos Baseados em Redes Neurais 539
44.8 Métodos Baseados em Lógica Fuzzy 539
44.9 Métodos Baseados em Kernel 539
44.10 Métodos Baseados em Grafos 539
44.11 Métodos Baseados em Computação Evolucionária 539
.1 Desigualdades de Markov, Chebychev e Jensen 540
.1.1 Desigualdade de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 540
.1.2 Desigualdade de Chebyshev . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 540
.1.3 Desigualdade de Jensen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 541
.1.4 Desigualdade de Holder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543
.1.5 Desigualdade de Holder para somatórios finitos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543
.1.6 Desigualdade de Minkowski . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543
19
A Funções de variáveis aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545
A.1 Introdução 545
A.2 Caso discreto - Transformação direta 545
A.3 Caso contínuo - Função de distribuição 546
A.3.1 Quando a função é inversivel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 547
A.3.2 Quando a função não é inversivel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 547
A.4 Caso contínuo - Jacobiano 547
A.5 Caso contínuo - Uso das fgm, fgp e função característica 548
B Desigualdade de Bonferroni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 549
B.1 Exemplo 549
C Função Gama e Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 551
C.1 Função Gama 551
C.2 Função Beta 551
20
ParteI
Material preliminar
21
Aula 1
Elementos de análise combinatória
1.1 Considerações iniciais
1.2 Considerações iniciais 2
1.3 Considerações iniciais 3
23
24
Aula 2
Teoria (ingênua) dos conjuntos
2.1 Considerações iniciais
2.2 Considerações iniciais 2
2.3 Considerações iniciais 3
25
26
Aula 3
Análise Exploratória de Dados (AED)
3.1 Análise descritiva e análise inferencial
A Estatística é uma ciência que lida com a coleta, observação e análise de dados, por meio de uma abordagem
quantitativa. Essa abordagem é subdividida em:
27
28
Parte II
Probabilidade
29
Aula 4
Conceitos básicos
É importante comerçar nossos estudos com a explanação de que tudo que se estuda em Estatística tem,
como base fundamental, a teoria da Probabilidade. É a partir dessa teoria com base nela que podemos, por
exemplo, modelar populações, experimentos, acontecimentos ou realizar previsões com dados e informações que
apresentam comportamento não determinístico (estocástico ou aleatório).
Na subseções a seguir apresentamos os conceitos sobre experimentos aleatórios, espaço amostral, eventos,
sigma-álgebra, definições de probabilidade, propriedades da probabilidade, probabilidade condicional (regra do
produto de probabilidades, teorema da probabilidade total, eorema de Bayes e ndependência de eventos) e lema
de Borel-Cantelli.
4.1 Experimentos aleatórios
Experimentos aleatórios são experimento que, ao serem repetidos nas mesmas condições, não produzem o
mesmo resultado. Por outro lado, experimentos que, ao serem repetidos nas mesmas condições, produzem o
mesmo resultado são chamado de experimentos determinísticos.
4.2 Espaço amostral, evento e sigma-álgebra
Falar sobre espaço amostral.
Definicão 4.2.1. Eventos probabilísticos. Qualquer subconjunto do espaço amostral S que constitui
um campo de Borel F .
Definicão 4.2.2. Eventos mutuamente exclusivos. Quando a ocorrência de um impossibilita a
ocorrência do outro.
Exemplo 4.2.1. Exemplo: Dado
A = {par}
B = {impar}
〉
A ·B = ∅ (eventos mutuamente exclusivos)
31
32
É importante definir a sigma-álgebra associado ao espaço amostral (às vezes citados nos livros como
σ-álgebra).
Definicão 4.2.3. Uma família de subconjuntos de Ω é chamada de σ-álgebra (ou campo de Borel),
denotado por B, se satisfazer as três seguintes propriedades:
a. ∅ ∈ B
b. Se A ∈ B, então Ac ∈ B
c. Se A1, A2, ... ∈ B, então ∪∞i=1Ai ∈ B
Uma σ-álgebra é, portanto, o conjunto de todos os subconjuntos do espaço amostral (Ω), incluindo o próprio
espaço amostral. Assim, se Ω tem n elementos, então existem 2n conjuntos em σ-álgebra. Atente-se que isso
ocorre quando temos um conjunto contável. Quando Ω não for contável, será difícil descrever a σ-álgebra,
entretanto ela é escolhida para conter qualquer conjunto que seja de interesse.
O leitor pode se perguntar: ’Mas qual o motivo de estudar a sigma-álgebra’, ao invés de todos os subcon-
juntos?’. Pois bem, existem algumas explicações:
- O espaço amostral pode conter um grau de detalhamento superior ao que estamos interessados no mo-
mento;
- Queremos associar cada evento A com uma probabilidade numérica, P(A), porém nosso conhecimento
sobre P pode não se estender para todos os subconjuntos de Σ.
4.3 Definições de probabilidade: frequentista, subjetiva e axiomá-
tica
A definição frequentista de probabilidade refere-se ao fato que se repetirmos um experimento aleatório
n vezes e anotarmos o número de vezes a qual um resultado de seu interesse (um evento A, por exemplo)
ocorreu, então a frequência relativa de A nas n repetições do experimento é dada por:
fn,A =
n(A)
n
. (4.1)
Essa frequência relativa fn,A, definida na classe dos subconjuntos do espaço amostral, satisfaz as seguintes
condições:
i. 0 ≤ fn,A ≤ 1
ii. fn,Ω = 1
iii. Se A e B forem eventos mutualmente excludentes, então:
fn,A∪B = fn,A + fn,B
33
Em alguns livros (Introductory Statistics, Wonnacott e Wonnacott, 1980) admitem que uma frequência
relativa de um evento tenderá para um valor limite dado por:
P(A) = lim
n→∞
n(A)
n
(4.2)
Logicamente, é possível que a frequência fn,A se comporte de maneira não esperada, isto é, podemos jogar
um dado um grande número de vezes e o lado do número cinco, por exemplo, persiste em aparecer, tornando a
probabilidade para o lado cinco igual tendendo a um. É necessário qualificar, portanto, afirmando que o limite
ocorre com grande probabilidade, mas não com certeza lógica. Então, se utilizarmos o limite anteriormente
como definição para probabilidade, estaríamos utilizando o conceito de probabilidade para definir probabilidade,
formando um ciclo vicioso. Com o objetivo de romper este ciclo, devemos apelar para o enfoque axiomático.
A definição subjetiva de probabilidade refere-se a uma tentativa para lidarmos com eventos históricos
únicos, que não podem ser repetidos, carecendo, assim, de interpretação frequencial. Em sentido não rigoroso,
a probabilidade subjetiva pode ser interpretada com a chance que uma pessoa atribuiria a aposta em um evento.
A definição axiomática de probabilidade é apresentada abaixo.
Definicão 4.3.1. Probabilidade (Definição Axiomática) é qualquer função real definida na classe F
tal que
1. P(A) ≥ 0
2. P(S) = 1
3. Se A ·B = ∅ ⇒ P(A+B) = P(A) + P(B)
(eventos mutuamente exclusivos)
Assim,
P(·) : F → R
4.4 Propriedades da probabilidade
4.5 Probabilidade condicional
No início do estudo da Probabilidade, são apresentados conceitos os quais não existem restrições para o
espaço amostral, ou seja, ele é sempre o mesmo e o cálculo das probabilidades, consequentemente, é incondi-
cional.
Entretanto, em muitos casos, é necessária que uma atualização desse espaço amostral seja feita, pelo fato
de algum elemento ter sido retirado dele, ocosionando, portanto, sua redução. É a partir dessa ideia que surge
o que chamamos de probabilidade condicional, cuja definição formal é apresentada a seguir.
34
Definicão 4.5.1. Se A e B são eventos em Ω (espaço amostral) e P(B) > 0, então a probabilidade
condicional de A dado B, denotada por P(A|B), é dada por
P(A|B) = P(A ∩B)
P(B) .
Atente-se para o fato de que podemos dizer que P(A|B) é uma probabilidade, pois:
• P(A|B) = P(AB)P(B) ≥ 0;
• P(S|B) = 1;
• Para A · C = ∅ ⇒ P [(A+ C)|B] = P(A|B) + P(C|B).
Note que agora temos uma redução do espaço amostral para B, ou seja, o que antes considerávamos Ω,
agora será restrito à B. Portanto, para o cálculo das probabilidade, vamos considerar P(B|B) = 1.
Para ilustrar essa definição, considere uma urna com duas bolas azuis e duas bolas brancas. Suponha
que desejamos retirar duas bolas, uma após a outra. Podemos nos perguntar quais os possíveis casos (espaço
amostral) para esse experimento. Se adotarmos a notação Ai: a i-ésima bola retirada é de cor azul e Bi a
i-ésima bola retirada é de cor branca (para i = 1, 2), então o espaço amostral desse experimento pode ser
descrito da seguinte forma:
Ω = {A1A2, B1B2, A1B2, B1A2}.
Entretanto, podemos limitar esse espaço amostral condicionando o evento. Considere que seja de interesse
calcular a probabilidade de a segunda bola retirada ser de cor branca, dado que a primeira também foi de cor
branca. Perceba que, agora, o espaço amostral do nosso interesse não inclui mais os eventos em que a primeira
bola retirada foi a de cor azul, e sim somente aqueles em que a primeira bola retirada foi de cor branca, ou seja,
ouve uma redução do espaço amostral.
Como o exemplo é simples, podemos calcular a probabilidade sem muitos cálculos. Se temos somente uma
possibilidade de interesse (a primeira ser branca e a segunda também ser branca: B1B2) entre duas possíveis
(a primeira ser branca e segunda também ser branca ou ser azul: B1B2 ou B1A2), então a probabilidade de
interesse é 1/2.
Usando a definição anteriormente apresentada para probabilidades condicionais, podemos resolver esse pro-
blema calculando P(B2|B1), ou seja:
P(B2|B1) =
P(B1 ∩B2)
P(B1)
= 1/41/2 =
1
2 .
4.5.1 Regra do produto de probabilidades
O desenvolvimento apresentado anteriormente paradois eventos pode ser generalizada com objetivo de
denotar a probabilidade da interseção de n eventos por meio das probabilidades condicionais sucessivas. Veja a
definição a seguir.
35
Definicão 4.5.2. (Regra do produto de probabilidades) Para os eventos A1, A2, ..., An em (Ω,F ,P),
com P (∩ni=1Ai) > 0, a regra do produto de probabilidades é dada por:
P(A1B2...An) = P(A1)P(A2|A1)P(A3|A1A2)...P(An|A1A2An−1).
4.5.2 Teorema da probabilidade total
O teorema da probabilidade total é útil para obtermos resposta ao seguinte questionamento: "Dado um
evento A, qual é a probabilidade de A ocorrer quando se conhece as probabilidades de um conjunto de outros
eventos (disjuntos) cuja reunião é o espaço amostral?".
Nas explanações a seguir, vamos apresentar esse teorema, algumas outras propriedades importantes e um
exemplo para ilustrar a utilização dos conceitos.
Teorema 4.5.1. (Teorema da Probabilidade Total) Considere B1, B2, ..., Bn uma partição do espaço
amostral Ω (são eventos mutualmente excludentes e sua reunião forma Ω). Considere também A um
evento e P uma probabilidade definida nos eventos de Ω, então:
P(A) =
n∑
k=1
P(A|Bk)P(Bk). (4.3)
Para um melhor entendimento do teorema, podemos explanar o problema por meio da explicação baseado
na Figura 4.1 a seguir.
Figura 4.1: Espaço amostral (retângulo) e suas partições.
Observe que os eventos B1, B2, ..., Bn formam uma partição do espaço amostral (representado pelo re-
tângulo) e que o evento de interesse, evento A, também pertence a esse espaço e pode ser escrito como
A = (A ∩B1) ∪ (A ∩Bn) ∪ ... ∪ (A ∩Bn). Em termos de probabilidade, temos:
P(A) = P(A ∩B1) ∪ P(A ∩B2) ∪ ... ∪ P(A ∩Bn)
=
n∑
k=1
P(A ∩Bk)
=
n∑
k=1
P(A|Bk) · P(Bk).
36
Vale ressaltar que os termos da expressão apresentada em (4.5.1), definidos na classe dos eventos do espaço
amostral, satisfazem as seguintes propriedades:
P1. Para todo evento B, P(B|A) ≥ 0;
P2. Se B1, B2, ..., Bn são eventos mutualmente exclusivos, então:
P
(
n⋃
k=1
Bk|A
)
=
n∑
k=1
P(Bk|A);
P3. Se Ω denota o espaço amostral, então P(Ω|Ω) = 1.
Exemplo 4.5.1. Considere três urnas, U1, U2 e U3, tais que P(U1) = 2/6, P(U2) = 3/6 e P(U3) = 1/6,
com as seguintes informações sobre os seus conteúdos:
• U1: contém 3 bolas azuis e 5 bolas vermelhas;
• U2: contém 4 bolas azuis e 2 bolas vermelhas;
• U3: contém 1 bola azul e 3 bolas vermelhas.
Com base nessas informações, se temos o interesse em encontar a probabilidade de se retirar uma bola
azul (sem ter a informação de qual urna vamos usar), podemos usar o teorema da probabilidade total.
P(azul) =
3∑
k=1
P(azul | Uk) · P(Uk), para k = 1, 2, 3
= P(azul | U1) · P(U1) + P(azul | U2) · P(U2) + P(azul | U3) · P(U3)
= 38 ·
2
6 +
4
6 ·
3
6 +
1
4 ·
1
6
= 15 .
4.5.3 Teorema de Bayes
Definicão 4.5.3. (Teorema de Bayes) Considere uma partição A1, A2, ..., An do espaço amostra Ω
(note que a partição é finita) e B um evento de Ω, então para i = 1, 2, ..., n, temos:
P(Ai|B) =
P(B|Ai)P(Ai)∑n
k=1 P(B|Ak)P(Ak)
. (4.4)
A probabilidade dada em (4.4) é conhecida na literatura como probabilidade a posteriori. Além disso, a
partir da mesma expressão, temos que:
n∑
k=1
P(Ai|B) = 1.
37
4.5.4 Independência de eventos
Definicão 4.5.4. (Independência de dois eventos) Sejam A e B dois eventos e suponha que P(A) ≥ 0.
O evento B é dito ser independente do evento A se:
P(B|A) = P(B). (4.5)
Então, sendo P(B|A) diferente de P(B), dizemos que B depende estatisticamente de A, ou é dependente
estatisticamente de A. A dependência estatística é o caso usual, pois é muito mais fácil duas probabilidades
serem tanto diferentes do que serem extremamente iguais.
Em outras palavras, a definição anterior aplica, para eventos independentes, o tipo mais simples de regra da
multiplicação. Além disso, dado que temos eventos independentes, então podemos concluir que:
1. P(A|B) = P(A);
2. P(AB) = P(A) · P(B);
3. P(AB) = P(A) · P(B) e P(AB) = P(A) · P(B).
Ou seja, se A e B são independentes, A e B são independentes e A e B também o são.
De uma maneira mais geral, temos:
Definicão 4.5.5. (Independência de mais de dois eventos) Sejam A1, A2, . . . , An eventos. Eles
serão independentes se:
P(Ai1Ai2 . . . Aik) = P(Ai1)P(Ai2) · · ·P(Aik) (4.6)
4.6 Lema de Borel-Cantelli
O lema de Borel–Cantelli (nome em referência a Émile Borel e Francesco Paolo Cantelli) é um teorema sobre
sequências de eventos, sendo associado, em geral, a um resultado na teoria da medida.
Fazendo-se (En) ser uma sequência de eventos em algum espaço de probabilidade, o lema de Borel–Cantelli
estabelece que se a soma das probabilidade de En é finita
∞∑
n=1
P(En) <∞, (4.7)
então a probabilidade que infinitamente muitos deles ocorram é 0, que é,
P
(
lim sup
n→∞
En
)
= 0. (4.8)
Aqui, "lim sup"denota limite superior da sequência de eventos, e cada evento é um conjunto de resultados.
Isto é, lim sup En é o conjunto de resultados que ocorrem infinitamente muitas vezes dentro da sequência de
eventos infinita (En). Explicitamente,
lim sup
n→∞
En =
∞⋂
n=1
∞⋃
k=n
Ek. (4.9)
38
O teorema entretanto afirma que se a soma das probabilidades dos eventos En é finita, então o conjunto
de todos os resultados que são "repetidos"infinitamente (muitas vezes) devem ocorrer com probabilidade zero.
Note-se que nenhuma suposição de independência é requerida.
Aula 5
Variáveis Aleatórias
Entender o que são variáveis aleatórias é um passo fundamental no estudo da Estatística, pois elas repre-
sentam as características de interesse em uma população. Para exemplificar, considere que você está sentado
na calçada da sua rua contando o número de carros que passam por dia. Se, nesse caso, definirmos por X o
número de carros que passam por dia nessa rua, podemos dizer que X é uma variável aleatória.
Essa variável aleatória pode ser discreta ou contínua e tem diversas funções importantes associadas a ela,
tais como a função de distribuição acumulada, funçôes de probabilidade e densidade e momentos. Ao longo
desse capítulo vamos abordar todos esse pontos com detalhes. Porém, antes de avançar, vamos apresentar a
definição formal de variável aleatória.
5.1 Conceito de variável aleatória
Dado um fenômeno aleatório qualquer, com certo espaço de probabilidade, desejamos estudar a estrutura
probabilística de quantidades associadas a esse fenômeno.
Definicão 5.1.1. (Variável aleatória) Seja (Ω,F ,P) um espaço de probabilidade. Uma variável alea-
tória X é qualquer função X : Ω→ R, tal que:
X−1(I) = {ω ∈ Ω : X(ω) ∈ I} ∈ F , ∀I ⊂ R. (5.1)
Traduzindo a definição matemática acima, X é uma variável aleatória se sua imagem inversa para intervalos
I ⊂ R pertencem a σ-álgebra F . Veja essa representação na Figura 5.1 a seguir.
39
40
Figura 5.1: Ilustração de uma função de uma variável aleatória.
De maneira menos informal, se considerarmos um experimento e um espaço amostral Ω associado a esse
experimento e considerarmos que X é uma função associa cada elemento de Ω a um número real X(Ω), então
X é uma variável aleatória.
5.2 Variáveis aleatórias discretas, contínuas e mistas
As variáveis aleatórias podem ser classificadas em variáveis aleatórias discretas, contínuas e mistas. Essa
caracterização prévia da variável é muito importante no processo de modelagem de dados, pois, como veremos
mais adiante, existem modelos para cada tipo de variável, sendo ela discreta, contínua ou mista.
Para exemplificar, suponha que em uma lanchonente sejam vendidos 300 pastéis por dia. Assim, se definirmos
a variável aleatória X, tal que X é o número de pastéis vendidos em um dia, então X é classificada como uma
variável aleatória do tipo discreta.
Definicão 5.2.1. (Variável aleatória discreta) Uma variável aleatória é do tipo discreta se assume
somente um número enumerável de valores.
Como sabemos que os valores possíveis para X são 0, 1, 2, ..., 300 e tais valores não são igualmente prováveis
de ocorrer, então X é classificada como uma variável aletória do tipo discreta.
Por outro lado, se nessa mesma lanchonote definirmos como X o tempode trabalho diário dos funcionários,
então X é classificada como uma variável aleatória do tipo contínua.
Definicão 5.2.2. (Variável aleatória contínua) Uma variável aleatória é do tipo contínua se ela assume
qualquer valor numérico em um determinado intervalo ou série de intervalos. Isto é, uma variável aleatória
contínua é uma variável para a qual um conjunto A é um conjunto infinito não enumerável.
Um exemplo de uma variável aleatória mista pode ser um experimento em que uma moeda é lançada e uma
roleta é girada se o resultado do lançamento da moeda for cara. Se o resultado do lançamento da moeda for
cara, X é igual ao valor da roleta. Se o resultado do lançamento da moeda for coroa, X é igual a -1. Há a
probabilidade meio de essa variável aleatória ter o valor -1, e meio de ficar no intervalo [0, 360).
41
Definicão 5.2.3. (Variável aleatória mista) Uma variável aleatória é do tipo mista se ela assume tanto
valores discretos quanto valores em um determinado intervalo. Essas variáveis aleatórias são conhecidas
como variáveis aleatórias mistas.
5.3 Função de probabilidade e função densidade de probabilidade
Conforme alertamos anteriormente, caracterizar uma variável aleatóra em discreta, contínua ou mista é uma
passo muito importante para a modelagem estatística. Isso ocorre, pois as respectivas funções de probabilidade
recebem nomes diferentes dependendo da sua caracterização.
Se uma varável é do tipo discreta, então ela pode ser modelada pela sua respectiva função de probabilidade.
Por outro lado, se uma varável é do tipo contínua, então ela pode ser modelada pela sua respectiva função
densidade de probabilidade.
Definicão 5.3.1. (Função de probabilidade) A função de probabilidade de uma variável aleatória
discreta é uma função que atribue probabilidade a cada um dos possíveis valores assumidos pela variável.
Assim, considerando X uma variável com valores x1, ..., xn, temos que
P(X = xi) = P({ω ∈ Ω : X(Ω) = xi}), i = 1, ..., n. (5.2)
A função de probabilidade de X, no espaço de probabilidade (Ω,F ,P), deve obedecer às seguintes propriddes:
• 0 ≤ P(X = xi) ≤ 1, ∀i = 1, 2, ...;
• ∑i P(X = xi) = 1, com a soma percorrendo todos os possíveis valores.
Exemplo 5.3.1. (Magalhães, 2006) Obtenha o valor da constante c, de modo que a função
p(x) = c(x− 2)2, x = 3, 4, 5, 6,
seja uma função de probabilidade de alguma variável aleatória discreta.
Com a apresentação da função de probabilidade para a variável aleatória discreta, agora vamos apresentar a
a função densidade de probabilidade para a variável aleatória contínua.
Definicão 5.3.2. (Função densidade de probabilidade) Uma variável aleatória X em (Ω,F ,P), com
função de dsitribuição F, será classificada como contínua, se existir uma função não negativa f tal que:
F (x) =
∫ x
−∞
f(ω)dω, ∀x ∈ R, (5.3)
com f sendo a função densidade de probabilidade da variável aleatória X.
Assim como a função de probabilidade, a função densidade de probabilidade de X, no espaço de probabilidade
(Ω,F ,P), deve obedecer às seguintes propriedades:
• f(x) ≥ 0, ∀x ∈ R;
• ∫∞−∞ f(w)dw = 1.
42
Exemplo 5.3.2. Obtenha o valor da constante c, de modo que a função
f(x) = ce−cx I[0,∞)(x)
seja uma função densidade de probabilidade de alguma variável aleatória contínua.
5.4 Função de distribuição acumulada e função de sobrevivência
Definicão 5.4.1. (Função de distribuição acumulada) Seja (Ω,F ,P) um espaço de probabilidade,
a função de distribuição acumulada de uma variável aleatória X é definida por:
FX(x) = P (X ≤ x), ∀x ∈ R. (5.4)
A função de distribuição acumulada de X, no espaço de probabilidade (Ω,F ,P), deve obedecer às seguintes
propriedades:
• limx→−∞ FX(x) = 0 e limx→∞ FX(x) = 1.
• FX(x) é uma função não decrescente de x.
• FX(x) é uma função contínua à direita, isto é, para cada número x0, limx→−x0 FX(x) = FX(x0).
Exemplo 5.4.1. Obtenha a função de distribuição acumulada da função densidade de probabilidade dada por
f(x) = 2e−2x I[0,∞)(x).
Definicão 5.4.2. (Função de sobrevivência) Seja (Ω,F ,P) um espaço de probabilidade. A função de
sobrevivência de uma variável aleatória X é definida por:
SX(x) = P (X > x), ∀x ∈ R. (5.5)
Exemplo 5.4.2. Obtenha a função de sobrevivência da função densidade de probabilidade dada por
f(x) = 2e−2x I[0,∞)(x).
5.5 Histograma
O histograma é uma forma simples e rápida de avaliarmos o comportamento da variável em estudo e, assim,
realizar associações com distribuições de probabildades conhecidas.
O que, às vezes, não percebemos é que ao construir um histograma, estamos trabalhando com processo
de estimação, dado que esse gráfico consiste em uma estimativa não paramétrica de uma função
densidade.
Nesse sentido, ao utilizar um software para gerar esse gráfico, não sabemos como funciona esse processo de
construção. Nesta seção, vamos detalhar esse processo.
Podemos resumir a ideia geral da construção desse gráfico em três simples passos, conforme descrevemos
abaixo:
43
Passo 1: Dividir o intervalo dos dados em h classes;
Passo 2: Alocar cada observação em sua respectiva classe;
Passo 3: Calcular a proporção da amostra contida em cada classe e dividir pelo produto entre a largura
da classe e o tamanho da amostra.
Essa proporção, calculada no último passo, é representada pelas alturas das barras no histograma, que
consiste na estimativa não paramétrica da função densidade de probabilidade.
De um modo mais geral, podemos definir o histograma como uma função f̂ , representada da seguinte forma:
f̂λ(x) =
1
nh
n∑
i=1
I(x− γi, h/2), (5.6)
sendo n o tamanho amostral, h a largura da classe, γi o ponto central da classe da observação xi e I(·) a função
indicadora do intervalo [−h/2, h/2].
Antes de contuarmos essa explicação, precisamos abrir um parânteses para apresentar uma confusão muito
comum que ocorre em algumas análises que usam histograma. Para isso, observe os histogramas da Figura 16.1
construídos para uma amostra de 10 valores da variável aleatória X, tais que X ∼ N (0, 1), gerada no software
R de acordo com os comandos dados a seguir.
> x = rnorm(10,0,1)
> round(x,1)
[1] 0.5 0.9 -0.8 -0.2 -2.0 -1.7 1.5 -0.4 -0.6 0.7
(A)
Valores de X
F
re
qu
ên
ci
a
−2.0 −1.0 0.0 1.0
0.
0
1.
0
2.
0
3.
0
(B)
Valores de X
D
en
si
da
de
−2.0 −1.0 0.0 1.0
0.
0
0.
2
0.
4
0.
6
Figura 5.2: Histograma de frequância e de densidade, respectivamente, construído para uma amostra de 10
valores da variável aleatória X, tal que X ∼ N (0, 1).
Na Figura 16.1 (A), temos o histograma de frequências, que considera somente a proporção em relação
ao tamanho da classe, representada por h na expressão f̂λ(x). Esse não é o histograma que nos fornece a
44
estimativa da densidade. Já na Figura 16.1 (B), temos os histograma de interesse. Ele considera a proporção
em relação ao tamanho da classe e em relação ao tamanho da amostra, representada por h e n, respectivamente,
na expressão de f̂λ(x).
Com esse problema de confundimento apresentado e entendido, vamos voltar ao estudo do histograma
como função de estimação. Observe que o formato de histograma depende do número de classes que serão
utilizadas na sua estimação. Vamos avaliar, portanto, dois histogramas construídos sobre o mesmo conjunto
de dados X (com n = 100), tais que X ∼ N (0, 1), mas com número de classes diferentes (h = 5 e h = 20,
respectivamente), com a inclusão da curva da densidade conhecida em cada histograma.
(A)
Valores de X
D
en
si
da
de
−3 −2 −1 0 1 2 3
0.
0
0.
2
0.
4
(B)
Valores de X
D
en
si
da
de
−2 −1 0 1 2 3
0.
0
0.
2
0.
4
Figura 5.3: Histogramas construídos sobre o mesmo conjunto de dados X (com n = 100), tais queX ∼ N (0, 1),
mas com número de classes diferentes (h = 5 e h = 20, respectivamente).
Note que na Figura 16.2 (A), temos um número menor de classes e, portanto, um comportamento sobresu-
avizado da curva. Já na Figura 16.2 (B), temos um número maior de classes e, portanto, um comportamento
subsuavizado da curva.
Dessa forma, podemos observar importância do parâmetro h na estimação da curva de probabilidade,dado
que para diferentes valores desse parâmetro, temos diferentes formatos de histogramas. A essa parâmetro damos
o nome de parâmetro de suavização. Em regressão não paramétrica, esse parâmetro é muito utilizado em
diversas abordagens e a compreensão do seu papel no contexto de histogramas é fundamental para o estudo
desse tipo de regressão.
Note como ficou mais simples, agora, entendermos o papel da ferramenta mais importante em regressão
não paramétrica (o chamado suavizador), conforme alertamos no início desse capítulo.
45
5.6 Distribuições de probabilidade mais comuns
5.6.1 Distribuição Bernoulli
Definicão 5.6.1. (Distribuição Bernoulli) Dizemos que uma variável aleatória segue uma distribuição
de Bernoulli de parâmetro p, X ∼ Bernoulli(p), se ela asssume apenas os valores 0 ou 1. Sua função
de probabilidade é dada por
P(X = 0) = p e P(X = 1) = 1− p.
Exemplo 5.6.1. Considere uma caixa com R bolas, sendo a amarelas e b = R− a brancas. Considerando que
as bolas na caixa são idênticas e apresentam igual probabilidade de serem sorteadas, foram retiradas algumas
delas (com reposição) e o objetivo do estudo é avaliar o resultado da primeira extração, sendo o evento de
interesse definido pela variável aleatória
X : a primeira bola extraída é amarela.
Dessa forma, temos que:
X =
1, a bola é amarela0, a bola é branca.
Facilmente, podemos encontrar a probabilidade da primeira extração ser uma bola de cor amarela, que é
dada por:
P (X = 1) = a
R
.
E, também, a probabilidade da primeira extração ser uma bola de cor branca, que é dada por:
P (X = 0) = R− a
R
.
5.6.2 Distribuição Binomial
Definicão 5.6.2. (Distribuição Binomial) Dizemos que uma variável aleatória segue uma distribuição
de Binomial de parâmetros n e p, X ∼ Binomial(n, p), quando ela representa o número de sucessos
obtidos com a realização de n ensaios Bernoulli independentes. Sua função de probabilidade é dada por
P(X = x) =
(
n
x
)
px(1− p)n−x, x = 0, 1, ..., n. (5.7)
Exemplo 5.6.2. A probabilidade de um certo componente elétrico estar em condições operacionais satisfatórias
é de 0,85. Em uma amostra de cinco componentes, calcula a probabilidade de se encontrar zero itens defeituosos.
Solução à cargo do leitor.
46
5.6.3 Distribuição Poisson
Definicão 5.6.3. (Distribuição Poisson) Dizemos que uma variável aleatória segue uma distribuição
de Poisson de parâmetro λ, X ∼ Poisson(λ), se sua função de probabilidade é dada por
P(X = x) = e
−λλk
k! , k = 0, 1, . . . . (5.8)
Exemplo 5.6.3. O número de telefonemas que chegam à uma unidade de atendimento é modelado por um
modelo de poisson com taxa de 2 ligações por minuto. Para uma minuto qualquer, calcule a probabilidade de
ocorrer pelo menos uma ligação.
Solução à cargo do leitor.
5.6.4 Distribuição Uniforme
Definicão 5.6.4. (Distribuição Uniforme) Dizemos que uma variável aleatória segue uma distribuição
uniforme no intervalo [a, b], X ∼ U [a, b], se sua função densidade de probabilidade é dada por:
f(x) = 1
b− a
, a ≤ x ≤ b, (5.9)
com a e b parâmetros reais, sendo a < b.
Vale ressaltar que a distribuição uniforme também é conhecida como distribuição retangular. Além disso,
Se a = 0 e b = 1 temos a chamada distribuição uniforme padrão.
A distribuição uniforme no intervalo [0,1] é usada para simulação de amostras aleatórias de uma determinada
variável aleatória contínua X. Ela é usada como modelo probabilístico em situações nas quais temos certeza que
intervalos reais de mesmo comprimento tenham a mesma chance de ocorrer, isto é, P (x∈[a, b]) = P (x∈[c, d]),
desde que b− a = d− c.
5.6.5 Distribuição Exponencial
A distribuição exponencial tem grande atuação na modelagem de problemas que descrevem tempos de vida,
seja de indivíduos, produtos ou objetos. Funciona de modo análogo ao uso da distribuição geométrica no caso
discreto.
Definicão 5.6.5. (Distribuição Exponencial) Dizemos que uma variável aleatória segue uma distri-
buição exponencial de parâmetro λ, X ∼ exp(λ), se sua função densidade de probabilidade é dada
por:
f(x) = λe−λx, I(0,∞)(x). (5.10)
Uma das mais importantes leis de falhas é aquela cuja duração até falhar é descrita pela distribuição
exponencial. Podemos caracterizá-la de muitas maneiras, mas, provavelmente, a maneira mais simples é supor
47
que a taxa de falhas é constante, isto é:
λ(t) = f(t)
S(t) = λ (5.11)
Definicão 5.6.6. Seja T, a duração até falhar, uma variável aleatória contínua, que tome todos os valores não
negativos. Então. T terá uma distribuição exponencial se, e somente se, tiver uma taxa de falhas constante.
A propriedade que afirma que a distribuição exponencial não tem memória funciona no seguinte sentido:
suponha que X represente o tempo de vida de algum componente. Suponha também que o componente tenha
sobrevivido a ’a’ unidades de tempo de operação. Assim a probabilidade que o componente sobreviva a mais ’b’
unidades de tempo operação será a mesma que o componente tenha sobrevivido anteriormente a ’b’ unidades de
tempo de operação. Simplesmente, a informação adicional é esquecida. Abaixo temos a prova dessa propriedade.
P (x > a+ b|x > a) = P (x > b) (5.12)
Prova:
P (x > a+ b|x > a) = P (x > a+ b∩x > a)
x > a
= P (x > a+ b)
x > a
= S(a+ b)
S(a)
= e
−λ(a+b)
e−λa
= e
−λae−λb
e−λa
= e−λb
= P (x > b)
Suponha que a falha em um equipamento tenha ocorrido devido à algum fator aleatório. Seja Xt a variável
que representa o número de tais perturbações ocorridas em um determinado intervalo de tempo t, com Xt > 0,
então podemos admitir que tal situação se trata de um Processo de Poisson. Quer dizer, para qualquer t fixado
a variável aleatória Xt tem distribuição de Poisson com parâmetro αt. Sendo T a duração até falhar, então
T > t ocorre se, e somente se, não ocorrer perturbação entre [0,t]. Issoacontecerá se, e somente se, Xt = 0.
Por isso
F (t) = 1− P (Xt = 0) = 1− e−αt
Encontramos, portanto, que a "causa"da taxa de falhas acima envolve uma lei de falhas exponencial.
Comentário: Podemos generalizar o caso acima se desejarmos que a pertubarção ocorra com determinada
probabilidade. Agora, T > t se, e somente se, durante [0,t] nenhuma perturbação ocorra, ou uma perturbação
ocorra e não resulte em falha, ou duas perturbações ocorram e não resultem em falha, e assim por diante, de
modo que possamos contar o número de pertubações e que tenhamos a probalidade disso acontecer, temos
F (t) = 1−
[
e−αt + (αt)e−αtp+ (αt)2 e
−αt
2! p
2 + ...
]
= 1− e−α(1−p)t
Note que quando o valor do parãmetro b é igual a 1, a distribuição Weibull se reduz a distribuição exponencial
de parâmetro a.
48
5.6.6 Distribuição Normal
Definicão 5.6.7. (Distribuição Normal) Dizemos que uma variável aleatória segue uma distribuição
Normal (ou gaussiana) de parâmetros µ e σ2, X ∼ N (µ, σ2), se sua função densidade de probabilidade
é dada por:
f(x) = 1√
2πσ2
exp
(x− µ)2
2σ2 I(−∞,∞)(x). (5.13)
Exemplo 5.6.4. A concentração (em ppm, partícula por milhão) de um poluente em água liberada por uma
fábrica tem distribuição N (8; 1, 5). Qual a probabilidade de que num dado dia a concentração do poluente
exceda o limite regulatório de 9 ppm?
Solução à cargo do leitor.
5.6.7 Distribuição Weibull
Definicão 5.6.8. (Distribuição Weibull) Dizemos que uma variável aleatória contínua x tem distri-
buição Weibull de parâmetros a e b, X ∼ Weibull(a, b), se sua função densidade de probabilidade é da
forma:
f(x) = abxb−1e−axb (5.14)
A distribuição exponencial é um caso particular da distribuição Weibull. Isso ocorre quando a função
densidade de probabilidade apresentada tem o parámetro b = 1. Nesse caso, a densidade se reduz à distribuição
exponencial de parâmetro a.
A distribuição Weibull vem sendo frequentemente usada em estudos biomédicos e industriais (análise de
sobrevivência e confiabilidade, respectivamente). Devido ao seu parâmetro de forma, tal distribuição tem
grande popularidade em aplicações.
5.6.8 Distribuição Gama
Definicão 5.6.9. (Distribuição Gama) Dizemos que uma variável aleatória segue uma distribuição
Gama de