fundamentos inferencia bayesiano USP

Probabilidade e Estatística

•
PUC-MINAS

Grupo Matemático De Poincaré
24/05/2024
Prévia do material em texto
Fundamentos de Inferência Bayesiana
Victor Fossaluza e Luís Gustavo Esteves
2021-09-14
2
Contents
1 Prefácio 5
2 Probabilidade Subjetiva 7
2.1 Definição Axiomática . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 Interpretações de Probabilidade . . . . . . . . . . . . . . . . . . . 7
2.3 Relação de Crença ≾ . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.4 Medida de Probabilidade que “representa” ≾ . . . . . . . . . . . 13
2.5 Medida de Probabilidade Condicional . . . . . . . . . . . . . . . 16
3 Introdução à Inferência Bayesiana 17
3.1 Conceitos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2 Permutabilidade e Teorema de De Finetti . . . . . . . . . . . . . 24
3.3 Suficiência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.4 Distribuição a Priori . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.5 Alguns Princípios de Inferência . . . . . . . . . . . . . . . . . . . 53
4 Introdução à Teoria da Decisão 57
4.1 Conceitos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.2 Aleatorização e Decisões Mistas . . . . . . . . . . . . . . . . . . . 61
4.3 Problemas com Dados . . . . . . . . . . . . . . . . . . . . . . . . 61
5 Estimação 65
5.1 Estimação Pontual . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5.2 Estimação por Regiões . . . . . . . . . . . . . . . . . . . . . . . . 69
5.3 Custo das Observações . . . . . . . . . . . . . . . . . . . . . . . . 76
3
4 CONTENTS
6 Testes de Hipóteses 79
6.1 Conceitos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
6.2 Revisão: Abordagem Frequentista . . . . . . . . . . . . . . . . . 80
6.3 Abordagem Bayesiana (via Teoria da Decisão) . . . . . . . . . . . 82
6.4 Probabilidade Posterior de 𝐻0 . . . . . . . . . . . . . . . . . . . . 84
6.5 Fator de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
6.6 Teste de Jeffreys . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
6.7 Hipóteses Precisas . . . . . . . . . . . . . . . . . . . . . . . . . . 91
6.8 FBST - Full Bayesian Significance Test . . . . . . . . . . . . . . 92
6.9 P-value - Nível de Significância Adaptativo . . . . . . . . . . . . 96
7 Métodos Computacionais 101
7.1 Método de Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . 102
7.2 Monte Carlo com Amostragem de Importância . . . . . . . . . . 110
7.3 Método de Rejeição . . . . . . . . . . . . . . . . . . . . . . . . . 110
7.4 ABC (Aproximated Bayesian Computation) . . . . . . . . . . . . 113
7.5 MCMC - Monte Carlo via Cadeias de Markov . . . . . . . . . . . 114
8 Bibliotecas de R para Inferência Bayesiana 123
8.1 O Modelo de Regressão Linear . . . . . . . . . . . . . . . . . . . 123
8.2 Laplace’s Demon . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
8.3 Stan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
8.4 MLG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
8.5 Modelos Dinâmicos . . . . . . . . . . . . . . . . . . . . . . . . . . 159
A Breve Resumo de Medida e Probabilidade 181
A.1 Conceitos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
A.2 Valor Esperado de 𝑋 (OU uma ideia da tal Integral de Lebesgue) 183
A.3 Funções de Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . 190
A.4 Função de Distribuição . . . . . . . . . . . . . . . . . . . . . . . . 194
A.5 Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . . . 199
Chapter 1
Prefácio
Esse documento foi criado com base nos cursos de Inferência Bayesiana min-
istrados por nós no Instituto de Matemática e Estatística da Universidade de
São Paulo (IME-USP). Essas notas devem ser usadas como um roteiro de estu-
dos e não irão necessariamente apresentar todo o conteúdo dessas disciplinas.
Além disso, esta é uma versão preliminar que está bem longe da versão final,
de modo que podem haver muitos erros e, assim, correções ou sugestões serão
sempre muito bem vindas!
5
6 CHAPTER 1. PREFÁCIO
Chapter 2
Probabilidade Subjetiva
A construção de probabilidade subjetiva apresentada aqui pode ser encontrada
no livro Optimal Statistical Decisions (DeGroot, 1970).
• Ω: espaço amostral, conjunto não vazio.
• 𝒜: 𝜎-álgebra de subconjuntos de Ω, isto é,
1. Ω ∈ 𝒜;
2. 𝐴 ∈ 𝒜 ⟹ 𝐴𝑐 ∈ 𝒜;
3. 𝐴1, 𝐴2, … ∈ 𝒜 ⟹ ⋃
𝑖≥1
𝐴𝑖 ∈ 𝒜.
• Os elementos de 𝒜 são chamados de eventos e serão denotados por
𝐴, 𝐵, 𝐶, … , 𝐴1, 𝐴2, …
2.1 Definição Axiomática
• 𝑃 ∶ 𝒜 ⟶ [0, 1] é uma medida de probabilidade se
1. 𝑃(Ω) = 1;
2. 𝐴1, 𝐴2, … ∈ 𝒜 com 𝐴𝑖 ⋂ 𝐴𝑗 = ∅ , 𝑃 (⋃
𝑖≥1
𝐴𝑖) = ∑
𝑖≥1
𝑃 (𝐴𝑖).
2.2 Interpretações de Probabilidade
• Interpretação Clássica (De Moivre, Laplace)
– baseia-se na equiprobabilidade dos resultados;
7
8 CHAPTER 2. PROBABILIDADE SUBJETIVA
– 𝑃(𝐴) = |𝐴|
|Ω| .
– Exemplo: um lançamento de moeda, 𝐴 = “cara”, 𝑃(𝐴) = 1
2 .
• Interpretação Frequentista (Venn, von Mises, Reichenbach, etc.)
– quase unânime na primeira metade do século XX e ainda é a mais
aceita;
– baseia-se na regularidade das frequências relativas (lei dos grandes
números);
– 𝑃(𝐴) = 𝑙𝑖𝑚 𝐴𝑛
𝑛 , onde 𝐴𝑛 é o número de ocorrências de 𝐴 em 𝑛
realizações idênticas e independentes do experimento;
– Supõe que é possível repetir indefinidamente o experimento nas mes-
mas circustâncias.
– Exemplo: um lançamento de moeda, 𝐴 = “cara”.
0.0
0.2
0.4
0.6
0 50 100 150
n
P
n(A
) =
 F
re
q.
 R
el
at
iv
a 
de
 C
ar
as
Convergência da Frequência Relativa
• Interpretação Lógica (Keynes, Jeffreys, Carnap, etc.)
– medida de “vínculo parcial” entre uma evidência e uma hipótese;
– baseia-se em relações objetivas entre proposições.
– Exemplo: considere duas proposições: “até agora todos os lança-
mentos resultaram em cara” e “será realizado um novo lançamento”.
Pode-se afirmar que “provavelmente o resultado do novo lançamento
será cara”.
2.3. RELAÇÃO DE CRENÇA ≾ 9
• Interpretação Subjetivista (Ramsey, de Finetti, Savage, etc)
– probabilidade como medida subjetiva de crença;
– baseada na experiência de cada indivíduo, portanto única.
– Exemplo: suponha que Bruno lançou uma moeda 3 vezes e todos os
resultados foram cara. Esse indivíduo, em posse dessa informação,
pode acreditar que o resultado cara é mais provável que coroa. Con-
tudo, quando pergunta sobre a probabilidade de cara ao seu colega
Olavo, ignorante com relação a moeda, ele responde que é 1/2.
2.3 Relação de Crença ≾
≾ : relação de “crença” em 𝒜 × 𝒜
• 𝐴 ≺ 𝐵 : acredito mais em 𝐵 que em 𝐴 (𝐵 ≻ 𝐴)
• 𝐴 ∼ 𝐵 : acredito igualmente em 𝐵 e 𝐴
• 𝐴 ≾ 𝐵 : acredito em 𝐵 pelo menos tanto quanto em 𝐴
Objetivo: sob certas condições em ≾, obter uma medida de probabilidade 𝑃
que representa (concorda) com ≾.
𝐴 ≾ 𝐵 ⟺ 𝑃(𝐴) ≤ 𝑃(𝐵)
Suposições sobre ≾
SP1: Para 𝐴, 𝐵 ∈ 𝒜, exatamente uma das afirmações a seguir deve valer:
𝐴 ≺ 𝐵 , 𝐵 ≺ 𝐴 ou 𝐴 ∼ 𝐵.
SP2: 𝐴1, 𝐴2, 𝐵1, 𝐵2 ∈ 𝒜 tais que 𝐴1 ∩ 𝐴2 = 𝐵1 ∩ 𝐵2 = ∅ e 𝐴𝑖 ≾ 𝐵𝑖, 𝑖 = 1, 2.
Então
𝐴1 ∪ 𝐴2 ≾ 𝐵1 ∪ 𝐵2.
Além disso, se 𝐴𝑖 ≺ 𝐵𝑖 para algum 𝑖, então 𝐴1 ∪ 𝐴2 ≺ 𝐵1 ∪ 𝐵2.
SP3: Se 𝐴 é um evento, então ∅ ≾ 𝐴. Além disso, ∅ ≺ Ω.
10 CHAPTER 2. PROBABILIDADE SUBJETIVA
SP4: Se 𝐴1, 𝐴2, … uma sequência decrescente de eventos, isto é, 𝐴𝑛 ⊇ 𝐴𝑛+1, ∀𝑛,
e 𝐵 tal que 𝐵 ≾ 𝐴𝑛, ∀𝑛 então
𝐵 ≾ ⋂
𝑛≥1
𝐴𝑛.
Lema 1: 𝐴, 𝐵, 𝐷 ∈ 𝒜 tais que 𝐴 ∩ 𝐷 = 𝐵 ∩ 𝐷 = ∅. Então
𝐴 ≾ 𝐵 ⇔ 𝐴 ∪ 𝐷 ≾ 𝐵 ∪ 𝐷
Demo:
(⇒) 𝐴 ≾ 𝐵 ⇒ 𝐴 ∪ 𝐷 ≾ 𝐵 ∪ 𝐷 (SP2)
(⇐) 𝐵 ≺ 𝐴 ⇒ 𝐵 ∪ 𝐷 ≺ 𝐴 ∪ 𝐷 (SP2)
Teorema 1: Se 𝐴 ≾ 𝐵 e 𝐵 ≾ 𝐷 então 𝐴 ≾ 𝐷.
Demo:
5
2
6
4
1
3
7
A
B
D
5
2
6
4
1
3
7
A
B
D
(i) (1) ∪ (2) ∪ (4) ∪ (5) ≾ (1) ∪ (2) ∪ (3) ∪ (6) ⇒ (4) ∪ (5) ≾ (3) ∪ (6).
(ii) Analogamente, (2) ∪ (6) ≾ (4) ∪ (7)
De (i) e (ii) e pelo Lema 1, (4) ∪ (5) ∪ (2) ∪ (6) ≾ (3) ∪ (6) ∪ (4) ∪ (7)
⇒ (2) ∪ (5) ≾ (3) ∪ (7) ⇒ (2) ∪ (5) ∪ (1) ∪ (4) ≾ (3) ∪ (7) ∪ (1) ∪ (4).
2.3. RELAÇÃO DE CRENÇA ≾ 11
Teorema 2 (generalização do SP2): Se 𝐴1, … , 𝐴𝑛 são eventos disjuntos e
𝐵1, … , 𝐵𝑛 são também eventos disjuntostais que 𝐴𝑖 ≾ 𝐵𝑖, para 𝑖 = 1, … , 𝑛,
então 𝑛
⋃
𝑖=1
𝐴𝑖 ≾
𝑛
⋃
𝑖=1
𝐵𝑖.
Se 𝐴𝑖 ≺ 𝐵𝑖 para algum i, então ⋃𝑛
𝑖=1 𝐴𝑖 ≺ ⋃𝑛
𝑖=1 𝐵𝑖.
Demo: Basta aplicar SP2 𝑛 − 1 vezes.
Teorema 3: Se 𝐴 ≾ 𝐵 então 𝐴𝑐 ≿ 𝐵𝑐.
Demo: Do Lema 1, 𝐴∪(𝐴𝑐 ∩𝐵𝑐) ≾ 𝐵∪(𝐴𝑐 ∩𝐵𝑐) ⇒ 𝐵𝑐 ∪(𝐴∩𝐵) ≾
𝐴𝑐 ∪ (𝐴 ∩ 𝐵) ⇒ 𝐵𝑐 ≾ 𝐴𝑐.
Resultado: Para todo evento 𝐴, 𝐴 ≾ Ω.
Demo: Por SP3, ∅ ≾ 𝐴𝑐. Tomando 𝐷 = 𝐴 no Lema 1, ∅ ∪ 𝐴 ≾
𝐴𝑐 ∪ 𝐴 ⇒ 𝐴 ≾ Ω.
Teorema 4: Se 𝐴 ⊆ 𝐵 então 𝐴 ≾ 𝐵.
Demo: Suponha, 𝐵 ≺ 𝐴. Tomando 𝐷 = 𝐵𝑐 no Lema 1, 𝐵 ∪ 𝐵𝑐 ≺
𝐴 ∪ 𝐵𝑐 ⇒ Ω ≺ 𝐴 ∪ 𝐵𝑐. Absurdo!
Exemplo 1: 𝜔0 ∈ Ω. 𝐴 ≾ 𝐵 ⇔ {𝜔0 ∈ 𝐵 ou 𝜔0 ∉ (𝐴 ∪ 𝐵)}. Mostre que ≾
obedece às SP1 a SP4.
(SP1)
𝐴 ≾ 𝐵 ⇔ 𝜔0 ∈ 𝐵 ∪ (𝐴 ∪ 𝐵)𝑐 ⇒ 𝐵 ≺ 𝐴 ⇔ 𝜔0 ∈ 𝐵𝑐 ∩ (𝐴 ∪ 𝐵)
⇔ 𝜔0 ∈ 𝐴 ∩ 𝐵𝑐.
Analogamente, 𝐴 ≺ 𝐵 ⇔ 𝜔0 ∈ 𝐵 ∩ 𝐴𝑐.
𝐴 ∼ 𝐵 ⇔ 𝐴 ≾ 𝐵 e 𝐵 ≾ 𝐴 ⇔ 𝜔0 ∈ [𝐵 ∪ (𝐴 ∪ 𝐵)𝑐] ∩ [𝐴 ∪ (𝐴 ∪ 𝐵)𝑐]
⇔ 𝜔0 ∈ (𝐴 ∩ 𝐵) ∪ (𝐴 ∪ 𝐵)𝑐.
(SP2)
𝐴𝑖 ≾ 𝐵𝑖, 𝑖 = 1, 2 ⇔ 𝜔0 ∈ [𝐵1 ∪ (𝐴1 ∪ 𝐵1)𝑐] ∩ [𝐵2 ∪ (𝐴2 ∪ 𝐵2)𝑐]
⇔ 𝜔0 ∈ [(𝐵1 ∪ 𝐵2) ∩ 𝐷𝑐] ∪ (𝐴1 ∪ 𝐵1 ∪ 𝐴2 ∪ 𝐵2)𝑐,
12 CHAPTER 2. PROBABILIDADE SUBJETIVA
com 𝐷 = (𝐴1 ∩ 𝐵2) ∪ (𝐴2 ∩ 𝐵1).
𝐴1 ∪ 𝐴2 ≾ 𝐵1 ∪ 𝐵2 ⇔ 𝜔0 ∈ (𝐵1 ∪ 𝐵2) ∪ (𝐴1 ∪ 𝐴2 ∪ 𝐵1 ∪ 𝐵2)𝑐
Como (𝐵1 ∪ 𝐵2) ∩ 𝐷𝑐 ⊆ (𝐵1 ∪ 𝐵2), vale o SP2.
(SP3)
∅ ≾ 𝐴 ⇔ 𝜔0 ∈ 𝐴 ∪ (∅ ∪ 𝐴)𝑐 ⇔ 𝜔0 ∈ 𝐴 ∪ 𝐴𝑐 = Ω.
Como Ω é não-vazio, ∃𝜔0 ∈ Ω e, portanto, ∅ ≺ Ω.
(SP4) Exercício!
Exemplo 2: Ω = ℕ, 𝒜 = 𝒫(ℕ). 𝐴 ≾ 𝐵 ⇔ {𝐵 é infinito ou 𝐴 e 𝐵 são finitos
com |𝐴| ≤ |𝐵|}. Verifique se ≾ satisfaz SP1 a SP4.
Teorema 5: Se 𝐴1 ⊆ 𝐴2 ⊆ … é uma sequência crescente de eventos e 𝐵 é tal
que 𝐴𝑛 ≾ 𝐵, ∀𝑛 então
⋃
𝑛≥1
𝐴𝑛 ≾ 𝐵.
Demo: 𝐴𝑐
𝑛 ⊇ 𝐴𝑐
𝑛+1 e, pelo Teo 3, 𝐴𝑐
𝑛 ≿ 𝐵𝑐, ∀𝑛.
Por SP4, ⋂𝑛≥1 𝐴𝑐
𝑛 ≿ 𝐵𝑐 ⇒ ⋃𝑛≥1 𝐴𝑛 ≾ 𝐵.
Teorema 6: (𝐴𝑛)𝑛≥1 e (𝐵𝑛)𝑛≥1 sequências tais que 𝐴𝑖 ∩ 𝐴𝑗 = 𝐵𝑘 ∩ 𝐵𝑙 = ∅,
∀𝑖 ≠ 𝑗, ∀𝑘 ≠ 𝑙.
𝐴𝑖 ≾ 𝐵𝑖, ∀𝑖 ⇒ ⋃
𝑛≥1
𝐴𝑛 ≾ ⋃
𝑛≥1
𝐵𝑛.
Se existe ao menos um 𝑗 tal que 𝐴𝑗 ≺ 𝐵𝑗 então ⋃
𝑛≥1
𝐴𝑛 ≺ ⋃
𝑛≥1
𝐵𝑛.
Demo: Da extensão de SP2, temos que
𝑛
⋃
𝑖=1
𝐴𝑖 ≾
𝑛
⋃
𝑖=1
𝐵𝑖, ∀𝑛 ≥ 1
⇒
𝑛
⋃
𝑖=1
𝐴𝑖 ≾
∞
⋃
𝑖=1
𝐵𝑖, ∀𝑛 ≥ 1 ⇒
∞
⋃
𝑖=1
𝐴𝑖 ≾
∞
⋃
𝑖=1
𝐵𝑖 (Teo 5)
∃𝑛0 tal que 𝐴𝑛0
≺ 𝐵𝑛0
. De SP2, temos que, para 𝑛 ≥ 𝑛0,
𝑛0
⋃
𝑖=1
𝐴𝑖 =
𝑛0−1
⋃
𝑖=1
𝐴𝑖 ∪𝐴𝑛0
≺
𝑛0−1
⋃
𝑖=1
𝐵𝑖 ∪𝐵𝑛0
=
𝑛0
⋃
𝑖=1
𝐵𝑖 ⇒
𝑛0
⋃
𝑖=1
𝐴𝑖 ≺
𝑛0
⋃
𝑖=1
𝐵𝑖.
Da primeira parte, temos que
∞
⋃
𝑖=𝑛0+1
𝐴𝑖 ≾
∞
⋃
𝑖=𝑛0+1
𝐵𝑖 e, por SP2,
𝑛0
⋃
𝑖=1
𝐴𝑖 ∪
∞
⋃
𝑖=𝑛0+1
𝐴𝑖 ≺
𝑛0
⋃
𝑖=1
𝐵𝑖 ∪
∞
⋃
𝑖=𝑛0+1
𝐵𝑖
provando o resultado.
2.4. MEDIDA DE PROBABILIDADE QUE “REPRESENTA” ≾ 13
2.4 Medida de Probabilidade que “representa”
≾
SP5: Existe uma variável aleatória 𝑋 ∶ Ω ⟶ ℝ, 𝒜-mensurável, tal que 𝑋(𝜔) ∈
[0, 1], ∀𝜔 ∈ Ω e, se 𝐼1 e 𝐼2 são intervalos contidos em [0, 1], {𝑋 ∈ 𝐼1} ≾ {𝑋 ∈
𝐼2} ⇔ 𝜆(𝐼1) ≤ 𝜆(𝐼2) .
• Se 𝐼 = [𝑎, 𝑏] ⊆ [0, 1], 𝜆(𝐼) = 𝑏 − 𝑎 é o comprimento do intervalo 𝐼 (medida
de Lebesgue).
• “Experimento auxiliar” ; 𝑋 ∼ Uniforme[0,1].
• {𝑋 ∈ [𝑎, 𝑏]} ∼ {𝑋 ∈ (𝑎, 𝑏]} ∼ {𝑋 ∈ [𝑎, 𝑏)} ∼ {𝑋 ∈ (𝑎, 𝑏)}.
Teorema 7: Seja 𝐴 ∈ 𝒜. Então ∃!𝑎∗ ∈ [0, 1] tal que 𝐴 ∼ {𝑋 ∈ [0, 𝑎∗]}.
Demo: Seja 𝑈(𝐴) = {𝑎 ∈ [0, 1] ∶ 𝐴 ≾ {𝑋 ∈ [0, 𝑎]}}.
1 ∈ 𝑈(𝐴) pois Ω = {𝑋 ∈ [0, 1]} ≿ 𝐴 ⇒ 𝑈(𝐴) ≠ ∅.
Tome 𝑎∗ = inf𝑈(𝐴).
(i) Considere (𝑎𝑛)𝑛≥1, 𝑎𝑛 ∈ [0, 1], ∀𝑛 ≥ 1, tal que 𝑎𝑛 ≥ 𝑎𝑛+1 ≥ 𝑎∗ e
𝑎𝑛 ↓ 𝑎∗. Então, ∀𝑛 ≥ 1 , {𝑋 ∈ [0, 𝑎𝑛]} ≿ 𝐴.
Por SP4,
∞
⋂
𝑛=1
{𝑋 ∈ [0, 𝑎𝑛]} ≿ 𝐴 ⇒ {𝑋 ∈ [0, 𝑎∗]} ≿ 𝐴
(ii) Se 𝑎∗ = 0 , {𝑋 ∈ [0, 0]} ∼ ∅ ≾ 𝐴 (por SP3).
Se 𝑎∗ > 0 , considere (𝑎𝑛)𝑛≥1 com 𝑎𝑛 ≤ 𝑎𝑛+1 < 𝑎∗ e 𝑎𝑛 ↑ 𝑎∗.
{𝑋 ∈ [0, 𝑎𝑛]} ≾ 𝐴, ∀𝑛 ≥ 1 e, pelo Teo 5,
∞
⋃
𝑛=1
{𝑋 ∈ [0, 𝑎𝑛]} ≾ 𝐴
⇒ {𝑋 ∈ [0, 𝑎∗)} ∼ {𝑋 ∈ [0, 𝑎∗]} ≾ 𝐴.
De (i) e (ii), temos que 𝐴 ∼ {𝑋 ∈ [0, 𝑎∗]}.
𝑎∗ é único pois se 𝑎1 < 𝑎∗ < 𝑎2 são outros valores quaisquer, segue
que {𝑋 ∈ [0, 𝑎1]} ≺ {𝑋 ∈ [0, 𝑎∗]} ≺ {𝑋 ∈ [0, 𝑎2]} e só um desses
eventos pode ser equivalente à 𝐴.
14 CHAPTER 2. PROBABILIDADE SUBJETIVA
Teorema 8: A probabilidade do evento 𝐴, 𝑃(𝐴), é definida como 𝑎∗ ∈ [0, 1] tal
que 𝐴 ∼ {𝑋 ∈ [0, 𝑎∗]}. Assim, 𝐴 ∼ {𝑋 ∈ [0, 𝑃 (𝐴)]}. A função de probabilidade
assim definida satisfaz:
𝐴 ≾ 𝐵 ⇔ 𝑃(𝐴) ≤ 𝑃(𝐵).
Demo: Do Teo 7, 𝐴 ∼ {𝑋 ∈ [0, 𝑃 (𝐴)]} e 𝐵 ∼ {𝑋 ∈ [0, 𝑃 (𝐵)]}.
𝐴 ≾ 𝐵 ⇔ {𝑋 ∈ [0, 𝑃 (𝐴)]} ≾ {𝑋 ∈ [0, 𝑃 (𝐵)]} ⇔ 𝜆 ([0, 𝑃 (𝐴)]) ≤
𝜆 ([0, 𝑃 (𝐵)]) ⇔ 𝑃(𝐴) ≤ 𝑃(𝐵).
Teorema 9: A função 𝑃 ∶ 𝒜 ⟶ [0, 1] que, para cada 𝐴 ∈ 𝒜, associa 𝑃(𝐴) tal
que 𝐴 ∼ {𝑋 ∈ [0, 𝑃 (𝐴)]} é uma medida de probabilidade (no sentido 𝜎-aditiva).
Demo: (i) 𝑃(𝐴) ≥ 0.
Ω ∼ {𝑋 ∈ [0, 1]} ⇒ 𝑃(Ω) = 1.
∅ ∼ {𝑋 ∈ [0, 0]} ⇒ 𝑃(∅) = 0
∅ ≾ 𝐴 ⇒ 0 ≤ 𝑃(𝐴).
(ii) Seja 𝐴 e 𝐵 tal que 𝐴 ∩ 𝐵 = ∅. Vamos mostrar que
𝑃 (𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵).
Pelo Teo 8, 𝐴 ∼ {𝑋 ∈ [0, 𝑃 (𝐴)]}, 𝐵 ∼ {𝑋 ∈ [0, 𝑃 (𝐵)]},
𝐴 ∪ 𝐵 ∼ {𝑋 ∈ [0, 𝑃 (𝐴 ∪ 𝐵)]}.
Como 𝐴 ⊆ 𝐴∪𝐵 e, por SP3, 𝐴 ≾ 𝐴∪𝐵, vale que 𝑃(𝐴) ≤ 𝑃(𝐴∪𝐵).
Vamos verificar que 𝐵 ∼ {𝑋 ∈ (𝑃(𝐴), 𝑃 (𝐴 ∪ 𝐵)]}.
Suponha, por absurdo, 𝐵 ≺ {𝑋 ∈ (𝑃(𝐴), 𝑃 (𝐴 ∪ 𝐵)]}.
𝐴 ≾ {𝑋 ∈ [0, 𝑃 (𝐴)]} 𝑆𝑃2⟹ 𝐴 ∪ 𝐵 ≺ {𝑋 ∈ [0, 𝑃 (𝐴)]} ∪
{𝑋 ∈ (𝑃(𝐴), 𝑃 (𝐴 ∪ 𝐵)]} ⇒ 𝐴∪𝐵 ≺ {𝑋 ∈ [0, 𝑃 (𝐴)] ∪ (𝑃(𝐴), 𝑃 (𝐴 ∪ 𝐵)]}
⇒ 𝐴 ∪ 𝐵 ≺ {𝑋 ∈ [0, 𝑃 (𝐴 ∪ 𝐵)]} (Absurdo!)
Analogamente, 𝐵 ≻ {𝑋 ∈ (𝑃(𝐴), 𝑃 (𝐴 ∪ 𝐵)]} é absurdo! Logo,
𝐵 ∼ {𝑋 ∈ (𝑃(𝐴), 𝑃 (𝐴 ∪ 𝐵)]} ∼ {𝑋 ∈ [0, 𝑃 (𝐴 ∪ 𝐵) − 𝑃(𝐴)]}.
Como 𝐵 ∼ {𝑋 ∈ [0, 𝑃 (𝐵)]}, temos que 𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵).
Corolário 1: Se 𝐴1, … , 𝐴𝑛 são eventos disjuntos, então 𝑃 (⋃𝑛
𝑖=1 𝐴𝑖) =
∑𝑛
𝑖=1 𝑃 (𝐴𝑖).
Demo: Basta repetir o argumento da segunda parte da demon-
stração anterior 𝑛 − 1 vezes.
Teorema 10: Seja 𝐴1 ⊇ 𝐴2 ⊇ … uma seq. decrescente de eventos tais que
⋂∞
𝑖=1 𝐴𝑖 = ∅. Então lim
𝑛↑∞
𝑃(𝐴𝑛) = 0.
2.4. MEDIDA DE PROBABILIDADE QUE “REPRESENTA” ≾ 15
Demo: 𝐴1 ⊇ 𝐴2 ⊇ … ⇒ 𝑃(𝐴1) ≥ 𝑃(𝐴)2 ≥ ….
Além disso, lim
𝑛↑∞
𝑃(𝐴𝑛) = 𝑏. Como 𝑃(𝐴𝑛) ≥ 𝑏, ∀𝑛, segue que 𝐴𝑛 ≿
{𝑋 ∈ [0, 𝑏]}, ∀𝑛.
Por SP4, ∅ = ⋂∞
𝑖=𝑛 𝐴𝑖 ≿ {𝑋 ∈ [0, 𝑏]}.
Se 𝑏 > 0, então {𝑋 ∈ [0, 𝑏]} ≻ {𝑋 ∈ [0, 𝑏/2]} ≿ ∅. Como essa relação
contradiz a anterior, temos que 𝑏 deve ser igual a 0.
Teorema 9: (conclusão) Usando o Corolário 1 e o Teorema 10 é possível
concluir a demonstração do Teorema 9, mostrando que 𝑃 é 𝜎-aditiva, isto é,
𝑃 (
∞
⋃
𝑖=1
𝐴𝑖) =
∞
∑
𝑖=1
𝑃 (𝐴𝑖) , 𝐴𝑖 ∩ 𝐴𝑗 = ∅, ∀𝑖 ≠ 𝑗.
Demo: Seja (𝐴𝑛)𝑛≥1 sequência de eventos disjuntos. Segue do
Corolário 1 que
(i) 𝑃 (
∞
⋃
𝑖=1
𝐴𝑛) =
𝑛
∑
𝑖=1
𝑃 (𝐴𝑖) + 𝑃 (
∞
⋃
𝑗=𝑛+1
𝐴𝑗), 𝑛 = 1, 2, …
Considere 𝐵𝑛 =
∞
⋃
𝑗=𝑛+1
𝐴𝑗, 𝑛 ≥ 1, uma sequência decrescente de even-
tos tais que
∞
⋂
𝑛=1
𝐵𝑛 = ∅. Pelo Teorema 10, segue que lim
𝑛↑∞
𝑃(𝐵𝑛) = 0.
Assim, tomando o limite do lado direito de (i), segue que
𝑃 (
∞
⋃
𝑖=1
𝐴𝑖) = lim
𝑛↑∞
𝑛
∑
𝑖=1
𝑃 (𝐴𝑖) + lim
𝑛↑∞
𝑃 (𝐵𝑛) =
∞
∑
𝑖=1
𝑃 (𝐴𝑖).
Teorema 11: Se a relação de crença ≾ obedece SP1 a SP5 então ∃! 𝑃 ∶ 𝒜 →
[0, 1], medida de probabilidade, tal que 𝑃 representa ≾ .
Demo: Já foi mostrado que 𝑃 é uma medida de probabilidade 𝜎-
aditiva, de modo que apenas resta mostrar a unicidade de 𝑃 .
Considere que existe uma outra medida 𝑃 ′ que concorde com a re-
lação ≾. Como 𝑋 ∼ Unif(0, 1), 𝑃 ′ ({𝑋 ∈ [0, 𝑎]}) = 𝑎. Se 𝐴 é um
evento, existe um único 𝑎∗ tal que 𝐴 ∼ {𝑋 ∈ [0, 𝑎∗]} e, como 𝑃 ′
concorda com a relação ≾,
𝑃 ′(𝐴) = 𝑃 ′ ({𝑋 ∈ [0, 𝑎∗]}) = 𝑎∗ = 𝑃(𝐴) .
16 CHAPTER 2. PROBABILIDADE SUBJETIVA
2.5 Medida de Probabilidade Condicional
Nova Relação: (𝐴|𝐷) ≾ (𝐵|𝐷) (Sabendo que 𝐷 ocorreu, 𝐵 é preferível a 𝐴).
• Para 𝐷 = Ω, temos o caso anterior: 𝐴 ≾ 𝐵 ⇔ (𝐴|Ω) ≾ (𝐵|Ω).
• Suponha que vale as suposições SP1 a SP5 e, adicionalmente,
SP6: (𝐴|𝐷) ≾ (𝐵|𝐷) ⇔ (𝐴 ∩ 𝐷) ≾ (𝐵 ∩ 𝐷) ((𝐴 ∩ 𝐷|Ω) ≾ (𝐵 ∩ 𝐷|Ω))
Propriedades decorrentes de SP1 a SP6:
1. ∀𝐴, 𝐵, 𝐷, (𝐴|𝐷) ≾ (𝐵|𝐷) ou (𝐵|𝐷) ≾ (𝐴|𝐷).
2. Se (𝐴|𝐷) ≾ (𝐵|𝐷) e (𝐵|𝐷) ≾ (𝐸|𝐷) então (𝐴|𝐷) ≾ (𝐸|𝐷).
3. 𝐴, 𝐵, 𝐷, 𝐸 com 𝐴 ∩ 𝐷 ∩ 𝐸 ∼ 𝐵 ∩ 𝐷 ∩ 𝐸 ∼ ∅.
(𝐴|𝐷) ≾ (𝐵|𝐷) ⇔ (𝐴 ∪ 𝐸|𝐷) ≾ (𝐵∪ 𝐸|𝐷).
4. (𝐴|𝐷) ≾ (𝐵|𝐷) ⇔ (𝐴𝑐|𝐷) ≿ (𝐵𝑐|𝐷).
5. Seja 𝐵, 𝐷 e (𝐴𝑛)𝑛≥1 tal que 𝐴𝑛 ⊇ 𝐴𝑛+1.
(𝐵|𝐷) ≾ (𝐴𝑛|𝐷), ∀𝑛, então (𝐵|𝐷) ≾ (
∞
⋂
𝑛=1
𝐴𝑛|𝐷).
6. (𝐴𝑛)𝑛≥1 e (𝐵𝑛)𝑛≥1 tal que 𝐴𝑖 ∩ 𝐴𝑗 ∼ 𝐴𝑘 ∩ 𝐴𝑙 ∼ ∅, 𝑖 ≠ 𝑗, 𝑘 ≠ 𝑙, e
(𝐴𝑛|𝐷) ≾ (𝐵𝑛|𝐷), ∀𝑛. Então (
∞
⋃
𝑛=1
𝐴𝑛|𝐷) ≾ (
∞
⋃
𝑛=1
𝐵𝑛|𝐷)
Teorema 12: ∀𝐴, 𝐵, 𝐷 ∈ 𝒜, considere ≾ satisfazendo SP1 a SP6. Então
𝑃 ∶ 𝒜 → [0, 1] de modo que para cada 𝐴 ∈ 𝒜 é associada 𝑃(𝐴) ∈ [0, 1] tal que
𝐴 ∼ {𝑋 ∈ [0, 𝑃 (𝐴)]} é uma medida de probabilidade que representa ≾, isto é,
(𝐴|Ω) ≾ (𝐵|Ω) ⇔ 𝑃(𝐴) ≤ 𝑃(𝐵).
Além disso, se 𝐷 ∈ 𝒜 é tal que 𝑃(𝐷) ≥ 0, então
(𝐴|𝐷) ≾ (𝐵|𝐷) ⇔ 𝑃(𝐴|𝐷) ≤ 𝑃(𝐵|𝐷),
onde 𝑃 (⋅|𝐷) ∶ 𝒜 → [0, 1] é uma medida de probabilidade tal que
𝑃(𝐴|𝐷) = 𝑃(𝐴 ∩ 𝐷)
𝑃(𝐷) .
Chapter 3
Introdução à Inferência
Bayesiana
3.1 Conceitos Básicos
• Inferência Estatística: fazer afirmações sobre quantidades não
observáveis em um determinado contexto.
• 𝜃 : parâmetro - quantidade desconhecida de interesse (não-observável
em determinado contexto).
• Θ : espaço paramétrico - conjunto onde 𝜃 toma valores (supostamente
conhecido).
• 𝐸 = (𝑋, 𝜃, {𝑓(𝑥|𝜃)}): experimento - “tornar visível algo que antes era
invisível” ou, mais especificamente no nosso contexto, observar uma re-
alização 𝑥 ∈ 𝔛 de um vetor aleatório 𝑋 com alguma distribuição 𝑓(𝑥|𝜃).
Essa distribuição pertence, na maioria dos casos, à uma família de dis-
tribuições fixada mas que depende do parâmetro desconhecido de inter-
esse 𝜃. Note que na grande maioria dos problemas do dia a dia de um
estatístico ele se utiliza de resultados experimentais para fazer afirmações
sobre 𝜃 e este, por sua vez, é não-observável em geral.
• 𝔛 : espaço amostral - conjunto onde 𝑋 toma valores (supostamente
conhecido).
• ℱ : 𝜎-álgebra de (sub)conjuntos de 𝔛.
• Neste espaço amostral, defini-se uma família 𝒫 = {𝑃(⋅|𝜃) ∶ 𝜃 ∈ Θ}, isto é,
um conjunto de distribuições (condicionais) para 𝑋 indexadas por 𝜃.
• (𝔛, ℱ, 𝒫) : modelo estatístico (clássico).
17
18 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA
• 𝑉𝑥(𝜃) = 𝑓(𝑥|𝜃) : função de verossimilhança.
3.1.1 Inferência Frequentista (ou Clássica)
• 𝜃 é considerado fixo (apesar de desconhecido) e, portanto, não recebe uma
distribuição de probabilidade.
• Baseia-se no ” princípio” da amostragem repetida (interpretação frequen-
tista de probabilidade), isto é, supõe que é possivel realizar infinitas vezes
o experimento. Assim, o 𝑥 é apenas um dos possiveis resultados (hipóteti-
cos) do experimento.
• Probabilidade somente é definida em (uma 𝜎-álgebra de) 𝔛.
3.1.2 Inferência Bayesiana
• Baseia-se na interpretação subjetivista de probabilidade, de modo que a
SUA incerteza sobre algo desconhecido deve ser quantificada (traduzida)
em termos de probabilidade.
• Assim, SUA incerteza sobre o parâmetro (desconhecido) é representada
por uma distribuição de probabilidade, 𝜃 é tratado como uma variável
aleatória (v.a.) e SUA distribuição para 𝜃 antes da realização do experi-
mento, 𝑓(𝜃), é chamada de distribuição a priori. Note que a atribuição
de uma distribuição a prior para 𝜃 independe da natureza do parâmetro,
ele pode ser a proporção de indivíduos que avalia positivamente o governo
atual (quantidade essa que muda a todo instante) ou ainda a milésima
casa do 𝜋 (algum número de 0 a 9, fixo porém desconhecido no momento
dessa leitura).
• A atualização de SUA incerteza sobre 𝜃, incorporando uma nova infor-
mação trazida pelos dados 𝑥 (representada por 𝑓(𝑥|𝜃)) é feita pelo Teo-
rema de Bayes:
• Teorema de Bayes:
𝑓(𝜃|𝑥)⏟
𝑑𝑖𝑠𝑡.𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟𝑖
= 𝑓(𝜃)𝑓(𝑥|𝜃)
∫
Θ
𝑓(𝑥|𝜃)𝑑𝑃𝜃
∝ 𝑓(𝜃)⏟
𝑝𝑟𝑖𝑜𝑟𝑖
𝑣𝑒𝑟𝑜𝑠𝑠𝑖𝑚𝑖𝑙ℎ𝑎𝑛𝑎
⏞𝑓(𝑥|𝜃) .
• Toda a inferência sobre 𝜃 será baseada exclusivamente em 𝑓(𝜃|𝑥), não
sendo necessário considerar pontos amostrais que poderiam mas não foram
observados (como é feito na inferência frequentista).
3.1. CONCEITOS BÁSICOS 19
• Observação: será utilizada a notação geral para integral (de Lebesgue):
∫
Θ
𝑓(𝑥|𝜃)𝑑𝑃𝜃 =
⎧{
⎨{⎩
∫
Θ
𝑓(𝑥|𝜃)𝑓(𝜃)𝑑𝜃 (caso abs. contínuo)
∑
Θ
𝑓(𝑥|𝜃)𝑓(𝜃) (caso discreto)
Exemplo 1a. Suponha que existem duas moedas, uma delas tem 𝜃 = 1/2
(honesta) e a outra 𝜃 = 3/4 (viesada). Uma moeda é escolhida e é feito um
lançamento da moeda selecionada. Nesse experimento, tem-se 𝑋|𝜃 ∼ 𝐵𝑒𝑟(𝜃),
com Θ = {1/2, 3/4} e 𝔛 = {0, 1}. Como “chutar” o valor de 𝜃?
Considere que não existe razão para você acreditar que há algum tipo de prefer-
ência na escolha de uma ou outra moeda, isto é, considere que a priori 𝑓(𝜃 = 1/2)
= 𝑓(𝜃 = 3/4) = 1/2. Suponha que o lançamento resultou em cara (𝑥 = 1). En-
tão
𝑓(𝜃 = 3/4|𝑋 = 1) = 𝑓(𝑋 = 1|𝜃 = 3/4)𝑓(𝜃 = 3/4)
∑𝜃 𝑓(𝑋 = 1|𝜃)𝑓(𝜃) =
3
4
1
2
3
4
1
2 + 1
2
1
2
= 3/4
5/4 = 3
5
= 1 − 𝑓(𝜃 = 1/2|𝑋 = 1)⏟⏟⏟⏟⏟⏟⏟
2/5
.
Se, no entando, o resultado do lançamento da moeda fosse coroa (𝑥 = 0),
teríamos
𝑃(𝜃 = 3/4|𝑋 = 0) =
1
4
1
2
1
4
1
2 + 1
2
1
2
= 1/2
1/2 + 2/2 = 1
3 .
20 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA
0 1
0.50 0.55 0.60 0.65 0.70 0.75 0.50 0.55 0.60 0.65 0.70 0.75
0.0
0.2
0.4
0.6
θ
P
(θ
|x
) x
0
1
Assim, se sua decisão for escolher o valor mais provável de 𝜃 após observar 𝑥, a
conclusão seria que a moeda é viesada (𝜃 = 3/4) se for observado cara (𝑥 = 1)
e que a moeda é honesta (𝜃 = 1/2) se o resultado for coroa (𝑥 = 0).
Exemplo 1b. Considere agora que serão realizados 𝑛 lançamentos da moeda,
de modo que agora tem-se 𝑋|𝜃 ∼ 𝐵𝑖𝑛(𝑛, 𝜃), 𝜃 ∈ {1/2, 3/4}, 𝑥 ∈ {0, 1, … , 𝑛}.
Suponha que observa-se 𝑋 = 𝑥.
𝑓(𝜃 = 3/4|𝑋 = 𝑥) = 𝑓(𝑥|𝜃 = 3/4)𝑓(𝜃 = 3/4)
∑
𝜃∈{1/2,3/4}
𝑓(𝑥|𝜃)𝑓(𝜃)
=
(𝑛
𝑥) (3
4)
𝑥
(1
4)
𝑛−𝑥 1
2
(𝑛
𝑥) (3
4)
𝑥
(1
4)
𝑛−𝑥 1
2 + (𝑛
𝑥) (1
2)
𝑥
(1
2)
𝑛−𝑥 1
2
= 1
1 + (2𝑛
3𝑥 )
= 3𝑥
3𝑥 + 2𝑛 .
theta = c(0.5,0.75)
prior=0.5 # priori P(theta[1]) = 1-P(theta[2])
n=5;
post = function(x){
(prior*dbinom(x,n,theta)) / sum(prior * dbinom(x,n,theta)) }
tibble(x=as.factor(rep(seq(0,n),each=length(theta))),
x1=rep(theta,(n+1)),x2=rep(theta,(n+1)),y1=0,
y2=as.vector(apply(matrix(seq(0,n)),1,post))) %>%
ggplot() + geom_hline(yintercept=0.5, col="darkgrey",lty=3) +
geom_segment(aes(x=x1,xend=x2,y=y1,yend=y2,colour=x),lwd=2) +
xlab(expression(theta)) + ylab(expression(paste("P(",theta,"|x)"))) +
3.1. CONCEITOS BÁSICOS 21
theme_bw()+
facet_wrap(~x)
3 4 5
0 1 2
0.50 0.55 0.60 0.65 0.70 0.750.50 0.55 0.60 0.65 0.70 0.750.50 0.55 0.60 0.65 0.70 0.75
0.00
0.25
0.50
0.75
1.00
0.00
0.25
0.50
0.75
1.00
θ
P
(θ
|x
)
x
0
1
2
3
4
5
Note que o Exemplo 1.a é um caso particular desse exemplo com 𝑛 = 1. Se
novamente sua decisão é baseada no valor mais provável de 𝜃, deve-se escolher
𝜃 = 3/4 se
𝑓(𝜃 = 3/4|𝑋 = 𝑥) > 𝑓(𝜃 = 1/2|𝑋 = 𝑥) ⟺ 𝑓(𝜃 = 3/4|𝑋 = 𝑥) > 1
2 ⟺
3𝑥
3𝑥 + 2𝑛 > 1
2 ⟺ 3𝑥 > 2𝑛 ⟺ 𝑥
𝑛 = ̄𝑥 > log3 2 ≈ 0, 63.
Exemplo 1c. Considere que uma moeda será lançada 𝑛 vezes mas que 𝜃
é desconhecido, de modo que Θ = [0, 1]. Para simplificar, vamos assumir
𝑓(𝜃) = 𝕀[0,1](𝜃), isto é, 𝜃 ∼ 𝑈𝑛𝑖𝑓(0, 1) ∼ 𝐵𝑒𝑡𝑎(1, 1). Essa priori corresponde ao
caso em que você acredita que todos os valores possíveis para 𝜃 são igualmente
“prováveis”, assim como nos exemplos anteriores. Novamente, 𝑋|𝜃 ∼ 𝐵𝑖𝑛(𝑛, 𝜃)
𝑓(𝜃|𝑥) = 𝑓(𝑥|𝜃)𝑓(𝜃)
∫
1
0
𝑓(𝑥|𝜃)𝑓(𝜃)𝑑𝜃
=
(𝑛
𝑥) 𝜃𝑥(1 − 𝜃)𝑛−𝑥 𝕀[0,1](𝜃)
∫
1
0
(𝑛
𝑥) 𝜃𝑥(1 − 𝜃)𝑛−𝑥𝑑𝜃
=
Γ(1+𝑥+1+𝑛−𝑥)
Γ(1+𝑥)Γ(1+𝑛−𝑥) 𝜃𝑥(1 − 𝜃)𝑛−𝑥 𝕀[0,1](𝜃)
∫
1
0
Γ(1+𝑥+1+𝑛−𝑥)
Γ(1+𝑥)Γ(1+𝑛−𝑥) 𝜃𝑥(1 − 𝜃)𝑛−𝑥𝑑𝜃
⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟
1
= Γ(1+𝑥+1+𝑛−𝑥)
Γ(1+𝑥)Γ(1+𝑛−𝑥) 𝜃𝑥(1 − 𝜃)𝑛−𝑥 𝕀[0,1](𝜃).
Logo 𝜃|𝑥 ∼ 𝐵𝑒𝑡𝑎(1 + 𝑥, 1 + 𝑛 − 𝑥). Nesse exemplo, o valor “mais provável”
(com maior densidade a posteriori) para 𝜃 é a moda da distribuição, 𝑀𝑜𝑑𝑎(𝜃|𝑥)
22 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA
= (1 + 𝑥) − 1
(1 + 𝑥) + (1 + 𝑛 − 𝑥) − 2 = 𝑥
𝑛 = ̄𝑥. Suponha que foi observado 𝑛 = 5 e
𝑥 = 2, a posteriori é𝜃|𝑥 = 2 ∼ 𝐵𝑒𝑡𝑎(3, 4) e a moda é 𝑀𝑜𝑑𝑎(𝜃|𝑥) = 1+𝑥−1
1+1+𝑛−2
= 2
5 = 0, 4;
3 4 5
0 1 2
0.00 0.25 0.50 0.75 1.000.00 0.25 0.50 0.75 1.000.00 0.25 0.50 0.75 1.00
0
2
4
6
0
2
4
6
θ
f(
θ|
x)
x
0
1
2
3
4
5
Prior
Algumas medidas resumo da distribuição posterior para esse exemplo são
• 𝑀𝑜𝑑𝑎(𝜃|𝑥) = 1 + 𝑥 − 1
1 + 1 + 𝑛 − 2 = 2
5 = 0, 4;
• 𝐸[𝜃|𝑥] = 1 + 𝑥
1 + 1 + 𝑛 = 3
7 = 0, 43;
• 𝑀𝑒𝑑(𝜃|𝑥) ≈ 1 + 𝑥 − 1/3
1 + 1 + 𝑛 − 2/3 = 8/3
19/3 ≈ 0, 42;
• 𝑉 𝑎𝑟(𝜃|𝑥) = (1 + 𝑥)(1 + 𝑛 − 𝑥)
(1 + 1 + 𝑛)2(1 + 1 + 𝑛 + 1) = 12
392 ≈ 0, 031.
Exemplo 1d. Por fim, suponha que no exemplo anterior, sua opinião a priori é
representada por uma distribuição beta qualquer com parâmetros 𝑎 e 𝑏, 𝑎, 𝑏 > 0.
Desta forma, 𝑋|𝜃 ∼ 𝐵𝑖𝑛(𝑛, 𝜃) e 𝜃 ∼ 𝐵𝑒𝑡𝑎(𝑎, 𝑏). Calculando a distribuição a
posteriori de forma similar ao exemplo anterior, temos que 𝜃|𝑋 = 𝑥 ∼ 𝐵𝑒𝑡𝑎(𝑎 +
𝑥, 𝑏+𝑛−𝑥). Note que o exemplo anterior é o caso particular em que 𝑎 = 𝑏 = 1 .
3.1. CONCEITOS BÁSICOS 23
theta = seq(0,1,0.01)
a=2; b=2;
n=5
vero1 = as.vector(apply(matrix(seq(0,n)),1,
function(x){dbeta(theta,1+x,1+n-x)}))
post1 = as.vector(apply(matrix(seq(0,n)),1,
function(x){dbeta(theta,a+x,b+n-x)}))
tibble(x=as.factor(rep(seq(0,n),each=length(theta))),
theta=rep(theta,(n+1)),post=post1,vero=vero1) %>%
ggplot() +
geom_line(aes(x=theta,y=dbeta(theta,a,b),linetype="Prior",colour="Prior"),lwd=1) +
geom_line(aes(x=theta,y=post,linetype="Posterior",colour=x),lwd=1.3) +
geom_line(aes(x=theta,y=vero,linetype="Verossimilhança",colour=x),lwd=1) +
xlab(expression(theta)) + ylab(expression(paste("f(",theta,"|x)"))) +
theme_bw()+labs(linetype="")+
facet_wrap(~x)
3 4 5
0 1 2
0.00 0.25 0.50 0.75 1.000.00 0.25 0.50 0.75 1.000.00 0.25 0.50 0.75 1.00
0
2
4
6
0
2
4
6
θ
f(
θ|
x)
Posterior
Prior
Verossimilhança
colour
0
1
2
3
4
5
Prior
Suponha agora que 𝑎 = 𝑏 = 2, 𝑛 = 5 e 𝑥 = 2, de modo que 𝜃|𝑥 = 2 ∼ 𝐵𝑒𝑡𝑎(4, 5).
Algumas medidas resumo da distribuição posterior para esse exemplo são
• 𝑀𝑜𝑑𝑎(𝜃|𝑥) = 𝑎 + 𝑥 − 1
𝑎 + 𝑏 + 𝑛 − 2 = 3
7 ≈ 0, 428;
• 𝐸[𝜃|𝑥] = 𝑎 + 𝑥
𝑎 + 𝑏 + 𝑛 = 4
9 ≈ 0, 444;
• 𝑀𝑒𝑑(𝜃|𝑥) ≈ 𝑎 + 𝑥 − 1/3
𝑎 + 𝑏 + 𝑛 − 2/3 = 11/3
25/3 ≈ 0, 440;
24 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA
• 𝑉 𝑎𝑟(𝜃|𝑥) = (𝑎 + 𝑥)(𝑏 + 𝑛 − 𝑥)
(𝑎 + 𝑏 + 𝑛)2(𝑎 + 𝑏 + 𝑛 + 1) = 20
810 ≈ 0, 0247.
3.2 Permutabilidade e Teorema de De Finetti
Definição. Uma coleção finita 𝑋1, 𝑋2, … , 𝑋𝑛 de quantidades aleatórias é dita
permutável se a distribuição de (𝑋𝜋1
, … , 𝑋𝜋𝑛
) é a mesma para toda permutação
𝜋 = (𝜋1, … , 𝜋𝑛) dos índices (1, … , 𝑛). Uma coleção infinita de quantidades
aleatórias é permutável se toda subcoleção é permutável.
• Segue da definição que cada uma das variáveis 𝑋1, … , 𝑋𝑛 tem a mesma
distribuição marginal. Além disso, (𝑋𝑖, 𝑋𝑗) têm mesma distribuição que
(𝑋𝑘, 𝑋𝑙), ∀𝑖 ≠ 𝑗 e 𝑘 ≠ 𝑙, e assim por diante.
Proposição. Uma coleção 𝐶 de variáveis aleatórias é permitável se, e somente
se, para todo 𝑛 finito menor ou igual ao tamanho da coleção 𝐶, toda 𝑛-upla
(sequência ordenada de 𝑛 elementos) de elementos distintos de 𝐶 têm a mesma
distribuição que toda outra 𝑛-upla.
Exemplo 1. Considere uma coleção 𝑋1, 𝑋2, … uma sequência
(finita ou infinita) de variáveis aleatórias independentes e identica-
mente distribuidas (v.a. i.i.d). Note que 𝑓(𝑥1, … , 𝑥𝑛) =
𝑛
∏
𝑖=1
𝑓(𝑥𝑖) ,
∀𝑛 , de modo que (𝑋𝑖1
, … , 𝑋𝑖𝑛
) têm a mesma distribuição de
(𝑋𝑗1
, … , 𝑋𝑗𝑛
), para 𝑖1 ≠ … ≠ 𝑖𝑛 e 𝑗1 ≠ … ≠ 𝑗𝑛. Então, toda
coleção de v.a. i.i.d é permutável.
Exemplo 2: Foi visto no exemplo anterior que a suposição que uma
sequência de v.a. é i.i.d. implica que tal sequência é também per-
mutável. Sabe-se também que independência implica em correlação
nula, 𝜌 = 0. Será então que v.a. identicamente distribuídas e não
correlacionadas são também permutáveis?
3.2. PERMUTABILIDADE E TEOREMA DE DE FINETTI 25
𝑋1 / 𝑋2 −1 0 +1 𝑓(𝑥1)
−1 0.10 0.05 0.15 0.3
0 0.15 0.20 0.05 0.4
+1 0.05 0.15 0.10 0.3
𝑓(𝑥2) 0.3 0.4 0.3 1.0
𝑐𝑜𝑟(𝑋1, 𝑋2) = Cov(𝑋1,𝑋2)
√Var(𝑋1)Var(𝑋2) = E[(𝑋1−E[𝑋1])(𝑋2−E[𝑋2])]
√Var(𝑋1)Var(𝑋2) = E[𝑋1𝑋2]−E[𝑋1]E[𝑋2]
√Var(𝑋1)Var(𝑋2)
𝐸(𝑋1) = 𝐸(𝑋2) = 0
𝐸(𝑋1𝑋2) = −1 ⋅ 0, 2 + 0 + 1 ⋅ 0, 2 = 0 ⇒ 𝑐𝑜𝑟(𝑋1, 𝑋2) = 0
(𝑋1, 𝑋2) são identicamente distribuídas e não correlacionadas mas não são per-
mutáveis pois, por exemplo, 𝑃((𝑋1, 𝑋2) = (1, −1)) ≠ 𝑃((𝑋2, 𝑋1) = (1, −1)) .
Exemplo 3: Suponha que 𝑋1, 𝑋2, … são condicionalmente i.i.d.
dado 𝑌 = 𝑦 com densidade 𝑓(𝑥𝑖|𝑦), 𝑖 = 1, 2, … e 𝑌 tem densidade
ℎ(𝑦). Então 𝑋1, 𝑋2, … são permutaveis.
𝑓𝑋𝑖1 ,…,𝑋𝑖𝑛
(𝑥1, … , 𝑥𝑛) = ∫
𝑛
∏
𝑗=1
𝑓(𝑥𝑗|𝑦)ℎ(𝑦)𝑑𝑦, para qualquer 𝑛-upla
𝑋𝑖1
, … , 𝑋𝑖𝑛
. Note que o lado direito não depende dos rótulos
𝑖1, … , 𝑖𝑛.
Teorema de Representação de De Finetti. (para v.a. Bernoulli)
Uma sequência infinita (𝑋𝑛)𝑛≥1 de v.a. Bernoulli é permutável se, e somente
se, existe uma v.a 𝜃 em [0, 1] tal que, condicional a 𝜃, (𝑋𝑖)𝑛≥1 são i.i.d. 𝐵𝑒𝑟(𝜃).
Além disso, se a sequência é permutável, então a distribuição de 𝜃 é única e
�̄�𝑛 = 1
𝑛
∞
∑
𝑖=1
𝑋𝑖
𝑞.𝑐.
⟶
𝑛↑∞
𝜃 .
𝑃 (𝑋1 = 𝑥1, … , 𝑋𝑛 = 𝑥𝑛) = ∫
1
0
𝜃∑ 𝑥𝑖(1−𝜃)𝑛−∑ 𝑥𝑖 𝑑𝐹(𝜃) = ∫
1
0
𝑛
∏
𝑖=1
𝜃𝑥𝑖(1 − 𝜃)1−𝑥𝑖⏟⏟⏟⏟⏟⏟⏟
𝑓(𝑥𝑖|𝜃)
𝑓(𝜃) 𝑑𝜃 ,
onde 𝐹(𝜃) = lim
𝑛↑∞
P(∑𝑖 𝑋𝑖
𝑛 ≤ 𝜃) .
Exemplo 4: (1.19/1.20 - Schervish)
Seja (𝑋𝑛)𝑛≥1 v.a. Bernoulli.
26 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA
Considere que o Estatístico 1 acredita que 𝑃1(𝑋1 = 𝑥1, … , 𝑋𝑛 = 𝑥𝑛)
= 12
𝑥 + 2
1
(𝑛+4
𝑥+2) , de modo que 𝑃1(𝑋1 = 1) = 12
3
3! 2!
5! = 4
10 = 0, 4 .
Por outro lado, o Estatístico 2 acredita que 𝑃2(𝑋1 = 𝑥1, … , 𝑋𝑛 =
𝑥𝑛) = 1
(𝑛 + 1)(𝑛
𝑥) e, então, 𝑃2(𝑋1 = 1) = 1
2 = 0, 5 .
Contudo, pelo Teorema de Finetti, ambos acreditam que o limite
𝜃 = lim
𝑛↑∞
1
𝑛
𝑛
∑
𝑖=1
𝑋𝑖 existe com probabilidade 1 e que 𝑃(𝑋1 = 1|𝜃) = 𝜃,
mas não tem opiniões diferentes sobre 𝜃.
Suponha agora que foi observado 𝑥 = (𝑥1, … , 𝑥20) com
20
∑
𝑖=1
𝑥𝑖 = 14.
Então,
𝑃𝑖(𝑋21 = 1|𝑋1 = 𝑥1, … , 𝑋20 = 𝑥20) = 𝑃𝑖(𝑋1 = 𝑥1, … , 𝑋20 = 𝑥20, 𝑋21 = 1)
𝑃𝑖(𝑋1 = 𝑥1, … , 𝑋20 = 𝑥20)
de modo que,
𝑃1(𝑋21 = 1|X = x) =
12
17
1
(25
17)
12
16
1
(24
16)
= 16
17
24!
16!8!
25!
17!8!
= 16
17
17
25 = 16
25 = 0, 64
𝑃2(𝑋21 = 1|X = x) =
1
22(21
15)
1
21(20
14)
= 21
22
20!
14!6!
21 ⋅ 20!
15 ⋅ 14!6!
= 21
22
15
21 = 15
22 = 0, 68
Definição. Seja 𝑋1, … , 𝑋𝑛 uma sequência de variáveis aleatórias permutáveis.
A função de distribuição empírica é definida como
𝐹𝑛(𝑥) = 1
𝑛
𝑛
∑
𝑖=1
𝕀(𝑥𝑖 ≤ 𝑥) .
Suponha que você irá observar uma amostra 𝑋1, … , 𝑋𝑛 (de v.a. permutáveis)
para tentar inferir características de uma população. De modo bastante geral,
o que você deseja é fazer afirmações sobre a distribuição 𝐹 que gera os dados.
Por simplicidade, suponha que as v.a. 𝑋𝑖 tomam valores em ℝ.
Se sua população é suposta finita de tamanho 𝑁 , você pode imaginar que, se
fosse possível observar toda a população, a distribuição 𝐹 tem a seguinte forma:
𝐹(𝑥) = 𝑃(𝑋𝑖 ≤ 𝑥) = 1
𝑁 ∑ 𝕀(𝑥𝑖 ≤ 𝑥) .
3.2. PERMUTABILIDADE E TEOREMA DE DE FINETTI 27
Note que, nesse caso hipotético, não há incerteza sobre 𝐹 pois você tem toda a
informação sobre a população. Além disso, o valor 𝐹(𝑥) pode ser interpretado
como a chance de observar um valor menor ou igual a 𝑥 quando um indivíduo é
selecionado aleatoriamente dessa população. Além disso, 𝐹 é uma distribuição
discreta, assumindo valores no conjunto {𝑥1, 𝑥2, … , 𝑥𝑁}. Por exemplo, se 𝑋𝑖
assume valores em 0 − 1, temos que 𝜃 = 𝑃(𝑋𝑖 = 1) = 1 − 𝑃(𝑋𝑖 = 0) ou,
equivalentemente, 𝐹(𝑥) = (1 − 𝜃) ⋅ 𝕀(0 ≤ 𝑥 < 1) + 𝜃 ⋅ 𝕀(𝑥 ≥ 1). Nesse caso, 𝜃
assume valores no conjunto finito {0, 1
𝑁 , 2
𝑁 , … , 𝑁−1
𝑁 , 1}.
Contudo, na vida real, geralmente é impossível observar toda a população. Por
simplicidade, é comum assumir que a população é infinita, de modo que a dis-
tribuição 𝐹 pode seruma distribuição contínua ou indexada por um parâmetro
assumindo valores em ℝ. O teorema de De Finetti diz que se {𝑋𝑛}𝑛≥1 é uma
sequência de v.a. permutáveis, existe uma 𝐹 e que 𝐹(𝑥) = lim
𝑛↑∞
1
𝑛
𝑛
∑
𝑖=1
𝕀(𝑥𝑖 ≤ 𝑥).
Além disso, se você conhecesse essa 𝐹 , os elementos da sequência {𝑋𝑛}𝑛≥1
seriam i.i.d., ou seja, conhecida 𝐹 não há mais o que “aprender” com novas
observações.
Teorema de Representação de De Finetti. Uma sequência de v.a.s
{𝑋𝑛}𝑛≥1 assumindo valores em (um subconjunto de) ℝ é permutável se, e
somente se, existe uma medida de probabilidade 𝜇 sobre (uma 𝜎-álgebra do)
conjunto de funções de distribuições que “sorteia” uma 𝐹 e, dada esta 𝐹 , os
elementos da sequência {𝑋𝑛}𝑛≥1 são i.i.d. com distribuição 𝐹 . Isto é,
𝐹X(𝑥1, … , 𝑥𝑛) = ∫
𝑛
∏
𝑖=1
𝐹(𝑥𝑖)𝑑𝜇(𝐹), ∀𝑛.
Se a distribuição é supostamente indexada por um parâmetro 𝜃, então
𝑓X(𝑥1, … , 𝑥𝑛) = ∫
Θ
𝑛
∏
𝑖=1
𝑓(𝑥𝑖|𝜃) 𝑑𝑃(𝜃), ∀𝑛.
e, se 𝜃 é abs. contínuo (e, portanto, admite uma f.d.p.),
𝑓X(𝑥1, … , 𝑥𝑛) = ∫
Θ
𝑛
∏
𝑖=1
𝑓(𝑥𝑖|𝜃) 𝑓(𝜃) 𝑑𝜃, ∀𝑛.
Sob a abordagem frequentista, 𝜃 é considerado “fixado” (apesar de desconhecido)
e, portanto, não se admite uma distribuição de probabilidades para 𝜃. Isto é
28 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA
equivalente a dizer 𝜃 é uma v.a. degenerada, de modo que existe 𝜃∗ tal que
𝑃(𝜃 = 𝜃∗) = 1. O Teorema de De Finetti nesse caso diz que
𝑓(𝑥1, … , 𝑥𝑛) =
𝑛
∏
𝑖=1
𝑓(𝑥𝑖|𝜃 = 𝜃∗), ∀𝑛.
Sob esse modelo, temos que a distribuição preditiva de uma nova observação
𝑋𝑛+1 é dada por
𝑓(𝑥𝑛+1|𝑥1, … , 𝑥𝑛) = 𝑓(𝑥𝑛+1, 𝑥1, … , 𝑥𝑛)
𝑓(𝑥1, … , 𝑥𝑛) =
𝑛+1
∏
𝑖=1
𝑓(𝑥𝑖|𝜃 = 𝜃∗)
𝑛
∏
𝑖=1
𝑓(𝑥𝑖|𝜃 = 𝜃∗)
= 𝑓(𝑥𝑛+1|𝜃 = 𝜃∗)
= 𝑓(𝑥𝑛+1),
de modo que 𝑋𝑛+1 é independente de 𝑋1, … , 𝑋𝑛. Contudo, sob essa abordagem,
é comum estimar a distribuição preditiva como
̂𝑓(𝑥𝑛+1|𝑥1, … , 𝑥𝑛) ≡ 𝑓 (𝑥𝑛+1| ̂𝜃 (𝑥1, … , 𝑥𝑛)),
e isso contradiz a suposição de que 𝑋1, … , 𝑋𝑛 são i.i.d. (e, consequentemente,
permutáveis). Mesmo que a suposição de i.i.d. seja condicional a 𝜃, ainda deve
valer o Teorema de De Finetti e a contradição acima se mantém.
3.3 Suficiência
Muitas vezes, a quantidade de dados é muito grande e desejamos “resumir” a
informação trazida pelos dados. Uma forma de fazê-lo sem perder informação
sobre o parâmetro de interesse é usar uma estatística suficiente.
Definição. Dizemos que uma função da amostra 𝑇 ∶ 𝔛 → ℝ𝑝 é uma estatística
suficiente (do ponto de vista frequentista) se 𝑓 (𝑥|𝑇 (𝑥), 𝜃) = 𝑓 (𝑥|𝑇 (𝑥)).
Em palavras, conhecendo o valor da estatística suficiente, a distribuição da
amostra (do v.a. 𝑋) não depende mais do parâmetro 𝜃. Isso quer dizer que a
informação disponível na amostra 𝑋 sobre 𝜃 está contida em 𝑇 (𝑋). Obter uma
estatística suficiente nem sempre é uma tarefa fácil mas o resultado a seguir,
conhecido como critério da fatoração permite identificar estatísticas suficientes.
3.3. SUFICIÊNCIA 29
Teorema. A estatística 𝑇 ∶ 𝔛 → ℝ𝑝 é suficiente para a família de distribuições
{𝑓(⋅|𝜃) ∶ 𝜃 ∈ Θ} se, e somente se, para todo 𝑥 ∈ 𝔛 e para todo 𝜃 ∈ Θ, podemos
escrever 𝑓 (𝑥|𝜃) = 𝑢(𝑥)𝑣 (𝑇 (𝑥), 𝜃), onde 𝑢 é uma função positiva que não depende
de 𝜃 e 𝑣 é uma função não-negativa e depende de 𝑥 somente através de 𝑇 (𝑥).
Exemplo. Seja 𝑋1, … , 𝑋𝑛 v.a. tais que, condicional ao conheci-
mento de 𝜃, são c.i.i.d. com 𝑋1|𝜃 ∼ 𝐸𝑥𝑝(𝜃). Então,
𝑓(𝑥|𝜃) = ∏ 𝑓(𝑥𝑖|𝜃) = ∏ 𝜃𝑒−𝜃𝑥𝑖 𝕀ℝ+(𝑥𝑖) = 𝜃𝑛𝑒−𝜃 ∑ 𝑥𝑖 ∏ 𝕀ℝ+(𝑥𝑖)
= 𝑣 (∑ 𝑥𝑖, 𝜃) 𝑢(𝑥).
Portanto, 𝑇 (𝑥) = ∑ 𝑥𝑖 é estatística suficiente para 𝜃. De fato,
como 𝑇 (𝑋) = ∑ 𝑋𝑖|𝜃 ∼ 𝐺𝑎𝑚𝑎(𝑛, 𝜃) e {𝑋1 = 𝑥1, … , 𝑋𝑛 = 𝑥𝑛} ⊆
{𝑇 (𝑋) = ∑ 𝑋𝑖 = ∑ 𝑥𝑖 = 𝑡} ,
𝑓 (𝑥|𝑇 (𝑥), 𝜃) = 𝑓 (𝑥, 𝑇 (𝑥)|𝜃)
𝑓 (𝑇 (𝑥)|𝜃) = 𝑓 (𝑥|𝜃)
𝑓 (𝑡|𝜃) = 𝜃𝑛𝑒𝜃 ∑ 𝑥𝑖 ∏ 𝕀ℝ+(𝑥𝑖)
𝜃𝑛
Γ(𝑛) 𝑡𝑛−1𝑒𝜃𝑡 ∏ 𝕀ℝ+(𝑥𝑖)
= Γ(𝑛)
𝑡𝑛−1 𝕀ℝ+
(𝑡) ,
que não depende de 𝜃.
Sob o enfoque bayesiano, a definição de suficiência é um pouco mais intuitiva
que a frequentista.
Definição: Dizemos que uma função da amostra 𝑇 ∶ 𝔛 → ℝ𝑝 é uma estatística
suficiente (no sentido bayesiano) se 𝑓 (𝜃|𝑇 (𝑥)) = 𝑓 (𝜃|𝑥), para todo 𝑥 ∈ 𝔛.
Voltando ao exemplo, suponha agora que, a priori, 𝜃 ∼
𝐺𝑎𝑚𝑎(𝑎, 𝑏). Então,
𝑓(𝜃|𝑥) ∝ 𝑓(𝑥|𝜃)𝑓(𝜃) ∝ 𝜃𝑛𝑒−𝜃 ∑ 𝑥𝑖 𝜃𝑎−1𝑒−𝑏𝜃 ∝ 𝜃𝑎+𝑛−1𝑒−(𝑏+∑ 𝑥𝑖)𝜃
Seja 𝑇 = 𝑇 (𝑋) = ∑ 𝑋𝑖, temos que 𝑇 |𝜃 ∼ 𝐺𝑎𝑚𝑚𝑎(𝑛, 𝜃), de modo
que
𝑓 (𝜃|𝑇 (𝑥) = 𝑡) ∝ 𝑓(𝑡|𝜃)𝑓(𝜃) ∝ 𝜃𝑛𝑡𝑛−1𝑒𝜃𝑡 𝜃𝑎−1𝑒−𝑏𝜃 ∝ 𝜃𝑎+𝑛−1𝑒−(𝑏+𝑡)𝜃
, com 𝑡 = ∑ 𝑥𝑖.
Assim, 𝜃|𝑥 ∼ 𝜃|𝑇 (𝑥) ∼ 𝐺𝑎𝑚𝑚𝑎 (𝑎 + 𝑛, 𝑏 + ∑ 𝑥𝑖) e, portanto,
𝑇 (𝑋) = ∑ 𝑋𝑖 é estatística suficiente para 𝜃.
Pelo teorema da fatoração, temos que 𝑓 (𝑥|𝜃) = 𝑢(𝑥)𝑣 (𝑇 (𝑥), 𝜃) e, portanto
𝑓(𝜃|𝑥) ∝ 𝑓(𝜃)𝑓 (𝑥|𝜃) ∝ 𝑓(𝜃)𝑣 (𝑇 (𝑥), 𝜃) , que só depende de 𝑥 por meio de 𝑇 (𝑥).
Para os casos mais comuns, as definições são equivalentes (Schervish, 2012).
30 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA
Um dos princípios de inferência estatística é o princípio da suficiência. Segundo
este, se 𝑇 é uma estatística suficiente para 𝜃 e se dois pontos amostrais 𝑥, 𝑦 ∈ 𝔛
são tais que 𝑇 (𝑥) = 𝑇 (𝑦) então as inferências baseadas nesses pontos devem ser
as mesmas. Adiante, retomaremos esse princípio de forma mais formal.
3.4 Distribuição a Priori
• A priori é sempre subjetiva (assim como a escolha do modelo estatístico)!
– Por exemplo, dizer que os dados seguem uma distribuição normal,
é uma escolha subjetiva, muitas vezes baseadas nas facilidades
matemáticas que essa distribuição proporciona.
– Do mesmo modo, suponha que dois indivíduos que consideram que
a distribuição do parêmetro é simétrica, com mesmas suposições
sobre média e variância. O primeiro pode optar por representar sua
distribuição usando uma distribuição Normal, enquanto o segundo
pode utilizar uma distribuição T ou Cauchy.
• Não existe “opinião errada”, existem opiniões diferentes, dado o nível de
conhecimento e as experiências prévias do indivíduo. Contudo, algumas
“boas práticas” devem ser consideradas como, por exemplo, tomar
cuidado para não atribuir probabilidade nula a pontos “possíveis” do
espaço paramétrico.
• A priori deve ser sua opinião apenas sobre o parâmetro 𝜃 e não deve
depender de fatores como o desenho do experimento ou o objetivo do
estudo.
3.4.1 Método do Histograma
• Muitas vezes, para “extrair” o conhecimento de um especialista, podemos
dividir o espaço paramétrico em regiões e pedir para o especialista “or-
denar” esses conjuntos, utilizando “pesos” que refletem a crença que o
parâmetro esteja em cada uma daquelas regiões.
• Exemplo 1. (Albert (2009), pág 27)
– Seja 𝜃 uma proporção desconhecida (Θ = [0, 1]);
– Considere a partição 𝑇 = {[0, 0.1), [0.1, 0.2), … , [0.9, 1]};
3.4. DISTRIBUIÇÃO A PRIORI 31
– Suponha que um especialistas atribui pesos 𝑝 = (1, 5.2, 8, 7.2, 4.6, 2.1, 0.7, 0.1, 0, 0)
a esse intervalos;
– A piori, nesse caso, é o histograma apresentado a seguir.
p=c(1, 5.2, 8, 7.2, 4.6, 2.1, 0.7, 0.1, 0, 0)
prior = c(0,p/(sum(p)))
tibble(theta=seq(0,1,0.1), prior) %>%
ggplot(data=.) +
geom_step(aes(x=theta,y=prior),direction="vh",color="red",lwd=1.5)
0.0
0.1
0.2
0.00 0.25 0.50 0.75 1.00
theta
pr
io
r
• Voltando ao exemplo da moeda, suponha novamente que foram observados
𝑥 = 2 sucessos em 𝑛 = 5 lançamentos. A posteriori nesse caso pode
ser obtida multiplicando a distribuição a priori pela verossimilhança e
“padronizando” a função obtida. Assim:
n=5
x=2
p = c(1, 5.2, 8, 7.2, 4.6, 2.1, 0.7, 0.1, 0, 0)
p = p/(sum(p))
theta = seq(0,1,0.01)
prior = c(rep(p,each=10),0)/sum(c(rep(p,each=10),0))
vero = dbinom(x,n,theta)/sum(dbinom(x,n,theta))
post = (prior * vero)/sum(prior * vero)
pH = tibble(theta=rep(theta,3),dens=c(prior,vero,post),Dist=rep(c('1.priori','2.verossimilhança','3.posteriori'),each=101)) %>%
ggplot(data=.) +
geom_line(aes(x=theta,y=dens,colour=Dist),lwd=1.5)
pH
32 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA
0.00
0.01
0.020.03
0.00 0.25 0.50 0.75 1.00
theta
de
ns
Dist
1.priori
2.verossimilhança
3.posteriori
3.4.2 Elicitação de Hiperparâmetros
• Nessa abordagem, a priori é obtida da seguinte maneira:
1. Escolha uma família de distribuições conveniente. O conceito de
“conveniência” aqui pode levar em conta, por exemplo, o suporte da
distribuição, se é flexível o suficiente para acomodar diversos tipos
de opinião, se permite a obtenção analítica da posteriori e assim por
diante;
2. Obtenha um conjunto de medidas resumo (como média, variância,
quantis, etc.);
3. Utilize as medidas resumo para calcular hiperparâmetros da dis-
tribuição escolhida.
• Exemplo: Na seção anterior, a priori dada pelo histograma tem média
𝑚 = 0.31 e variância aproximadamente 𝑣 = 0.02. Podemos utilizar como
priori, por exemplo, uma distribuição beta com essa média e variância, já
que a beta tem um suporte conveniente e facilita as contas, como também
já vimos. Assim, vamos considerar uma distribuição 𝐵𝑒𝑡𝑎(𝑎, 𝑏) e escolher
𝑎 e 𝑏 satisfazendo:
(i) 𝐸[𝜃] = 𝑎
𝑎 + 𝑏 = 𝑚 ⟺ 𝑏 = (1 − 𝑚
𝑚 ) 𝑎
3.4. DISTRIBUIÇÃO A PRIORI 33
(ii) 𝑉 𝑎𝑟(𝜃) = 𝑎𝑏
(𝑎 + 𝑏)2(𝑎 + 𝑏 + 1) = 0.02 ⟺ 𝑎 = 𝑚(𝑚 − 𝑚2 − 𝑣)
𝑣
Resolvendo o sistema temos, de forma geral, que 𝑎 = 𝑚(𝑚 − 𝑚2 − 𝑣)
𝑣 e 𝑏 =
(1 − 𝑚)(𝑚 − 𝑚2 − 𝑣)
𝑣 .
Assim, no nosso exemplo, teríamos uma 𝐵𝑒𝑡𝑎(3, 6.7). Além disso, já vimos que,
nesse caso, a distribuição a posteriori é 𝐵𝑒𝑡𝑎(3 + 𝑥, 6.7 + 𝑛 − 𝑥). Considerando
novamente 𝑛 = 5 e 𝑥 = 2, temos:
n=5; x=2
m=0.31; v=0.02
a=m*(m-m^2-v)/v; b=(1-m)*(m-m^2-v)/v
p = c(1, 5.2, 8, 7.2, 4.6, 2.1, 0.7, 0.1, 0, 0)
p = p/(sum(p))
theta = seq(0,1,0.01)
prior = dbeta(theta,a,b)/sum(dbeta(theta,a,b))
vero = dbinom(x,n,theta)/sum(dbinom(x,n,theta))
post = dbeta(theta,a+x,b+n-x)/sum(dbeta(theta,a+x,b+n-x))
priorH = c(rep(p,each=10),0)/sum(c(rep(p,each=10),0))
tibble(theta=rep(theta,4),dens=c(prior,vero,post,priorH),
Dist=rep(c('1.Priori Beta','2.Verossimilhança','3.Posteriori','0.Priori Histograma'),each=101)) %>%
ggplot(data=.) +
geom_line(aes(x=theta,y=dens,colour=Dist),lwd=1.5)
0.00
0.01
0.02
0.03
0.00 0.25 0.50 0.75 1.00
theta
de
ns
Dist
0.Priori Histograma
1.Priori Beta
2.Verossimilhança
3.Posteriori
34 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA
3.4.3 Prioris Conjugadas
Como visto no exemplo da moeda, em que a distribuição a priori era 𝐵𝑒𝑡𝑎(𝑎, 𝑏),
a posteriori era facilmente obtida e também estava na classe das distribuições
𝐵𝑒𝑡𝑎. Em particular, quando observa-se 𝑥 sucessos em 𝑛 realizações de ensaios
de Bernoulli, a distribuição a posteriori é 𝐵𝑒𝑡𝑎(𝑎 + 𝑥, 𝑏 + 𝑛 − 𝑥). Isso ocorre
pois essa distribuição pertence à uma classe bastante espefícica de distribuições
a priori, chamadas distribuições conjugadas.
Definição Seja 𝒫 = {𝑓(𝑥|𝜃) ∶ 𝜃 ∈ Θ} uma família de distribuições (condi-
cionais) para 𝑋 e considere 𝒞 = {ℎ(𝜃|𝑎) ∶ 𝑎 ∈ 𝐴} uma família de distribuições
para 𝜃. Dizemos que (a família) 𝒞 é conjugada para 𝒫 se, ∀ ℎ(𝜃) ∈ 𝒞,
ℎ(𝜃|𝑥) ∝ 𝑓(𝑥|𝜃)ℎ(𝜃) ∈ 𝒞, ∀𝑥 ∈ 𝔛.
Resultado 1. Seja 𝑋 v.a. tal que, condicional ao conhecimento de 𝜃, 𝑋|𝜃 ∼
𝐵𝑖𝑛(𝑛, 𝜃). Considere que, a priori, 𝜃 ∼ 𝐵𝑒𝑡𝑎(𝑎, 𝑏). Então, 𝜃|𝑋 = 𝑥 ∼ 𝐵𝑒𝑡𝑎(𝑎 +
𝑥, 𝑏+𝑛−𝑥). Portanto, a família 𝒞 = {𝐵𝑒𝑡𝑎(𝑎1, 𝑎2) ∶ (𝑎1, 𝑎2) ∈ ℝ2
+} é conjugada
para 𝒫 = {𝐵𝑖𝑛(𝑛, 𝜃) ∶ 𝜃 ∈ [0, 1]}.
• Esse resultado também vale se
1. 𝑋1, … , 𝑋𝑛 são v.a.s condicionalmente independentes e identicamente
distribuidas (c.i.i.d.) com 𝑋𝑖|𝜃 ∼ 𝐵𝑒𝑟(𝜃)
2. 𝑋𝑖|𝜃 ∼ 𝐺𝑒𝑜(𝜃), 𝑖 = 1, … , 𝑛 𝑐.𝑖.𝑖.𝑑.
3. 𝑋𝑖|𝜃 ∼ 𝐵𝑖𝑛𝑁𝑒𝑔(𝑘, 𝜃)
𝜃 ∼ 𝐵𝑒𝑡𝑎(𝑎, 𝑏) ⇒ 𝜃|𝑋 = 𝑥 ∼ 𝐵𝑒𝑡𝑎(𝑎 + 𝑠, 𝑏 + 𝑓) em que 𝑠 é o número
de sucessos e 𝑓 é o número de fracassos.
Resultado 2. (generalização do resultado anterior para o caso em que o número
de categorias é maior que 2)
Seja 𝑋|𝜃 ∼ 𝑀𝑢𝑙𝑡𝑖𝑛𝑜𝑚𝑖𝑎𝑙(𝑛, 𝜃), isto é, sua função de probabilidade é dada por
𝑓(𝑥|𝜃) = ( 𝑛
𝑥1, 𝑥2, … , 𝑥𝑘
)
𝑘−1
∏
𝑖=1
𝜃𝑥𝑖
𝑖 (1 −
𝑘−1
∑
𝑖=1
𝜃𝑖)
𝑛 −
𝑘−1
∑
𝑖=1
𝑥𝑖
⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟
𝜃 𝑥𝑘
𝑘
3.4. DISTRIBUIÇÃO A PRIORI 35
em que 𝜃𝑖 ∈ [0, 1] com ∑𝐾
𝑖=1 𝜃𝑖 = 1, 𝑥𝑖 ∈ {0, 1, … , 𝑛} com ∑𝑛
𝑖=1 𝑥𝑖 = 𝑛 e
( 𝑛
𝑥1, 𝑥2, … , 𝑥𝑘
) = 𝑛!
𝑥1!𝑥2! … 𝑥𝑘! .
Considere que, a priori, 𝜃 ∼ 𝐷𝑖𝑟𝑖𝑐ℎ𝑙𝑒𝑡(𝑎1, … , 𝑎𝑘), 𝑎𝑖 > 0, 𝑖 = 1, … , 𝑘, isto é, a
f.d.p. a priori para 𝜃 é dada por
𝑓(𝜃) = Γ(∑𝐾
𝑖=1 𝑎𝑖)
Γ(𝑎1)Γ(𝑎2) … Γ(𝑎𝑘)
𝑘−1
∏
𝑖=1
𝜃𝑎𝑖−1
𝑖 ( 1 −
𝑘−1
∑
𝑖=1
𝜃𝑖
⏟⏟⏟⏟⏟
𝜃𝑘
)
𝑎𝑘−1
.
Então, a distribuição a posteriori para 𝜃 é 𝜃|𝑋 = 𝑥 ∼ 𝐷𝑖𝑟𝑖𝑐ℎ𝑙𝑒𝑡(𝑎1 +𝑥1, … , 𝑎𝑘 +
𝑥𝑘).
Demo: Para verificar o resultado, basta ver que
𝑓(𝜃|𝑥) = 𝑓(𝑥|𝜃)𝑓(𝜃)
∫Θ 𝑓(𝑥|𝜃)𝑓(𝜃)𝑑𝜃 ∝ 𝑓(𝑥|𝜃)𝑓(𝜃) ∝ ∏𝑘−1
𝑖=1 𝜃(𝑎𝑖+𝑥𝑖−1)
𝑖 (1 − ∑𝑘−1
𝑖=1 𝜃𝑖)
(𝑎𝑘+𝑥𝑘)−1
Resultado 3. Seja 𝑋1, … , 𝑋𝑛 v.a. c.i.i.d tais que 𝑋𝑖|𝜃 ∼ 𝑈𝑛𝑖𝑓(0, 𝜃) e considere
que, a priori,𝜃 ∼ 𝑃𝑎𝑟𝑒𝑡𝑜(𝑎, 𝑏). Então 𝜃|𝑋 = 𝑥 ∼ 𝑃𝑎𝑟𝑒𝑡𝑜 (𝑎 + 𝑛, 𝑚𝑎𝑥{𝑏, 𝑥(𝑛)}).
Demo:
𝑓(𝑥|𝜃) 𝑐𝑖= ∏𝑛
𝑖=1 𝑓(𝑥𝑖|𝜃) 𝑖𝑑= ∏𝑛
𝑖=1
1
𝜃 𝕀[0,𝜃](𝑥𝑖) = 1
𝜃𝑛 𝕀[0,𝜃](𝑥(𝑛))
= 1
𝜃𝑛 𝕀[𝑥(𝑛),+∞)(𝜃)
em que 𝑥(𝑛) = 𝑚𝑎𝑥{𝑥1, … , 𝑥𝑛}.
𝑓(𝜃) = 𝑎𝑏𝑎
𝜃𝑎+1 𝕀[𝑏,+∞](𝜃).
Então
𝑓(𝜃|𝑥) ∝ 𝑓(𝑥|𝜃)𝑓(𝜃) = 1
𝜃𝑎+𝑛+1 𝕀[𝑥(𝑛),+∞)(𝜃)𝕀[𝑏,+∞)(𝜃) = 1
𝜃𝑎+𝑛+1 𝕀[𝑚𝑎𝑥{𝑏,𝑥(𝑛)},+∞)(𝜃)
⇒ 𝜃|𝑋 = 𝑥 ∼ 𝑃𝑎𝑟𝑒𝑡𝑜(𝑎 + 𝑛, 𝑚𝑎𝑥{𝑏, 𝑥(𝑛)}).
Exemplo. No gráfico a seguir, a distribuição a priori é uma Pareto(2, 1) e foi
observada uma amostra de tamanho 5 com 𝑥(𝑛) = 2, de modo que a posteriori
é Pareto(7, 2).
36 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA
a=2;b=1
n=5; xn=2
t = seq(0,5,length.out=1000)
prior = extraDistr::dpareto(t,a,b)
vero = ((n-1)*xn^(n-1)) * I(t>=2)/(t^n)
post = extraDistr::dpareto(t,a+n,max(b,xn))
tibble(theta=rep(t,3),dens=c(prior,vero,post),
Dist=rep(c('1.Priori Pareto(2,1)','2.Verossimilhança','3.Posteriori'),each=length(t))) %>%
ggplot(data=.) +
geom_line(aes(x=theta,y=dens,colour=Dist),lwd=1.2)
0
1
2
3
0 1 2 3 4 5
theta
de
ns
Dist
1.Priori Pareto(2,1)
2.Verossimilhança
3.Posteriori
Resultado 4. Seja 𝑋1, … , 𝑋𝑛, 𝑌1, … , 𝑌𝑚 v.a. condicionalmente independentes
tais que 𝑋𝑖|𝜃 ∼ 𝐸𝑥𝑝(𝜃), 𝑖 = 1, … , 𝑛 e 𝑌𝑗|𝜃 ∼ 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜃), 𝑗 = 1, … , 𝑚. Considere
que, a priori, 𝜃 ∼ 𝐺𝑎𝑚𝑎(𝑎, 𝑏). Então 𝜃|𝑥, 𝑦 ∼ 𝐺𝑎𝑚𝑎(𝑎 + 𝑛 + ∑𝑗 𝑦𝑗 , 𝑏 + 𝑚 +
∑𝑖 𝑥𝑖).
Demo:
𝑓(𝑥, 𝑦|𝜃) 𝑐𝑖= 𝑓(𝑥|𝜃)𝑓(𝑦|𝜃) 𝑐𝑖= ∏𝑛
𝑖=1 𝑓(𝑥𝑖|𝜃) ∏𝑚
𝑗=1 𝑓(𝑦𝑖|𝜃) = ∏𝑛
𝑖=1 𝜃𝑒−𝜃𝑥𝑖 ∏𝑚
𝑗=1
𝜃𝑦𝑗𝑒−𝜃
𝑦𝑗!
=
𝜃𝑛𝑒−𝜃 ∑𝑖 𝑥𝑖
𝜃∑𝑗 𝑦𝑗𝑒−𝑚𝜃
∏𝑚
𝑗=1 𝑦𝑗!
= 1
∏𝑚
𝑗=1 𝑦𝑗!
𝜃𝑛+∑𝑗 𝑦𝑗𝑒−(𝑚+∑𝑖 𝑥𝑖)𝜃
𝑓(𝜃) = 𝑏𝑎
Γ(𝑎)𝜃𝑎−1𝑒−𝑏𝜃
𝑓(𝜃|𝑥, 𝑦) ∝ 𝑓(𝑥, 𝑦|𝜃)𝑓(𝜃) ∝ 𝜃[𝑎+𝑛+∑𝑗 𝑦𝑗]−1𝑒−[𝑏+𝑚+∑𝑖 𝑥𝑖]𝜃
⇒ 𝜃|𝑥, 𝑦 ∼ 𝐺𝑎𝑚𝑎(𝑎 + 𝑛 + ∑𝑗 𝑦𝑗, 𝑏 + 𝑚 + ∑𝑖 𝑥𝑖)
3.4. DISTRIBUIÇÃO A PRIORI 37
Exemplo. Considere que a distribuição a priori é uma Gama(2, 2) e foi ob-
servado 𝑛 = 4, ∑ 𝑥 = 1, 𝑚 = 5 e ∑ 𝑦 = 10, de modo que a posteriori é
Gama(16, 9).
a=2;b=2
n=4; sumx=1
m=6; sumy=10
t = seq(0,5,length.out=1000)
prior = dgamma(t,a,b)
vero = dgamma(t,n+sumy+1,m+sumx)
post = dgamma(t,a+n+sumy,b+m+sumx)
tibble(theta=rep(t,3),dens=c(prior,vero,post),
Dist=rep(c('1.Priori Gama(2,2)','2.Verossimilhança','3.Posteriori'),each=length(t))) %>%
ggplot(data=.) +
geom_line(aes(x=theta,y=dens,colour=Dist),lwd=1.2)
0.00
0.25
0.50
0.75
0 1 2 3 4 5
theta
de
ns
Dist
1.Priori Gama(2,2)
2.Verossimilhança
3.Posteriori
Resultado 5. Seja 𝒫 = {𝑓(𝑥|𝜃) ∶ 𝜃 ∈ Θ} e 𝒞 = {ℎ(𝜃|𝑎) ∶ 𝑎 ∈ 𝐴}
uma família conjugada para 𝒫. Considere ℳ = {ℎ(𝜃) = ∑𝑚
𝑖=1 𝑤𝑖ℎ𝑖(𝜃) ∶ ℎ𝑖 ∈
𝒞 𝑒 𝑤𝑖 > 0, ∑𝑚
𝑖=1 𝑤𝑖 = 1}. Então ℳ é família conjugada para 𝒫.
Demo: Como 𝒞 é conjugada para 𝒫, para toda função ℎ𝑖 ∈ 𝒞,
temos que 𝑓𝑖(𝜃|𝑥) ∝ ℎ𝑖(𝜃)𝑓(𝑥|𝜃) ∈ 𝒞. Então
ℎ ∈ ℳ ⇒ 𝑓(𝜃|𝑥) ∝ ℎ(𝜃)𝑓(𝑥|𝜃) ∝ ∑𝑚
𝑖=1 𝑤𝑖 ℎ𝑖(𝜃)𝑓(𝑥|𝜃)⏟⏟⏟⏟⏟
∈𝒞
∝ ∑𝑚
𝑖=1 𝑤∗
𝑖 𝑓𝑖(𝜃|𝑥) ∈ ℳ.
38 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA
Exemplo 1. Seja 𝑋|𝜃 ∼ 𝐵𝑖𝑛(𝑛,𝜃) e 𝑓(𝜃) = 𝑤𝑓1(𝜃) + (1 − 𝑤)𝑓2(𝜃), com 𝑓1 ∼
𝐵𝑒𝑡𝑎(𝑎1, 𝑏1) e 𝑓2 ∼ 𝐵𝑒𝑡𝑎(𝑎2, 𝑏2).
𝑓(𝜃|𝑥) = 𝑓(𝑥|𝜃)𝑓(𝜃)
∫1
0 𝑓(𝑥|𝜃)𝑓(𝜃)
= 𝑓(𝑥|𝜃)[𝑤𝑓1(𝜃) + (1 − 𝑤)𝑓2(𝜃)]
𝑤 ∫1
0 𝑓1(𝜃)𝑓(𝑥|𝜃)𝑑𝜃 + (1 − 𝑤) ∫1
0 𝑓2(𝜃)𝑓(𝑥|𝜃)𝑑𝜃
∝
𝑤(𝑛
𝑥) Γ(𝑎1+𝑏1)
Γ(𝑎1)Γ(𝑏1) 𝜃𝑎1+𝑥−1(1 − 𝜃)𝑏1+𝑛−𝑥−1 + (1 − 𝑤)(𝑛
𝑥) Γ(𝑎2+𝑏2)
Γ(𝑎2)Γ(𝑏2) 𝜃𝑎2+𝑥−1(1 − 𝜃)𝑏2+𝑛−𝑥−1
𝑤(𝑛
𝑥) Γ(𝑎1+𝑏1)
Γ(𝑎1)Γ(𝑏1)
Γ(𝑎1+𝑥)Γ(𝑏1+𝑛−𝑥)
Γ(𝑎1+𝑏1+𝑛)⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟
𝐴
+ (1 − 𝑤)(𝑛
𝑥) Γ(𝑎2+𝑏2)
Γ(𝑎2)Γ(𝑏2)
Γ(𝑎2+𝑥)Γ(𝑏2+𝑛−𝑥)
Γ(𝑎2+𝑏2+𝑛)⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟
𝐵
∝ 𝐴
𝐴 + 𝐵⏟
𝑤∗
𝐵𝑒𝑡𝑎(𝑎1 + 𝑥, 𝑏1 + 𝑛 − 𝑥) + 𝐵
𝐴 + 𝐵⏟
1−𝑤∗
𝐵𝑒𝑡𝑎(𝑎2 + 𝑥, 𝑏2 + 𝑛 − 𝑥).
Primeiramente, suponha que 𝑛 = 5, e temos uma mistura das distribuições
𝐵𝑒𝑡𝑎(5, 12) e 𝐵𝑒𝑡𝑎(10, 3), com 𝑤 = 0.5. O gráfico a seguir apresenta as dis-
tribuições a priori, a verossimilhança e a posteriori para cada possível valor de
𝑥 em {0, 1, … , 5}.
a1=5; b1=12
a2=10; b2=3
n=5
w=0.5
theta = seq(0,1,0.01)
A = as.vector(apply(matrix(seq(0,n)),1,
function(x){w*choose(n,x)*gamma(a1+b1)/(gamma(a1)*gamma(b1))*
(gamma(a1+x)*gamma(b1+n-x))/gamma(a1+b1+n)}))
B = as.vector(apply(matrix(seq(0,n)),1,
function(x){(1-w)*choose(n,x)*gamma(a2+b2)/(gamma(a2)*gamma(b2))*
(gamma(a2+x)*gamma(b2+n-x))/gamma(a2+b2+n)}))
w2 = A/(A+B)
prior2 = as.vector(apply(matrix(seq(0,n)),1,
function(x){w*dbeta(theta,a1,b1)+
(1-w)*dbeta(theta,a2,b2)}))
post2 = as.vector(as.matrix(mapply(function(x,w2){
w2*dbeta(theta,a1+x,b1+n-x)+
(1-w2)*dbeta(theta,a2+x,b2+n-x)},seq(0,n),w2)))
3.4. DISTRIBUIÇÃO A PRIORI 39
#vero = as.vector(apply(matrix(seq(0,n)),1,
# function(x){dbinom(x,prob=theta,size=n)}))
# Verossimilhança proporcional visualmente melhor
vero = as.vector(apply(matrix(seq(0,n)),1,
function(x){dbeta(theta,x+1,n-x+1)}))
tibble(x=as.factor(rep(seq(0,n),each=length(theta))),
w2=rep(w2,each=length(theta)),
theta=rep(theta,(n+1)),vero=vero,prior=prior2,post=post2) %>%
ggplot() +
geom_line(aes(x=theta,y=post, colour=x),lwd=1.5) +
geom_line(aes(x=theta,y=prior,colour="Prior"),lwd=1,lty=2) +
geom_line(aes(x=theta,y=vero,colour="Verossimilhança"),lwd=1,lty=2)+
xlab(expression(theta)) +
ylab(expression(paste("f(",theta,"|x)")))+
theme_bw()
0
2
4
6
0.00 0.25 0.50 0.75 1.00
θ
f(
θ|
x)
x
0
1
2
3
4
5
Prior
Verossimilhança
Agora, suponha que 𝑛 = 5 e foi observado 𝑥 = 2. Novamente, considere a mis-
tura das distribuições 𝐵𝑒𝑡𝑎(5, 12) e 𝐵𝑒𝑡𝑎(10, 3) mas agora com pesos 𝑤 variando
no conjunto {0, 0.1, … , 0.9, 1}.
n=5; x=2
w = seq(0,1,0.1)
A = as.vector(apply(matrix(w),1,
40 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA
function(w){w*choose(n,x)*gamma(a1+b1)/(gamma(a1)*
gamma(b1))*(gamma(a1+x)*gamma(b1+n-x))/gamma(a1+b1+n)}))
B = as.vector(apply(matrix(w),1,
function(w){(1-w)*choose(n,x)*gamma(a2+b2)/(gamma(a2)*
gamma(b2))*(gamma(a2+x)*gamma(b2+n-x))/gamma(a2+b2+n)}))
w2 = A/(A+B)
prior2 = as.vector(apply(matrix(w),1,function(w){
w*dbeta(theta,a1,b1)+(1-w)*dbeta(theta,a2,b2)}))
post2 = as.vector(as.matrix(mapply(function(w,w2){
w2*dbeta(theta,a1+x,b1+n-x)+
(1-w2)*dbeta(theta,a2+x,b2+n-x)},w,w2)))
vero = as.vector(apply(matrix(rep(x,2*n+1)),1,
function(x){dbeta(theta,x+1,n-x+1)}))
z<-length(w)
tibble(w=as.factor(rep(w,each=length(theta))),
w2=rep(w2,each=length(theta)),
theta=rep(theta,z), prior = prior2,
post = post2, vero = vero) %>%
ggplot(colour = w) +
geom_line(aes(x=theta,y=post, colour=w),lwd=1.5) +
geom_line(aes(x=theta,y=prior,colour="Priori")) +
geom_line(aes(x=theta,y=vero,colour="Verossimilhança"),lwd=1,lty=2)+
xlab(expression(theta)) + ylab(expression(paste("f(",theta,"|x)")))+
theme_bw()
3.4. DISTRIBUIÇÃO A PRIORI 41
Paper n Cases p CI
Estudo 1 78 30 0.385 [ 0.277 ; 0.493 ]
Estudo 2 60 42 0.700 [ 0.584 ; 0.816 ]
Estudo 3 40 30 0.750 [ 0.616 ; 0.884 ]
0
1
2
3
4
0.00 0.25 0.50 0.75 1.00
θ
f(
θ|
x)
w
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Priori
Verossimilhança
Exemplo 2. Suponha que 𝜃 é uma proporção e você deseja construir uma
distribuição a priori baseada em estudos anteriores. Como, em geral, os dados
de outros estudos não estão disponíveis na íntegra, você pode utilizar estatísticas
resumo.
estudos = tibble(Paper=c("Estudo 1", "Estudo 2", "Estudo 3"),
n=c(78,60,40),Cases=c(30,42,30)) %>%
mutate(p=Cases/n) %>%
mutate(inf=round(p-qnorm(0.975)*sqrt(p*(1-p)/n),3),
sup=round(p+qnorm(0.975)*sqrt(p*(1-p)/n),3)) %>%
mutate(inf=ifelse(inf<0,0.000,inf),
sup=ifelse(sup>1,1.000,sup)) %>%
mutate(CI=paste("[",inf," ; ",sup," ]"))
rbind(estudos) %>%
select(Paper,n,Cases,p,CI) %>%
kableExtra::kbl(.,digits=3,align=c('l','c','c','c','c')) %>%
kableExtra::kable_classic(full_width=FALSE)
Proposta 1. Uma primeira forma de fazer isso seria supor que, antes de obser-
var esses estudos, você não tem informação sobre 𝜃, e usar a posteriori obtida
42 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA
com os dados do estudos como priori. Assim, seja 𝑋𝑖|𝜃 ∼ Bin(𝑛𝑖, 𝜃), 𝑖 = 1, 2, 3,
e 𝜃 ∼ Uniforme(0, 1). Temos que
𝜃|𝑥1 ∼ Beta(1 + 𝑥1, 1 + 𝑛1 − 𝑥1)
𝜃|𝑥1, 𝑥2 ∼ Beta(1 + 𝑥1 + 𝑥2, 1 + 𝑛1 − 𝑥1 + 𝑛2 − 𝑥2)
𝜃|𝑥1, 𝑥2, 𝑥3 ∼ Beta(1 + 𝑥1 + 𝑥2 + 𝑥3, 1 + 𝑛1 − 𝑥1 + 𝑛2 − 𝑥2 + 𝑛3 − 𝑥3)
Isso é equivalente a juntar todos os estudos e calcular diretamente a posteriori.
Seja 𝑥 = 𝑥1 + 𝑥2 + 𝑥3 e 𝑛 = 𝑛1 + 𝑛2 + 𝑛3. Então,
𝜃 ∼ Beta(1, 1) ⟹ 𝜃|𝑥1, 𝑥2, 𝑥3 ∼ Beta(1 + 𝑥, 1 + 𝑛 − 𝑥) .
De fato, se 𝑋 e 𝑌 são, condicionalmente independentes dado 𝜃,
𝑓(𝜃|𝑥) ∝ 𝑓(𝑥|𝜃)𝑓(𝜃)
𝑓(𝜃|𝑥, 𝑦) ∝ 𝑓(𝑦|𝜃) 𝑓(𝜃|𝑥) ∝ 𝑓(𝑦|𝜃)𝑓(𝑥|𝜃)𝑓(𝜃) ∝ 𝑓(𝑥, 𝑦|𝜃)𝑓(𝜃) .
eixox=c(min(estudos$inf),max(estudos$sup))
PriorsPlot=tibble(theta=seq(eixox[1],eixox[2],length.out=1000),
beta=dbeta(theta,sum(estudos$Cases)+1,
sum(estudos$n)-sum(estudos$Cases)+1)) %>%
ggplot() + theme_bw() +
geom_line(aes(x=theta,y=beta, colour="Beta")) +
labs(colour="Priori") + xlim(eixox) +
xlab("theta") + ylab("Prior")
Meta=estudos %>%
ggplot(aes(y=Paper))+theme_bw()+
geom_point(aes(x=p))+
geom_segment(aes(x=inf,xend=sup,y=Paper,yend=Paper))+
theme(axis.title.x=element_blank(),axis.title.y=element_blank())+
xlim(eixox)+geom_vline(xintercept=sum(estudos$Cases)/sum(estudos$n), color='darkgrey', linetype='dashed')
ggpubr::ggarrange(PriorsPlot,Meta,heights=c(2,1),
ncol = 1, align = "v",common.legend=T,legend="bottom")
3.4. DISTRIBUIÇÃO A PRIORI 43
0
3
6
9
0.4 0.6 0.8
theta
P
rio
r
Estudo 1
Estudo 2
Estudo 3
0.4 0.6 0.8
Priori Beta
Proposta 2 Considere agora que a priori será construída da seguinte
forma: para cada estudo será calculada uma “posteriori” supondo que
𝜃 ∼ Uniforme(0, 1) e faremos uma mistura dessas posterioris ponderada pelo
tamanho amostral dos estudos. Assim:
𝑓(𝜃) =
3
∑
𝑖=1
𝑛𝑖
𝑛 𝑓(𝜃 | 𝑎𝑖 = 1 + 𝑥𝑖 , 𝑏𝑖 = 1 + 𝑛𝑖 − 𝑥𝑖) ,
em que 𝑓(𝜃 | 𝑎 , 𝑏) é a densidade da Beta(𝑎, 𝑏) e 𝑛 = 𝑛1 + 𝑛2 + 𝑛3. No exemplo,
𝑓(𝜃) = 0.44 𝑓(𝜃 | 𝑎1 = 31, 𝑏1 = 49)+0.34 𝑓(𝜃 | 𝑎2 = 43, 𝑏2 = 19)+0.22 𝑓(𝜃 | 𝑎3 = 31, 𝑏3 = 11) .
As funções de densidade, distribuição e para gerar números aleatórios de mis-
turas de densidades betas podem ser escritas no R como:
dmixbeta=function(theta,w,a,b){
w = w/sum(w)
apply(as.matrix(theta),1,function(t){t(w)%*%dbeta(t,a,b)})
}
pmixbeta=function(theta,w,a,b){
w = w/sum(w)
apply(as.matrix(theta),1,function(t){t(w)%*%pbeta(t,a,b)})
}
rmixbeta=function(n,w,a,b){
w = w/sum(w)
s = rmultinom(n=n,size=1,prob=w)
apply(t(s),1,function(l){rbeta(1,l%*%a,l%*%b)})
}
44 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA
Assim, a nova distribuição a priori é apresentada do gráfico a seguir.
eixox=c(min(estudos$inf),max(estudos$sup))
#Parametros da Priori
w=estudos$n/sum(estudos$n)
a=estudos$Cases+1
b=estudos$n-estudos$Cases+1
PriorsPlot=tibble(theta=seq(eixox[1],eixox[2],length.out=1000),
beta=dbeta(theta,sum(estudos$Cases)+1,
sum(estudos$n)-sum(estudos$Cases)+1),
meta=dmixbeta(theta,w,a,b)) %>%
ggplot() + theme_bw() +
geom_line(aes(x=theta,y=beta, colour="Beta")) +
geom_line(aes(x=theta,y=meta, colour="Metanalítica"))+
labs(colour="Priori") + xlim(eixox) +
xlab("theta") + ylab("Prior")
Meta=estudos %>%
ggplot(aes(y=Paper))+theme_bw()+
geom_point(aes(x=p))+
geom_segment(aes(x=inf,xend=sup,y=Paper,yend=Paper))+
theme(axis.title.x=element_blank(),axis.title.y=element_blank())+
xlim(eixox)+geom_vline(xintercept=sum(estudos$Cases)/sum(estudos$n), color='darkgrey', linetype='dashed')
ggpubr::ggarrange(PriorsPlot,Meta,heights=c(2,1),
ncol = 1, align = "v",common.legend=T,legend="bottom")
0
3
6
9
0.4 0.6 0.8
theta
P
rio
r
Estudo 1
Estudo 2
Estudo 3
0.4 0.6 0.8
Priori Beta Metanalítica
Como vimos em aulas anteriores, como a priori é mistura de distribuições conju-
3.4. DISTRIBUIÇÃO A PRIORI 45
gadas, a posteriori também será. Suponha então que foi observada uma amostra
de tamanho 𝑛 = 100 com 𝑥 = 67 sucessos. A posteriori é
𝑓(𝜃|𝑥) = 0.0007 𝑓(𝜃 | 𝑎1 = 98, 𝑏1 = 82)+0.7007 𝑓(𝜃 | 𝑎2 = 110, 𝑏2 = 52)+0.2986 𝑓(𝜃 | 𝑎3 = 98, 𝑏3 = 44) .
n=100; x=67
# Parametros da posteriori
wx = exp( log(w)+lgamma(a+b)+lgamma(a+x)+lgamma(b+n-x)-
lgamma(a+b+n)-lgamma(a)-lgamma(b) )
wx = wx/sum(wx)
ax=a+x
bx=b+n-x
tibble(theta=seq(eixox[1],eixox[2],length.out=1000),
meta=dmixbeta(theta,w,a,b), post=dmixbeta(theta,wx,ax,bx)) %>%
ggplot() + theme_bw() +
geom_line(aes(x=theta,y=meta, colour="Priori")) +
geom_line(aes(x=theta,y=post, colour="Posteriori")) +
labs(colour="Distribuição") + xlim(eixox) +
xlab("theta") + ylab("densidade")
0.0
2.5
5.0
7.5
10.0
0.4 0.6 0.8
theta
de
ns
id
ad
e Distribuição
Posteriori
Priori
46 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA
3.4.4 Prioris “Não-Informativas”
Priors não-informativas são tentativas de representar formalmente um estado
de ignorância. Contudo, não existe uma forma única de representar ignorância,
tampouco uma priori “objetiva”. Além disso, é bastante raro um cenário onde
não há nenhuma informação a priori. De qualquer modo, serão apresentadas
aqui algumas formas de representar falta de informação mas a escolha da priori
será sempre subjetiva.
3.4.4.1 Priori de Bayes-Laplace
Princípio da Razão Insuficiente. Quando não existe razão suficiente para
acreditar mais em algum subconjunto do espaço paramétrico Θ, deve-se adotar
equiprobabilidade.
Exemplo 1. Se Θ = {𝜃1, 𝜃2, … , 𝜃𝑘} então a priori de Bayes-Laplace
é 𝑓(𝜃) = 1/𝑘, 𝜃 ∈ Θ .
Exemplo 2. Se Θ = [𝑎, 𝑏] então a priori de Bayes-Laplace é 𝑓(𝜃) =
1/(𝑏 − 𝑎), 𝜃 ∈ Θ .
𝑓(𝜃|𝑥) = 𝑓(𝜃)𝑓(𝑥|𝜃)
∫Θ 𝑓(𝜃)𝑓(𝑥|𝜃) 𝑑𝜃 = 𝑐 𝑓(𝑥|𝜃)
𝑐 ∫Θ 𝑓(𝑥|𝜃) 𝑑𝜃 = 𝑓(𝑥|𝜃)
∫Θ 𝑓(𝑥|𝜃) 𝑑𝜃 ∝ 𝑓(𝑥|𝜃) .
As principais críticas da priori de Bayes-Laplace são
1. A distribuição é imprópria quando o espaço paramétrico Θ não é finito
ou limitado. Por exemplo, Θ = ℕ, Θ = ℤ ou Θ = ℝ. Nesses casos, a
priori de Bayes-Laplace é 𝑓(𝜃) ∝ 𝕀Θ(𝜃), que não é uma distribuição de
probabilidade.
2. Não é invariante a reparametrizações. Considere, por exemplo, 𝑓(𝜃)
uma f.d.p. a priori para 𝜃 e 𝑔 uma transformação um-a-um (injetora)
de 𝜃 tal que 𝜓 = 𝑔(𝜃). A distribuição de 𝜓 pode ser calculada por
𝑓𝜓(𝜓) = 𝑓 (𝑔−1(𝜓)) ∣𝑑𝑔−1(𝜓)
𝑑𝜓 ∣ . Assim, se 𝑔 é uma transformação não
linear e a distribuição a priori para 𝜃 é uniforme, a distribuição para 𝜓
não é uniforme, em geral.
3.4. DISTRIBUIÇÃO A PRIORI 47
3.4.4.2 Priori de Jeffreys
Seja 𝑔 uma transformação um-a-um do parâmetro 𝜃 e defina 𝜓 = 𝑔(𝜃). Considere
uma função ℎ ∶ 𝔛 × Θ ⟶ ℝ. Uma classe de distribuições a priori invariantes
pode ser definida por
𝑓(𝜃) ∝ (Var𝑋|𝜃 [𝜕ℎ(𝑋|𝜃)
𝜕𝜃 ∣ 𝜃])
1/2
.
Demo. Para mostrar a invariância do método, considere o caso
contínuo em que
𝑓𝜓(𝜓) = 𝑓 (𝑔−1(𝜓)) ∣𝜕𝑔−1(𝜓)
𝜕𝜓 ∣ .
Seja ℎ∗(𝑥, 𝜓) = ℎ (𝑥, 𝑔−1(𝜓)). Então
𝜕ℎ∗(𝑥, 𝜓)
𝜕𝜓 = 𝜕ℎ (𝑥, 𝑔−1(𝜓))
𝜕𝜓 = 𝜕ℎ(𝑥, 𝜃)
𝜕𝜃 ∣
𝜃=𝑔−1(𝜓)
⋅ 𝜕𝑔−1(𝜓)
𝜕𝜓 ,
e, portanto,
Var [𝜕ℎ∗(𝑋, 𝜓)
𝜕𝜓 ∣ 𝜃 = 𝑔−1(𝜓)] = Var [𝜕ℎ(𝑋, 𝜃)
𝜕𝜃 ∣ 𝜃 = 𝑔−1(𝜓)] ⋅
[𝜕𝑔−1(𝜓)
𝜕𝜓 ]
2
= [𝑓 (𝑔−1(𝜓)) (𝜕𝑔−1(𝜓)
𝜕𝜓 )]
2
,
de modo que
𝑓𝜓(𝜓) = 𝑓 (𝑔−1(𝜓)) ∣𝜕𝑔−1(𝜓)
𝜕𝜓 ∣ = Var [𝜕ℎ∗(𝑋, 𝜓)
𝜕𝜓 ∣ 𝜃 = 𝑔−1(𝜓)]
1/2
.
A escolha mais usual para ℎ é ℎ(𝑥, 𝜃) = log 𝑓(𝑥|𝜃) . Assim, como
𝐸 [𝜕 log 𝑓(𝑋|𝜃)
𝜕𝜃 ∣ 𝜃] = 0, temos
𝑓(𝜃) ∝ Var [𝜕 log 𝑓(𝑋|𝜃)
𝜕𝜃 ∣ 𝜃]
1/2
= E[(𝜕 log 𝑓(𝑋|𝜃)
𝜕𝜃 )
2
∣ 𝜃]
1/2
= [ℐ(𝜃)]1/2 ,
onde ℐ(𝜃) é a Informação de Fisher de 𝜃. Neste caso, 𝑓(𝜃) ∝ ∣ℐ(𝜃)∣1/2 é
chamada priori de Jeffreys.
Uma motivação para o método de Jeffreys é que a informação de Fisher ℐ(𝜃) é
um indicador da quantidade de informação trazida pelo modelo (observações)
sobre o parâmetro 𝜃. Favorecer os valores de 𝜃 para o qual ℐ(𝜃) é grande
supostamente minimiza a influência da priori.
Exemplo 1. Considere novamente o experimento de lançar uma
moeda 𝑛 vezes e contar o número de caras, isto é, 𝑋|𝜃 ∼ Bin(𝑛, 𝜃).
48 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA
Então,
𝑓(𝑥|𝜃) = (𝑛
𝑥)𝜃𝑥(1 − 𝜃)𝑛−𝑥 ⟹ log 𝑓(𝑥|𝜃) = log (𝑛
𝑥) + 𝑥 log 𝜃 + (𝑛 −
𝑥) log(1 − 𝜃)
𝜕 log 𝑓(𝑥|𝜃)
𝜕𝜃 = 𝑥
𝜃 − 𝑛 − 𝑥
1 − 𝜃 = 𝑥 − 𝑛𝜃
𝜃(1 − 𝜃) .
Como 𝐸 [𝑋|𝜃] = 𝑛𝜃 e 𝑉 𝑎𝑟(𝑋|𝜃) = 𝐸 [(𝑋 − 𝐸 [𝑋|𝜃])2 ∣ 𝜃]
= 𝐸 [(𝑋 − 𝑛𝜃)2 ∣ 𝜃] = 𝑛𝜃(1 − 𝜃), a informação de Fisher neste caso
é
ℐ𝑥(𝜃) = E[(𝜕 log 𝑓(𝑥|𝜃)
𝜕𝜃 )
2
∣ 𝜃] = E[( 𝑋 − 𝑛𝜃
𝜃(1 − 𝜃))
2
∣ 𝜃]
= 1
𝜃2(1 − 𝜃)2 E [(𝑋 − 𝑛𝜃)2 | 𝜃] = 1
𝜃2(1 − 𝜃)2 Var (𝑋 | 𝜃)
= 𝑛 𝜃(1 − 𝜃)
𝜃2(1 − 𝜃)2 = 𝑛
𝜃(1 − 𝜃) = 𝑛𝜃−1(1 − 𝜃)−1 ,
de modo que a priori de Jeffreys é
𝑓(𝜃) ∝ [ℐ𝑥(𝜃)]1/2 ∝ 𝜃−1/2(1 − 𝜃)−1/2 ⟹ 𝜃 ∼ Beta ( 1
2 , 1
2 ) .
Exemplo 2. Considere agora que a mesma moeda é lançada e
anota-se o número de caras 𝑌 até que sejam observadas 𝑟 coroas,
isto é, 𝑌 |𝜃 ∼ BinNeg(𝑟, 𝜃). Então, 𝑓(𝑦|𝜃) = (𝑦 + 𝑟 − 1
𝑦 )𝜃𝑦(1 − 𝜃)𝑟
⟹ log 𝑓(𝑦|𝜃) = log (𝑦+𝑘−1
𝑦 ) + 𝑦 log 𝜃 + 𝑟 log(1 − 𝜃)
𝜕 log 𝑓(𝑦|𝜃)
𝜕𝜃 = 𝑦
𝜃 − 𝑟
1 − 𝜃 = 1
𝜃 [𝑦 − 𝑟 𝜃
1 − 𝜃] .
Como 𝐸 [𝑋|𝜃] = 𝑟 𝜃
1 − 𝜃 e 𝑉 𝑎𝑟(𝑋|𝜃) = 𝑟 𝜃
(1 − 𝜃)2 , a informação de
Fisher neste caso é
ℐ𝑦(𝜃) = E[ 1
𝜃2 (𝑦 − 𝑟 𝜃
1 − 𝜃)
2
∣ 𝜃] = 1
𝜃2 Var (𝑌 | 𝜃) = 𝑟
𝜃(1 − 𝜃)2 =
𝑟𝜃−1(1 − 𝜃)−2 ,
de modo que a priori de Jeffreys é
𝑓(𝜃) ∝ [ℐ𝑦(𝜃)]1/2 ∝ 𝜃−1/2(1 − 𝜃)−1 .
Note que nos exemplos apresentados, a priori depende da regra de parada, isto
é, a forma como decidimos quando parar de lançar a moeda e que determina
3.4. DISTRIBUIÇÃO A PRIORI 49
se o modelo estatístico é binomial ou binomial negativo. Em outras palavras, a
opinião a priori definida dessa forma depende do modelo adotado, mesmo que
o parâmetro seja o mesmo nos dois casos. Além disso, a priori de Jeffreys pode
ser imprópria, como ocorre no exemplo anterior.
3.4.4.3 Priori de Máxima Entropia
Entropia é um conceito físico que quantifica a desordem ou imprevisibilidade de
um sistema, ou da falta de informação sobre ele. O conceito de entropia desem-
penha um importante papel na teoria da informação. O princípio da máxima
entropia afirma que a distribuição de probabilidade que melhor representa a
falta de informação é aquela com a maior entropia.
Caso Discreto. Considere um espaço paramétrico enumerável Θ = {𝜃1, 𝜃2, …}.
A entropia da distribuição ℎ (Shannon, 1948) é dada por
ℰ(ℎ) = E[− logℎ(𝜃)] = − ∑
𝜃∈Θ
log [ℎ(𝜃)] ℎ(𝜃) .
Definição. Considere um espaço paramétrico Θ e ℎ uma f.d.p. para 𝜃. A
distribuição da máxima entropia para 𝜃 é a função ℎ que maximiza ℰ(ℎ) (Jaynes,
2003)
Exemplo 1. Considere o espaço paramétrico Θ = {𝜃1, … , 𝜃𝑘}
e ℎ(𝜃𝑖) = 𝑝𝑖 uma distribuição discreta para 𝜃. A distribuição
da máxima entropia para 𝜃 é a função ℎ que maximiza
ℰ(ℎ) = −
𝑘
∑
𝑖=1
𝑝𝑖 log(𝑝𝑖) com a restrição
𝑘
∑
𝑖=1
ℎ(𝜃𝑖) =
𝑘
∑
𝑖=1
𝑝𝑖 = 1 .
Utilizando o método de multiplicadores de Lagrange, deve-se
maximizar a função lagrangiana
ℰ∗(ℎ) = −
𝑘
∑
𝑖=1
𝑝𝑖 log(𝑝𝑖) + 𝜆 (
𝑘
∑
𝑖=1
𝑝𝑖 − 1)
𝜕ℰ∗(ℎ)
𝜕𝑝𝑖
= − [𝑝𝑖
1
𝑝𝑖
+ log(𝑝𝑖)]+𝜆 = 0 ⟺ 𝑝𝑖 = 𝑒𝜆−1 , 𝑖 = 1, … , 𝑘 .
Assim, como 𝑝𝑖 deve ser constante e ∑ 𝑝𝑖 = 1, conclui-se que
𝑝𝑖 = 1/𝑘, para 𝑖 = 1, … , 𝑘 .
50 CHAPTER 3. INTRODUÇÃO À INFERÊNCIABAYESIANA
Exemplo 2. Considere agora Θ = {𝜃1, 𝜃2, …} e suponha que há
𝑚 informações parciais a respeito do parâmetro 𝜃 que podem ser
escritas como E[𝑔𝑗(𝜃)] = 𝜇𝑗 , 𝑗 = 1, … , 𝑚 .
Usando novamente o método de Lagrange, deve-se maximizar
ℰ∗(ℎ) =
∞
∑
𝑖=1
𝑝𝑖 log(𝑝𝑖)+𝜆 (
∞
∑
𝑖=1
𝑝𝑖 − 1)+
𝑚
∑
𝑗=1
𝜆𝑗 (
∞
∑
𝑖=1
𝑝𝑖 𝑔𝑗(𝜃𝑖) − 𝜇𝑗)
𝜕ℰ∗(ℎ)
𝜕𝑝𝑖
= − log(𝑝𝑖) − 1 + 𝜆 +
𝑚
∑
𝑗=1
𝜆𝑗 𝑔𝑗(𝜃𝑖) = 0 ⟺ 𝑝𝑖 ∝
𝑒𝜆−1+∑𝑚
𝑗=1 𝜆𝑗 𝑔𝑗(𝜃𝑖) ∝ 𝑒∑𝑚
𝑗=1 𝜆𝑗 𝑔𝑗(𝜃𝑖) , 𝑖 = 1, … , 𝑘 .
Como ∑ 𝑝𝑖 = 1, 𝑝𝑖 = 𝑒∑𝑚
𝑗=1 𝜆𝑗 𝑔𝑗(𝜃𝑖)
∑∞
𝑖=1 𝑒∑𝑚
𝑗=1 𝜆𝑗 𝑔𝑗(𝜃𝑖) e 𝜆𝑗 é obtido por meio
das restrições.
Exemplo 2a. Seja Θ = {0, 1, 2, …} e suponha que E[𝜃] = 𝜇.
Usando o resultado do exemplo anterior com 𝑔(𝜃) = 𝜃 e 𝜃𝑖 = 𝑖,
𝑖 = 0, 1, 2, … ,
𝑝𝑖 = 𝑒∑𝑚
𝑗=1 𝜆𝑗 𝑔𝑗(𝜃𝑖)
∑∞
𝑖=0 𝑒∑𝑚
𝑗=1 𝜆𝑗 𝑔𝑗(𝜃𝑖) = 𝑒𝜆 𝑖
∑∞
𝑖=0 𝑒𝜆 𝑖
∣𝑒𝜆∣<1
= 𝑒𝜆 𝑖
1/ (1 − 𝑒𝜆)
= (𝑒𝜆)𝑖 (1 − 𝑒𝜆) ⟹ 𝜃 ∼ Geo (1 − 𝑒𝜆) .
Como E [𝜃] = 𝑒𝜆
(1 − 𝑒𝜆) = 𝜇, tem-se que 𝜆 = log 𝜇
1 + 𝜇 .
Exemplo 2b. Considere que Θ = {1, 2, … , 𝑘} e suponha que
Med(𝜃) = 𝑚 .
Nesse caso, 𝑔(𝜃) = 𝕀 (𝜃 ≤ 𝑚) e 𝜃𝑖 = 𝑖, 𝑖 = 1, 2, … , 𝑘 , de modo que
E [𝑔(𝜃)] = E [𝕀(𝜃 ≤ 𝑚)] = P (𝜃 ≤ 𝑚) = 1/2 e, portanto, ∑
𝑖≤𝑚
𝑝𝑖 =
∑
𝑗>𝑚
𝑝𝑗 = 1/2 . 𝑝𝑖 = 𝑒∑𝑚
𝑗=1 𝜆𝑗 𝑔𝑗(𝜃𝑖)
∑𝑘
𝑖=1 𝑒∑𝑚
𝑗=1 𝜆𝑗 𝑔𝑗(𝜃𝑖) =
⎧{{
⎨{{⎩
𝑒𝜆
∑𝑖≤𝑚 𝑒𝜆 , 𝑖 ≤ 𝑚
1
∑𝑖≤𝑚 1 , 𝑖 > 𝑚
=
⎧{
⎨{⎩
1
2𝑚 , 𝑖 ≤ 𝑚
1
2(𝑘 − 𝑚) , 𝑖 > 𝑚
(A distribuição de 𝜃 é uniforme por blocos.)
3.4. DISTRIBUIÇÃO A PRIORI 51
Divergência de Kullbach-Leibler. Considere duas distribuições discre-
tas 𝑝 = (𝑝1, … , 𝑝𝑘) e 𝑞 = (𝑞1, … , 𝑞𝑘) , tal que 𝑝𝑖, 𝑞𝑖 > 0 , 𝑖 = 1, … , 𝑘 , e
∑ 𝑝𝑖 = ∑ 𝑞𝑖 = 1. A divergência de Kullbach-Leibler entre 𝑝 e 𝑞 (Kullback and
Leibler, 1951) é dada por
𝐷(𝑝 || 𝑞) = ∑ 𝑝𝑖 log(𝑝𝑖
𝑞𝑖
) .
Suponha que 𝑔 = (1/𝑘, … , 1/𝑘)
𝐷(𝑝 || 𝑞) =
𝑘
∑
𝑖=1
𝑝𝑖 log( 𝑝𝑖
1/𝑘) =
𝑘
∑
𝑖=1
𝑝𝑖 [𝑙𝑛(𝑝𝑖) − 𝑙𝑛(1/𝑘)] =
𝑘
∑
𝑖=1
𝑝𝑖𝑙𝑛(𝑝𝑖) +
𝑙𝑛(𝑘)
𝑘
∑
𝑖=1
𝑝𝑖 = 𝑙𝑛(𝑘) − ℰ(𝑝)
Assim, exceto por uma constante, ℰ(𝑝) está associado com quanto a distribuição
𝑝 “diverge” da distribuição uniforme (priori de referência na ausência total de
informação).
Observação: No caso geral, se 𝐻 e 𝐻0 são duas medidas definidas em Θ tais
que 𝐻 é absolutamente contínua com relação à 𝐻0 (𝐻 ≪ 𝐻0), a divergência de
Kullbach-Leibler é definida como
𝐷(𝐻 || 𝐻0) = ∫
Θ
log( 𝑑𝐻
𝑑𝐻0
) 𝑑𝐻 ,
em que 𝑑𝐻
𝑑𝐻0
é derivada de Radon-Nikodym. Se 𝐻 e 𝐻0 são medidas de prob-
abilidade absolutamente contínuas com relação a medida de Lebesgue 𝜆 com
f.d.p. 𝑑𝐻
𝑑𝜆 = ℎ e 𝑑𝐻0
𝑑𝜆 = ℎ0, temos que,
𝐷(𝐻 || 𝐻0) = ∫
Θ
log( 𝑑𝐻/𝑑𝜆
𝑑𝐻0/𝑑𝜆) 𝑑𝐻
𝑑𝜆 𝑑𝜆 = ∫
Θ
log( ℎ(𝜃)
ℎ0(𝜃)) ℎ(𝜃) 𝑑𝜃
Como a definição anterior de entropia vale apenas para o caso discreto, Jaynes
(2003) sugere que no caso contínuo seja utilizada a entropia relativa, dada
por
ℰ(ℎ) = − ∫
Θ
ℎ(𝜃) log( ℎ(𝜃)
ℎ0(𝜃)) 𝑑𝜃 = −𝐷(ℎ || ℎ0) ,
onde ℎ0 é uma priori de referência na ausência total de informação, preferivel-
mente invariante.
52 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA
Assim como no caso discreto, se temos 𝑚 restrições 𝐸[𝑔𝑖(𝜃)] = 𝜇𝑖, a densidade
de máxima entropia é
ℎ(𝜃) ∝ ℎ0(𝜃) exp{
𝑚
∑
𝑗=1
𝜆𝑗 𝑔𝑗(𝜃)} e os 𝜆𝑗 , 𝑗 = 1, … , 𝑚 , são obtidos das re-
strições.
Por exemplo, se 𝑔(𝜃) = 𝜃 com 𝐸[𝜃] = 𝜇, basta fazer
𝜇 = ∫
Θ
𝜃 𝑐 ℎ0(𝜃) exp{𝜆𝜃} 𝑑𝜃 com 𝑐−1 = ∫
Θ
ℎ0(𝜃)𝑒𝑥𝑝{𝜆𝜃}𝑑𝜃.
Exemplo 1: Θ = ℝ+ e E[𝜃] = 𝜇 .
Tomando ℎ0(𝜃) ∝ 𝕀ℝ+
(𝜃) (f.d.p. imprópria), tem-se ℎ(𝜃) ∝ 𝑒𝜆𝜃 𝕀ℝ+
(𝜃)
∝ −𝜆𝑒𝜆𝜃 𝕀ℝ+
(𝜃) 𝕀ℝ−
(𝜆) .
Como E[𝜃] = −1/𝜆 = 𝜇 , tem-se que 𝜆 = −1/𝜇, isto é, 𝜃 ∼
Exp(1/𝜇) , de modo que ℎ(𝜃) = 1
𝜇𝑒− 𝜃
𝜇 , 𝜇 > 0 .
Exemplo 2 Θ = ℝ e E[𝜃] = 𝜇 e Var(𝜃) = E[(𝜃 − 𝜇)2] = 𝜎2 .
Tomando 𝑔1(𝜃) = 𝜃 e 𝑔2(𝜃) = (𝜃 − 𝜇)2, tem-se pelo resultado
anterior que
ℎ(𝜃) ∝ exp {𝜆1𝜃 + 𝜆2(𝜃 − 𝜇)2} ∝ exp {𝜆1𝜃 + 𝜆2(𝜃2 − 2𝜃𝜇 + 𝜇2)}
∝ exp{𝜆2 [𝜃2 − (2𝜇 − 𝜆1
𝜆2
) 𝜃]} ∝ exp{𝜆2 [𝜃 − (𝜇 − 𝜆1
2𝜆2
)]
2
} .
Considere que 𝜃 ∼ 𝑁(𝜇, 𝜎2), isto é, 𝑓(𝜃) = 1√
2𝜋 𝜎 exp{− 1
2𝜎2 (𝑥 − 𝜇)2}
∝ exp{− 1
2𝜎2 (𝑥 − 𝜇)2} .
Assim, para concluir que a distribuição de máxima entropia nesse
caso é a Normal anterior, basta tomar 𝜇 − 𝜆1
2𝜆2
= 𝜇 para ver que
𝜆1 = 0 e 𝜆2 = − 1
2𝜎2 .
3.5. ALGUNS PRINCÍPIOS DE INFERÊNCIA 53
3.5 Alguns Princípios de Inferência
Considere um experimento 𝐸 = (𝑋, 𝜃, {𝑓(𝑥|𝜃)}) que consiste em observar um
particular valor 𝑥 ∈ 𝔛 do v.a. 𝑋 que, para cada possível valor do parâmetro
(desconhecido) 𝜃 ∈ Θ, tem f.d.p. 𝑓(𝑥|𝜃). De forma geral, uma inferência sobre
𝜃 baseada no resultado 𝑥 do experimento 𝐸 será denotada por Inf(𝐸, 𝑥) .
Princípio de Suficiência. Considere um experimento 𝐸 = (𝑋, 𝜃, {𝑓(𝑥|𝜃)})
e suponha que 𝑇 (𝑋) é uma estatística suficiente para 𝜃. Se 𝑥1 e 𝑥2 são dois
pontos amostrais tais que 𝑇 (𝑥1) = 𝑇 (𝑥2) então Inf(𝐸, 𝑥1) = Inf(𝐸, 𝑥2) .
Exemplo 1a. Seja 𝑋1, … , 𝑋𝑛 c.i.i.d. tais que 𝑋1 ∼ 𝐵𝑒𝑟(𝜃) .
Considere 𝑛 = 10 e os pontos amostrais 𝑥1 = (1, 1, 1, 1, 1, 1, 0, 0, 0, 0)
e 𝑥2 = (1, 0, 1, 0, 1, 0, 1, 0, 1, 1) tais que 𝑇 (𝑥1) = ∑ 𝑥1𝑖 = 6 e 𝑇 (𝑥2) =
∑ 𝑥2𝑖 = 6.
Um possível estimador para 𝜃 nesse exemplo é a média amostral, de
modo que ̄𝑥1 = ̄𝑥2 = ∑ 𝑥𝑖
𝑛 = 0, 6 .
Exemplo 1b. Ainda no contexto do exemplo anterior, considere
que a priori 𝜃 ∼ Beta(𝑎, 𝑏) . Então, se 𝑇 (𝑥1) = 𝑇 (𝑥2) = 𝑡,
𝜃|𝑥1 ∼ 𝜃|𝑥2 ∼ 𝜃|𝑇 (𝑥1) = 𝑡 ∼ 𝐵𝑒𝑡𝑎(𝑎 + 𝑡, 𝑏 + 𝑛 − 𝑡) .
Princípio da Condicionalidade. Suponha que 𝐸1 = (𝑋1, 𝜃, {𝑓(𝑥1|𝜃)}) e
𝐸2 = (𝑋2, 𝜃, {𝑓(𝑥2|𝜃)}) são dois experimentos onde somente o parâmetro 𝜃
precisa ser comum. Considere um experimento misto em que é observada uma
v.a. 𝐽 , com 𝑃(𝐽 = 1) = 𝑃(𝐽 = 2) = 1/2, independente de 𝑋1, 𝑋2 e 𝜃, e então
o experimento 𝐸𝐽 é realizado. Formalmente, o experimento realizado nesse caso
é 𝐸∗ = (𝑋∗, 𝜃, {𝑓∗(𝑥∗|𝜃)}), onde 𝑋∗ = (𝐽, 𝑋𝐽) e 𝑓∗(𝑥|𝜃) = 1
2 𝑓𝑗(𝑥𝑗|𝜃) . Então,
Inf (𝐸∗, (𝑗, 𝑥𝑗)) = Inf (𝐸𝑗, 𝑥𝑗) .
Princípio da Verossimilhança. Suponha dois experimentos 𝐸1 =
(𝑋1, 𝜃, {𝑓1(𝑥1|𝜃)}) e 𝐸2 = (𝑋2, 𝜃, {𝑓2(𝑥2|𝜃)}), ambos com o mesmo parâmetro
𝜃. Suponha que 𝑥1 e 𝑥2 são pontos amostrais de 𝐸1 e 𝐸2, respectivamente, tais
que 𝑓1(𝑥1|𝜃) ∝ 𝑐(𝑥1, 𝑥2)𝑓2(𝑥2|𝜃) , ∀𝜃 ∈ Θ ., então, Inf(𝐸1, 𝑥1) = Inf(𝐸2, 𝑥2).
54 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA
Teorema de Birnbaum. (P. Suficiência ∧ P. Condicionalidade) ⟺ P.
Verossimilhança.
Demo:
(⟹)
Seja 𝑥∗
1, 𝑥∗
2, 𝐸1, 𝐸2 como no P. Verossimilhança e 𝐸∗ como no P.
Condicionalidade. Então,
𝑓1(𝑥1|𝜃) ∝ 𝑐(𝑥1, 𝑥2)𝑓2(𝑥2|𝜃) .
No espaço do experimento 𝐸∗, defina 𝑇 (𝑗, 𝑥𝑗) = { (1, 𝑥∗
1), se 𝑗 = 1, 𝑥1 = 𝑥∗
1
(𝑗, 𝑥𝑗), c. c. .
Como 𝑓∗(𝑥∗|𝜃) = 𝑓∗ ((𝑗, 𝑥𝑗)|𝜃) = 1/2 𝑓𝑗(𝑥𝑗|𝜃), pelo o Teorema da
Fatoração é possível concluir que 𝑇 (𝑗, 𝑥𝑗) é suficiente para 𝜃 no
experimento 𝐸∗.
Então, pelo P. Suficiência, Inf (𝐸∗, (1, 𝑥1)) = Inf (𝐸∗, (2, 𝑥2)) e, pelo
P. Condicionalidade,
Inf (𝐸∗, (1, 𝑥∗
1)) = Inf (𝐸1, 𝑥∗
1) = Inf (𝐸∗, (2, 𝑥2)) = Inf (𝐸2, 𝑥∗
2) ,
de modo que Inf (𝐸1, 𝑥∗
1) = Inf (𝐸2, 𝑥∗
2) e, portanto, vale o P.
Verossimilhança.
(⟸)
Como vale o P. Verossimilhança, 𝑓1(𝑥∗
1|𝜃) ∝ 𝑓2(𝑥∗
2|𝜃) e
Inf(𝐸1, 𝑥∗
1) = Inf(𝐸2, 𝑥∗
2) .
Além disso, se 𝑥∗ = (1, 𝑥∗
1),
𝑓∗(𝑥∗|𝜃) = 𝑓∗ ((1, 𝑥∗
1)|𝜃) = 1/2 𝑓1(𝑥∗
1|𝜃) ∝ 𝑓1(𝑥∗
1|𝜃) ∝ 1/2 𝑓2(𝑥∗
2|𝜃)
= 𝑓∗ ((2, 𝑥∗
2)|𝜃) ,
e, como vale P. Verossimilhança, então Inf (𝐸∗, (1, 𝑥∗
1)) =
Inf(𝐸1, 𝑥∗
1) .
Usando o mesmo argumento, se 𝑥∗ = (2, 𝑥∗
2), conclui-se que
Inf (𝐸∗, (2, 𝑥∗
2)) = 𝐼𝑛𝑓(𝐸2, 𝑥∗
2) .
Portando, vale o P. Condicionalidade.
Pelo Teorema de Fatoração, 𝑓(𝑥|𝜃) = 𝑔 (𝑇 (𝑥), 𝜃) ℎ(𝑥) ∝ 𝑔 (𝑇 (𝑥), 𝜃) .
Se 𝑥1 e 𝑥2 são pontos amostrais tais que 𝑇 (𝑥1) = 𝑇 (𝑥2),
𝑓1(𝑥1|𝜃) ∝ 𝑔 (𝑇 (𝑥1), 𝜃) ∝ 𝑔(𝑇 (𝑥2), 𝜃) ∝ 𝑓2(𝑥2|𝜃) , tem-se, pelo P.
Verossimilhança, que Inf(𝐸1, 𝑥1) =Inf(𝐸2, 𝑥2) e, portanto vale o P.
Suficiência.
Exemplo. Seja 𝑋1|𝜃 ∼ 𝐵𝑖𝑛(𝑛, 𝜃) e 𝑋2|𝜃 ∼ 𝐵𝑖𝑛𝑁𝑒𝑔(𝑟, 𝜃), onde
𝑛 é número total de lançamentos (fixado) e 𝑟 é número de fracas-
sos (fixado). Então, 𝐸1 = (𝑋1, 𝜃, {( 𝑛
𝑥1
)𝜃𝑥1(1 − 𝜃)𝑛−𝑥1 ∶ 𝜃 ∈ [0, 1]})
e 𝐸2 = (𝑋2, 𝜃, {(𝑟+𝑥2−1
𝑥2
)𝜃𝑥2(1 − 𝜃)𝑟 ∶ 𝜃 ∈ [0, 1]}) . Note que em am-
bos os experimentos, o parâmetro 𝜃 é o mesmo!
3.5. ALGUNS PRINCÍPIOS DE INFERÊNCIA 55
(I) Estimação pontual usando Estimador Não-Viesado (ENV) para
𝜃, isto é, ̂𝜃𝑖(𝑋𝑖) tal que 𝐸 [ ̂𝜃𝑖(𝑋𝑖)|𝜃] = 𝜃. Nesse caso, Inf(𝐸𝑖, 𝑥𝑖) =
̂𝜃𝑖(𝑥𝑖) para 𝑖 = 1, 2.
Então, ̂𝜃1(𝑋𝑖) = 𝑋1
𝑛 e ̂𝜃2(𝑋2) = 𝑋2 − 1
𝑋2 + 𝑟 − 1 são ENV para 𝜃 em 𝐸1
e 𝐸2, respectivamente.
Suponha que 𝑛 = 12, 𝑟 = 3 e 𝑥1 = 𝑥2 = 9. Então, as funções de
verossimilhança são 𝑓1(𝑥1|𝜃) = (12
9 )𝜃9(1 − 𝜃)3 ∝ (11
9 )𝜃9(1 − 𝜃)3 =
𝑓2(𝑥2|𝜃). Contudo, ̂𝜃1(𝑥1) = 9
12 = 0, 75 ≠ ̂𝜃2(𝑥2) = 8
11 ≈ 0, 72 ̄72, e
portanto, o ENV viola o P. Verossimilhança.
(II) Estimador de Máxima Verossimilhança (EMV)
𝛿𝑀𝑉 é um estimador tal que 𝛿𝑀𝑉 (𝑥) = arg sup
𝜃∈Θ
𝑓(𝑥|𝜃) .
𝛿1
𝑀𝑉 (𝑥1) = 𝑥1
𝑛 = 𝛿2
𝑀𝑉 (𝑥2) = 𝑥2
𝑥2 + 𝑟 = 9
12 = 0, 75 .
Portanto, o EMV não viola o P. Verossimilhança.
(III) Suponha que deseja-se testar 𝐻0 ∶ 𝜃 ≤ 1/2 (Θ0) contra 𝐻1 ∶
𝜃 > 1/2 (Θ1) , com Θ = Θ0 ∪ Θ1 .
𝜙(𝑥) = { 1, 𝑇 (𝑥) ≤ 𝑐(𝛼)
0, 𝑇 (𝑥) > 𝑐(𝛼)
em que 𝑇 é uma estatística de teste (isto é, valores “grandes” de
𝑇 (𝑥) indicam que 𝑥 é “favorável” a 𝐻0) e 𝑐(𝛼) é tal que 𝛼 =
sup
𝜃0∈Θ0
P(Rejeitar 𝐻0 | 𝜃0) sup
𝜃0∈Θ0
P ({𝑥 ∈ 𝔛 ∶ 𝑇 (𝑥) ≤ 𝑐(𝛼)} | 𝜃0) .
Considere 𝑇 (𝑥) = 𝑅𝑉 (𝑥) =
𝑠𝑢𝑝
Θ0
𝑓(𝑥|𝜃)
𝑠𝑢𝑝
Θ
𝑓(𝑥|𝜃) , de modo que um 𝑝-value
pode ser calculado por 𝑝(𝑥) = sup
Θ0
P (𝑇 (𝑋) ≥ 𝑇 (𝑥)|𝜃). Assim, um
teste que conduz a uma decisão equivalente ao descrito anterior-
mente é rejeitar 𝐻0 se, e somente se, 𝑝(𝑥) ≤ 𝛼. Considere a escolha
usual 𝛼 = 0.05. Então,
𝑝1(𝑥1) = 𝑃(𝑋1 ≥ 9|𝜃 = 1/2) = 0.073 > 0.05 ⇒ Não rejeita 𝐻0 .
𝑝2(𝑥2) = 𝑃 (𝑋2 ≥ 9|𝜃 = 1/2) = 0.0327 < 0.05 ⇒ Rejeita 𝐻0 .
Portanto, o Teste da Razão de Verossimilhanças viola o P. Verossim-
ilhança.
56 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA
(IV) Aboragem Bayesiana ⇒ 𝐼𝑛𝑓(𝐸𝑖, 𝑥𝑖) = 𝑓𝑖(𝜃|𝑥𝑖)
a) Bayesiano Subjetivista
Como o parâmetro 𝜃 é o mesmo nos dois experimentos, a priori deve
ser a mesma.
𝑓(𝜃) não depende de {𝑓𝑖(𝑥|𝜃) ∶ 𝜃 ∈ Θ}
𝑓(𝜃|𝑥) ∝ 𝑓(𝜃)𝑓(𝑥1|𝜃) ∝ 𝑓(𝜃)𝑓(𝑥2|𝜃)
e, portanto, satisfaz o P. Verossimilhança.
b) Bayesiano Objetivista (p.e., usando priori de Jeffreys)
Para 𝐸1, 𝑓1(𝜃) ∝ |𝐼𝐹 (𝜃)|1/2 ∝ 𝜃−1/2(1 − 𝜃)−1/2 ∼ 𝐵𝑒𝑡𝑎(1/2, 1/2)
Para 𝐸2, 𝑓2(𝜃) ∝ 𝜃−1(1 − 𝜃)−1/2 ∼ 𝐵𝑒𝑡𝑎(0, 1/2) (distribuição im-
própria).
Se o número de sucessos é 𝑥 = 𝑥1 = 𝑥2 e número de fracassos é
𝑦 = 𝑛 − 𝑥1 = 𝑟, temos que
𝜃|𝑋1 = 𝑥1 ∼ 𝐵𝑒𝑡𝑎(𝑥+1/2, 𝑦+1/2) e 𝜃|𝑋2 = 𝑥2 ∼ 𝐵𝑒𝑡𝑎(𝑥, 𝑦+1/2) .
Como 𝑓1(𝑥1|𝜃) ∝ 𝑓2(𝑥2|𝜃) mas 𝑓1(𝜃) ≠ 𝑓2(𝜃), tem-se que 𝑓1(𝜃|𝑥1) ≠
𝑓2(𝜃|𝑥2) e, portanto, esse procedimento viola o P. Verossimilhança.
Chapter 4
Introdução à Teoria da
Decisão
A teoria da decisão é uma das possíveis formas de embasar a inferência
bayesiana. Sob essa abordagem, considera-se uma função de perda (ou função
de utilidade) que quantifica numericamente as consequências de sua decisão
para um dado valor do parâmetro. Essa quantificação de “preferência” é nova-
mente subjetiva e é possível fazer uma construção de função de perda similar
ao que fizemos com probabilidade. Ou seja, dado um conjunto de suposições,
existe uma função de perda que representa numericamente suas preferências
para cada decisão e cada possível valor do parâmetro. Essa construção não
será feita aqui mas pode ser encontrada no livro Optimal Statistical Decisions
(DeGroot, 1970).
4.1 Conceitos Básicos
• 𝑑 ∈ 𝒟 ∶ decisão - uma particular afirmação, por exemplo, sobre 𝜃. No
contexto inferencial, uma decisão pode ser uma estimativa (pontual ou
intervalar) para 𝜃 ou a escolha de uma hipótese específica em um teste de
hipóteses.
• 𝒟 ∶ espaço de decisões - conjunto de todas as possíveis decisões (afir-
mações).
• 𝜃: estado da natureza - quantidade desconhecida ou parâmetro, no
contexto de inferência estatística.
• Θ: espaço dos estados da natureza - espaço paramétrico.
57
58 CHAPTER 4. INTRODUÇÃO À TEORIA DA DECISÃO
• 𝐿 ∶ 𝒟 × Θ ⟶ ℝ: função de perda - 𝐿(𝑑, 𝜃) que representa o prejuízo de
uma decisão 𝑑 quando o estado da natureza é 𝜃.
Exemplo 1. Suponha que você está saindo de casa pela manhã e precisa tomar
uma importante decisão: levar ou não seu guarda-chuva.
• 𝒟 = {𝐺, 𝐺𝑐} , onde 𝐺 ∶ levar guarda-chuva.
• Θ = {𝐶, 𝐶𝑐} , onde 𝐶 ∶ chuva.
Suponha que carregar o guarda-chuva é algo que não lhe agrada mas, por outro
lado, você odeia ficar molhado e acredita que a pior situação seria não levá-lo
e tomar chuva. Você ficará incomodado se levar o guarda-chuva e chover pois,
além de tê-lo carregado, voltou para casa com os sapatos molhados. Note que,
nessas circunstâncias, o cenário preferido por você seria não levar o guarda-chuva
e não chover.
Para quantificar suas preferências, considere uma função de perda 𝐿 ∶ 𝒟×Θ ⟶
ℝ, de modo que, quanto mais algum cenário lhe gera incômodo, maior sua perda.
Um exemplo é apresentado a seguir.
Estados da Natureza
Decisão 𝐶 𝐶𝑐
𝐺 2 (ruim) 1 (bom)
𝐺𝑐 3 (pior) 0 (melhor)
𝑃(𝜃) p 1-p
Uma possível maneira de tomar uma decisão é escolher a decisão “menos prej-
udicial”. Se levar o Guarda chuva, no pior caso, sua perda é max
𝜃
𝐿(𝐺, 𝜃) = 2
e, se não levá-lo, a maior perda possível é max
𝜃
𝐿(𝐺𝑐, 𝜃) = 3. Assim, a decisão
que tem a menor dentre as maiores perdas é levar o guarda-chuva. Esse pro-
cedimento para tomada de decisões é chamado min-max e consiste em escolher
a decisão 𝑑′ tal que 𝑑′ = argmin
𝑑
max
𝜃
𝐿(𝑑, 𝜃).
Sendo um pouco mais otimista, você pode escolher a decisão que tenha a maior
dentre as menores perdas. Esse procedimento é chamado max-min e consiste
em escolher a decisão 𝑑′ = argmax
𝑑
min
𝜃
𝐿(𝑑, 𝜃). No nosso exemplo, esse proced-
imento também sugere que você sempre carregue o guarda-chuvas.
Note que a decisão escolhida pelos dois procedimentos descritos anteriormente
sugere que você sempre deve carregar o guarda-chuvas. Contudo, isso pode não
ser razoável. Imagine que você estava lendo notícias antes de sair de casa e viu
4.1. CONCEITOS BÁSICOS 59
que a probabilidade de chuva era 0.01. Nesse caso, não parece fazer sentido
você levar o guarda-chuva, já que isso vai te trazer um desconforto e a chance
de chover é muito baixa. Assim, a probabilidade de chover deveria ser levada
em consideração em sua tomada de decisão.
Uma maneira de fazer isso é utilizar a perda esperada. Note que 𝜃 é uma
quantidade desconhecida e, pelo que já foi discutido anteriormente, você deve
descrever sua incerteza em relação a essa quantidade em termos de probabili-
dade. Suponha que no exemplo 𝑃(𝐶) = 𝑝, 0 ≤ 𝑝 ≤ 1.
Para cada decisão 𝑑 ∈ 𝒟, é possível calcular o valor esperado da função de perda
(perda esperada ou risco da decisão 𝑑 contra a priori 𝑃 )
𝜌(𝑑, 𝑃 ) = 𝐸 [𝐿(𝑑, 𝜃) | 𝑃 ] = ∫
Θ
𝐿(𝜃)𝑑𝑃(𝜃).
No exemplo, temos
• 𝐸 [𝐿(𝐺, 𝜃)] = 𝐿(𝐺, 𝐶)𝑃(𝐶) + 𝐿(𝐺, 𝐶𝑐)𝑃 (𝐶𝑐) = 2𝑝 + 1(1 − 𝑝) = 𝑝 + 1;
• 𝐸 [𝐿(𝐺𝑐, 𝜃)] = 𝐿(𝐺𝑐, 𝐶)𝑃 (𝐶) + 𝐿(𝐺𝑐, 𝐶𝑐)𝑃 (𝐶𝑐) = 3𝑝 + 0(1 − 𝑝) = 3𝑝.
Deste modo, as perdas esperadas associadas a cada decisão dependem da prob-
abilidade de chuva 𝑝. Assim, para cada possível valor de 𝑝, deve-se tomar a
decisão que tem menor perda esperada. Por exemplo, se a probabilidade de
chuva é 𝑝 = 0.1, temos que as perdas esperadas para as decisões de levar ou
não o guarda-chuva são, respectivamente, 𝐸 [𝐿(𝐺, 𝜃)] = 1.1 e 𝐸 [𝐿(𝐺𝑐, 𝜃)] = 0.3.
Assim, sob essa abordagem, sua decisão seria de não levar o guarda-chuva nesse
caso. Por outro lado, se a probabilidade de chuva for 𝑝 = 0.9, suas perdas es-
peradas seriam respectivamente 𝐸 [𝐿(𝐺, 𝜃)] = 1.9 e 𝐸 [𝐿(𝐺𝑐, 𝜃)]