Prévia do material em texto
Fundamentos de Inferência Bayesiana Victor Fossaluza e Luís Gustavo Esteves 2021-09-14 2 Contents 1 Prefácio 5 2 Probabilidade Subjetiva 7 2.1 Definição Axiomática . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.2 Interpretações de Probabilidade . . . . . . . . . . . . . . . . . . . 7 2.3 Relação de Crença ≾ . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.4 Medida de Probabilidade que “representa” ≾ . . . . . . . . . . . 13 2.5 Medida de Probabilidade Condicional . . . . . . . . . . . . . . . 16 3 Introdução à Inferência Bayesiana 17 3.1 Conceitos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.2 Permutabilidade e Teorema de De Finetti . . . . . . . . . . . . . 24 3.3 Suficiência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.4 Distribuição a Priori . . . . . . . . . . . . . . . . . . . . . . . . . 30 3.5 Alguns Princípios de Inferência . . . . . . . . . . . . . . . . . . . 53 4 Introdução à Teoria da Decisão 57 4.1 Conceitos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 4.2 Aleatorização e Decisões Mistas . . . . . . . . . . . . . . . . . . . 61 4.3 Problemas com Dados . . . . . . . . . . . . . . . . . . . . . . . . 61 5 Estimação 65 5.1 Estimação Pontual . . . . . . . . . . . . . . . . . . . . . . . . . . 65 5.2 Estimação por Regiões . . . . . . . . . . . . . . . . . . . . . . . . 69 5.3 Custo das Observações . . . . . . . . . . . . . . . . . . . . . . . . 76 3 4 CONTENTS 6 Testes de Hipóteses 79 6.1 Conceitos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 6.2 Revisão: Abordagem Frequentista . . . . . . . . . . . . . . . . . 80 6.3 Abordagem Bayesiana (via Teoria da Decisão) . . . . . . . . . . . 82 6.4 Probabilidade Posterior de 𝐻0 . . . . . . . . . . . . . . . . . . . . 84 6.5 Fator de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 6.6 Teste de Jeffreys . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 6.7 Hipóteses Precisas . . . . . . . . . . . . . . . . . . . . . . . . . . 91 6.8 FBST - Full Bayesian Significance Test . . . . . . . . . . . . . . 92 6.9 P-value - Nível de Significância Adaptativo . . . . . . . . . . . . 96 7 Métodos Computacionais 101 7.1 Método de Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . 102 7.2 Monte Carlo com Amostragem de Importância . . . . . . . . . . 110 7.3 Método de Rejeição . . . . . . . . . . . . . . . . . . . . . . . . . 110 7.4 ABC (Aproximated Bayesian Computation) . . . . . . . . . . . . 113 7.5 MCMC - Monte Carlo via Cadeias de Markov . . . . . . . . . . . 114 8 Bibliotecas de R para Inferência Bayesiana 123 8.1 O Modelo de Regressão Linear . . . . . . . . . . . . . . . . . . . 123 8.2 Laplace’s Demon . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 8.3 Stan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 8.4 MLG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 8.5 Modelos Dinâmicos . . . . . . . . . . . . . . . . . . . . . . . . . . 159 A Breve Resumo de Medida e Probabilidade 181 A.1 Conceitos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 A.2 Valor Esperado de 𝑋 (OU uma ideia da tal Integral de Lebesgue) 183 A.3 Funções de Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . 190 A.4 Função de Distribuição . . . . . . . . . . . . . . . . . . . . . . . . 194 A.5 Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . . . 199 Chapter 1 Prefácio Esse documento foi criado com base nos cursos de Inferência Bayesiana min- istrados por nós no Instituto de Matemática e Estatística da Universidade de São Paulo (IME-USP). Essas notas devem ser usadas como um roteiro de estu- dos e não irão necessariamente apresentar todo o conteúdo dessas disciplinas. Além disso, esta é uma versão preliminar que está bem longe da versão final, de modo que podem haver muitos erros e, assim, correções ou sugestões serão sempre muito bem vindas! 5 6 CHAPTER 1. PREFÁCIO Chapter 2 Probabilidade Subjetiva A construção de probabilidade subjetiva apresentada aqui pode ser encontrada no livro Optimal Statistical Decisions (DeGroot, 1970). • Ω: espaço amostral, conjunto não vazio. • 𝒜: 𝜎-álgebra de subconjuntos de Ω, isto é, 1. Ω ∈ 𝒜; 2. 𝐴 ∈ 𝒜 ⟹ 𝐴𝑐 ∈ 𝒜; 3. 𝐴1, 𝐴2, … ∈ 𝒜 ⟹ ⋃ 𝑖≥1 𝐴𝑖 ∈ 𝒜. • Os elementos de 𝒜 são chamados de eventos e serão denotados por 𝐴, 𝐵, 𝐶, … , 𝐴1, 𝐴2, … 2.1 Definição Axiomática • 𝑃 ∶ 𝒜 ⟶ [0, 1] é uma medida de probabilidade se 1. 𝑃(Ω) = 1; 2. 𝐴1, 𝐴2, … ∈ 𝒜 com 𝐴𝑖 ⋂ 𝐴𝑗 = ∅ , 𝑃 (⋃ 𝑖≥1 𝐴𝑖) = ∑ 𝑖≥1 𝑃 (𝐴𝑖). 2.2 Interpretações de Probabilidade • Interpretação Clássica (De Moivre, Laplace) – baseia-se na equiprobabilidade dos resultados; 7 8 CHAPTER 2. PROBABILIDADE SUBJETIVA – 𝑃(𝐴) = |𝐴| |Ω| . – Exemplo: um lançamento de moeda, 𝐴 = “cara”, 𝑃(𝐴) = 1 2 . • Interpretação Frequentista (Venn, von Mises, Reichenbach, etc.) – quase unânime na primeira metade do século XX e ainda é a mais aceita; – baseia-se na regularidade das frequências relativas (lei dos grandes números); – 𝑃(𝐴) = 𝑙𝑖𝑚 𝐴𝑛 𝑛 , onde 𝐴𝑛 é o número de ocorrências de 𝐴 em 𝑛 realizações idênticas e independentes do experimento; – Supõe que é possível repetir indefinidamente o experimento nas mes- mas circustâncias. – Exemplo: um lançamento de moeda, 𝐴 = “cara”. 0.0 0.2 0.4 0.6 0 50 100 150 n P n(A ) = F re q. R el at iv a de C ar as Convergência da Frequência Relativa • Interpretação Lógica (Keynes, Jeffreys, Carnap, etc.) – medida de “vínculo parcial” entre uma evidência e uma hipótese; – baseia-se em relações objetivas entre proposições. – Exemplo: considere duas proposições: “até agora todos os lança- mentos resultaram em cara” e “será realizado um novo lançamento”. Pode-se afirmar que “provavelmente o resultado do novo lançamento será cara”. 2.3. RELAÇÃO DE CRENÇA ≾ 9 • Interpretação Subjetivista (Ramsey, de Finetti, Savage, etc) – probabilidade como medida subjetiva de crença; – baseada na experiência de cada indivíduo, portanto única. – Exemplo: suponha que Bruno lançou uma moeda 3 vezes e todos os resultados foram cara. Esse indivíduo, em posse dessa informação, pode acreditar que o resultado cara é mais provável que coroa. Con- tudo, quando pergunta sobre a probabilidade de cara ao seu colega Olavo, ignorante com relação a moeda, ele responde que é 1/2. 2.3 Relação de Crença ≾ ≾ : relação de “crença” em 𝒜 × 𝒜 • 𝐴 ≺ 𝐵 : acredito mais em 𝐵 que em 𝐴 (𝐵 ≻ 𝐴) • 𝐴 ∼ 𝐵 : acredito igualmente em 𝐵 e 𝐴 • 𝐴 ≾ 𝐵 : acredito em 𝐵 pelo menos tanto quanto em 𝐴 Objetivo: sob certas condições em ≾, obter uma medida de probabilidade 𝑃 que representa (concorda) com ≾. 𝐴 ≾ 𝐵 ⟺ 𝑃(𝐴) ≤ 𝑃(𝐵) Suposições sobre ≾ SP1: Para 𝐴, 𝐵 ∈ 𝒜, exatamente uma das afirmações a seguir deve valer: 𝐴 ≺ 𝐵 , 𝐵 ≺ 𝐴 ou 𝐴 ∼ 𝐵. SP2: 𝐴1, 𝐴2, 𝐵1, 𝐵2 ∈ 𝒜 tais que 𝐴1 ∩ 𝐴2 = 𝐵1 ∩ 𝐵2 = ∅ e 𝐴𝑖 ≾ 𝐵𝑖, 𝑖 = 1, 2. Então 𝐴1 ∪ 𝐴2 ≾ 𝐵1 ∪ 𝐵2. Além disso, se 𝐴𝑖 ≺ 𝐵𝑖 para algum 𝑖, então 𝐴1 ∪ 𝐴2 ≺ 𝐵1 ∪ 𝐵2. SP3: Se 𝐴 é um evento, então ∅ ≾ 𝐴. Além disso, ∅ ≺ Ω. 10 CHAPTER 2. PROBABILIDADE SUBJETIVA SP4: Se 𝐴1, 𝐴2, … uma sequência decrescente de eventos, isto é, 𝐴𝑛 ⊇ 𝐴𝑛+1, ∀𝑛, e 𝐵 tal que 𝐵 ≾ 𝐴𝑛, ∀𝑛 então 𝐵 ≾ ⋂ 𝑛≥1 𝐴𝑛. Lema 1: 𝐴, 𝐵, 𝐷 ∈ 𝒜 tais que 𝐴 ∩ 𝐷 = 𝐵 ∩ 𝐷 = ∅. Então 𝐴 ≾ 𝐵 ⇔ 𝐴 ∪ 𝐷 ≾ 𝐵 ∪ 𝐷 Demo: (⇒) 𝐴 ≾ 𝐵 ⇒ 𝐴 ∪ 𝐷 ≾ 𝐵 ∪ 𝐷 (SP2) (⇐) 𝐵 ≺ 𝐴 ⇒ 𝐵 ∪ 𝐷 ≺ 𝐴 ∪ 𝐷 (SP2) Teorema 1: Se 𝐴 ≾ 𝐵 e 𝐵 ≾ 𝐷 então 𝐴 ≾ 𝐷. Demo: 5 2 6 4 1 3 7 A B D 5 2 6 4 1 3 7 A B D (i) (1) ∪ (2) ∪ (4) ∪ (5) ≾ (1) ∪ (2) ∪ (3) ∪ (6) ⇒ (4) ∪ (5) ≾ (3) ∪ (6). (ii) Analogamente, (2) ∪ (6) ≾ (4) ∪ (7) De (i) e (ii) e pelo Lema 1, (4) ∪ (5) ∪ (2) ∪ (6) ≾ (3) ∪ (6) ∪ (4) ∪ (7) ⇒ (2) ∪ (5) ≾ (3) ∪ (7) ⇒ (2) ∪ (5) ∪ (1) ∪ (4) ≾ (3) ∪ (7) ∪ (1) ∪ (4). 2.3. RELAÇÃO DE CRENÇA ≾ 11 Teorema 2 (generalização do SP2): Se 𝐴1, … , 𝐴𝑛 são eventos disjuntos e 𝐵1, … , 𝐵𝑛 são também eventos disjuntostais que 𝐴𝑖 ≾ 𝐵𝑖, para 𝑖 = 1, … , 𝑛, então 𝑛 ⋃ 𝑖=1 𝐴𝑖 ≾ 𝑛 ⋃ 𝑖=1 𝐵𝑖. Se 𝐴𝑖 ≺ 𝐵𝑖 para algum i, então ⋃𝑛 𝑖=1 𝐴𝑖 ≺ ⋃𝑛 𝑖=1 𝐵𝑖. Demo: Basta aplicar SP2 𝑛 − 1 vezes. Teorema 3: Se 𝐴 ≾ 𝐵 então 𝐴𝑐 ≿ 𝐵𝑐. Demo: Do Lema 1, 𝐴∪(𝐴𝑐 ∩𝐵𝑐) ≾ 𝐵∪(𝐴𝑐 ∩𝐵𝑐) ⇒ 𝐵𝑐 ∪(𝐴∩𝐵) ≾ 𝐴𝑐 ∪ (𝐴 ∩ 𝐵) ⇒ 𝐵𝑐 ≾ 𝐴𝑐. Resultado: Para todo evento 𝐴, 𝐴 ≾ Ω. Demo: Por SP3, ∅ ≾ 𝐴𝑐. Tomando 𝐷 = 𝐴 no Lema 1, ∅ ∪ 𝐴 ≾ 𝐴𝑐 ∪ 𝐴 ⇒ 𝐴 ≾ Ω. Teorema 4: Se 𝐴 ⊆ 𝐵 então 𝐴 ≾ 𝐵. Demo: Suponha, 𝐵 ≺ 𝐴. Tomando 𝐷 = 𝐵𝑐 no Lema 1, 𝐵 ∪ 𝐵𝑐 ≺ 𝐴 ∪ 𝐵𝑐 ⇒ Ω ≺ 𝐴 ∪ 𝐵𝑐. Absurdo! Exemplo 1: 𝜔0 ∈ Ω. 𝐴 ≾ 𝐵 ⇔ {𝜔0 ∈ 𝐵 ou 𝜔0 ∉ (𝐴 ∪ 𝐵)}. Mostre que ≾ obedece às SP1 a SP4. (SP1) 𝐴 ≾ 𝐵 ⇔ 𝜔0 ∈ 𝐵 ∪ (𝐴 ∪ 𝐵)𝑐 ⇒ 𝐵 ≺ 𝐴 ⇔ 𝜔0 ∈ 𝐵𝑐 ∩ (𝐴 ∪ 𝐵) ⇔ 𝜔0 ∈ 𝐴 ∩ 𝐵𝑐. Analogamente, 𝐴 ≺ 𝐵 ⇔ 𝜔0 ∈ 𝐵 ∩ 𝐴𝑐. 𝐴 ∼ 𝐵 ⇔ 𝐴 ≾ 𝐵 e 𝐵 ≾ 𝐴 ⇔ 𝜔0 ∈ [𝐵 ∪ (𝐴 ∪ 𝐵)𝑐] ∩ [𝐴 ∪ (𝐴 ∪ 𝐵)𝑐] ⇔ 𝜔0 ∈ (𝐴 ∩ 𝐵) ∪ (𝐴 ∪ 𝐵)𝑐. (SP2) 𝐴𝑖 ≾ 𝐵𝑖, 𝑖 = 1, 2 ⇔ 𝜔0 ∈ [𝐵1 ∪ (𝐴1 ∪ 𝐵1)𝑐] ∩ [𝐵2 ∪ (𝐴2 ∪ 𝐵2)𝑐] ⇔ 𝜔0 ∈ [(𝐵1 ∪ 𝐵2) ∩ 𝐷𝑐] ∪ (𝐴1 ∪ 𝐵1 ∪ 𝐴2 ∪ 𝐵2)𝑐, 12 CHAPTER 2. PROBABILIDADE SUBJETIVA com 𝐷 = (𝐴1 ∩ 𝐵2) ∪ (𝐴2 ∩ 𝐵1). 𝐴1 ∪ 𝐴2 ≾ 𝐵1 ∪ 𝐵2 ⇔ 𝜔0 ∈ (𝐵1 ∪ 𝐵2) ∪ (𝐴1 ∪ 𝐴2 ∪ 𝐵1 ∪ 𝐵2)𝑐 Como (𝐵1 ∪ 𝐵2) ∩ 𝐷𝑐 ⊆ (𝐵1 ∪ 𝐵2), vale o SP2. (SP3) ∅ ≾ 𝐴 ⇔ 𝜔0 ∈ 𝐴 ∪ (∅ ∪ 𝐴)𝑐 ⇔ 𝜔0 ∈ 𝐴 ∪ 𝐴𝑐 = Ω. Como Ω é não-vazio, ∃𝜔0 ∈ Ω e, portanto, ∅ ≺ Ω. (SP4) Exercício! Exemplo 2: Ω = ℕ, 𝒜 = 𝒫(ℕ). 𝐴 ≾ 𝐵 ⇔ {𝐵 é infinito ou 𝐴 e 𝐵 são finitos com |𝐴| ≤ |𝐵|}. Verifique se ≾ satisfaz SP1 a SP4. Teorema 5: Se 𝐴1 ⊆ 𝐴2 ⊆ … é uma sequência crescente de eventos e 𝐵 é tal que 𝐴𝑛 ≾ 𝐵, ∀𝑛 então ⋃ 𝑛≥1 𝐴𝑛 ≾ 𝐵. Demo: 𝐴𝑐 𝑛 ⊇ 𝐴𝑐 𝑛+1 e, pelo Teo 3, 𝐴𝑐 𝑛 ≿ 𝐵𝑐, ∀𝑛. Por SP4, ⋂𝑛≥1 𝐴𝑐 𝑛 ≿ 𝐵𝑐 ⇒ ⋃𝑛≥1 𝐴𝑛 ≾ 𝐵. Teorema 6: (𝐴𝑛)𝑛≥1 e (𝐵𝑛)𝑛≥1 sequências tais que 𝐴𝑖 ∩ 𝐴𝑗 = 𝐵𝑘 ∩ 𝐵𝑙 = ∅, ∀𝑖 ≠ 𝑗, ∀𝑘 ≠ 𝑙. 𝐴𝑖 ≾ 𝐵𝑖, ∀𝑖 ⇒ ⋃ 𝑛≥1 𝐴𝑛 ≾ ⋃ 𝑛≥1 𝐵𝑛. Se existe ao menos um 𝑗 tal que 𝐴𝑗 ≺ 𝐵𝑗 então ⋃ 𝑛≥1 𝐴𝑛 ≺ ⋃ 𝑛≥1 𝐵𝑛. Demo: Da extensão de SP2, temos que 𝑛 ⋃ 𝑖=1 𝐴𝑖 ≾ 𝑛 ⋃ 𝑖=1 𝐵𝑖, ∀𝑛 ≥ 1 ⇒ 𝑛 ⋃ 𝑖=1 𝐴𝑖 ≾ ∞ ⋃ 𝑖=1 𝐵𝑖, ∀𝑛 ≥ 1 ⇒ ∞ ⋃ 𝑖=1 𝐴𝑖 ≾ ∞ ⋃ 𝑖=1 𝐵𝑖 (Teo 5) ∃𝑛0 tal que 𝐴𝑛0 ≺ 𝐵𝑛0 . De SP2, temos que, para 𝑛 ≥ 𝑛0, 𝑛0 ⋃ 𝑖=1 𝐴𝑖 = 𝑛0−1 ⋃ 𝑖=1 𝐴𝑖 ∪𝐴𝑛0 ≺ 𝑛0−1 ⋃ 𝑖=1 𝐵𝑖 ∪𝐵𝑛0 = 𝑛0 ⋃ 𝑖=1 𝐵𝑖 ⇒ 𝑛0 ⋃ 𝑖=1 𝐴𝑖 ≺ 𝑛0 ⋃ 𝑖=1 𝐵𝑖. Da primeira parte, temos que ∞ ⋃ 𝑖=𝑛0+1 𝐴𝑖 ≾ ∞ ⋃ 𝑖=𝑛0+1 𝐵𝑖 e, por SP2, 𝑛0 ⋃ 𝑖=1 𝐴𝑖 ∪ ∞ ⋃ 𝑖=𝑛0+1 𝐴𝑖 ≺ 𝑛0 ⋃ 𝑖=1 𝐵𝑖 ∪ ∞ ⋃ 𝑖=𝑛0+1 𝐵𝑖 provando o resultado. 2.4. MEDIDA DE PROBABILIDADE QUE “REPRESENTA” ≾ 13 2.4 Medida de Probabilidade que “representa” ≾ SP5: Existe uma variável aleatória 𝑋 ∶ Ω ⟶ ℝ, 𝒜-mensurável, tal que 𝑋(𝜔) ∈ [0, 1], ∀𝜔 ∈ Ω e, se 𝐼1 e 𝐼2 são intervalos contidos em [0, 1], {𝑋 ∈ 𝐼1} ≾ {𝑋 ∈ 𝐼2} ⇔ 𝜆(𝐼1) ≤ 𝜆(𝐼2) . • Se 𝐼 = [𝑎, 𝑏] ⊆ [0, 1], 𝜆(𝐼) = 𝑏 − 𝑎 é o comprimento do intervalo 𝐼 (medida de Lebesgue). • “Experimento auxiliar” ; 𝑋 ∼ Uniforme[0,1]. • {𝑋 ∈ [𝑎, 𝑏]} ∼ {𝑋 ∈ (𝑎, 𝑏]} ∼ {𝑋 ∈ [𝑎, 𝑏)} ∼ {𝑋 ∈ (𝑎, 𝑏)}. Teorema 7: Seja 𝐴 ∈ 𝒜. Então ∃!𝑎∗ ∈ [0, 1] tal que 𝐴 ∼ {𝑋 ∈ [0, 𝑎∗]}. Demo: Seja 𝑈(𝐴) = {𝑎 ∈ [0, 1] ∶ 𝐴 ≾ {𝑋 ∈ [0, 𝑎]}}. 1 ∈ 𝑈(𝐴) pois Ω = {𝑋 ∈ [0, 1]} ≿ 𝐴 ⇒ 𝑈(𝐴) ≠ ∅. Tome 𝑎∗ = inf𝑈(𝐴). (i) Considere (𝑎𝑛)𝑛≥1, 𝑎𝑛 ∈ [0, 1], ∀𝑛 ≥ 1, tal que 𝑎𝑛 ≥ 𝑎𝑛+1 ≥ 𝑎∗ e 𝑎𝑛 ↓ 𝑎∗. Então, ∀𝑛 ≥ 1 , {𝑋 ∈ [0, 𝑎𝑛]} ≿ 𝐴. Por SP4, ∞ ⋂ 𝑛=1 {𝑋 ∈ [0, 𝑎𝑛]} ≿ 𝐴 ⇒ {𝑋 ∈ [0, 𝑎∗]} ≿ 𝐴 (ii) Se 𝑎∗ = 0 , {𝑋 ∈ [0, 0]} ∼ ∅ ≾ 𝐴 (por SP3). Se 𝑎∗ > 0 , considere (𝑎𝑛)𝑛≥1 com 𝑎𝑛 ≤ 𝑎𝑛+1 < 𝑎∗ e 𝑎𝑛 ↑ 𝑎∗. {𝑋 ∈ [0, 𝑎𝑛]} ≾ 𝐴, ∀𝑛 ≥ 1 e, pelo Teo 5, ∞ ⋃ 𝑛=1 {𝑋 ∈ [0, 𝑎𝑛]} ≾ 𝐴 ⇒ {𝑋 ∈ [0, 𝑎∗)} ∼ {𝑋 ∈ [0, 𝑎∗]} ≾ 𝐴. De (i) e (ii), temos que 𝐴 ∼ {𝑋 ∈ [0, 𝑎∗]}. 𝑎∗ é único pois se 𝑎1 < 𝑎∗ < 𝑎2 são outros valores quaisquer, segue que {𝑋 ∈ [0, 𝑎1]} ≺ {𝑋 ∈ [0, 𝑎∗]} ≺ {𝑋 ∈ [0, 𝑎2]} e só um desses eventos pode ser equivalente à 𝐴. 14 CHAPTER 2. PROBABILIDADE SUBJETIVA Teorema 8: A probabilidade do evento 𝐴, 𝑃(𝐴), é definida como 𝑎∗ ∈ [0, 1] tal que 𝐴 ∼ {𝑋 ∈ [0, 𝑎∗]}. Assim, 𝐴 ∼ {𝑋 ∈ [0, 𝑃 (𝐴)]}. A função de probabilidade assim definida satisfaz: 𝐴 ≾ 𝐵 ⇔ 𝑃(𝐴) ≤ 𝑃(𝐵). Demo: Do Teo 7, 𝐴 ∼ {𝑋 ∈ [0, 𝑃 (𝐴)]} e 𝐵 ∼ {𝑋 ∈ [0, 𝑃 (𝐵)]}. 𝐴 ≾ 𝐵 ⇔ {𝑋 ∈ [0, 𝑃 (𝐴)]} ≾ {𝑋 ∈ [0, 𝑃 (𝐵)]} ⇔ 𝜆 ([0, 𝑃 (𝐴)]) ≤ 𝜆 ([0, 𝑃 (𝐵)]) ⇔ 𝑃(𝐴) ≤ 𝑃(𝐵). Teorema 9: A função 𝑃 ∶ 𝒜 ⟶ [0, 1] que, para cada 𝐴 ∈ 𝒜, associa 𝑃(𝐴) tal que 𝐴 ∼ {𝑋 ∈ [0, 𝑃 (𝐴)]} é uma medida de probabilidade (no sentido 𝜎-aditiva). Demo: (i) 𝑃(𝐴) ≥ 0. Ω ∼ {𝑋 ∈ [0, 1]} ⇒ 𝑃(Ω) = 1. ∅ ∼ {𝑋 ∈ [0, 0]} ⇒ 𝑃(∅) = 0 ∅ ≾ 𝐴 ⇒ 0 ≤ 𝑃(𝐴). (ii) Seja 𝐴 e 𝐵 tal que 𝐴 ∩ 𝐵 = ∅. Vamos mostrar que 𝑃 (𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵). Pelo Teo 8, 𝐴 ∼ {𝑋 ∈ [0, 𝑃 (𝐴)]}, 𝐵 ∼ {𝑋 ∈ [0, 𝑃 (𝐵)]}, 𝐴 ∪ 𝐵 ∼ {𝑋 ∈ [0, 𝑃 (𝐴 ∪ 𝐵)]}. Como 𝐴 ⊆ 𝐴∪𝐵 e, por SP3, 𝐴 ≾ 𝐴∪𝐵, vale que 𝑃(𝐴) ≤ 𝑃(𝐴∪𝐵). Vamos verificar que 𝐵 ∼ {𝑋 ∈ (𝑃(𝐴), 𝑃 (𝐴 ∪ 𝐵)]}. Suponha, por absurdo, 𝐵 ≺ {𝑋 ∈ (𝑃(𝐴), 𝑃 (𝐴 ∪ 𝐵)]}. 𝐴 ≾ {𝑋 ∈ [0, 𝑃 (𝐴)]} 𝑆𝑃2⟹ 𝐴 ∪ 𝐵 ≺ {𝑋 ∈ [0, 𝑃 (𝐴)]} ∪ {𝑋 ∈ (𝑃(𝐴), 𝑃 (𝐴 ∪ 𝐵)]} ⇒ 𝐴∪𝐵 ≺ {𝑋 ∈ [0, 𝑃 (𝐴)] ∪ (𝑃(𝐴), 𝑃 (𝐴 ∪ 𝐵)]} ⇒ 𝐴 ∪ 𝐵 ≺ {𝑋 ∈ [0, 𝑃 (𝐴 ∪ 𝐵)]} (Absurdo!) Analogamente, 𝐵 ≻ {𝑋 ∈ (𝑃(𝐴), 𝑃 (𝐴 ∪ 𝐵)]} é absurdo! Logo, 𝐵 ∼ {𝑋 ∈ (𝑃(𝐴), 𝑃 (𝐴 ∪ 𝐵)]} ∼ {𝑋 ∈ [0, 𝑃 (𝐴 ∪ 𝐵) − 𝑃(𝐴)]}. Como 𝐵 ∼ {𝑋 ∈ [0, 𝑃 (𝐵)]}, temos que 𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵). Corolário 1: Se 𝐴1, … , 𝐴𝑛 são eventos disjuntos, então 𝑃 (⋃𝑛 𝑖=1 𝐴𝑖) = ∑𝑛 𝑖=1 𝑃 (𝐴𝑖). Demo: Basta repetir o argumento da segunda parte da demon- stração anterior 𝑛 − 1 vezes. Teorema 10: Seja 𝐴1 ⊇ 𝐴2 ⊇ … uma seq. decrescente de eventos tais que ⋂∞ 𝑖=1 𝐴𝑖 = ∅. Então lim 𝑛↑∞ 𝑃(𝐴𝑛) = 0. 2.4. MEDIDA DE PROBABILIDADE QUE “REPRESENTA” ≾ 15 Demo: 𝐴1 ⊇ 𝐴2 ⊇ … ⇒ 𝑃(𝐴1) ≥ 𝑃(𝐴)2 ≥ …. Além disso, lim 𝑛↑∞ 𝑃(𝐴𝑛) = 𝑏. Como 𝑃(𝐴𝑛) ≥ 𝑏, ∀𝑛, segue que 𝐴𝑛 ≿ {𝑋 ∈ [0, 𝑏]}, ∀𝑛. Por SP4, ∅ = ⋂∞ 𝑖=𝑛 𝐴𝑖 ≿ {𝑋 ∈ [0, 𝑏]}. Se 𝑏 > 0, então {𝑋 ∈ [0, 𝑏]} ≻ {𝑋 ∈ [0, 𝑏/2]} ≿ ∅. Como essa relação contradiz a anterior, temos que 𝑏 deve ser igual a 0. Teorema 9: (conclusão) Usando o Corolário 1 e o Teorema 10 é possível concluir a demonstração do Teorema 9, mostrando que 𝑃 é 𝜎-aditiva, isto é, 𝑃 ( ∞ ⋃ 𝑖=1 𝐴𝑖) = ∞ ∑ 𝑖=1 𝑃 (𝐴𝑖) , 𝐴𝑖 ∩ 𝐴𝑗 = ∅, ∀𝑖 ≠ 𝑗. Demo: Seja (𝐴𝑛)𝑛≥1 sequência de eventos disjuntos. Segue do Corolário 1 que (i) 𝑃 ( ∞ ⋃ 𝑖=1 𝐴𝑛) = 𝑛 ∑ 𝑖=1 𝑃 (𝐴𝑖) + 𝑃 ( ∞ ⋃ 𝑗=𝑛+1 𝐴𝑗), 𝑛 = 1, 2, … Considere 𝐵𝑛 = ∞ ⋃ 𝑗=𝑛+1 𝐴𝑗, 𝑛 ≥ 1, uma sequência decrescente de even- tos tais que ∞ ⋂ 𝑛=1 𝐵𝑛 = ∅. Pelo Teorema 10, segue que lim 𝑛↑∞ 𝑃(𝐵𝑛) = 0. Assim, tomando o limite do lado direito de (i), segue que 𝑃 ( ∞ ⋃ 𝑖=1 𝐴𝑖) = lim 𝑛↑∞ 𝑛 ∑ 𝑖=1 𝑃 (𝐴𝑖) + lim 𝑛↑∞ 𝑃 (𝐵𝑛) = ∞ ∑ 𝑖=1 𝑃 (𝐴𝑖). Teorema 11: Se a relação de crença ≾ obedece SP1 a SP5 então ∃! 𝑃 ∶ 𝒜 → [0, 1], medida de probabilidade, tal que 𝑃 representa ≾ . Demo: Já foi mostrado que 𝑃 é uma medida de probabilidade 𝜎- aditiva, de modo que apenas resta mostrar a unicidade de 𝑃 . Considere que existe uma outra medida 𝑃 ′ que concorde com a re- lação ≾. Como 𝑋 ∼ Unif(0, 1), 𝑃 ′ ({𝑋 ∈ [0, 𝑎]}) = 𝑎. Se 𝐴 é um evento, existe um único 𝑎∗ tal que 𝐴 ∼ {𝑋 ∈ [0, 𝑎∗]} e, como 𝑃 ′ concorda com a relação ≾, 𝑃 ′(𝐴) = 𝑃 ′ ({𝑋 ∈ [0, 𝑎∗]}) = 𝑎∗ = 𝑃(𝐴) . 16 CHAPTER 2. PROBABILIDADE SUBJETIVA 2.5 Medida de Probabilidade Condicional Nova Relação: (𝐴|𝐷) ≾ (𝐵|𝐷) (Sabendo que 𝐷 ocorreu, 𝐵 é preferível a 𝐴). • Para 𝐷 = Ω, temos o caso anterior: 𝐴 ≾ 𝐵 ⇔ (𝐴|Ω) ≾ (𝐵|Ω). • Suponha que vale as suposições SP1 a SP5 e, adicionalmente, SP6: (𝐴|𝐷) ≾ (𝐵|𝐷) ⇔ (𝐴 ∩ 𝐷) ≾ (𝐵 ∩ 𝐷) ((𝐴 ∩ 𝐷|Ω) ≾ (𝐵 ∩ 𝐷|Ω)) Propriedades decorrentes de SP1 a SP6: 1. ∀𝐴, 𝐵, 𝐷, (𝐴|𝐷) ≾ (𝐵|𝐷) ou (𝐵|𝐷) ≾ (𝐴|𝐷). 2. Se (𝐴|𝐷) ≾ (𝐵|𝐷) e (𝐵|𝐷) ≾ (𝐸|𝐷) então (𝐴|𝐷) ≾ (𝐸|𝐷). 3. 𝐴, 𝐵, 𝐷, 𝐸 com 𝐴 ∩ 𝐷 ∩ 𝐸 ∼ 𝐵 ∩ 𝐷 ∩ 𝐸 ∼ ∅. (𝐴|𝐷) ≾ (𝐵|𝐷) ⇔ (𝐴 ∪ 𝐸|𝐷) ≾ (𝐵∪ 𝐸|𝐷). 4. (𝐴|𝐷) ≾ (𝐵|𝐷) ⇔ (𝐴𝑐|𝐷) ≿ (𝐵𝑐|𝐷). 5. Seja 𝐵, 𝐷 e (𝐴𝑛)𝑛≥1 tal que 𝐴𝑛 ⊇ 𝐴𝑛+1. (𝐵|𝐷) ≾ (𝐴𝑛|𝐷), ∀𝑛, então (𝐵|𝐷) ≾ ( ∞ ⋂ 𝑛=1 𝐴𝑛|𝐷). 6. (𝐴𝑛)𝑛≥1 e (𝐵𝑛)𝑛≥1 tal que 𝐴𝑖 ∩ 𝐴𝑗 ∼ 𝐴𝑘 ∩ 𝐴𝑙 ∼ ∅, 𝑖 ≠ 𝑗, 𝑘 ≠ 𝑙, e (𝐴𝑛|𝐷) ≾ (𝐵𝑛|𝐷), ∀𝑛. Então ( ∞ ⋃ 𝑛=1 𝐴𝑛|𝐷) ≾ ( ∞ ⋃ 𝑛=1 𝐵𝑛|𝐷) Teorema 12: ∀𝐴, 𝐵, 𝐷 ∈ 𝒜, considere ≾ satisfazendo SP1 a SP6. Então 𝑃 ∶ 𝒜 → [0, 1] de modo que para cada 𝐴 ∈ 𝒜 é associada 𝑃(𝐴) ∈ [0, 1] tal que 𝐴 ∼ {𝑋 ∈ [0, 𝑃 (𝐴)]} é uma medida de probabilidade que representa ≾, isto é, (𝐴|Ω) ≾ (𝐵|Ω) ⇔ 𝑃(𝐴) ≤ 𝑃(𝐵). Além disso, se 𝐷 ∈ 𝒜 é tal que 𝑃(𝐷) ≥ 0, então (𝐴|𝐷) ≾ (𝐵|𝐷) ⇔ 𝑃(𝐴|𝐷) ≤ 𝑃(𝐵|𝐷), onde 𝑃 (⋅|𝐷) ∶ 𝒜 → [0, 1] é uma medida de probabilidade tal que 𝑃(𝐴|𝐷) = 𝑃(𝐴 ∩ 𝐷) 𝑃(𝐷) . Chapter 3 Introdução à Inferência Bayesiana 3.1 Conceitos Básicos • Inferência Estatística: fazer afirmações sobre quantidades não observáveis em um determinado contexto. • 𝜃 : parâmetro - quantidade desconhecida de interesse (não-observável em determinado contexto). • Θ : espaço paramétrico - conjunto onde 𝜃 toma valores (supostamente conhecido). • 𝐸 = (𝑋, 𝜃, {𝑓(𝑥|𝜃)}): experimento - “tornar visível algo que antes era invisível” ou, mais especificamente no nosso contexto, observar uma re- alização 𝑥 ∈ 𝔛 de um vetor aleatório 𝑋 com alguma distribuição 𝑓(𝑥|𝜃). Essa distribuição pertence, na maioria dos casos, à uma família de dis- tribuições fixada mas que depende do parâmetro desconhecido de inter- esse 𝜃. Note que na grande maioria dos problemas do dia a dia de um estatístico ele se utiliza de resultados experimentais para fazer afirmações sobre 𝜃 e este, por sua vez, é não-observável em geral. • 𝔛 : espaço amostral - conjunto onde 𝑋 toma valores (supostamente conhecido). • ℱ : 𝜎-álgebra de (sub)conjuntos de 𝔛. • Neste espaço amostral, defini-se uma família 𝒫 = {𝑃(⋅|𝜃) ∶ 𝜃 ∈ Θ}, isto é, um conjunto de distribuições (condicionais) para 𝑋 indexadas por 𝜃. • (𝔛, ℱ, 𝒫) : modelo estatístico (clássico). 17 18 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA • 𝑉𝑥(𝜃) = 𝑓(𝑥|𝜃) : função de verossimilhança. 3.1.1 Inferência Frequentista (ou Clássica) • 𝜃 é considerado fixo (apesar de desconhecido) e, portanto, não recebe uma distribuição de probabilidade. • Baseia-se no ” princípio” da amostragem repetida (interpretação frequen- tista de probabilidade), isto é, supõe que é possivel realizar infinitas vezes o experimento. Assim, o 𝑥 é apenas um dos possiveis resultados (hipóteti- cos) do experimento. • Probabilidade somente é definida em (uma 𝜎-álgebra de) 𝔛. 3.1.2 Inferência Bayesiana • Baseia-se na interpretação subjetivista de probabilidade, de modo que a SUA incerteza sobre algo desconhecido deve ser quantificada (traduzida) em termos de probabilidade. • Assim, SUA incerteza sobre o parâmetro (desconhecido) é representada por uma distribuição de probabilidade, 𝜃 é tratado como uma variável aleatória (v.a.) e SUA distribuição para 𝜃 antes da realização do experi- mento, 𝑓(𝜃), é chamada de distribuição a priori. Note que a atribuição de uma distribuição a prior para 𝜃 independe da natureza do parâmetro, ele pode ser a proporção de indivíduos que avalia positivamente o governo atual (quantidade essa que muda a todo instante) ou ainda a milésima casa do 𝜋 (algum número de 0 a 9, fixo porém desconhecido no momento dessa leitura). • A atualização de SUA incerteza sobre 𝜃, incorporando uma nova infor- mação trazida pelos dados 𝑥 (representada por 𝑓(𝑥|𝜃)) é feita pelo Teo- rema de Bayes: • Teorema de Bayes: 𝑓(𝜃|𝑥)⏟ 𝑑𝑖𝑠𝑡.𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟𝑖 = 𝑓(𝜃)𝑓(𝑥|𝜃) ∫ Θ 𝑓(𝑥|𝜃)𝑑𝑃𝜃 ∝ 𝑓(𝜃)⏟ 𝑝𝑟𝑖𝑜𝑟𝑖 𝑣𝑒𝑟𝑜𝑠𝑠𝑖𝑚𝑖𝑙ℎ𝑎𝑛𝑎 ⏞𝑓(𝑥|𝜃) . • Toda a inferência sobre 𝜃 será baseada exclusivamente em 𝑓(𝜃|𝑥), não sendo necessário considerar pontos amostrais que poderiam mas não foram observados (como é feito na inferência frequentista). 3.1. CONCEITOS BÁSICOS 19 • Observação: será utilizada a notação geral para integral (de Lebesgue): ∫ Θ 𝑓(𝑥|𝜃)𝑑𝑃𝜃 = ⎧{ ⎨{⎩ ∫ Θ 𝑓(𝑥|𝜃)𝑓(𝜃)𝑑𝜃 (caso abs. contínuo) ∑ Θ 𝑓(𝑥|𝜃)𝑓(𝜃) (caso discreto) Exemplo 1a. Suponha que existem duas moedas, uma delas tem 𝜃 = 1/2 (honesta) e a outra 𝜃 = 3/4 (viesada). Uma moeda é escolhida e é feito um lançamento da moeda selecionada. Nesse experimento, tem-se 𝑋|𝜃 ∼ 𝐵𝑒𝑟(𝜃), com Θ = {1/2, 3/4} e 𝔛 = {0, 1}. Como “chutar” o valor de 𝜃? Considere que não existe razão para você acreditar que há algum tipo de prefer- ência na escolha de uma ou outra moeda, isto é, considere que a priori 𝑓(𝜃 = 1/2) = 𝑓(𝜃 = 3/4) = 1/2. Suponha que o lançamento resultou em cara (𝑥 = 1). En- tão 𝑓(𝜃 = 3/4|𝑋 = 1) = 𝑓(𝑋 = 1|𝜃 = 3/4)𝑓(𝜃 = 3/4) ∑𝜃 𝑓(𝑋 = 1|𝜃)𝑓(𝜃) = 3 4 1 2 3 4 1 2 + 1 2 1 2 = 3/4 5/4 = 3 5 = 1 − 𝑓(𝜃 = 1/2|𝑋 = 1)⏟⏟⏟⏟⏟⏟⏟ 2/5 . Se, no entando, o resultado do lançamento da moeda fosse coroa (𝑥 = 0), teríamos 𝑃(𝜃 = 3/4|𝑋 = 0) = 1 4 1 2 1 4 1 2 + 1 2 1 2 = 1/2 1/2 + 2/2 = 1 3 . 20 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA 0 1 0.50 0.55 0.60 0.65 0.70 0.75 0.50 0.55 0.60 0.65 0.70 0.75 0.0 0.2 0.4 0.6 θ P (θ |x ) x 0 1 Assim, se sua decisão for escolher o valor mais provável de 𝜃 após observar 𝑥, a conclusão seria que a moeda é viesada (𝜃 = 3/4) se for observado cara (𝑥 = 1) e que a moeda é honesta (𝜃 = 1/2) se o resultado for coroa (𝑥 = 0). Exemplo 1b. Considere agora que serão realizados 𝑛 lançamentos da moeda, de modo que agora tem-se 𝑋|𝜃 ∼ 𝐵𝑖𝑛(𝑛, 𝜃), 𝜃 ∈ {1/2, 3/4}, 𝑥 ∈ {0, 1, … , 𝑛}. Suponha que observa-se 𝑋 = 𝑥. 𝑓(𝜃 = 3/4|𝑋 = 𝑥) = 𝑓(𝑥|𝜃 = 3/4)𝑓(𝜃 = 3/4) ∑ 𝜃∈{1/2,3/4} 𝑓(𝑥|𝜃)𝑓(𝜃) = (𝑛 𝑥) (3 4) 𝑥 (1 4) 𝑛−𝑥 1 2 (𝑛 𝑥) (3 4) 𝑥 (1 4) 𝑛−𝑥 1 2 + (𝑛 𝑥) (1 2) 𝑥 (1 2) 𝑛−𝑥 1 2 = 1 1 + (2𝑛 3𝑥 ) = 3𝑥 3𝑥 + 2𝑛 . theta = c(0.5,0.75) prior=0.5 # priori P(theta[1]) = 1-P(theta[2]) n=5; post = function(x){ (prior*dbinom(x,n,theta)) / sum(prior * dbinom(x,n,theta)) } tibble(x=as.factor(rep(seq(0,n),each=length(theta))), x1=rep(theta,(n+1)),x2=rep(theta,(n+1)),y1=0, y2=as.vector(apply(matrix(seq(0,n)),1,post))) %>% ggplot() + geom_hline(yintercept=0.5, col="darkgrey",lty=3) + geom_segment(aes(x=x1,xend=x2,y=y1,yend=y2,colour=x),lwd=2) + xlab(expression(theta)) + ylab(expression(paste("P(",theta,"|x)"))) + 3.1. CONCEITOS BÁSICOS 21 theme_bw()+ facet_wrap(~x) 3 4 5 0 1 2 0.50 0.55 0.60 0.65 0.70 0.750.50 0.55 0.60 0.65 0.70 0.750.50 0.55 0.60 0.65 0.70 0.75 0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00 θ P (θ |x ) x 0 1 2 3 4 5 Note que o Exemplo 1.a é um caso particular desse exemplo com 𝑛 = 1. Se novamente sua decisão é baseada no valor mais provável de 𝜃, deve-se escolher 𝜃 = 3/4 se 𝑓(𝜃 = 3/4|𝑋 = 𝑥) > 𝑓(𝜃 = 1/2|𝑋 = 𝑥) ⟺ 𝑓(𝜃 = 3/4|𝑋 = 𝑥) > 1 2 ⟺ 3𝑥 3𝑥 + 2𝑛 > 1 2 ⟺ 3𝑥 > 2𝑛 ⟺ 𝑥 𝑛 = ̄𝑥 > log3 2 ≈ 0, 63. Exemplo 1c. Considere que uma moeda será lançada 𝑛 vezes mas que 𝜃 é desconhecido, de modo que Θ = [0, 1]. Para simplificar, vamos assumir 𝑓(𝜃) = 𝕀[0,1](𝜃), isto é, 𝜃 ∼ 𝑈𝑛𝑖𝑓(0, 1) ∼ 𝐵𝑒𝑡𝑎(1, 1). Essa priori corresponde ao caso em que você acredita que todos os valores possíveis para 𝜃 são igualmente “prováveis”, assim como nos exemplos anteriores. Novamente, 𝑋|𝜃 ∼ 𝐵𝑖𝑛(𝑛, 𝜃) 𝑓(𝜃|𝑥) = 𝑓(𝑥|𝜃)𝑓(𝜃) ∫ 1 0 𝑓(𝑥|𝜃)𝑓(𝜃)𝑑𝜃 = (𝑛 𝑥) 𝜃𝑥(1 − 𝜃)𝑛−𝑥 𝕀[0,1](𝜃) ∫ 1 0 (𝑛 𝑥) 𝜃𝑥(1 − 𝜃)𝑛−𝑥𝑑𝜃 = Γ(1+𝑥+1+𝑛−𝑥) Γ(1+𝑥)Γ(1+𝑛−𝑥) 𝜃𝑥(1 − 𝜃)𝑛−𝑥 𝕀[0,1](𝜃) ∫ 1 0 Γ(1+𝑥+1+𝑛−𝑥) Γ(1+𝑥)Γ(1+𝑛−𝑥) 𝜃𝑥(1 − 𝜃)𝑛−𝑥𝑑𝜃 ⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟ 1 = Γ(1+𝑥+1+𝑛−𝑥) Γ(1+𝑥)Γ(1+𝑛−𝑥) 𝜃𝑥(1 − 𝜃)𝑛−𝑥 𝕀[0,1](𝜃). Logo 𝜃|𝑥 ∼ 𝐵𝑒𝑡𝑎(1 + 𝑥, 1 + 𝑛 − 𝑥). Nesse exemplo, o valor “mais provável” (com maior densidade a posteriori) para 𝜃 é a moda da distribuição, 𝑀𝑜𝑑𝑎(𝜃|𝑥) 22 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA = (1 + 𝑥) − 1 (1 + 𝑥) + (1 + 𝑛 − 𝑥) − 2 = 𝑥 𝑛 = ̄𝑥. Suponha que foi observado 𝑛 = 5 e 𝑥 = 2, a posteriori é𝜃|𝑥 = 2 ∼ 𝐵𝑒𝑡𝑎(3, 4) e a moda é 𝑀𝑜𝑑𝑎(𝜃|𝑥) = 1+𝑥−1 1+1+𝑛−2 = 2 5 = 0, 4; 3 4 5 0 1 2 0.00 0.25 0.50 0.75 1.000.00 0.25 0.50 0.75 1.000.00 0.25 0.50 0.75 1.00 0 2 4 6 0 2 4 6 θ f( θ| x) x 0 1 2 3 4 5 Prior Algumas medidas resumo da distribuição posterior para esse exemplo são • 𝑀𝑜𝑑𝑎(𝜃|𝑥) = 1 + 𝑥 − 1 1 + 1 + 𝑛 − 2 = 2 5 = 0, 4; • 𝐸[𝜃|𝑥] = 1 + 𝑥 1 + 1 + 𝑛 = 3 7 = 0, 43; • 𝑀𝑒𝑑(𝜃|𝑥) ≈ 1 + 𝑥 − 1/3 1 + 1 + 𝑛 − 2/3 = 8/3 19/3 ≈ 0, 42; • 𝑉 𝑎𝑟(𝜃|𝑥) = (1 + 𝑥)(1 + 𝑛 − 𝑥) (1 + 1 + 𝑛)2(1 + 1 + 𝑛 + 1) = 12 392 ≈ 0, 031. Exemplo 1d. Por fim, suponha que no exemplo anterior, sua opinião a priori é representada por uma distribuição beta qualquer com parâmetros 𝑎 e 𝑏, 𝑎, 𝑏 > 0. Desta forma, 𝑋|𝜃 ∼ 𝐵𝑖𝑛(𝑛, 𝜃) e 𝜃 ∼ 𝐵𝑒𝑡𝑎(𝑎, 𝑏). Calculando a distribuição a posteriori de forma similar ao exemplo anterior, temos que 𝜃|𝑋 = 𝑥 ∼ 𝐵𝑒𝑡𝑎(𝑎 + 𝑥, 𝑏+𝑛−𝑥). Note que o exemplo anterior é o caso particular em que 𝑎 = 𝑏 = 1 . 3.1. CONCEITOS BÁSICOS 23 theta = seq(0,1,0.01) a=2; b=2; n=5 vero1 = as.vector(apply(matrix(seq(0,n)),1, function(x){dbeta(theta,1+x,1+n-x)})) post1 = as.vector(apply(matrix(seq(0,n)),1, function(x){dbeta(theta,a+x,b+n-x)})) tibble(x=as.factor(rep(seq(0,n),each=length(theta))), theta=rep(theta,(n+1)),post=post1,vero=vero1) %>% ggplot() + geom_line(aes(x=theta,y=dbeta(theta,a,b),linetype="Prior",colour="Prior"),lwd=1) + geom_line(aes(x=theta,y=post,linetype="Posterior",colour=x),lwd=1.3) + geom_line(aes(x=theta,y=vero,linetype="Verossimilhança",colour=x),lwd=1) + xlab(expression(theta)) + ylab(expression(paste("f(",theta,"|x)"))) + theme_bw()+labs(linetype="")+ facet_wrap(~x) 3 4 5 0 1 2 0.00 0.25 0.50 0.75 1.000.00 0.25 0.50 0.75 1.000.00 0.25 0.50 0.75 1.00 0 2 4 6 0 2 4 6 θ f( θ| x) Posterior Prior Verossimilhança colour 0 1 2 3 4 5 Prior Suponha agora que 𝑎 = 𝑏 = 2, 𝑛 = 5 e 𝑥 = 2, de modo que 𝜃|𝑥 = 2 ∼ 𝐵𝑒𝑡𝑎(4, 5). Algumas medidas resumo da distribuição posterior para esse exemplo são • 𝑀𝑜𝑑𝑎(𝜃|𝑥) = 𝑎 + 𝑥 − 1 𝑎 + 𝑏 + 𝑛 − 2 = 3 7 ≈ 0, 428; • 𝐸[𝜃|𝑥] = 𝑎 + 𝑥 𝑎 + 𝑏 + 𝑛 = 4 9 ≈ 0, 444; • 𝑀𝑒𝑑(𝜃|𝑥) ≈ 𝑎 + 𝑥 − 1/3 𝑎 + 𝑏 + 𝑛 − 2/3 = 11/3 25/3 ≈ 0, 440; 24 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA • 𝑉 𝑎𝑟(𝜃|𝑥) = (𝑎 + 𝑥)(𝑏 + 𝑛 − 𝑥) (𝑎 + 𝑏 + 𝑛)2(𝑎 + 𝑏 + 𝑛 + 1) = 20 810 ≈ 0, 0247. 3.2 Permutabilidade e Teorema de De Finetti Definição. Uma coleção finita 𝑋1, 𝑋2, … , 𝑋𝑛 de quantidades aleatórias é dita permutável se a distribuição de (𝑋𝜋1 , … , 𝑋𝜋𝑛 ) é a mesma para toda permutação 𝜋 = (𝜋1, … , 𝜋𝑛) dos índices (1, … , 𝑛). Uma coleção infinita de quantidades aleatórias é permutável se toda subcoleção é permutável. • Segue da definição que cada uma das variáveis 𝑋1, … , 𝑋𝑛 tem a mesma distribuição marginal. Além disso, (𝑋𝑖, 𝑋𝑗) têm mesma distribuição que (𝑋𝑘, 𝑋𝑙), ∀𝑖 ≠ 𝑗 e 𝑘 ≠ 𝑙, e assim por diante. Proposição. Uma coleção 𝐶 de variáveis aleatórias é permitável se, e somente se, para todo 𝑛 finito menor ou igual ao tamanho da coleção 𝐶, toda 𝑛-upla (sequência ordenada de 𝑛 elementos) de elementos distintos de 𝐶 têm a mesma distribuição que toda outra 𝑛-upla. Exemplo 1. Considere uma coleção 𝑋1, 𝑋2, … uma sequência (finita ou infinita) de variáveis aleatórias independentes e identica- mente distribuidas (v.a. i.i.d). Note que 𝑓(𝑥1, … , 𝑥𝑛) = 𝑛 ∏ 𝑖=1 𝑓(𝑥𝑖) , ∀𝑛 , de modo que (𝑋𝑖1 , … , 𝑋𝑖𝑛 ) têm a mesma distribuição de (𝑋𝑗1 , … , 𝑋𝑗𝑛 ), para 𝑖1 ≠ … ≠ 𝑖𝑛 e 𝑗1 ≠ … ≠ 𝑗𝑛. Então, toda coleção de v.a. i.i.d é permutável. Exemplo 2: Foi visto no exemplo anterior que a suposição que uma sequência de v.a. é i.i.d. implica que tal sequência é também per- mutável. Sabe-se também que independência implica em correlação nula, 𝜌 = 0. Será então que v.a. identicamente distribuídas e não correlacionadas são também permutáveis? 3.2. PERMUTABILIDADE E TEOREMA DE DE FINETTI 25 𝑋1 / 𝑋2 −1 0 +1 𝑓(𝑥1) −1 0.10 0.05 0.15 0.3 0 0.15 0.20 0.05 0.4 +1 0.05 0.15 0.10 0.3 𝑓(𝑥2) 0.3 0.4 0.3 1.0 𝑐𝑜𝑟(𝑋1, 𝑋2) = Cov(𝑋1,𝑋2) √Var(𝑋1)Var(𝑋2) = E[(𝑋1−E[𝑋1])(𝑋2−E[𝑋2])] √Var(𝑋1)Var(𝑋2) = E[𝑋1𝑋2]−E[𝑋1]E[𝑋2] √Var(𝑋1)Var(𝑋2) 𝐸(𝑋1) = 𝐸(𝑋2) = 0 𝐸(𝑋1𝑋2) = −1 ⋅ 0, 2 + 0 + 1 ⋅ 0, 2 = 0 ⇒ 𝑐𝑜𝑟(𝑋1, 𝑋2) = 0 (𝑋1, 𝑋2) são identicamente distribuídas e não correlacionadas mas não são per- mutáveis pois, por exemplo, 𝑃((𝑋1, 𝑋2) = (1, −1)) ≠ 𝑃((𝑋2, 𝑋1) = (1, −1)) . Exemplo 3: Suponha que 𝑋1, 𝑋2, … são condicionalmente i.i.d. dado 𝑌 = 𝑦 com densidade 𝑓(𝑥𝑖|𝑦), 𝑖 = 1, 2, … e 𝑌 tem densidade ℎ(𝑦). Então 𝑋1, 𝑋2, … são permutaveis. 𝑓𝑋𝑖1 ,…,𝑋𝑖𝑛 (𝑥1, … , 𝑥𝑛) = ∫ 𝑛 ∏ 𝑗=1 𝑓(𝑥𝑗|𝑦)ℎ(𝑦)𝑑𝑦, para qualquer 𝑛-upla 𝑋𝑖1 , … , 𝑋𝑖𝑛 . Note que o lado direito não depende dos rótulos 𝑖1, … , 𝑖𝑛. Teorema de Representação de De Finetti. (para v.a. Bernoulli) Uma sequência infinita (𝑋𝑛)𝑛≥1 de v.a. Bernoulli é permutável se, e somente se, existe uma v.a 𝜃 em [0, 1] tal que, condicional a 𝜃, (𝑋𝑖)𝑛≥1 são i.i.d. 𝐵𝑒𝑟(𝜃). Além disso, se a sequência é permutável, então a distribuição de 𝜃 é única e �̄�𝑛 = 1 𝑛 ∞ ∑ 𝑖=1 𝑋𝑖 𝑞.𝑐. ⟶ 𝑛↑∞ 𝜃 . 𝑃 (𝑋1 = 𝑥1, … , 𝑋𝑛 = 𝑥𝑛) = ∫ 1 0 𝜃∑ 𝑥𝑖(1−𝜃)𝑛−∑ 𝑥𝑖 𝑑𝐹(𝜃) = ∫ 1 0 𝑛 ∏ 𝑖=1 𝜃𝑥𝑖(1 − 𝜃)1−𝑥𝑖⏟⏟⏟⏟⏟⏟⏟ 𝑓(𝑥𝑖|𝜃) 𝑓(𝜃) 𝑑𝜃 , onde 𝐹(𝜃) = lim 𝑛↑∞ P(∑𝑖 𝑋𝑖 𝑛 ≤ 𝜃) . Exemplo 4: (1.19/1.20 - Schervish) Seja (𝑋𝑛)𝑛≥1 v.a. Bernoulli. 26 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA Considere que o Estatístico 1 acredita que 𝑃1(𝑋1 = 𝑥1, … , 𝑋𝑛 = 𝑥𝑛) = 12 𝑥 + 2 1 (𝑛+4 𝑥+2) , de modo que 𝑃1(𝑋1 = 1) = 12 3 3! 2! 5! = 4 10 = 0, 4 . Por outro lado, o Estatístico 2 acredita que 𝑃2(𝑋1 = 𝑥1, … , 𝑋𝑛 = 𝑥𝑛) = 1 (𝑛 + 1)(𝑛 𝑥) e, então, 𝑃2(𝑋1 = 1) = 1 2 = 0, 5 . Contudo, pelo Teorema de Finetti, ambos acreditam que o limite 𝜃 = lim 𝑛↑∞ 1 𝑛 𝑛 ∑ 𝑖=1 𝑋𝑖 existe com probabilidade 1 e que 𝑃(𝑋1 = 1|𝜃) = 𝜃, mas não tem opiniões diferentes sobre 𝜃. Suponha agora que foi observado 𝑥 = (𝑥1, … , 𝑥20) com 20 ∑ 𝑖=1 𝑥𝑖 = 14. Então, 𝑃𝑖(𝑋21 = 1|𝑋1 = 𝑥1, … , 𝑋20 = 𝑥20) = 𝑃𝑖(𝑋1 = 𝑥1, … , 𝑋20 = 𝑥20, 𝑋21 = 1) 𝑃𝑖(𝑋1 = 𝑥1, … , 𝑋20 = 𝑥20) de modo que, 𝑃1(𝑋21 = 1|X = x) = 12 17 1 (25 17) 12 16 1 (24 16) = 16 17 24! 16!8! 25! 17!8! = 16 17 17 25 = 16 25 = 0, 64 𝑃2(𝑋21 = 1|X = x) = 1 22(21 15) 1 21(20 14) = 21 22 20! 14!6! 21 ⋅ 20! 15 ⋅ 14!6! = 21 22 15 21 = 15 22 = 0, 68 Definição. Seja 𝑋1, … , 𝑋𝑛 uma sequência de variáveis aleatórias permutáveis. A função de distribuição empírica é definida como 𝐹𝑛(𝑥) = 1 𝑛 𝑛 ∑ 𝑖=1 𝕀(𝑥𝑖 ≤ 𝑥) . Suponha que você irá observar uma amostra 𝑋1, … , 𝑋𝑛 (de v.a. permutáveis) para tentar inferir características de uma população. De modo bastante geral, o que você deseja é fazer afirmações sobre a distribuição 𝐹 que gera os dados. Por simplicidade, suponha que as v.a. 𝑋𝑖 tomam valores em ℝ. Se sua população é suposta finita de tamanho 𝑁 , você pode imaginar que, se fosse possível observar toda a população, a distribuição 𝐹 tem a seguinte forma: 𝐹(𝑥) = 𝑃(𝑋𝑖 ≤ 𝑥) = 1 𝑁 ∑ 𝕀(𝑥𝑖 ≤ 𝑥) . 3.2. PERMUTABILIDADE E TEOREMA DE DE FINETTI 27 Note que, nesse caso hipotético, não há incerteza sobre 𝐹 pois você tem toda a informação sobre a população. Além disso, o valor 𝐹(𝑥) pode ser interpretado como a chance de observar um valor menor ou igual a 𝑥 quando um indivíduo é selecionado aleatoriamente dessa população. Além disso, 𝐹 é uma distribuição discreta, assumindo valores no conjunto {𝑥1, 𝑥2, … , 𝑥𝑁}. Por exemplo, se 𝑋𝑖 assume valores em 0 − 1, temos que 𝜃 = 𝑃(𝑋𝑖 = 1) = 1 − 𝑃(𝑋𝑖 = 0) ou, equivalentemente, 𝐹(𝑥) = (1 − 𝜃) ⋅ 𝕀(0 ≤ 𝑥 < 1) + 𝜃 ⋅ 𝕀(𝑥 ≥ 1). Nesse caso, 𝜃 assume valores no conjunto finito {0, 1 𝑁 , 2 𝑁 , … , 𝑁−1 𝑁 , 1}. Contudo, na vida real, geralmente é impossível observar toda a população. Por simplicidade, é comum assumir que a população é infinita, de modo que a dis- tribuição 𝐹 pode seruma distribuição contínua ou indexada por um parâmetro assumindo valores em ℝ. O teorema de De Finetti diz que se {𝑋𝑛}𝑛≥1 é uma sequência de v.a. permutáveis, existe uma 𝐹 e que 𝐹(𝑥) = lim 𝑛↑∞ 1 𝑛 𝑛 ∑ 𝑖=1 𝕀(𝑥𝑖 ≤ 𝑥). Além disso, se você conhecesse essa 𝐹 , os elementos da sequência {𝑋𝑛}𝑛≥1 seriam i.i.d., ou seja, conhecida 𝐹 não há mais o que “aprender” com novas observações. Teorema de Representação de De Finetti. Uma sequência de v.a.s {𝑋𝑛}𝑛≥1 assumindo valores em (um subconjunto de) ℝ é permutável se, e somente se, existe uma medida de probabilidade 𝜇 sobre (uma 𝜎-álgebra do) conjunto de funções de distribuições que “sorteia” uma 𝐹 e, dada esta 𝐹 , os elementos da sequência {𝑋𝑛}𝑛≥1 são i.i.d. com distribuição 𝐹 . Isto é, 𝐹X(𝑥1, … , 𝑥𝑛) = ∫ 𝑛 ∏ 𝑖=1 𝐹(𝑥𝑖)𝑑𝜇(𝐹), ∀𝑛. Se a distribuição é supostamente indexada por um parâmetro 𝜃, então 𝑓X(𝑥1, … , 𝑥𝑛) = ∫ Θ 𝑛 ∏ 𝑖=1 𝑓(𝑥𝑖|𝜃) 𝑑𝑃(𝜃), ∀𝑛. e, se 𝜃 é abs. contínuo (e, portanto, admite uma f.d.p.), 𝑓X(𝑥1, … , 𝑥𝑛) = ∫ Θ 𝑛 ∏ 𝑖=1 𝑓(𝑥𝑖|𝜃) 𝑓(𝜃) 𝑑𝜃, ∀𝑛. Sob a abordagem frequentista, 𝜃 é considerado “fixado” (apesar de desconhecido) e, portanto, não se admite uma distribuição de probabilidades para 𝜃. Isto é 28 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA equivalente a dizer 𝜃 é uma v.a. degenerada, de modo que existe 𝜃∗ tal que 𝑃(𝜃 = 𝜃∗) = 1. O Teorema de De Finetti nesse caso diz que 𝑓(𝑥1, … , 𝑥𝑛) = 𝑛 ∏ 𝑖=1 𝑓(𝑥𝑖|𝜃 = 𝜃∗), ∀𝑛. Sob esse modelo, temos que a distribuição preditiva de uma nova observação 𝑋𝑛+1 é dada por 𝑓(𝑥𝑛+1|𝑥1, … , 𝑥𝑛) = 𝑓(𝑥𝑛+1, 𝑥1, … , 𝑥𝑛) 𝑓(𝑥1, … , 𝑥𝑛) = 𝑛+1 ∏ 𝑖=1 𝑓(𝑥𝑖|𝜃 = 𝜃∗) 𝑛 ∏ 𝑖=1 𝑓(𝑥𝑖|𝜃 = 𝜃∗) = 𝑓(𝑥𝑛+1|𝜃 = 𝜃∗) = 𝑓(𝑥𝑛+1), de modo que 𝑋𝑛+1 é independente de 𝑋1, … , 𝑋𝑛. Contudo, sob essa abordagem, é comum estimar a distribuição preditiva como ̂𝑓(𝑥𝑛+1|𝑥1, … , 𝑥𝑛) ≡ 𝑓 (𝑥𝑛+1| ̂𝜃 (𝑥1, … , 𝑥𝑛)), e isso contradiz a suposição de que 𝑋1, … , 𝑋𝑛 são i.i.d. (e, consequentemente, permutáveis). Mesmo que a suposição de i.i.d. seja condicional a 𝜃, ainda deve valer o Teorema de De Finetti e a contradição acima se mantém. 3.3 Suficiência Muitas vezes, a quantidade de dados é muito grande e desejamos “resumir” a informação trazida pelos dados. Uma forma de fazê-lo sem perder informação sobre o parâmetro de interesse é usar uma estatística suficiente. Definição. Dizemos que uma função da amostra 𝑇 ∶ 𝔛 → ℝ𝑝 é uma estatística suficiente (do ponto de vista frequentista) se 𝑓 (𝑥|𝑇 (𝑥), 𝜃) = 𝑓 (𝑥|𝑇 (𝑥)). Em palavras, conhecendo o valor da estatística suficiente, a distribuição da amostra (do v.a. 𝑋) não depende mais do parâmetro 𝜃. Isso quer dizer que a informação disponível na amostra 𝑋 sobre 𝜃 está contida em 𝑇 (𝑋). Obter uma estatística suficiente nem sempre é uma tarefa fácil mas o resultado a seguir, conhecido como critério da fatoração permite identificar estatísticas suficientes. 3.3. SUFICIÊNCIA 29 Teorema. A estatística 𝑇 ∶ 𝔛 → ℝ𝑝 é suficiente para a família de distribuições {𝑓(⋅|𝜃) ∶ 𝜃 ∈ Θ} se, e somente se, para todo 𝑥 ∈ 𝔛 e para todo 𝜃 ∈ Θ, podemos escrever 𝑓 (𝑥|𝜃) = 𝑢(𝑥)𝑣 (𝑇 (𝑥), 𝜃), onde 𝑢 é uma função positiva que não depende de 𝜃 e 𝑣 é uma função não-negativa e depende de 𝑥 somente através de 𝑇 (𝑥). Exemplo. Seja 𝑋1, … , 𝑋𝑛 v.a. tais que, condicional ao conheci- mento de 𝜃, são c.i.i.d. com 𝑋1|𝜃 ∼ 𝐸𝑥𝑝(𝜃). Então, 𝑓(𝑥|𝜃) = ∏ 𝑓(𝑥𝑖|𝜃) = ∏ 𝜃𝑒−𝜃𝑥𝑖 𝕀ℝ+(𝑥𝑖) = 𝜃𝑛𝑒−𝜃 ∑ 𝑥𝑖 ∏ 𝕀ℝ+(𝑥𝑖) = 𝑣 (∑ 𝑥𝑖, 𝜃) 𝑢(𝑥). Portanto, 𝑇 (𝑥) = ∑ 𝑥𝑖 é estatística suficiente para 𝜃. De fato, como 𝑇 (𝑋) = ∑ 𝑋𝑖|𝜃 ∼ 𝐺𝑎𝑚𝑎(𝑛, 𝜃) e {𝑋1 = 𝑥1, … , 𝑋𝑛 = 𝑥𝑛} ⊆ {𝑇 (𝑋) = ∑ 𝑋𝑖 = ∑ 𝑥𝑖 = 𝑡} , 𝑓 (𝑥|𝑇 (𝑥), 𝜃) = 𝑓 (𝑥, 𝑇 (𝑥)|𝜃) 𝑓 (𝑇 (𝑥)|𝜃) = 𝑓 (𝑥|𝜃) 𝑓 (𝑡|𝜃) = 𝜃𝑛𝑒𝜃 ∑ 𝑥𝑖 ∏ 𝕀ℝ+(𝑥𝑖) 𝜃𝑛 Γ(𝑛) 𝑡𝑛−1𝑒𝜃𝑡 ∏ 𝕀ℝ+(𝑥𝑖) = Γ(𝑛) 𝑡𝑛−1 𝕀ℝ+ (𝑡) , que não depende de 𝜃. Sob o enfoque bayesiano, a definição de suficiência é um pouco mais intuitiva que a frequentista. Definição: Dizemos que uma função da amostra 𝑇 ∶ 𝔛 → ℝ𝑝 é uma estatística suficiente (no sentido bayesiano) se 𝑓 (𝜃|𝑇 (𝑥)) = 𝑓 (𝜃|𝑥), para todo 𝑥 ∈ 𝔛. Voltando ao exemplo, suponha agora que, a priori, 𝜃 ∼ 𝐺𝑎𝑚𝑎(𝑎, 𝑏). Então, 𝑓(𝜃|𝑥) ∝ 𝑓(𝑥|𝜃)𝑓(𝜃) ∝ 𝜃𝑛𝑒−𝜃 ∑ 𝑥𝑖 𝜃𝑎−1𝑒−𝑏𝜃 ∝ 𝜃𝑎+𝑛−1𝑒−(𝑏+∑ 𝑥𝑖)𝜃 Seja 𝑇 = 𝑇 (𝑋) = ∑ 𝑋𝑖, temos que 𝑇 |𝜃 ∼ 𝐺𝑎𝑚𝑚𝑎(𝑛, 𝜃), de modo que 𝑓 (𝜃|𝑇 (𝑥) = 𝑡) ∝ 𝑓(𝑡|𝜃)𝑓(𝜃) ∝ 𝜃𝑛𝑡𝑛−1𝑒𝜃𝑡 𝜃𝑎−1𝑒−𝑏𝜃 ∝ 𝜃𝑎+𝑛−1𝑒−(𝑏+𝑡)𝜃 , com 𝑡 = ∑ 𝑥𝑖. Assim, 𝜃|𝑥 ∼ 𝜃|𝑇 (𝑥) ∼ 𝐺𝑎𝑚𝑚𝑎 (𝑎 + 𝑛, 𝑏 + ∑ 𝑥𝑖) e, portanto, 𝑇 (𝑋) = ∑ 𝑋𝑖 é estatística suficiente para 𝜃. Pelo teorema da fatoração, temos que 𝑓 (𝑥|𝜃) = 𝑢(𝑥)𝑣 (𝑇 (𝑥), 𝜃) e, portanto 𝑓(𝜃|𝑥) ∝ 𝑓(𝜃)𝑓 (𝑥|𝜃) ∝ 𝑓(𝜃)𝑣 (𝑇 (𝑥), 𝜃) , que só depende de 𝑥 por meio de 𝑇 (𝑥). Para os casos mais comuns, as definições são equivalentes (Schervish, 2012). 30 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA Um dos princípios de inferência estatística é o princípio da suficiência. Segundo este, se 𝑇 é uma estatística suficiente para 𝜃 e se dois pontos amostrais 𝑥, 𝑦 ∈ 𝔛 são tais que 𝑇 (𝑥) = 𝑇 (𝑦) então as inferências baseadas nesses pontos devem ser as mesmas. Adiante, retomaremos esse princípio de forma mais formal. 3.4 Distribuição a Priori • A priori é sempre subjetiva (assim como a escolha do modelo estatístico)! – Por exemplo, dizer que os dados seguem uma distribuição normal, é uma escolha subjetiva, muitas vezes baseadas nas facilidades matemáticas que essa distribuição proporciona. – Do mesmo modo, suponha que dois indivíduos que consideram que a distribuição do parêmetro é simétrica, com mesmas suposições sobre média e variância. O primeiro pode optar por representar sua distribuição usando uma distribuição Normal, enquanto o segundo pode utilizar uma distribuição T ou Cauchy. • Não existe “opinião errada”, existem opiniões diferentes, dado o nível de conhecimento e as experiências prévias do indivíduo. Contudo, algumas “boas práticas” devem ser consideradas como, por exemplo, tomar cuidado para não atribuir probabilidade nula a pontos “possíveis” do espaço paramétrico. • A priori deve ser sua opinião apenas sobre o parâmetro 𝜃 e não deve depender de fatores como o desenho do experimento ou o objetivo do estudo. 3.4.1 Método do Histograma • Muitas vezes, para “extrair” o conhecimento de um especialista, podemos dividir o espaço paramétrico em regiões e pedir para o especialista “or- denar” esses conjuntos, utilizando “pesos” que refletem a crença que o parâmetro esteja em cada uma daquelas regiões. • Exemplo 1. (Albert (2009), pág 27) – Seja 𝜃 uma proporção desconhecida (Θ = [0, 1]); – Considere a partição 𝑇 = {[0, 0.1), [0.1, 0.2), … , [0.9, 1]}; 3.4. DISTRIBUIÇÃO A PRIORI 31 – Suponha que um especialistas atribui pesos 𝑝 = (1, 5.2, 8, 7.2, 4.6, 2.1, 0.7, 0.1, 0, 0) a esse intervalos; – A piori, nesse caso, é o histograma apresentado a seguir. p=c(1, 5.2, 8, 7.2, 4.6, 2.1, 0.7, 0.1, 0, 0) prior = c(0,p/(sum(p))) tibble(theta=seq(0,1,0.1), prior) %>% ggplot(data=.) + geom_step(aes(x=theta,y=prior),direction="vh",color="red",lwd=1.5) 0.0 0.1 0.2 0.00 0.25 0.50 0.75 1.00 theta pr io r • Voltando ao exemplo da moeda, suponha novamente que foram observados 𝑥 = 2 sucessos em 𝑛 = 5 lançamentos. A posteriori nesse caso pode ser obtida multiplicando a distribuição a priori pela verossimilhança e “padronizando” a função obtida. Assim: n=5 x=2 p = c(1, 5.2, 8, 7.2, 4.6, 2.1, 0.7, 0.1, 0, 0) p = p/(sum(p)) theta = seq(0,1,0.01) prior = c(rep(p,each=10),0)/sum(c(rep(p,each=10),0)) vero = dbinom(x,n,theta)/sum(dbinom(x,n,theta)) post = (prior * vero)/sum(prior * vero) pH = tibble(theta=rep(theta,3),dens=c(prior,vero,post),Dist=rep(c('1.priori','2.verossimilhança','3.posteriori'),each=101)) %>% ggplot(data=.) + geom_line(aes(x=theta,y=dens,colour=Dist),lwd=1.5) pH 32 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA 0.00 0.01 0.020.03 0.00 0.25 0.50 0.75 1.00 theta de ns Dist 1.priori 2.verossimilhança 3.posteriori 3.4.2 Elicitação de Hiperparâmetros • Nessa abordagem, a priori é obtida da seguinte maneira: 1. Escolha uma família de distribuições conveniente. O conceito de “conveniência” aqui pode levar em conta, por exemplo, o suporte da distribuição, se é flexível o suficiente para acomodar diversos tipos de opinião, se permite a obtenção analítica da posteriori e assim por diante; 2. Obtenha um conjunto de medidas resumo (como média, variância, quantis, etc.); 3. Utilize as medidas resumo para calcular hiperparâmetros da dis- tribuição escolhida. • Exemplo: Na seção anterior, a priori dada pelo histograma tem média 𝑚 = 0.31 e variância aproximadamente 𝑣 = 0.02. Podemos utilizar como priori, por exemplo, uma distribuição beta com essa média e variância, já que a beta tem um suporte conveniente e facilita as contas, como também já vimos. Assim, vamos considerar uma distribuição 𝐵𝑒𝑡𝑎(𝑎, 𝑏) e escolher 𝑎 e 𝑏 satisfazendo: (i) 𝐸[𝜃] = 𝑎 𝑎 + 𝑏 = 𝑚 ⟺ 𝑏 = (1 − 𝑚 𝑚 ) 𝑎 3.4. DISTRIBUIÇÃO A PRIORI 33 (ii) 𝑉 𝑎𝑟(𝜃) = 𝑎𝑏 (𝑎 + 𝑏)2(𝑎 + 𝑏 + 1) = 0.02 ⟺ 𝑎 = 𝑚(𝑚 − 𝑚2 − 𝑣) 𝑣 Resolvendo o sistema temos, de forma geral, que 𝑎 = 𝑚(𝑚 − 𝑚2 − 𝑣) 𝑣 e 𝑏 = (1 − 𝑚)(𝑚 − 𝑚2 − 𝑣) 𝑣 . Assim, no nosso exemplo, teríamos uma 𝐵𝑒𝑡𝑎(3, 6.7). Além disso, já vimos que, nesse caso, a distribuição a posteriori é 𝐵𝑒𝑡𝑎(3 + 𝑥, 6.7 + 𝑛 − 𝑥). Considerando novamente 𝑛 = 5 e 𝑥 = 2, temos: n=5; x=2 m=0.31; v=0.02 a=m*(m-m^2-v)/v; b=(1-m)*(m-m^2-v)/v p = c(1, 5.2, 8, 7.2, 4.6, 2.1, 0.7, 0.1, 0, 0) p = p/(sum(p)) theta = seq(0,1,0.01) prior = dbeta(theta,a,b)/sum(dbeta(theta,a,b)) vero = dbinom(x,n,theta)/sum(dbinom(x,n,theta)) post = dbeta(theta,a+x,b+n-x)/sum(dbeta(theta,a+x,b+n-x)) priorH = c(rep(p,each=10),0)/sum(c(rep(p,each=10),0)) tibble(theta=rep(theta,4),dens=c(prior,vero,post,priorH), Dist=rep(c('1.Priori Beta','2.Verossimilhança','3.Posteriori','0.Priori Histograma'),each=101)) %>% ggplot(data=.) + geom_line(aes(x=theta,y=dens,colour=Dist),lwd=1.5) 0.00 0.01 0.02 0.03 0.00 0.25 0.50 0.75 1.00 theta de ns Dist 0.Priori Histograma 1.Priori Beta 2.Verossimilhança 3.Posteriori 34 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA 3.4.3 Prioris Conjugadas Como visto no exemplo da moeda, em que a distribuição a priori era 𝐵𝑒𝑡𝑎(𝑎, 𝑏), a posteriori era facilmente obtida e também estava na classe das distribuições 𝐵𝑒𝑡𝑎. Em particular, quando observa-se 𝑥 sucessos em 𝑛 realizações de ensaios de Bernoulli, a distribuição a posteriori é 𝐵𝑒𝑡𝑎(𝑎 + 𝑥, 𝑏 + 𝑛 − 𝑥). Isso ocorre pois essa distribuição pertence à uma classe bastante espefícica de distribuições a priori, chamadas distribuições conjugadas. Definição Seja 𝒫 = {𝑓(𝑥|𝜃) ∶ 𝜃 ∈ Θ} uma família de distribuições (condi- cionais) para 𝑋 e considere 𝒞 = {ℎ(𝜃|𝑎) ∶ 𝑎 ∈ 𝐴} uma família de distribuições para 𝜃. Dizemos que (a família) 𝒞 é conjugada para 𝒫 se, ∀ ℎ(𝜃) ∈ 𝒞, ℎ(𝜃|𝑥) ∝ 𝑓(𝑥|𝜃)ℎ(𝜃) ∈ 𝒞, ∀𝑥 ∈ 𝔛. Resultado 1. Seja 𝑋 v.a. tal que, condicional ao conhecimento de 𝜃, 𝑋|𝜃 ∼ 𝐵𝑖𝑛(𝑛, 𝜃). Considere que, a priori, 𝜃 ∼ 𝐵𝑒𝑡𝑎(𝑎, 𝑏). Então, 𝜃|𝑋 = 𝑥 ∼ 𝐵𝑒𝑡𝑎(𝑎 + 𝑥, 𝑏+𝑛−𝑥). Portanto, a família 𝒞 = {𝐵𝑒𝑡𝑎(𝑎1, 𝑎2) ∶ (𝑎1, 𝑎2) ∈ ℝ2 +} é conjugada para 𝒫 = {𝐵𝑖𝑛(𝑛, 𝜃) ∶ 𝜃 ∈ [0, 1]}. • Esse resultado também vale se 1. 𝑋1, … , 𝑋𝑛 são v.a.s condicionalmente independentes e identicamente distribuidas (c.i.i.d.) com 𝑋𝑖|𝜃 ∼ 𝐵𝑒𝑟(𝜃) 2. 𝑋𝑖|𝜃 ∼ 𝐺𝑒𝑜(𝜃), 𝑖 = 1, … , 𝑛 𝑐.𝑖.𝑖.𝑑. 3. 𝑋𝑖|𝜃 ∼ 𝐵𝑖𝑛𝑁𝑒𝑔(𝑘, 𝜃) 𝜃 ∼ 𝐵𝑒𝑡𝑎(𝑎, 𝑏) ⇒ 𝜃|𝑋 = 𝑥 ∼ 𝐵𝑒𝑡𝑎(𝑎 + 𝑠, 𝑏 + 𝑓) em que 𝑠 é o número de sucessos e 𝑓 é o número de fracassos. Resultado 2. (generalização do resultado anterior para o caso em que o número de categorias é maior que 2) Seja 𝑋|𝜃 ∼ 𝑀𝑢𝑙𝑡𝑖𝑛𝑜𝑚𝑖𝑎𝑙(𝑛, 𝜃), isto é, sua função de probabilidade é dada por 𝑓(𝑥|𝜃) = ( 𝑛 𝑥1, 𝑥2, … , 𝑥𝑘 ) 𝑘−1 ∏ 𝑖=1 𝜃𝑥𝑖 𝑖 (1 − 𝑘−1 ∑ 𝑖=1 𝜃𝑖) 𝑛 − 𝑘−1 ∑ 𝑖=1 𝑥𝑖 ⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟ 𝜃 𝑥𝑘 𝑘 3.4. DISTRIBUIÇÃO A PRIORI 35 em que 𝜃𝑖 ∈ [0, 1] com ∑𝐾 𝑖=1 𝜃𝑖 = 1, 𝑥𝑖 ∈ {0, 1, … , 𝑛} com ∑𝑛 𝑖=1 𝑥𝑖 = 𝑛 e ( 𝑛 𝑥1, 𝑥2, … , 𝑥𝑘 ) = 𝑛! 𝑥1!𝑥2! … 𝑥𝑘! . Considere que, a priori, 𝜃 ∼ 𝐷𝑖𝑟𝑖𝑐ℎ𝑙𝑒𝑡(𝑎1, … , 𝑎𝑘), 𝑎𝑖 > 0, 𝑖 = 1, … , 𝑘, isto é, a f.d.p. a priori para 𝜃 é dada por 𝑓(𝜃) = Γ(∑𝐾 𝑖=1 𝑎𝑖) Γ(𝑎1)Γ(𝑎2) … Γ(𝑎𝑘) 𝑘−1 ∏ 𝑖=1 𝜃𝑎𝑖−1 𝑖 ( 1 − 𝑘−1 ∑ 𝑖=1 𝜃𝑖 ⏟⏟⏟⏟⏟ 𝜃𝑘 ) 𝑎𝑘−1 . Então, a distribuição a posteriori para 𝜃 é 𝜃|𝑋 = 𝑥 ∼ 𝐷𝑖𝑟𝑖𝑐ℎ𝑙𝑒𝑡(𝑎1 +𝑥1, … , 𝑎𝑘 + 𝑥𝑘). Demo: Para verificar o resultado, basta ver que 𝑓(𝜃|𝑥) = 𝑓(𝑥|𝜃)𝑓(𝜃) ∫Θ 𝑓(𝑥|𝜃)𝑓(𝜃)𝑑𝜃 ∝ 𝑓(𝑥|𝜃)𝑓(𝜃) ∝ ∏𝑘−1 𝑖=1 𝜃(𝑎𝑖+𝑥𝑖−1) 𝑖 (1 − ∑𝑘−1 𝑖=1 𝜃𝑖) (𝑎𝑘+𝑥𝑘)−1 Resultado 3. Seja 𝑋1, … , 𝑋𝑛 v.a. c.i.i.d tais que 𝑋𝑖|𝜃 ∼ 𝑈𝑛𝑖𝑓(0, 𝜃) e considere que, a priori,𝜃 ∼ 𝑃𝑎𝑟𝑒𝑡𝑜(𝑎, 𝑏). Então 𝜃|𝑋 = 𝑥 ∼ 𝑃𝑎𝑟𝑒𝑡𝑜 (𝑎 + 𝑛, 𝑚𝑎𝑥{𝑏, 𝑥(𝑛)}). Demo: 𝑓(𝑥|𝜃) 𝑐𝑖= ∏𝑛 𝑖=1 𝑓(𝑥𝑖|𝜃) 𝑖𝑑= ∏𝑛 𝑖=1 1 𝜃 𝕀[0,𝜃](𝑥𝑖) = 1 𝜃𝑛 𝕀[0,𝜃](𝑥(𝑛)) = 1 𝜃𝑛 𝕀[𝑥(𝑛),+∞)(𝜃) em que 𝑥(𝑛) = 𝑚𝑎𝑥{𝑥1, … , 𝑥𝑛}. 𝑓(𝜃) = 𝑎𝑏𝑎 𝜃𝑎+1 𝕀[𝑏,+∞](𝜃). Então 𝑓(𝜃|𝑥) ∝ 𝑓(𝑥|𝜃)𝑓(𝜃) = 1 𝜃𝑎+𝑛+1 𝕀[𝑥(𝑛),+∞)(𝜃)𝕀[𝑏,+∞)(𝜃) = 1 𝜃𝑎+𝑛+1 𝕀[𝑚𝑎𝑥{𝑏,𝑥(𝑛)},+∞)(𝜃) ⇒ 𝜃|𝑋 = 𝑥 ∼ 𝑃𝑎𝑟𝑒𝑡𝑜(𝑎 + 𝑛, 𝑚𝑎𝑥{𝑏, 𝑥(𝑛)}). Exemplo. No gráfico a seguir, a distribuição a priori é uma Pareto(2, 1) e foi observada uma amostra de tamanho 5 com 𝑥(𝑛) = 2, de modo que a posteriori é Pareto(7, 2). 36 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA a=2;b=1 n=5; xn=2 t = seq(0,5,length.out=1000) prior = extraDistr::dpareto(t,a,b) vero = ((n-1)*xn^(n-1)) * I(t>=2)/(t^n) post = extraDistr::dpareto(t,a+n,max(b,xn)) tibble(theta=rep(t,3),dens=c(prior,vero,post), Dist=rep(c('1.Priori Pareto(2,1)','2.Verossimilhança','3.Posteriori'),each=length(t))) %>% ggplot(data=.) + geom_line(aes(x=theta,y=dens,colour=Dist),lwd=1.2) 0 1 2 3 0 1 2 3 4 5 theta de ns Dist 1.Priori Pareto(2,1) 2.Verossimilhança 3.Posteriori Resultado 4. Seja 𝑋1, … , 𝑋𝑛, 𝑌1, … , 𝑌𝑚 v.a. condicionalmente independentes tais que 𝑋𝑖|𝜃 ∼ 𝐸𝑥𝑝(𝜃), 𝑖 = 1, … , 𝑛 e 𝑌𝑗|𝜃 ∼ 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜃), 𝑗 = 1, … , 𝑚. Considere que, a priori, 𝜃 ∼ 𝐺𝑎𝑚𝑎(𝑎, 𝑏). Então 𝜃|𝑥, 𝑦 ∼ 𝐺𝑎𝑚𝑎(𝑎 + 𝑛 + ∑𝑗 𝑦𝑗 , 𝑏 + 𝑚 + ∑𝑖 𝑥𝑖). Demo: 𝑓(𝑥, 𝑦|𝜃) 𝑐𝑖= 𝑓(𝑥|𝜃)𝑓(𝑦|𝜃) 𝑐𝑖= ∏𝑛 𝑖=1 𝑓(𝑥𝑖|𝜃) ∏𝑚 𝑗=1 𝑓(𝑦𝑖|𝜃) = ∏𝑛 𝑖=1 𝜃𝑒−𝜃𝑥𝑖 ∏𝑚 𝑗=1 𝜃𝑦𝑗𝑒−𝜃 𝑦𝑗! = 𝜃𝑛𝑒−𝜃 ∑𝑖 𝑥𝑖 𝜃∑𝑗 𝑦𝑗𝑒−𝑚𝜃 ∏𝑚 𝑗=1 𝑦𝑗! = 1 ∏𝑚 𝑗=1 𝑦𝑗! 𝜃𝑛+∑𝑗 𝑦𝑗𝑒−(𝑚+∑𝑖 𝑥𝑖)𝜃 𝑓(𝜃) = 𝑏𝑎 Γ(𝑎)𝜃𝑎−1𝑒−𝑏𝜃 𝑓(𝜃|𝑥, 𝑦) ∝ 𝑓(𝑥, 𝑦|𝜃)𝑓(𝜃) ∝ 𝜃[𝑎+𝑛+∑𝑗 𝑦𝑗]−1𝑒−[𝑏+𝑚+∑𝑖 𝑥𝑖]𝜃 ⇒ 𝜃|𝑥, 𝑦 ∼ 𝐺𝑎𝑚𝑎(𝑎 + 𝑛 + ∑𝑗 𝑦𝑗, 𝑏 + 𝑚 + ∑𝑖 𝑥𝑖) 3.4. DISTRIBUIÇÃO A PRIORI 37 Exemplo. Considere que a distribuição a priori é uma Gama(2, 2) e foi ob- servado 𝑛 = 4, ∑ 𝑥 = 1, 𝑚 = 5 e ∑ 𝑦 = 10, de modo que a posteriori é Gama(16, 9). a=2;b=2 n=4; sumx=1 m=6; sumy=10 t = seq(0,5,length.out=1000) prior = dgamma(t,a,b) vero = dgamma(t,n+sumy+1,m+sumx) post = dgamma(t,a+n+sumy,b+m+sumx) tibble(theta=rep(t,3),dens=c(prior,vero,post), Dist=rep(c('1.Priori Gama(2,2)','2.Verossimilhança','3.Posteriori'),each=length(t))) %>% ggplot(data=.) + geom_line(aes(x=theta,y=dens,colour=Dist),lwd=1.2) 0.00 0.25 0.50 0.75 0 1 2 3 4 5 theta de ns Dist 1.Priori Gama(2,2) 2.Verossimilhança 3.Posteriori Resultado 5. Seja 𝒫 = {𝑓(𝑥|𝜃) ∶ 𝜃 ∈ Θ} e 𝒞 = {ℎ(𝜃|𝑎) ∶ 𝑎 ∈ 𝐴} uma família conjugada para 𝒫. Considere ℳ = {ℎ(𝜃) = ∑𝑚 𝑖=1 𝑤𝑖ℎ𝑖(𝜃) ∶ ℎ𝑖 ∈ 𝒞 𝑒 𝑤𝑖 > 0, ∑𝑚 𝑖=1 𝑤𝑖 = 1}. Então ℳ é família conjugada para 𝒫. Demo: Como 𝒞 é conjugada para 𝒫, para toda função ℎ𝑖 ∈ 𝒞, temos que 𝑓𝑖(𝜃|𝑥) ∝ ℎ𝑖(𝜃)𝑓(𝑥|𝜃) ∈ 𝒞. Então ℎ ∈ ℳ ⇒ 𝑓(𝜃|𝑥) ∝ ℎ(𝜃)𝑓(𝑥|𝜃) ∝ ∑𝑚 𝑖=1 𝑤𝑖 ℎ𝑖(𝜃)𝑓(𝑥|𝜃)⏟⏟⏟⏟⏟ ∈𝒞 ∝ ∑𝑚 𝑖=1 𝑤∗ 𝑖 𝑓𝑖(𝜃|𝑥) ∈ ℳ. 38 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA Exemplo 1. Seja 𝑋|𝜃 ∼ 𝐵𝑖𝑛(𝑛,𝜃) e 𝑓(𝜃) = 𝑤𝑓1(𝜃) + (1 − 𝑤)𝑓2(𝜃), com 𝑓1 ∼ 𝐵𝑒𝑡𝑎(𝑎1, 𝑏1) e 𝑓2 ∼ 𝐵𝑒𝑡𝑎(𝑎2, 𝑏2). 𝑓(𝜃|𝑥) = 𝑓(𝑥|𝜃)𝑓(𝜃) ∫1 0 𝑓(𝑥|𝜃)𝑓(𝜃) = 𝑓(𝑥|𝜃)[𝑤𝑓1(𝜃) + (1 − 𝑤)𝑓2(𝜃)] 𝑤 ∫1 0 𝑓1(𝜃)𝑓(𝑥|𝜃)𝑑𝜃 + (1 − 𝑤) ∫1 0 𝑓2(𝜃)𝑓(𝑥|𝜃)𝑑𝜃 ∝ 𝑤(𝑛 𝑥) Γ(𝑎1+𝑏1) Γ(𝑎1)Γ(𝑏1) 𝜃𝑎1+𝑥−1(1 − 𝜃)𝑏1+𝑛−𝑥−1 + (1 − 𝑤)(𝑛 𝑥) Γ(𝑎2+𝑏2) Γ(𝑎2)Γ(𝑏2) 𝜃𝑎2+𝑥−1(1 − 𝜃)𝑏2+𝑛−𝑥−1 𝑤(𝑛 𝑥) Γ(𝑎1+𝑏1) Γ(𝑎1)Γ(𝑏1) Γ(𝑎1+𝑥)Γ(𝑏1+𝑛−𝑥) Γ(𝑎1+𝑏1+𝑛)⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟ 𝐴 + (1 − 𝑤)(𝑛 𝑥) Γ(𝑎2+𝑏2) Γ(𝑎2)Γ(𝑏2) Γ(𝑎2+𝑥)Γ(𝑏2+𝑛−𝑥) Γ(𝑎2+𝑏2+𝑛)⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟ 𝐵 ∝ 𝐴 𝐴 + 𝐵⏟ 𝑤∗ 𝐵𝑒𝑡𝑎(𝑎1 + 𝑥, 𝑏1 + 𝑛 − 𝑥) + 𝐵 𝐴 + 𝐵⏟ 1−𝑤∗ 𝐵𝑒𝑡𝑎(𝑎2 + 𝑥, 𝑏2 + 𝑛 − 𝑥). Primeiramente, suponha que 𝑛 = 5, e temos uma mistura das distribuições 𝐵𝑒𝑡𝑎(5, 12) e 𝐵𝑒𝑡𝑎(10, 3), com 𝑤 = 0.5. O gráfico a seguir apresenta as dis- tribuições a priori, a verossimilhança e a posteriori para cada possível valor de 𝑥 em {0, 1, … , 5}. a1=5; b1=12 a2=10; b2=3 n=5 w=0.5 theta = seq(0,1,0.01) A = as.vector(apply(matrix(seq(0,n)),1, function(x){w*choose(n,x)*gamma(a1+b1)/(gamma(a1)*gamma(b1))* (gamma(a1+x)*gamma(b1+n-x))/gamma(a1+b1+n)})) B = as.vector(apply(matrix(seq(0,n)),1, function(x){(1-w)*choose(n,x)*gamma(a2+b2)/(gamma(a2)*gamma(b2))* (gamma(a2+x)*gamma(b2+n-x))/gamma(a2+b2+n)})) w2 = A/(A+B) prior2 = as.vector(apply(matrix(seq(0,n)),1, function(x){w*dbeta(theta,a1,b1)+ (1-w)*dbeta(theta,a2,b2)})) post2 = as.vector(as.matrix(mapply(function(x,w2){ w2*dbeta(theta,a1+x,b1+n-x)+ (1-w2)*dbeta(theta,a2+x,b2+n-x)},seq(0,n),w2))) 3.4. DISTRIBUIÇÃO A PRIORI 39 #vero = as.vector(apply(matrix(seq(0,n)),1, # function(x){dbinom(x,prob=theta,size=n)})) # Verossimilhança proporcional visualmente melhor vero = as.vector(apply(matrix(seq(0,n)),1, function(x){dbeta(theta,x+1,n-x+1)})) tibble(x=as.factor(rep(seq(0,n),each=length(theta))), w2=rep(w2,each=length(theta)), theta=rep(theta,(n+1)),vero=vero,prior=prior2,post=post2) %>% ggplot() + geom_line(aes(x=theta,y=post, colour=x),lwd=1.5) + geom_line(aes(x=theta,y=prior,colour="Prior"),lwd=1,lty=2) + geom_line(aes(x=theta,y=vero,colour="Verossimilhança"),lwd=1,lty=2)+ xlab(expression(theta)) + ylab(expression(paste("f(",theta,"|x)")))+ theme_bw() 0 2 4 6 0.00 0.25 0.50 0.75 1.00 θ f( θ| x) x 0 1 2 3 4 5 Prior Verossimilhança Agora, suponha que 𝑛 = 5 e foi observado 𝑥 = 2. Novamente, considere a mis- tura das distribuições 𝐵𝑒𝑡𝑎(5, 12) e 𝐵𝑒𝑡𝑎(10, 3) mas agora com pesos 𝑤 variando no conjunto {0, 0.1, … , 0.9, 1}. n=5; x=2 w = seq(0,1,0.1) A = as.vector(apply(matrix(w),1, 40 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA function(w){w*choose(n,x)*gamma(a1+b1)/(gamma(a1)* gamma(b1))*(gamma(a1+x)*gamma(b1+n-x))/gamma(a1+b1+n)})) B = as.vector(apply(matrix(w),1, function(w){(1-w)*choose(n,x)*gamma(a2+b2)/(gamma(a2)* gamma(b2))*(gamma(a2+x)*gamma(b2+n-x))/gamma(a2+b2+n)})) w2 = A/(A+B) prior2 = as.vector(apply(matrix(w),1,function(w){ w*dbeta(theta,a1,b1)+(1-w)*dbeta(theta,a2,b2)})) post2 = as.vector(as.matrix(mapply(function(w,w2){ w2*dbeta(theta,a1+x,b1+n-x)+ (1-w2)*dbeta(theta,a2+x,b2+n-x)},w,w2))) vero = as.vector(apply(matrix(rep(x,2*n+1)),1, function(x){dbeta(theta,x+1,n-x+1)})) z<-length(w) tibble(w=as.factor(rep(w,each=length(theta))), w2=rep(w2,each=length(theta)), theta=rep(theta,z), prior = prior2, post = post2, vero = vero) %>% ggplot(colour = w) + geom_line(aes(x=theta,y=post, colour=w),lwd=1.5) + geom_line(aes(x=theta,y=prior,colour="Priori")) + geom_line(aes(x=theta,y=vero,colour="Verossimilhança"),lwd=1,lty=2)+ xlab(expression(theta)) + ylab(expression(paste("f(",theta,"|x)")))+ theme_bw() 3.4. DISTRIBUIÇÃO A PRIORI 41 Paper n Cases p CI Estudo 1 78 30 0.385 [ 0.277 ; 0.493 ] Estudo 2 60 42 0.700 [ 0.584 ; 0.816 ] Estudo 3 40 30 0.750 [ 0.616 ; 0.884 ] 0 1 2 3 4 0.00 0.25 0.50 0.75 1.00 θ f( θ| x) w 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Priori Verossimilhança Exemplo 2. Suponha que 𝜃 é uma proporção e você deseja construir uma distribuição a priori baseada em estudos anteriores. Como, em geral, os dados de outros estudos não estão disponíveis na íntegra, você pode utilizar estatísticas resumo. estudos = tibble(Paper=c("Estudo 1", "Estudo 2", "Estudo 3"), n=c(78,60,40),Cases=c(30,42,30)) %>% mutate(p=Cases/n) %>% mutate(inf=round(p-qnorm(0.975)*sqrt(p*(1-p)/n),3), sup=round(p+qnorm(0.975)*sqrt(p*(1-p)/n),3)) %>% mutate(inf=ifelse(inf<0,0.000,inf), sup=ifelse(sup>1,1.000,sup)) %>% mutate(CI=paste("[",inf," ; ",sup," ]")) rbind(estudos) %>% select(Paper,n,Cases,p,CI) %>% kableExtra::kbl(.,digits=3,align=c('l','c','c','c','c')) %>% kableExtra::kable_classic(full_width=FALSE) Proposta 1. Uma primeira forma de fazer isso seria supor que, antes de obser- var esses estudos, você não tem informação sobre 𝜃, e usar a posteriori obtida 42 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA com os dados do estudos como priori. Assim, seja 𝑋𝑖|𝜃 ∼ Bin(𝑛𝑖, 𝜃), 𝑖 = 1, 2, 3, e 𝜃 ∼ Uniforme(0, 1). Temos que 𝜃|𝑥1 ∼ Beta(1 + 𝑥1, 1 + 𝑛1 − 𝑥1) 𝜃|𝑥1, 𝑥2 ∼ Beta(1 + 𝑥1 + 𝑥2, 1 + 𝑛1 − 𝑥1 + 𝑛2 − 𝑥2) 𝜃|𝑥1, 𝑥2, 𝑥3 ∼ Beta(1 + 𝑥1 + 𝑥2 + 𝑥3, 1 + 𝑛1 − 𝑥1 + 𝑛2 − 𝑥2 + 𝑛3 − 𝑥3) Isso é equivalente a juntar todos os estudos e calcular diretamente a posteriori. Seja 𝑥 = 𝑥1 + 𝑥2 + 𝑥3 e 𝑛 = 𝑛1 + 𝑛2 + 𝑛3. Então, 𝜃 ∼ Beta(1, 1) ⟹ 𝜃|𝑥1, 𝑥2, 𝑥3 ∼ Beta(1 + 𝑥, 1 + 𝑛 − 𝑥) . De fato, se 𝑋 e 𝑌 são, condicionalmente independentes dado 𝜃, 𝑓(𝜃|𝑥) ∝ 𝑓(𝑥|𝜃)𝑓(𝜃) 𝑓(𝜃|𝑥, 𝑦) ∝ 𝑓(𝑦|𝜃) 𝑓(𝜃|𝑥) ∝ 𝑓(𝑦|𝜃)𝑓(𝑥|𝜃)𝑓(𝜃) ∝ 𝑓(𝑥, 𝑦|𝜃)𝑓(𝜃) . eixox=c(min(estudos$inf),max(estudos$sup)) PriorsPlot=tibble(theta=seq(eixox[1],eixox[2],length.out=1000), beta=dbeta(theta,sum(estudos$Cases)+1, sum(estudos$n)-sum(estudos$Cases)+1)) %>% ggplot() + theme_bw() + geom_line(aes(x=theta,y=beta, colour="Beta")) + labs(colour="Priori") + xlim(eixox) + xlab("theta") + ylab("Prior") Meta=estudos %>% ggplot(aes(y=Paper))+theme_bw()+ geom_point(aes(x=p))+ geom_segment(aes(x=inf,xend=sup,y=Paper,yend=Paper))+ theme(axis.title.x=element_blank(),axis.title.y=element_blank())+ xlim(eixox)+geom_vline(xintercept=sum(estudos$Cases)/sum(estudos$n), color='darkgrey', linetype='dashed') ggpubr::ggarrange(PriorsPlot,Meta,heights=c(2,1), ncol = 1, align = "v",common.legend=T,legend="bottom") 3.4. DISTRIBUIÇÃO A PRIORI 43 0 3 6 9 0.4 0.6 0.8 theta P rio r Estudo 1 Estudo 2 Estudo 3 0.4 0.6 0.8 Priori Beta Proposta 2 Considere agora que a priori será construída da seguinte forma: para cada estudo será calculada uma “posteriori” supondo que 𝜃 ∼ Uniforme(0, 1) e faremos uma mistura dessas posterioris ponderada pelo tamanho amostral dos estudos. Assim: 𝑓(𝜃) = 3 ∑ 𝑖=1 𝑛𝑖 𝑛 𝑓(𝜃 | 𝑎𝑖 = 1 + 𝑥𝑖 , 𝑏𝑖 = 1 + 𝑛𝑖 − 𝑥𝑖) , em que 𝑓(𝜃 | 𝑎 , 𝑏) é a densidade da Beta(𝑎, 𝑏) e 𝑛 = 𝑛1 + 𝑛2 + 𝑛3. No exemplo, 𝑓(𝜃) = 0.44 𝑓(𝜃 | 𝑎1 = 31, 𝑏1 = 49)+0.34 𝑓(𝜃 | 𝑎2 = 43, 𝑏2 = 19)+0.22 𝑓(𝜃 | 𝑎3 = 31, 𝑏3 = 11) . As funções de densidade, distribuição e para gerar números aleatórios de mis- turas de densidades betas podem ser escritas no R como: dmixbeta=function(theta,w,a,b){ w = w/sum(w) apply(as.matrix(theta),1,function(t){t(w)%*%dbeta(t,a,b)}) } pmixbeta=function(theta,w,a,b){ w = w/sum(w) apply(as.matrix(theta),1,function(t){t(w)%*%pbeta(t,a,b)}) } rmixbeta=function(n,w,a,b){ w = w/sum(w) s = rmultinom(n=n,size=1,prob=w) apply(t(s),1,function(l){rbeta(1,l%*%a,l%*%b)}) } 44 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA Assim, a nova distribuição a priori é apresentada do gráfico a seguir. eixox=c(min(estudos$inf),max(estudos$sup)) #Parametros da Priori w=estudos$n/sum(estudos$n) a=estudos$Cases+1 b=estudos$n-estudos$Cases+1 PriorsPlot=tibble(theta=seq(eixox[1],eixox[2],length.out=1000), beta=dbeta(theta,sum(estudos$Cases)+1, sum(estudos$n)-sum(estudos$Cases)+1), meta=dmixbeta(theta,w,a,b)) %>% ggplot() + theme_bw() + geom_line(aes(x=theta,y=beta, colour="Beta")) + geom_line(aes(x=theta,y=meta, colour="Metanalítica"))+ labs(colour="Priori") + xlim(eixox) + xlab("theta") + ylab("Prior") Meta=estudos %>% ggplot(aes(y=Paper))+theme_bw()+ geom_point(aes(x=p))+ geom_segment(aes(x=inf,xend=sup,y=Paper,yend=Paper))+ theme(axis.title.x=element_blank(),axis.title.y=element_blank())+ xlim(eixox)+geom_vline(xintercept=sum(estudos$Cases)/sum(estudos$n), color='darkgrey', linetype='dashed') ggpubr::ggarrange(PriorsPlot,Meta,heights=c(2,1), ncol = 1, align = "v",common.legend=T,legend="bottom") 0 3 6 9 0.4 0.6 0.8 theta P rio r Estudo 1 Estudo 2 Estudo 3 0.4 0.6 0.8 Priori Beta Metanalítica Como vimos em aulas anteriores, como a priori é mistura de distribuições conju- 3.4. DISTRIBUIÇÃO A PRIORI 45 gadas, a posteriori também será. Suponha então que foi observada uma amostra de tamanho 𝑛 = 100 com 𝑥 = 67 sucessos. A posteriori é 𝑓(𝜃|𝑥) = 0.0007 𝑓(𝜃 | 𝑎1 = 98, 𝑏1 = 82)+0.7007 𝑓(𝜃 | 𝑎2 = 110, 𝑏2 = 52)+0.2986 𝑓(𝜃 | 𝑎3 = 98, 𝑏3 = 44) . n=100; x=67 # Parametros da posteriori wx = exp( log(w)+lgamma(a+b)+lgamma(a+x)+lgamma(b+n-x)- lgamma(a+b+n)-lgamma(a)-lgamma(b) ) wx = wx/sum(wx) ax=a+x bx=b+n-x tibble(theta=seq(eixox[1],eixox[2],length.out=1000), meta=dmixbeta(theta,w,a,b), post=dmixbeta(theta,wx,ax,bx)) %>% ggplot() + theme_bw() + geom_line(aes(x=theta,y=meta, colour="Priori")) + geom_line(aes(x=theta,y=post, colour="Posteriori")) + labs(colour="Distribuição") + xlim(eixox) + xlab("theta") + ylab("densidade") 0.0 2.5 5.0 7.5 10.0 0.4 0.6 0.8 theta de ns id ad e Distribuição Posteriori Priori 46 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA 3.4.4 Prioris “Não-Informativas” Priors não-informativas são tentativas de representar formalmente um estado de ignorância. Contudo, não existe uma forma única de representar ignorância, tampouco uma priori “objetiva”. Além disso, é bastante raro um cenário onde não há nenhuma informação a priori. De qualquer modo, serão apresentadas aqui algumas formas de representar falta de informação mas a escolha da priori será sempre subjetiva. 3.4.4.1 Priori de Bayes-Laplace Princípio da Razão Insuficiente. Quando não existe razão suficiente para acreditar mais em algum subconjunto do espaço paramétrico Θ, deve-se adotar equiprobabilidade. Exemplo 1. Se Θ = {𝜃1, 𝜃2, … , 𝜃𝑘} então a priori de Bayes-Laplace é 𝑓(𝜃) = 1/𝑘, 𝜃 ∈ Θ . Exemplo 2. Se Θ = [𝑎, 𝑏] então a priori de Bayes-Laplace é 𝑓(𝜃) = 1/(𝑏 − 𝑎), 𝜃 ∈ Θ . 𝑓(𝜃|𝑥) = 𝑓(𝜃)𝑓(𝑥|𝜃) ∫Θ 𝑓(𝜃)𝑓(𝑥|𝜃) 𝑑𝜃 = 𝑐 𝑓(𝑥|𝜃) 𝑐 ∫Θ 𝑓(𝑥|𝜃) 𝑑𝜃 = 𝑓(𝑥|𝜃) ∫Θ 𝑓(𝑥|𝜃) 𝑑𝜃 ∝ 𝑓(𝑥|𝜃) . As principais críticas da priori de Bayes-Laplace são 1. A distribuição é imprópria quando o espaço paramétrico Θ não é finito ou limitado. Por exemplo, Θ = ℕ, Θ = ℤ ou Θ = ℝ. Nesses casos, a priori de Bayes-Laplace é 𝑓(𝜃) ∝ 𝕀Θ(𝜃), que não é uma distribuição de probabilidade. 2. Não é invariante a reparametrizações. Considere, por exemplo, 𝑓(𝜃) uma f.d.p. a priori para 𝜃 e 𝑔 uma transformação um-a-um (injetora) de 𝜃 tal que 𝜓 = 𝑔(𝜃). A distribuição de 𝜓 pode ser calculada por 𝑓𝜓(𝜓) = 𝑓 (𝑔−1(𝜓)) ∣𝑑𝑔−1(𝜓) 𝑑𝜓 ∣ . Assim, se 𝑔 é uma transformação não linear e a distribuição a priori para 𝜃 é uniforme, a distribuição para 𝜓 não é uniforme, em geral. 3.4. DISTRIBUIÇÃO A PRIORI 47 3.4.4.2 Priori de Jeffreys Seja 𝑔 uma transformação um-a-um do parâmetro 𝜃 e defina 𝜓 = 𝑔(𝜃). Considere uma função ℎ ∶ 𝔛 × Θ ⟶ ℝ. Uma classe de distribuições a priori invariantes pode ser definida por 𝑓(𝜃) ∝ (Var𝑋|𝜃 [𝜕ℎ(𝑋|𝜃) 𝜕𝜃 ∣ 𝜃]) 1/2 . Demo. Para mostrar a invariância do método, considere o caso contínuo em que 𝑓𝜓(𝜓) = 𝑓 (𝑔−1(𝜓)) ∣𝜕𝑔−1(𝜓) 𝜕𝜓 ∣ . Seja ℎ∗(𝑥, 𝜓) = ℎ (𝑥, 𝑔−1(𝜓)). Então 𝜕ℎ∗(𝑥, 𝜓) 𝜕𝜓 = 𝜕ℎ (𝑥, 𝑔−1(𝜓)) 𝜕𝜓 = 𝜕ℎ(𝑥, 𝜃) 𝜕𝜃 ∣ 𝜃=𝑔−1(𝜓) ⋅ 𝜕𝑔−1(𝜓) 𝜕𝜓 , e, portanto, Var [𝜕ℎ∗(𝑋, 𝜓) 𝜕𝜓 ∣ 𝜃 = 𝑔−1(𝜓)] = Var [𝜕ℎ(𝑋, 𝜃) 𝜕𝜃 ∣ 𝜃 = 𝑔−1(𝜓)] ⋅ [𝜕𝑔−1(𝜓) 𝜕𝜓 ] 2 = [𝑓 (𝑔−1(𝜓)) (𝜕𝑔−1(𝜓) 𝜕𝜓 )] 2 , de modo que 𝑓𝜓(𝜓) = 𝑓 (𝑔−1(𝜓)) ∣𝜕𝑔−1(𝜓) 𝜕𝜓 ∣ = Var [𝜕ℎ∗(𝑋, 𝜓) 𝜕𝜓 ∣ 𝜃 = 𝑔−1(𝜓)] 1/2 . A escolha mais usual para ℎ é ℎ(𝑥, 𝜃) = log 𝑓(𝑥|𝜃) . Assim, como 𝐸 [𝜕 log 𝑓(𝑋|𝜃) 𝜕𝜃 ∣ 𝜃] = 0, temos 𝑓(𝜃) ∝ Var [𝜕 log 𝑓(𝑋|𝜃) 𝜕𝜃 ∣ 𝜃] 1/2 = E[(𝜕 log 𝑓(𝑋|𝜃) 𝜕𝜃 ) 2 ∣ 𝜃] 1/2 = [ℐ(𝜃)]1/2 , onde ℐ(𝜃) é a Informação de Fisher de 𝜃. Neste caso, 𝑓(𝜃) ∝ ∣ℐ(𝜃)∣1/2 é chamada priori de Jeffreys. Uma motivação para o método de Jeffreys é que a informação de Fisher ℐ(𝜃) é um indicador da quantidade de informação trazida pelo modelo (observações) sobre o parâmetro 𝜃. Favorecer os valores de 𝜃 para o qual ℐ(𝜃) é grande supostamente minimiza a influência da priori. Exemplo 1. Considere novamente o experimento de lançar uma moeda 𝑛 vezes e contar o número de caras, isto é, 𝑋|𝜃 ∼ Bin(𝑛, 𝜃). 48 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA Então, 𝑓(𝑥|𝜃) = (𝑛 𝑥)𝜃𝑥(1 − 𝜃)𝑛−𝑥 ⟹ log 𝑓(𝑥|𝜃) = log (𝑛 𝑥) + 𝑥 log 𝜃 + (𝑛 − 𝑥) log(1 − 𝜃) 𝜕 log 𝑓(𝑥|𝜃) 𝜕𝜃 = 𝑥 𝜃 − 𝑛 − 𝑥 1 − 𝜃 = 𝑥 − 𝑛𝜃 𝜃(1 − 𝜃) . Como 𝐸 [𝑋|𝜃] = 𝑛𝜃 e 𝑉 𝑎𝑟(𝑋|𝜃) = 𝐸 [(𝑋 − 𝐸 [𝑋|𝜃])2 ∣ 𝜃] = 𝐸 [(𝑋 − 𝑛𝜃)2 ∣ 𝜃] = 𝑛𝜃(1 − 𝜃), a informação de Fisher neste caso é ℐ𝑥(𝜃) = E[(𝜕 log 𝑓(𝑥|𝜃) 𝜕𝜃 ) 2 ∣ 𝜃] = E[( 𝑋 − 𝑛𝜃 𝜃(1 − 𝜃)) 2 ∣ 𝜃] = 1 𝜃2(1 − 𝜃)2 E [(𝑋 − 𝑛𝜃)2 | 𝜃] = 1 𝜃2(1 − 𝜃)2 Var (𝑋 | 𝜃) = 𝑛 𝜃(1 − 𝜃) 𝜃2(1 − 𝜃)2 = 𝑛 𝜃(1 − 𝜃) = 𝑛𝜃−1(1 − 𝜃)−1 , de modo que a priori de Jeffreys é 𝑓(𝜃) ∝ [ℐ𝑥(𝜃)]1/2 ∝ 𝜃−1/2(1 − 𝜃)−1/2 ⟹ 𝜃 ∼ Beta ( 1 2 , 1 2 ) . Exemplo 2. Considere agora que a mesma moeda é lançada e anota-se o número de caras 𝑌 até que sejam observadas 𝑟 coroas, isto é, 𝑌 |𝜃 ∼ BinNeg(𝑟, 𝜃). Então, 𝑓(𝑦|𝜃) = (𝑦 + 𝑟 − 1 𝑦 )𝜃𝑦(1 − 𝜃)𝑟 ⟹ log 𝑓(𝑦|𝜃) = log (𝑦+𝑘−1 𝑦 ) + 𝑦 log 𝜃 + 𝑟 log(1 − 𝜃) 𝜕 log 𝑓(𝑦|𝜃) 𝜕𝜃 = 𝑦 𝜃 − 𝑟 1 − 𝜃 = 1 𝜃 [𝑦 − 𝑟 𝜃 1 − 𝜃] . Como 𝐸 [𝑋|𝜃] = 𝑟 𝜃 1 − 𝜃 e 𝑉 𝑎𝑟(𝑋|𝜃) = 𝑟 𝜃 (1 − 𝜃)2 , a informação de Fisher neste caso é ℐ𝑦(𝜃) = E[ 1 𝜃2 (𝑦 − 𝑟 𝜃 1 − 𝜃) 2 ∣ 𝜃] = 1 𝜃2 Var (𝑌 | 𝜃) = 𝑟 𝜃(1 − 𝜃)2 = 𝑟𝜃−1(1 − 𝜃)−2 , de modo que a priori de Jeffreys é 𝑓(𝜃) ∝ [ℐ𝑦(𝜃)]1/2 ∝ 𝜃−1/2(1 − 𝜃)−1 . Note que nos exemplos apresentados, a priori depende da regra de parada, isto é, a forma como decidimos quando parar de lançar a moeda e que determina 3.4. DISTRIBUIÇÃO A PRIORI 49 se o modelo estatístico é binomial ou binomial negativo. Em outras palavras, a opinião a priori definida dessa forma depende do modelo adotado, mesmo que o parâmetro seja o mesmo nos dois casos. Além disso, a priori de Jeffreys pode ser imprópria, como ocorre no exemplo anterior. 3.4.4.3 Priori de Máxima Entropia Entropia é um conceito físico que quantifica a desordem ou imprevisibilidade de um sistema, ou da falta de informação sobre ele. O conceito de entropia desem- penha um importante papel na teoria da informação. O princípio da máxima entropia afirma que a distribuição de probabilidade que melhor representa a falta de informação é aquela com a maior entropia. Caso Discreto. Considere um espaço paramétrico enumerável Θ = {𝜃1, 𝜃2, …}. A entropia da distribuição ℎ (Shannon, 1948) é dada por ℰ(ℎ) = E[− logℎ(𝜃)] = − ∑ 𝜃∈Θ log [ℎ(𝜃)] ℎ(𝜃) . Definição. Considere um espaço paramétrico Θ e ℎ uma f.d.p. para 𝜃. A distribuição da máxima entropia para 𝜃 é a função ℎ que maximiza ℰ(ℎ) (Jaynes, 2003) Exemplo 1. Considere o espaço paramétrico Θ = {𝜃1, … , 𝜃𝑘} e ℎ(𝜃𝑖) = 𝑝𝑖 uma distribuição discreta para 𝜃. A distribuição da máxima entropia para 𝜃 é a função ℎ que maximiza ℰ(ℎ) = − 𝑘 ∑ 𝑖=1 𝑝𝑖 log(𝑝𝑖) com a restrição 𝑘 ∑ 𝑖=1 ℎ(𝜃𝑖) = 𝑘 ∑ 𝑖=1 𝑝𝑖 = 1 . Utilizando o método de multiplicadores de Lagrange, deve-se maximizar a função lagrangiana ℰ∗(ℎ) = − 𝑘 ∑ 𝑖=1 𝑝𝑖 log(𝑝𝑖) + 𝜆 ( 𝑘 ∑ 𝑖=1 𝑝𝑖 − 1) 𝜕ℰ∗(ℎ) 𝜕𝑝𝑖 = − [𝑝𝑖 1 𝑝𝑖 + log(𝑝𝑖)]+𝜆 = 0 ⟺ 𝑝𝑖 = 𝑒𝜆−1 , 𝑖 = 1, … , 𝑘 . Assim, como 𝑝𝑖 deve ser constante e ∑ 𝑝𝑖 = 1, conclui-se que 𝑝𝑖 = 1/𝑘, para 𝑖 = 1, … , 𝑘 . 50 CHAPTER 3. INTRODUÇÃO À INFERÊNCIABAYESIANA Exemplo 2. Considere agora Θ = {𝜃1, 𝜃2, …} e suponha que há 𝑚 informações parciais a respeito do parâmetro 𝜃 que podem ser escritas como E[𝑔𝑗(𝜃)] = 𝜇𝑗 , 𝑗 = 1, … , 𝑚 . Usando novamente o método de Lagrange, deve-se maximizar ℰ∗(ℎ) = ∞ ∑ 𝑖=1 𝑝𝑖 log(𝑝𝑖)+𝜆 ( ∞ ∑ 𝑖=1 𝑝𝑖 − 1)+ 𝑚 ∑ 𝑗=1 𝜆𝑗 ( ∞ ∑ 𝑖=1 𝑝𝑖 𝑔𝑗(𝜃𝑖) − 𝜇𝑗) 𝜕ℰ∗(ℎ) 𝜕𝑝𝑖 = − log(𝑝𝑖) − 1 + 𝜆 + 𝑚 ∑ 𝑗=1 𝜆𝑗 𝑔𝑗(𝜃𝑖) = 0 ⟺ 𝑝𝑖 ∝ 𝑒𝜆−1+∑𝑚 𝑗=1 𝜆𝑗 𝑔𝑗(𝜃𝑖) ∝ 𝑒∑𝑚 𝑗=1 𝜆𝑗 𝑔𝑗(𝜃𝑖) , 𝑖 = 1, … , 𝑘 . Como ∑ 𝑝𝑖 = 1, 𝑝𝑖 = 𝑒∑𝑚 𝑗=1 𝜆𝑗 𝑔𝑗(𝜃𝑖) ∑∞ 𝑖=1 𝑒∑𝑚 𝑗=1 𝜆𝑗 𝑔𝑗(𝜃𝑖) e 𝜆𝑗 é obtido por meio das restrições. Exemplo 2a. Seja Θ = {0, 1, 2, …} e suponha que E[𝜃] = 𝜇. Usando o resultado do exemplo anterior com 𝑔(𝜃) = 𝜃 e 𝜃𝑖 = 𝑖, 𝑖 = 0, 1, 2, … , 𝑝𝑖 = 𝑒∑𝑚 𝑗=1 𝜆𝑗 𝑔𝑗(𝜃𝑖) ∑∞ 𝑖=0 𝑒∑𝑚 𝑗=1 𝜆𝑗 𝑔𝑗(𝜃𝑖) = 𝑒𝜆 𝑖 ∑∞ 𝑖=0 𝑒𝜆 𝑖 ∣𝑒𝜆∣<1 = 𝑒𝜆 𝑖 1/ (1 − 𝑒𝜆) = (𝑒𝜆)𝑖 (1 − 𝑒𝜆) ⟹ 𝜃 ∼ Geo (1 − 𝑒𝜆) . Como E [𝜃] = 𝑒𝜆 (1 − 𝑒𝜆) = 𝜇, tem-se que 𝜆 = log 𝜇 1 + 𝜇 . Exemplo 2b. Considere que Θ = {1, 2, … , 𝑘} e suponha que Med(𝜃) = 𝑚 . Nesse caso, 𝑔(𝜃) = 𝕀 (𝜃 ≤ 𝑚) e 𝜃𝑖 = 𝑖, 𝑖 = 1, 2, … , 𝑘 , de modo que E [𝑔(𝜃)] = E [𝕀(𝜃 ≤ 𝑚)] = P (𝜃 ≤ 𝑚) = 1/2 e, portanto, ∑ 𝑖≤𝑚 𝑝𝑖 = ∑ 𝑗>𝑚 𝑝𝑗 = 1/2 . 𝑝𝑖 = 𝑒∑𝑚 𝑗=1 𝜆𝑗 𝑔𝑗(𝜃𝑖) ∑𝑘 𝑖=1 𝑒∑𝑚 𝑗=1 𝜆𝑗 𝑔𝑗(𝜃𝑖) = ⎧{{ ⎨{{⎩ 𝑒𝜆 ∑𝑖≤𝑚 𝑒𝜆 , 𝑖 ≤ 𝑚 1 ∑𝑖≤𝑚 1 , 𝑖 > 𝑚 = ⎧{ ⎨{⎩ 1 2𝑚 , 𝑖 ≤ 𝑚 1 2(𝑘 − 𝑚) , 𝑖 > 𝑚 (A distribuição de 𝜃 é uniforme por blocos.) 3.4. DISTRIBUIÇÃO A PRIORI 51 Divergência de Kullbach-Leibler. Considere duas distribuições discre- tas 𝑝 = (𝑝1, … , 𝑝𝑘) e 𝑞 = (𝑞1, … , 𝑞𝑘) , tal que 𝑝𝑖, 𝑞𝑖 > 0 , 𝑖 = 1, … , 𝑘 , e ∑ 𝑝𝑖 = ∑ 𝑞𝑖 = 1. A divergência de Kullbach-Leibler entre 𝑝 e 𝑞 (Kullback and Leibler, 1951) é dada por 𝐷(𝑝 || 𝑞) = ∑ 𝑝𝑖 log(𝑝𝑖 𝑞𝑖 ) . Suponha que 𝑔 = (1/𝑘, … , 1/𝑘) 𝐷(𝑝 || 𝑞) = 𝑘 ∑ 𝑖=1 𝑝𝑖 log( 𝑝𝑖 1/𝑘) = 𝑘 ∑ 𝑖=1 𝑝𝑖 [𝑙𝑛(𝑝𝑖) − 𝑙𝑛(1/𝑘)] = 𝑘 ∑ 𝑖=1 𝑝𝑖𝑙𝑛(𝑝𝑖) + 𝑙𝑛(𝑘) 𝑘 ∑ 𝑖=1 𝑝𝑖 = 𝑙𝑛(𝑘) − ℰ(𝑝) Assim, exceto por uma constante, ℰ(𝑝) está associado com quanto a distribuição 𝑝 “diverge” da distribuição uniforme (priori de referência na ausência total de informação). Observação: No caso geral, se 𝐻 e 𝐻0 são duas medidas definidas em Θ tais que 𝐻 é absolutamente contínua com relação à 𝐻0 (𝐻 ≪ 𝐻0), a divergência de Kullbach-Leibler é definida como 𝐷(𝐻 || 𝐻0) = ∫ Θ log( 𝑑𝐻 𝑑𝐻0 ) 𝑑𝐻 , em que 𝑑𝐻 𝑑𝐻0 é derivada de Radon-Nikodym. Se 𝐻 e 𝐻0 são medidas de prob- abilidade absolutamente contínuas com relação a medida de Lebesgue 𝜆 com f.d.p. 𝑑𝐻 𝑑𝜆 = ℎ e 𝑑𝐻0 𝑑𝜆 = ℎ0, temos que, 𝐷(𝐻 || 𝐻0) = ∫ Θ log( 𝑑𝐻/𝑑𝜆 𝑑𝐻0/𝑑𝜆) 𝑑𝐻 𝑑𝜆 𝑑𝜆 = ∫ Θ log( ℎ(𝜃) ℎ0(𝜃)) ℎ(𝜃) 𝑑𝜃 Como a definição anterior de entropia vale apenas para o caso discreto, Jaynes (2003) sugere que no caso contínuo seja utilizada a entropia relativa, dada por ℰ(ℎ) = − ∫ Θ ℎ(𝜃) log( ℎ(𝜃) ℎ0(𝜃)) 𝑑𝜃 = −𝐷(ℎ || ℎ0) , onde ℎ0 é uma priori de referência na ausência total de informação, preferivel- mente invariante. 52 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA Assim como no caso discreto, se temos 𝑚 restrições 𝐸[𝑔𝑖(𝜃)] = 𝜇𝑖, a densidade de máxima entropia é ℎ(𝜃) ∝ ℎ0(𝜃) exp{ 𝑚 ∑ 𝑗=1 𝜆𝑗 𝑔𝑗(𝜃)} e os 𝜆𝑗 , 𝑗 = 1, … , 𝑚 , são obtidos das re- strições. Por exemplo, se 𝑔(𝜃) = 𝜃 com 𝐸[𝜃] = 𝜇, basta fazer 𝜇 = ∫ Θ 𝜃 𝑐 ℎ0(𝜃) exp{𝜆𝜃} 𝑑𝜃 com 𝑐−1 = ∫ Θ ℎ0(𝜃)𝑒𝑥𝑝{𝜆𝜃}𝑑𝜃. Exemplo 1: Θ = ℝ+ e E[𝜃] = 𝜇 . Tomando ℎ0(𝜃) ∝ 𝕀ℝ+ (𝜃) (f.d.p. imprópria), tem-se ℎ(𝜃) ∝ 𝑒𝜆𝜃 𝕀ℝ+ (𝜃) ∝ −𝜆𝑒𝜆𝜃 𝕀ℝ+ (𝜃) 𝕀ℝ− (𝜆) . Como E[𝜃] = −1/𝜆 = 𝜇 , tem-se que 𝜆 = −1/𝜇, isto é, 𝜃 ∼ Exp(1/𝜇) , de modo que ℎ(𝜃) = 1 𝜇𝑒− 𝜃 𝜇 , 𝜇 > 0 . Exemplo 2 Θ = ℝ e E[𝜃] = 𝜇 e Var(𝜃) = E[(𝜃 − 𝜇)2] = 𝜎2 . Tomando 𝑔1(𝜃) = 𝜃 e 𝑔2(𝜃) = (𝜃 − 𝜇)2, tem-se pelo resultado anterior que ℎ(𝜃) ∝ exp {𝜆1𝜃 + 𝜆2(𝜃 − 𝜇)2} ∝ exp {𝜆1𝜃 + 𝜆2(𝜃2 − 2𝜃𝜇 + 𝜇2)} ∝ exp{𝜆2 [𝜃2 − (2𝜇 − 𝜆1 𝜆2 ) 𝜃]} ∝ exp{𝜆2 [𝜃 − (𝜇 − 𝜆1 2𝜆2 )] 2 } . Considere que 𝜃 ∼ 𝑁(𝜇, 𝜎2), isto é, 𝑓(𝜃) = 1√ 2𝜋 𝜎 exp{− 1 2𝜎2 (𝑥 − 𝜇)2} ∝ exp{− 1 2𝜎2 (𝑥 − 𝜇)2} . Assim, para concluir que a distribuição de máxima entropia nesse caso é a Normal anterior, basta tomar 𝜇 − 𝜆1 2𝜆2 = 𝜇 para ver que 𝜆1 = 0 e 𝜆2 = − 1 2𝜎2 . 3.5. ALGUNS PRINCÍPIOS DE INFERÊNCIA 53 3.5 Alguns Princípios de Inferência Considere um experimento 𝐸 = (𝑋, 𝜃, {𝑓(𝑥|𝜃)}) que consiste em observar um particular valor 𝑥 ∈ 𝔛 do v.a. 𝑋 que, para cada possível valor do parâmetro (desconhecido) 𝜃 ∈ Θ, tem f.d.p. 𝑓(𝑥|𝜃). De forma geral, uma inferência sobre 𝜃 baseada no resultado 𝑥 do experimento 𝐸 será denotada por Inf(𝐸, 𝑥) . Princípio de Suficiência. Considere um experimento 𝐸 = (𝑋, 𝜃, {𝑓(𝑥|𝜃)}) e suponha que 𝑇 (𝑋) é uma estatística suficiente para 𝜃. Se 𝑥1 e 𝑥2 são dois pontos amostrais tais que 𝑇 (𝑥1) = 𝑇 (𝑥2) então Inf(𝐸, 𝑥1) = Inf(𝐸, 𝑥2) . Exemplo 1a. Seja 𝑋1, … , 𝑋𝑛 c.i.i.d. tais que 𝑋1 ∼ 𝐵𝑒𝑟(𝜃) . Considere 𝑛 = 10 e os pontos amostrais 𝑥1 = (1, 1, 1, 1, 1, 1, 0, 0, 0, 0) e 𝑥2 = (1, 0, 1, 0, 1, 0, 1, 0, 1, 1) tais que 𝑇 (𝑥1) = ∑ 𝑥1𝑖 = 6 e 𝑇 (𝑥2) = ∑ 𝑥2𝑖 = 6. Um possível estimador para 𝜃 nesse exemplo é a média amostral, de modo que ̄𝑥1 = ̄𝑥2 = ∑ 𝑥𝑖 𝑛 = 0, 6 . Exemplo 1b. Ainda no contexto do exemplo anterior, considere que a priori 𝜃 ∼ Beta(𝑎, 𝑏) . Então, se 𝑇 (𝑥1) = 𝑇 (𝑥2) = 𝑡, 𝜃|𝑥1 ∼ 𝜃|𝑥2 ∼ 𝜃|𝑇 (𝑥1) = 𝑡 ∼ 𝐵𝑒𝑡𝑎(𝑎 + 𝑡, 𝑏 + 𝑛 − 𝑡) . Princípio da Condicionalidade. Suponha que 𝐸1 = (𝑋1, 𝜃, {𝑓(𝑥1|𝜃)}) e 𝐸2 = (𝑋2, 𝜃, {𝑓(𝑥2|𝜃)}) são dois experimentos onde somente o parâmetro 𝜃 precisa ser comum. Considere um experimento misto em que é observada uma v.a. 𝐽 , com 𝑃(𝐽 = 1) = 𝑃(𝐽 = 2) = 1/2, independente de 𝑋1, 𝑋2 e 𝜃, e então o experimento 𝐸𝐽 é realizado. Formalmente, o experimento realizado nesse caso é 𝐸∗ = (𝑋∗, 𝜃, {𝑓∗(𝑥∗|𝜃)}), onde 𝑋∗ = (𝐽, 𝑋𝐽) e 𝑓∗(𝑥|𝜃) = 1 2 𝑓𝑗(𝑥𝑗|𝜃) . Então, Inf (𝐸∗, (𝑗, 𝑥𝑗)) = Inf (𝐸𝑗, 𝑥𝑗) . Princípio da Verossimilhança. Suponha dois experimentos 𝐸1 = (𝑋1, 𝜃, {𝑓1(𝑥1|𝜃)}) e 𝐸2 = (𝑋2, 𝜃, {𝑓2(𝑥2|𝜃)}), ambos com o mesmo parâmetro 𝜃. Suponha que 𝑥1 e 𝑥2 são pontos amostrais de 𝐸1 e 𝐸2, respectivamente, tais que 𝑓1(𝑥1|𝜃) ∝ 𝑐(𝑥1, 𝑥2)𝑓2(𝑥2|𝜃) , ∀𝜃 ∈ Θ ., então, Inf(𝐸1, 𝑥1) = Inf(𝐸2, 𝑥2). 54 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA Teorema de Birnbaum. (P. Suficiência ∧ P. Condicionalidade) ⟺ P. Verossimilhança. Demo: (⟹) Seja 𝑥∗ 1, 𝑥∗ 2, 𝐸1, 𝐸2 como no P. Verossimilhança e 𝐸∗ como no P. Condicionalidade. Então, 𝑓1(𝑥1|𝜃) ∝ 𝑐(𝑥1, 𝑥2)𝑓2(𝑥2|𝜃) . No espaço do experimento 𝐸∗, defina 𝑇 (𝑗, 𝑥𝑗) = { (1, 𝑥∗ 1), se 𝑗 = 1, 𝑥1 = 𝑥∗ 1 (𝑗, 𝑥𝑗), c. c. . Como 𝑓∗(𝑥∗|𝜃) = 𝑓∗ ((𝑗, 𝑥𝑗)|𝜃) = 1/2 𝑓𝑗(𝑥𝑗|𝜃), pelo o Teorema da Fatoração é possível concluir que 𝑇 (𝑗, 𝑥𝑗) é suficiente para 𝜃 no experimento 𝐸∗. Então, pelo P. Suficiência, Inf (𝐸∗, (1, 𝑥1)) = Inf (𝐸∗, (2, 𝑥2)) e, pelo P. Condicionalidade, Inf (𝐸∗, (1, 𝑥∗ 1)) = Inf (𝐸1, 𝑥∗ 1) = Inf (𝐸∗, (2, 𝑥2)) = Inf (𝐸2, 𝑥∗ 2) , de modo que Inf (𝐸1, 𝑥∗ 1) = Inf (𝐸2, 𝑥∗ 2) e, portanto, vale o P. Verossimilhança. (⟸) Como vale o P. Verossimilhança, 𝑓1(𝑥∗ 1|𝜃) ∝ 𝑓2(𝑥∗ 2|𝜃) e Inf(𝐸1, 𝑥∗ 1) = Inf(𝐸2, 𝑥∗ 2) . Além disso, se 𝑥∗ = (1, 𝑥∗ 1), 𝑓∗(𝑥∗|𝜃) = 𝑓∗ ((1, 𝑥∗ 1)|𝜃) = 1/2 𝑓1(𝑥∗ 1|𝜃) ∝ 𝑓1(𝑥∗ 1|𝜃) ∝ 1/2 𝑓2(𝑥∗ 2|𝜃) = 𝑓∗ ((2, 𝑥∗ 2)|𝜃) , e, como vale P. Verossimilhança, então Inf (𝐸∗, (1, 𝑥∗ 1)) = Inf(𝐸1, 𝑥∗ 1) . Usando o mesmo argumento, se 𝑥∗ = (2, 𝑥∗ 2), conclui-se que Inf (𝐸∗, (2, 𝑥∗ 2)) = 𝐼𝑛𝑓(𝐸2, 𝑥∗ 2) . Portando, vale o P. Condicionalidade. Pelo Teorema de Fatoração, 𝑓(𝑥|𝜃) = 𝑔 (𝑇 (𝑥), 𝜃) ℎ(𝑥) ∝ 𝑔 (𝑇 (𝑥), 𝜃) . Se 𝑥1 e 𝑥2 são pontos amostrais tais que 𝑇 (𝑥1) = 𝑇 (𝑥2), 𝑓1(𝑥1|𝜃) ∝ 𝑔 (𝑇 (𝑥1), 𝜃) ∝ 𝑔(𝑇 (𝑥2), 𝜃) ∝ 𝑓2(𝑥2|𝜃) , tem-se, pelo P. Verossimilhança, que Inf(𝐸1, 𝑥1) =Inf(𝐸2, 𝑥2) e, portanto vale o P. Suficiência. Exemplo. Seja 𝑋1|𝜃 ∼ 𝐵𝑖𝑛(𝑛, 𝜃) e 𝑋2|𝜃 ∼ 𝐵𝑖𝑛𝑁𝑒𝑔(𝑟, 𝜃), onde 𝑛 é número total de lançamentos (fixado) e 𝑟 é número de fracas- sos (fixado). Então, 𝐸1 = (𝑋1, 𝜃, {( 𝑛 𝑥1 )𝜃𝑥1(1 − 𝜃)𝑛−𝑥1 ∶ 𝜃 ∈ [0, 1]}) e 𝐸2 = (𝑋2, 𝜃, {(𝑟+𝑥2−1 𝑥2 )𝜃𝑥2(1 − 𝜃)𝑟 ∶ 𝜃 ∈ [0, 1]}) . Note que em am- bos os experimentos, o parâmetro 𝜃 é o mesmo! 3.5. ALGUNS PRINCÍPIOS DE INFERÊNCIA 55 (I) Estimação pontual usando Estimador Não-Viesado (ENV) para 𝜃, isto é, ̂𝜃𝑖(𝑋𝑖) tal que 𝐸 [ ̂𝜃𝑖(𝑋𝑖)|𝜃] = 𝜃. Nesse caso, Inf(𝐸𝑖, 𝑥𝑖) = ̂𝜃𝑖(𝑥𝑖) para 𝑖 = 1, 2. Então, ̂𝜃1(𝑋𝑖) = 𝑋1 𝑛 e ̂𝜃2(𝑋2) = 𝑋2 − 1 𝑋2 + 𝑟 − 1 são ENV para 𝜃 em 𝐸1 e 𝐸2, respectivamente. Suponha que 𝑛 = 12, 𝑟 = 3 e 𝑥1 = 𝑥2 = 9. Então, as funções de verossimilhança são 𝑓1(𝑥1|𝜃) = (12 9 )𝜃9(1 − 𝜃)3 ∝ (11 9 )𝜃9(1 − 𝜃)3 = 𝑓2(𝑥2|𝜃). Contudo, ̂𝜃1(𝑥1) = 9 12 = 0, 75 ≠ ̂𝜃2(𝑥2) = 8 11 ≈ 0, 72 ̄72, e portanto, o ENV viola o P. Verossimilhança. (II) Estimador de Máxima Verossimilhança (EMV) 𝛿𝑀𝑉 é um estimador tal que 𝛿𝑀𝑉 (𝑥) = arg sup 𝜃∈Θ 𝑓(𝑥|𝜃) . 𝛿1 𝑀𝑉 (𝑥1) = 𝑥1 𝑛 = 𝛿2 𝑀𝑉 (𝑥2) = 𝑥2 𝑥2 + 𝑟 = 9 12 = 0, 75 . Portanto, o EMV não viola o P. Verossimilhança. (III) Suponha que deseja-se testar 𝐻0 ∶ 𝜃 ≤ 1/2 (Θ0) contra 𝐻1 ∶ 𝜃 > 1/2 (Θ1) , com Θ = Θ0 ∪ Θ1 . 𝜙(𝑥) = { 1, 𝑇 (𝑥) ≤ 𝑐(𝛼) 0, 𝑇 (𝑥) > 𝑐(𝛼) em que 𝑇 é uma estatística de teste (isto é, valores “grandes” de 𝑇 (𝑥) indicam que 𝑥 é “favorável” a 𝐻0) e 𝑐(𝛼) é tal que 𝛼 = sup 𝜃0∈Θ0 P(Rejeitar 𝐻0 | 𝜃0) sup 𝜃0∈Θ0 P ({𝑥 ∈ 𝔛 ∶ 𝑇 (𝑥) ≤ 𝑐(𝛼)} | 𝜃0) . Considere 𝑇 (𝑥) = 𝑅𝑉 (𝑥) = 𝑠𝑢𝑝 Θ0 𝑓(𝑥|𝜃) 𝑠𝑢𝑝 Θ 𝑓(𝑥|𝜃) , de modo que um 𝑝-value pode ser calculado por 𝑝(𝑥) = sup Θ0 P (𝑇 (𝑋) ≥ 𝑇 (𝑥)|𝜃). Assim, um teste que conduz a uma decisão equivalente ao descrito anterior- mente é rejeitar 𝐻0 se, e somente se, 𝑝(𝑥) ≤ 𝛼. Considere a escolha usual 𝛼 = 0.05. Então, 𝑝1(𝑥1) = 𝑃(𝑋1 ≥ 9|𝜃 = 1/2) = 0.073 > 0.05 ⇒ Não rejeita 𝐻0 . 𝑝2(𝑥2) = 𝑃 (𝑋2 ≥ 9|𝜃 = 1/2) = 0.0327 < 0.05 ⇒ Rejeita 𝐻0 . Portanto, o Teste da Razão de Verossimilhanças viola o P. Verossim- ilhança. 56 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA (IV) Aboragem Bayesiana ⇒ 𝐼𝑛𝑓(𝐸𝑖, 𝑥𝑖) = 𝑓𝑖(𝜃|𝑥𝑖) a) Bayesiano Subjetivista Como o parâmetro 𝜃 é o mesmo nos dois experimentos, a priori deve ser a mesma. 𝑓(𝜃) não depende de {𝑓𝑖(𝑥|𝜃) ∶ 𝜃 ∈ Θ} 𝑓(𝜃|𝑥) ∝ 𝑓(𝜃)𝑓(𝑥1|𝜃) ∝ 𝑓(𝜃)𝑓(𝑥2|𝜃) e, portanto, satisfaz o P. Verossimilhança. b) Bayesiano Objetivista (p.e., usando priori de Jeffreys) Para 𝐸1, 𝑓1(𝜃) ∝ |𝐼𝐹 (𝜃)|1/2 ∝ 𝜃−1/2(1 − 𝜃)−1/2 ∼ 𝐵𝑒𝑡𝑎(1/2, 1/2) Para 𝐸2, 𝑓2(𝜃) ∝ 𝜃−1(1 − 𝜃)−1/2 ∼ 𝐵𝑒𝑡𝑎(0, 1/2) (distribuição im- própria). Se o número de sucessos é 𝑥 = 𝑥1 = 𝑥2 e número de fracassos é 𝑦 = 𝑛 − 𝑥1 = 𝑟, temos que 𝜃|𝑋1 = 𝑥1 ∼ 𝐵𝑒𝑡𝑎(𝑥+1/2, 𝑦+1/2) e 𝜃|𝑋2 = 𝑥2 ∼ 𝐵𝑒𝑡𝑎(𝑥, 𝑦+1/2) . Como 𝑓1(𝑥1|𝜃) ∝ 𝑓2(𝑥2|𝜃) mas 𝑓1(𝜃) ≠ 𝑓2(𝜃), tem-se que 𝑓1(𝜃|𝑥1) ≠ 𝑓2(𝜃|𝑥2) e, portanto, esse procedimento viola o P. Verossimilhança. Chapter 4 Introdução à Teoria da Decisão A teoria da decisão é uma das possíveis formas de embasar a inferência bayesiana. Sob essa abordagem, considera-se uma função de perda (ou função de utilidade) que quantifica numericamente as consequências de sua decisão para um dado valor do parâmetro. Essa quantificação de “preferência” é nova- mente subjetiva e é possível fazer uma construção de função de perda similar ao que fizemos com probabilidade. Ou seja, dado um conjunto de suposições, existe uma função de perda que representa numericamente suas preferências para cada decisão e cada possível valor do parâmetro. Essa construção não será feita aqui mas pode ser encontrada no livro Optimal Statistical Decisions (DeGroot, 1970). 4.1 Conceitos Básicos • 𝑑 ∈ 𝒟 ∶ decisão - uma particular afirmação, por exemplo, sobre 𝜃. No contexto inferencial, uma decisão pode ser uma estimativa (pontual ou intervalar) para 𝜃 ou a escolha de uma hipótese específica em um teste de hipóteses. • 𝒟 ∶ espaço de decisões - conjunto de todas as possíveis decisões (afir- mações). • 𝜃: estado da natureza - quantidade desconhecida ou parâmetro, no contexto de inferência estatística. • Θ: espaço dos estados da natureza - espaço paramétrico. 57 58 CHAPTER 4. INTRODUÇÃO À TEORIA DA DECISÃO • 𝐿 ∶ 𝒟 × Θ ⟶ ℝ: função de perda - 𝐿(𝑑, 𝜃) que representa o prejuízo de uma decisão 𝑑 quando o estado da natureza é 𝜃. Exemplo 1. Suponha que você está saindo de casa pela manhã e precisa tomar uma importante decisão: levar ou não seu guarda-chuva. • 𝒟 = {𝐺, 𝐺𝑐} , onde 𝐺 ∶ levar guarda-chuva. • Θ = {𝐶, 𝐶𝑐} , onde 𝐶 ∶ chuva. Suponha que carregar o guarda-chuva é algo que não lhe agrada mas, por outro lado, você odeia ficar molhado e acredita que a pior situação seria não levá-lo e tomar chuva. Você ficará incomodado se levar o guarda-chuva e chover pois, além de tê-lo carregado, voltou para casa com os sapatos molhados. Note que, nessas circunstâncias, o cenário preferido por você seria não levar o guarda-chuva e não chover. Para quantificar suas preferências, considere uma função de perda 𝐿 ∶ 𝒟×Θ ⟶ ℝ, de modo que, quanto mais algum cenário lhe gera incômodo, maior sua perda. Um exemplo é apresentado a seguir. Estados da Natureza Decisão 𝐶 𝐶𝑐 𝐺 2 (ruim) 1 (bom) 𝐺𝑐 3 (pior) 0 (melhor) 𝑃(𝜃) p 1-p Uma possível maneira de tomar uma decisão é escolher a decisão “menos prej- udicial”. Se levar o Guarda chuva, no pior caso, sua perda é max 𝜃 𝐿(𝐺, 𝜃) = 2 e, se não levá-lo, a maior perda possível é max 𝜃 𝐿(𝐺𝑐, 𝜃) = 3. Assim, a decisão que tem a menor dentre as maiores perdas é levar o guarda-chuva. Esse pro- cedimento para tomada de decisões é chamado min-max e consiste em escolher a decisão 𝑑′ tal que 𝑑′ = argmin 𝑑 max 𝜃 𝐿(𝑑, 𝜃). Sendo um pouco mais otimista, você pode escolher a decisão que tenha a maior dentre as menores perdas. Esse procedimento é chamado max-min e consiste em escolher a decisão 𝑑′ = argmax 𝑑 min 𝜃 𝐿(𝑑, 𝜃). No nosso exemplo, esse proced- imento também sugere que você sempre carregue o guarda-chuvas. Note que a decisão escolhida pelos dois procedimentos descritos anteriormente sugere que você sempre deve carregar o guarda-chuvas. Contudo, isso pode não ser razoável. Imagine que você estava lendo notícias antes de sair de casa e viu 4.1. CONCEITOS BÁSICOS 59 que a probabilidade de chuva era 0.01. Nesse caso, não parece fazer sentido você levar o guarda-chuva, já que isso vai te trazer um desconforto e a chance de chover é muito baixa. Assim, a probabilidade de chover deveria ser levada em consideração em sua tomada de decisão. Uma maneira de fazer isso é utilizar a perda esperada. Note que 𝜃 é uma quantidade desconhecida e, pelo que já foi discutido anteriormente, você deve descrever sua incerteza em relação a essa quantidade em termos de probabili- dade. Suponha que no exemplo 𝑃(𝐶) = 𝑝, 0 ≤ 𝑝 ≤ 1. Para cada decisão 𝑑 ∈ 𝒟, é possível calcular o valor esperado da função de perda (perda esperada ou risco da decisão 𝑑 contra a priori 𝑃 ) 𝜌(𝑑, 𝑃 ) = 𝐸 [𝐿(𝑑, 𝜃) | 𝑃 ] = ∫ Θ 𝐿(𝜃)𝑑𝑃(𝜃). No exemplo, temos • 𝐸 [𝐿(𝐺, 𝜃)] = 𝐿(𝐺, 𝐶)𝑃(𝐶) + 𝐿(𝐺, 𝐶𝑐)𝑃 (𝐶𝑐) = 2𝑝 + 1(1 − 𝑝) = 𝑝 + 1; • 𝐸 [𝐿(𝐺𝑐, 𝜃)] = 𝐿(𝐺𝑐, 𝐶)𝑃 (𝐶) + 𝐿(𝐺𝑐, 𝐶𝑐)𝑃 (𝐶𝑐) = 3𝑝 + 0(1 − 𝑝) = 3𝑝. Deste modo, as perdas esperadas associadas a cada decisão dependem da prob- abilidade de chuva 𝑝. Assim, para cada possível valor de 𝑝, deve-se tomar a decisão que tem menor perda esperada. Por exemplo, se a probabilidade de chuva é 𝑝 = 0.1, temos que as perdas esperadas para as decisões de levar ou não o guarda-chuva são, respectivamente, 𝐸 [𝐿(𝐺, 𝜃)] = 1.1 e 𝐸 [𝐿(𝐺𝑐, 𝜃)] = 0.3. Assim, sob essa abordagem, sua decisão seria de não levar o guarda-chuva nesse caso. Por outro lado, se a probabilidade de chuva for 𝑝 = 0.9, suas perdas es- peradas seriam respectivamente 𝐸 [𝐿(𝐺, 𝜃)] = 1.9 e 𝐸 [𝐿(𝐺𝑐, 𝜃)]