Baixe o app para aproveitar ainda mais
Prévia do material em texto
Fundamentos de Inferência Bayesiana Victor Fossaluza e Luís Gustavo Esteves 2020-11-13 2 Contents 1 Prefácio 5 2 Probabilidade Subjetiva 7 2.1 Definição Axiomática . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.2 Interpretações de Probabilidade . . . . . . . . . . . . . . . . . . . 7 2.3 Relação de Crença ≾ . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.4 Medida de Probabilidade que “representa” ≾ . . . . . . . . . . . 13 2.5 Medida de Probabilidade Condicional . . . . . . . . . . . . . . . 16 3 Introdução à Inferência Bayesiana 17 3.1 Conceitos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.2 Teorema de De Finetti . . . . . . . . . . . . . . . . . . . . . . . . 24 3.3 Suficiência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 3.4 Distribuição a Priori . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.5 Alguns Princípios de Inferência . . . . . . . . . . . . . . . . . . . 44 4 Introdução à Teoría da Decisão 49 4.1 Conceitos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 4.2 Aleatorização e Decisões Mistas . . . . . . . . . . . . . . . . . . . 53 4.3 Problemas com Dados . . . . . . . . . . . . . . . . . . . . . . . . 53 5 Estimação 57 5.1 Estimação Pontual . . . . . . . . . . . . . . . . . . . . . . . . . . 57 5.2 Estimação por Regiões . . . . . . . . . . . . . . . . . . . . . . . . 61 5.3 Custo das Observações . . . . . . . . . . . . . . . . . . . . . . . . 68 3 4 CONTENTS 6 Testes de Hipóteses 71 6.1 Conceitos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 6.2 Revisão: Abordagem Frequentista . . . . . . . . . . . . . . . . . 72 6.3 Abordagem Bayesiana (via Teoria da Decisão) . . . . . . . . . . . 74 6.4 Probabilidade Posterior de 𝐻0 . . . . . . . . . . . . . . . . . . . . 76 6.5 Fator de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 6.6 Teste de Jeffreys . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 6.7 Hipóteses Precisas . . . . . . . . . . . . . . . . . . . . . . . . . . 85 6.8 FBST - Full Bayesian Significance Test . . . . . . . . . . . . . . 85 6.9 P-value - Nivel de Significância Adaptativo . . . . . . . . . . . . 89 7 Métodos Computacionais 95 7.1 Método de Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . 96 7.2 Monte Carlo com Amostragem de Importância . . . . . . . . . . 104 7.3 Método de Rejeição . . . . . . . . . . . . . . . . . . . . . . . . . 104 7.4 ABC (Aproximated Bayesian Computation) . . . . . . . . . . . . 107 7.5 MCMC - Monte Carlo via Cadeias de Markov . . . . . . . . . . . 108 7.6 Bibliotecas de R para Inferência Bayesiana . . . . . . . . . . . . . 115 A Breve Resumo de Medida e Probabilidade 161 A.1 Conceitos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 A.2 Valor Esperado de 𝑋 (OU uma ideia da tal Integral de Lebesgue) 163 A.3 Funções de Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . 170 A.4 Função de Distribuição . . . . . . . . . . . . . . . . . . . . . . . . 174 A.5 Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . . . 179 Chapter 1 Prefácio Esse documento foi criado com base nos cursos de Inferência Bayesiana min- istrados por nós no Instituto de Matemática e Estatística da Universidade de São Paulo (IME-USP). Essas notas devem ser usadas como um roteiro de estu- dos e não irão necessariamente apresentar todo o conteúdo dessas disciplinas. Além disso, esta é uma versão preliminar que está bem longe da versão final, de modo que podem haver muitos erros e, assim, correções ou sugestões serão sempre muito bem vindas! 5 6 CHAPTER 1. PREFÁCIO Chapter 2 Probabilidade Subjetiva A construção de probabilidade subjetiva apresentada aqui pode ser encontrada no livro Optimal Statistical Decisions (DeGroot, 1970). • Ω: espaço amostral, conjunto não vazio. • 𝒜: 𝜎-álgebra de subconjuntos de Ω, isto é, 1. Θ ∈ 𝒜; 2. 𝐴 ∈ 𝒜 ⟹ 𝐴𝑐 ∈ 𝒜; 3. 𝐴1, 𝐴2, … ∈ 𝒜 ⟹ ⋃ 𝑖≥1 𝐴𝑖 ∈ 𝒜. • Os elementos de 𝒜 são chamados de eventos e serão denotados por 𝐴, 𝐵, 𝐶, … , 𝐴1, 𝐴2, … 2.1 Definição Axiomática • 𝑃 ∶ 𝒜 ⟶ [0, 1] é uma medida de probabilidade se 1. 𝑃(Ω) = 1; 2. 𝐴1, 𝐴2, … ∈ 𝒜 com 𝐴𝑖 ⋂ 𝐴𝑗 = ∅ , 𝑃 (⋃ 𝑖≥1 𝐴𝑖) = ∑ 𝑖≥1 𝑃 (𝐴𝑖). 2.2 Interpretações de Probabilidade • Interpretação Clássica (De Moivre, Laplace) – baseia-se na equiprobabilidade dos resultados; 7 8 CHAPTER 2. PROBABILIDADE SUBJETIVA – 𝑃(𝐴) = |𝐴||Ω| . – Exemplo: um lançamento de moeda, 𝐴 = “cara”, 𝑃(𝐴) = 12 . • Interpretação Frequentista (Venn, von Mises, Reichenbach, etc.) – quase unânime na primeira metade do século XX e ainda é a mais aceita; – baseia-se na regularidade das frequências relativas (lei dos grandes números); – 𝑃(𝐴) = 𝑙𝑖𝑚 𝐴𝑛𝑛 , onde 𝐴𝑛 é o número de ocorrências de 𝐴 em 𝑛 realizações idênticas e independentes do experimento; – Supõe que é possível repetir indefinidamente o experimento nas mes- mas circustâncias. – Exemplo: um lançamento de moeda, 𝐴 = “cara”. 0.0 0.2 0.4 0.6 0 50 100 150 n P n(A ) = F re q. R el at iv a de C ar as Convergência da Frequência Relativa • Interpretação Lógica (Keynes, Jeffreys, Carnap, etc.) – medida de “vínculo parcial” entre uma evidência e uma hipótese; – baseia-se em relações objetivas entre proposições. – Exemplo: considere duas proposições: “até agora todos os lança- mentos resultaram em cara” e “será realizado um novo lançamento”. Pode-se afirmar que “provavelmente o resultado do novo lançamento será cara”. 2.3. RELAÇÃO DE CRENÇA ≾ 9 • Interpretação Subjetivista (Ramsey, de Finetti, Savage, etc) – probabilidade como medida subjetiva de crença; – baseada na experiência de cada indivíduo, portanto única. – Exemplo: suponha que Bruno lançou uma moeda 3 vezes e todos os resultados foram cara. Esse indivíduo, em posse dessa informação, pode acreditar que o resultado cara é mais provável que coroa. Con- tudo, quando pergunta sobre a probabilidade de cara ao seu colega Olavo, ignorante com relação a moeda, ele responde que é 1/2. 2.3 Relação de Crença ≾ ≾ : relação de “crença” em 𝒜 × 𝒜 • 𝐴 ≺ 𝐵 : acredito mais em 𝐵 que em 𝐴 (𝐵 ≻ 𝐴) • 𝐴 ∼ 𝐵 : acredito igualmente em 𝐵 e 𝐴 • 𝐴 ≾ 𝐵 : acredito em 𝐵 pelo menos tanto quanto em 𝐴 Objetivo: sob certas condições em ≾, obter uma medida de probabilidade 𝑃 que representa (concorda) com ≾. 𝐴 ≾ 𝐵 ⟺ 𝑃(𝐴) ≤ 𝑃(𝐵) Suposições sobre ≾ SP1: Para 𝐴, 𝐵 ∈ 𝒜, exatamente uma das afirmações a seguir deve valer: 𝐴 ≺ 𝐵 , 𝐵 ≺ 𝐴 ou 𝐴 ∼ 𝐵. SP2: 𝐴1, 𝐴2, 𝐵1, 𝐵2 ∈ 𝒜 tais que 𝐴1 ∩ 𝐴2 = 𝐵1 ∩ 𝐵2 = ∅ e 𝐴𝑖 ≾ 𝐵𝑖, 𝑖 = 1, 2. Então 𝐴1 ∪ 𝐴2 ≾ 𝐵1 ∪ 𝐵2. Além disso, se 𝐴𝑖 ≺ 𝐵𝑖 para algum 𝑖, então 𝐴1 ∪ 𝐴2 ≺ 𝐵1 ∪ 𝐵2. SP3: Se 𝐴 é um evento, então ∅ ≾ 𝐴. Além disso, ∅ ≺ Ω. 10 CHAPTER 2. PROBABILIDADE SUBJETIVA SP4: Se 𝐴1, 𝐴2, … uma sequência decrescente de eventos, isto é, 𝐴𝑛 ⊇ 𝐴𝑛+1, ∀𝑛, e 𝐵 tal que 𝐵 ≾ 𝐴𝑛, ∀𝑛 então 𝐵 ≾ ⋂ 𝑛≥1 𝐴𝑛. Lema 1: 𝐴, 𝐵, 𝐷 ∈ 𝒜 tais que 𝐴 ∩ 𝐷 = 𝐵 ∩ 𝐷 = ∅. Então 𝐴 ≾ 𝐵 ⇔ 𝐴 ∪ 𝐷 ≾ 𝐵 ∪ 𝐷 Demo: (⇒) 𝐴 ≾ 𝐵 ⇒ 𝐴 ∪ 𝐷 ≾ 𝐵 ∪ 𝐷 (SP2) (⇐) 𝐵 ≺ 𝐴 ⇒ 𝐵 ∪ 𝐷 ≺ 𝐴 ∪ 𝐷 (SP2) Teorema 1: Se 𝐴 ≾ 𝐵 e 𝐵 ≾ 𝐷 então 𝐴 ≾ 𝐷. Demo: 5 2 6 4 1 3 7 A B D 5 2 6 4 1 3 7 A B D (i) (1) ∪ (2) ∪ (4) ∪ (5) ≾ (1) ∪ (2) ∪ (3) ∪ (6) ⇒ (4) ∪ (5) ≾ (3) ∪ (6). (ii) Analogamente, (2) ∪ (6) ≾ (4) ∪ (7) De (i) e (ii) e pelo Lema 1, (4) ∪ (5) ∪ (2) ∪ (6) ≾ (3) ∪ (6) ∪ (4) ∪ (7) ⇒ (2) ∪ (5) ≾ (3) ∪ (7) ⇒ (2) ∪ (5) ∪ (1) ∪ (4) ≾ (3) ∪ (7) ∪ (1) ∪ (4). 2.3. RELAÇÃO DE CRENÇA ≾ 11 Teorema 2 (generalização do SP2): Se 𝐴1, … , 𝐴𝑛 são eventos disjuntos e 𝐵1, … , 𝐵𝑛 são também eventos disjuntos tais que 𝐴𝑖 ≾ 𝐵𝑖, para 𝑖 = 1, … , 𝑛, então 𝑛 ⋃ 𝑖=1 𝐴𝑖 ≾ 𝑛 ⋃ 𝑖=1 𝐵𝑖. Se 𝐴𝑖 ≺ 𝐵𝑖 para algum i, então ⋃ 𝑛 𝑖=1 𝐴𝑖 ≺ ⋃ 𝑛 𝑖=1 𝐵𝑖. Demo: Basta aplicar SP2 𝑛 − 1 vezes. Teorema 3: Se 𝐴 ≾ 𝐵 então 𝐴𝑐 ≿ 𝐵𝑐. Demo: Do Lema 1, 𝐴∪(𝐴𝑐 ∩𝐵𝑐) ≾ 𝐵∪(𝐴𝑐 ∩𝐵𝑐) ⇒ 𝐵𝑐 ∪(𝐴∩𝐵) ≾ 𝐴𝑐 ∪ (𝐴 ∩ 𝐵) ⇒ 𝐵𝑐 ≾ 𝐴𝑐. Resultado: Para todo evento 𝐴, 𝐴≾ Ω. Demo: Por SP3, ∅ ≾ 𝐴𝑐. Tomando 𝐷 = 𝐴 no Lema 1, ∅ ∪ 𝐴 ≾ 𝐴𝑐 ∪ 𝐴 ⇒ 𝐴 ≾ Ω. Teorema 4: Se 𝐴 ⊆ 𝐵 então 𝐴 ≾ 𝐵. Demo: Suponha, 𝐵 ≺ 𝐴. Tomando 𝐷 = 𝐵𝑐 no Lema 1, 𝐵 ∪ 𝐵𝑐 ≺ 𝐴 ∪ 𝐵𝑐 ⇒ Ω ≺ 𝐴 ∪ 𝐵𝑐. Absurdo! Exemplo 1: 𝜔0 ∈ Ω. 𝐴 ≾ 𝐵 ⇔ {𝜔0 ∈ 𝐵 ou 𝜔0 ∉ (𝐴 ∪ 𝐵)}. Mostre que ≾ obedece a SP1 a SP4. (SP1) 𝐴 ≾ 𝐵 ⇔ 𝜔0 ∈ 𝐵 ∪ (𝐴 ∪ 𝐵)𝑐 ⇒ 𝐵 ≺ 𝐴 ⇔ 𝜔0 ∈ 𝐵𝑐 ∩ (𝐴 ∪ 𝐵) ⇔ 𝜔0 ∈ 𝐴 ∩ 𝐵𝑐. Analogamente, 𝐴 ≺ 𝐵 ⇔ 𝜔0 ∈ 𝐵 ∩ 𝐴𝑐. 𝐴 ∼ 𝐵 ⇔ 𝐴 ≾ 𝐵 e 𝐵 ≾ 𝐴 ⇔ 𝜔0 ∈ [𝐵 ∪ (𝐴 ∪ 𝐵)𝑐] ∩ [𝐴 ∪ (𝐴 ∪ 𝐵)𝑐] ⇔ 𝜔0 ∈ (𝐴 ∩ 𝐵) ∪ (𝐴 ∪ 𝐵)𝑐. (SP2) 𝐴𝑖 ≾ 𝐵𝑖, 𝑖 = 1, 2 ⇔ 𝜔0 ∈ [𝐵1 ∪ (𝐴1 ∪ 𝐵1)𝑐] ∩ [𝐵2 ∪ (𝐴2 ∪ 𝐵2)𝑐] ⇔ 𝜔0 ∈ [(𝐵1 ∪ 𝐵2) ∩ 𝐷𝑐] ∪ (𝐴1 ∪ 𝐵1 ∪ 𝐴2 ∪ 𝐵2)𝑐, 12 CHAPTER 2. PROBABILIDADE SUBJETIVA com 𝐷 = (𝐴1 ∩ 𝐵2) ∪ (𝐴2 ∩ 𝐵1). 𝐴1 ∪ 𝐴2 ≾ 𝐵1 ∪ 𝐵2 ⇔ 𝜔0 ∈ (𝐵1 ∪ 𝐵2) ∪ (𝐴1 ∪ 𝐴2 ∪ 𝐵1 ∪ 𝐵2)𝑐 Como (𝐵1 ∪ 𝐵2) ∩ 𝐷𝑐 ⊆ (𝐵1 ∪ 𝐵2), vale o SP2. (SP3) ∅ ≾ 𝐴 ⇔ 𝜔0 ∈ 𝐴 ∪ (∅ ∪ 𝐴)𝑐 ⇔ 𝜔0 ∈ 𝐴 ∪ 𝐴𝑐 = Ω. Como Ω é não-vazio, ∃𝜔0 ∈ Ω e, portanto, ∅ ≺ Ω. (SP4) Exercício! Exemplo 2: Ω = ℕ, 𝒜 = 𝒫(ℕ). 𝐴 ≾ 𝐵 ⇔ {𝐵 é infinito ou 𝐴 e 𝐵 são finitos com |𝐴| ≤ |𝐵|}. Verifique se ≾ satisfaz SP1 a SP4. Teorema 5: Se 𝐴1 ⊆ 𝐴2 ⊆ … é uma sequência crescente de eventos e 𝐵 é tal que 𝐴𝑛 ≾ 𝐵, ∀𝑛 então ⋃ 𝑛≥1 𝐴𝑛 ≾ 𝐵. Demo: 𝐴𝑐𝑛 ⊇ 𝐴𝑐𝑛+1 e, pelo Teo 3, 𝐴𝑐𝑛 ≿ 𝐵𝑐, ∀𝑛. Por SP4, ⋂𝑛≥1 𝐴𝑐𝑛 ≿ 𝐵𝑐 ⇒ ⋃𝑛≥1 𝐴𝑛 ≾ 𝐵. Teorema 6: (𝐴𝑛)𝑛≥1 e (𝐵𝑛)𝑛≥1 sequências tais que 𝐴𝑖 ∩ 𝐴𝑗 = 𝐵𝑘 ∩ 𝐵𝑙 = ∅, ∀𝑖 ≠ 𝑗, ∀𝑘 ≠ 𝑙. 𝐴𝑖 ≾ 𝐵𝑖, ∀𝑖 ⇒ ⋃ 𝑛≥1 𝐴𝑛 ≾ ⋃ 𝑛≥1 𝐵𝑛. Se existe ao menos um 𝑗 tal que 𝐴𝑗 ≺ 𝐵𝑗 então ⋃ 𝑛≥1 𝐴𝑛 ≺ ⋃ 𝑛≥1 𝐵𝑛. Demo: Da extensão de SP2, temos que 𝑛 ⋃ 𝑖=1 𝐴𝑖 ≾ 𝑛 ⋃ 𝑖=1 𝐵𝑖, ∀𝑛 ≥ 1 ⇒ 𝑛 ⋃ 𝑖=1 𝐴𝑖 ≾ ∞ ⋃ 𝑖=1 𝐵𝑖, ∀𝑛 ≥ 1 ⇒ ∞ ⋃ 𝑖=1 𝐴𝑖 ≾ ∞ ⋃ 𝑖=1 𝐵𝑖 (Teo 5) ∃𝑛0 tal que 𝐴𝑛0 ≺ 𝐵𝑛0 . De SP2, temos que, para 𝑛 ≥ 𝑛0, 𝑛0 ⋃ 𝑖=1 𝐴𝑖 = 𝑛0−1 ⋃ 𝑖=1 𝐴𝑖 ∪𝐴𝑛0 ≺ 𝑛0−1 ⋃ 𝑖=1 𝐵𝑖 ∪𝐵𝑛0 = 𝑛0 ⋃ 𝑖=1 𝐵𝑖 ⇒ 𝑛0 ⋃ 𝑖=1 𝐴𝑖 ≺ 𝑛0 ⋃ 𝑖=1 𝐵𝑖. Da primeira parte, temos que ∞ ⋃ 𝑖=𝑛0+1 𝐴𝑖 ≾ ∞ ⋃ 𝑖=𝑛0+1 𝐵𝑖 e, por SP2, 𝑛0 ⋃ 𝑖=1 𝐴𝑖 ∪ ∞ ⋃ 𝑖=𝑛0+1 𝐴𝑖 ≺ 𝑛0 ⋃ 𝑖=1 𝐵𝑖 ∪ ∞ ⋃ 𝑖=𝑛0+1 𝐵𝑖 provando o resultado. 2.4. MEDIDA DE PROBABILIDADE QUE “REPRESENTA” ≾ 13 2.4 Medida de Probabilidade que “representa” ≾ SP5: Existe uma variável aleatória 𝑋 ∶ Ω ⟶ ℝ, 𝒜-mensurável, tal que 𝑋(𝜔) ∈ [0, 1], ∀𝜔 ∈ Ω e, se 𝐼1 e 𝐼2 são intervalos contidos em [0, 1], {𝑋 ∈ 𝐼1} ≾ {𝑋 ∈ 𝐼2} ⇔ 𝜆(𝐼1) ≤ 𝜆(𝐼2) . • Se 𝐼 = [𝑎, 𝑏] ⊆ [0, 1], 𝜆(𝐼) = 𝑏 − 𝑎 é o comprimento do intervalo 𝐼 (medida de Lebesgue). • “Experimento auxiliar” ; 𝑋 ∼ Uniforme[0,1]. • {𝑋 ∈ [𝑎, 𝑏]} ∼ {𝑋 ∈ (𝑎, 𝑏]} ∼ {𝑋 ∈ [𝑎, 𝑏)} ∼ {𝑋 ∈ (𝑎, 𝑏)}. Teorema 7: Seja 𝐴 ∈ 𝒜. Então ∃!𝑎∗ ∈ [0, 1] tal que 𝐴 ∼ {𝑋 ∈ [0, 𝑎∗]}. Demo: Seja 𝑈(𝐴) = {𝑎 ∈ [0, 1] ∶ 𝐴 ≾ {𝑋 ∈ [0, 𝑎]}}. 1 ∈ 𝑈(𝐴) pois Ω = {𝑋 ∈ [0, 1]} ≿ 𝐴 ⇒ 𝑈(𝐴) ≠ ∅. Tome 𝑎∗ = inf𝑈(𝐴). (i) Considere (𝑎𝑛)𝑛≥1, 𝑎𝑛 ∈ [0, 1], ∀𝑛 ≥ 1, tal que 𝑎𝑛 ≥ 𝑎𝑛+1 ≥ 𝑎∗ e 𝑎𝑛 ↓ 𝑎∗. Então, ∀𝑛 ≥ 1 , {𝑋 ∈ [0, 𝑎𝑛]} ≿ 𝐴. Por SP4, ∞ ⋂ 𝑛=1 {𝑋 ∈ [0, 𝑎𝑛]} ≿ 𝐴 ⇒ {𝑋 ∈ [0, 𝑎∗]} ≿ 𝐴 (ii) Se 𝑎∗ = 0 , {𝑋 ∈ [0, 0]} ∼ ∅ ≾ 𝐴 (por SP3). Se 𝑎∗ > 0 , considere (𝑎𝑛)𝑛≥1 com 𝑎𝑛 ≤ 𝑎𝑛+1 < 𝑎∗ e 𝑎𝑛 ↑ 𝑎∗. {𝑋 ∈ [0, 𝑎𝑛]} ≾ 𝐴, ∀𝑛 ≥ 1 e, pelo Teo 5, ∞ ⋃ 𝑛=1 {𝑋 ∈ [0, 𝑎𝑛]} ≾ 𝐴 ⇒ {𝑋 ∈ [0, 𝑎∗)} ∼ {𝑋 ∈ [0, 𝑎∗]} ≾ 𝐴. De (i) e (ii), temos que 𝐴 ∼ {𝑋 ∈ [0, 𝑎∗]}. 𝑎∗ é único pois se 𝑎1 < 𝑎∗ < 𝑎2 são outros valores quaisquer, segue que {𝑋 ∈ [0, 𝑎1]} ≺ {𝑋 ∈ [0, 𝑎∗]} ≺ {𝑋 ∈ [0, 𝑎2]} e só um desses eventos pode ser equivalente à 𝐴. 14 CHAPTER 2. PROBABILIDADE SUBJETIVA Teorema 8: A probabilidade do evento 𝐴, 𝑃(𝐴), é definida como 𝑎∗ ∈ [0, 1] tal que 𝐴 ∼ {𝑋 ∈ [0, 𝑎∗]}. Assim, 𝐴 ∼ {𝑋 ∈ [0, 𝑃 (𝐴)]}. A função de probabilidade assim definida satisfaz: 𝐴 ≾ 𝐵 ⇔ 𝑃(𝐴) ≤ 𝑃(𝐵). Demo: Do Teo 7, 𝐴 ∼ {𝑋 ∈ [0, 𝑃 (𝐴)]} e 𝐵 ∼ {𝑋 ∈ [0, 𝑃 (𝐵)]}. 𝐴 ≾ 𝐵 ⇔ {𝑋 ∈ [0, 𝑃 (𝐴)]} ≾ {𝑋 ∈ [0, 𝑃 (𝐵)]} ⇔ 𝜆 ([0, 𝑃 (𝐴)]) ≾ 𝜆 ([0, 𝑃 (𝐵)]) ⇔ 𝑃(𝐴) ≤ 𝑃(𝐵). Teorema 9: A função 𝑃 ∶ 𝒜 ⟶ [0, 1] que, para cada 𝐴 ∈ 𝒜, associa 𝑃(𝐴) tal que 𝐴 ∼ {𝑋 ∈ [0, 𝑃 (𝐴)]} é uma medida de probabilidade (no sentido 𝜎-aditiva). Demo: (i) 𝑃(𝐴) ≥ 0. Ω ∼ {𝑋 ∈ [0, 1]} ⇒ 𝑃(Ω) = 1. ∅ ∼ {𝑋 ∈ [0, 0]} ⇒ 𝑃(∅) = 0 ∅ ≾ 𝐴 ⇒ 0 ≤ 𝑃(𝐴). (ii) Seja 𝐴 e 𝐵 tal que 𝐴 ∩ 𝐵 = ∅. Vamos mostrar que 𝑃 (𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵). Pelo Teo 8, 𝐴 ∼ {𝑋 ∈ [0, 𝑃 (𝐴)]}, 𝐵 ∼ {𝑋 ∈ [0, 𝑃 (𝐵)]}, 𝐴 ∪ 𝐵 ∼ {𝑋 ∈ [0, 𝑃 (𝐴 ∪ 𝐵)]}. Como 𝐴 ⊆ 𝐴∪𝐵 e, por SP3, 𝐴 ≾ 𝐴∪𝐵, vale que 𝑃(𝐴) ≤ 𝑃(𝐴∪𝐵). Vamos verificar que 𝐵 ∼ {𝑋 ∈ (𝑃(𝐴), 𝑃 (𝐴 ∪ 𝐵)]}. Suponha, por absurdo, 𝐵 ≺ {𝑋 ∈ (𝑃(𝐴), 𝑃 (𝐴 ∪ 𝐵)]}. 𝐴 ≾ {𝑋 ∈ [0, 𝑃 (𝐴)]} 𝑆𝑃2⟹ 𝐴 ∪ 𝐵 ≺ {𝑋 ∈ [0, 𝑃 (𝐴)]} ∪ {𝑋 ∈ (𝑃(𝐴), 𝑃 (𝐴 ∪ 𝐵)]} ⇒ 𝐴∪𝐵 ≺ {𝑋 ∈ [0, 𝑃 (𝐴)] ∪ (𝑃(𝐴), 𝑃 (𝐴 ∪ 𝐵)]} ⇒ 𝐴 ∪ 𝐵 ≺ {𝑋 ∈ [0, 𝑃 (𝐴 ∪ 𝐵)]} (Absurdo!) Analogamente, 𝐵 ≻ {𝑋 ∈ (𝑃(𝐴), 𝑃 (𝐴 ∪ 𝐵)]} é absurdo! Logo, 𝐵 ∼ {𝑋 ∈ (𝑃(𝐴), 𝑃 (𝐴 ∪ 𝐵)]} ∼ {𝑋 ∈ [0, 𝑃 (𝐴 ∪ 𝐵) − 𝑃(𝐴)]}. Como 𝐵 ∼ {𝑋 ∈ [0, 𝑃 (𝐵)]}, temos que 𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵). Corolário 1: Se 𝐴1, … , 𝐴𝑛 são eventos disjuntos, então 𝑃 (⋃ 𝑛 𝑖=1 𝐴𝑖) = ∑𝑛𝑖=1 𝑃 (𝐴𝑖). Demo: Basta repetir o argumento da segunda parte da demon- stração anterior 𝑛 − 1 vezes. Teorema 10: Seja 𝐴1 ⊇ 𝐴2 ⊇ … uma seq. decrescente de eventos tais que ⋂∞𝑖=1 𝐴𝑖 = ∅. Então lim𝑛↑∞ 𝑃(𝐴𝑛) = 0. 2.4. MEDIDA DE PROBABILIDADE QUE “REPRESENTA” ≾ 15 Demo: 𝐴1 ⊇ 𝐴2 ⊇ … ⇒ 𝑃(𝐴1) ≥ 𝑃(𝐴)2 ≥ …. Além disso, lim 𝑛↑∞ 𝑃(𝐴𝑛) = 𝑏. Como 𝑃(𝐴𝑛) ≥ 𝑏, ∀𝑛, segue que 𝐴𝑛 ≿ {𝑋 ∈ [0, 𝑏]}, ∀𝑛. Por SP4, ∅ = ⋂∞𝑖=𝑛 𝐴𝑖 ≿ {𝑋 ∈ [0, 𝑏]}. Se 𝑏 > 0, então {𝑋 ∈ [0, 𝑏]} ≻ {𝑋 ∈ [0, 𝑏/2]} ≿ ∅. Como essa relação contradiz a anterior, temos que 𝑏 deve ser igual a 0. Teorema 9: (conclusão) Usando o Corolário 1 e o Teorema 10 é possível concluir a demonstração do Teorema 9, mostrando que 𝑃 é 𝜎-aditiva, isto é, 𝑃 ( ∞ ⋃ 𝑖=1 𝐴𝑖) = ∞ ∑ 𝑖=1 𝑃 (𝐴𝑖) , 𝐴𝑖 ∩ 𝐴𝑗 = ∅, ∀𝑖 ≠ 𝑗. Demo: Seja (𝐴𝑛)𝑛≥1 sequência de eventos disjuntos. Segue do Corolário 1 que (i) 𝑃 ( ∞ ⋃ 𝑖=1 𝐴𝑛) = 𝑛 ∑ 𝑖=1 𝑃 (𝐴𝑖) + 𝑃 ( ∞ ⋃ 𝑗=𝑛+1 𝐴𝑗), 𝑛 = 1, 2, … Considere 𝐵𝑛 = ∞ ⋃ 𝑗=𝑛+1 𝐴𝑗, 𝑛 ≥ 1, uma sequência decrescente de even- tos tais que ∞ ⋂ 𝑛=1 𝐵𝑛 = ∅. Pelo Teorema 10, segue que lim𝑛↑∞ 𝑃(𝐵𝑛) = 0. Assim, tomando o limite do lado direito de (i), segue que 𝑃 ( ∞ ⋃ 𝑖=1 𝐴𝑖) = lim𝑛↑∞ 𝑛 ∑ 𝑖=1 𝑃 (𝐴𝑖) + lim𝑛↑∞ 𝑃 (𝐵𝑛) = ∞ ∑ 𝑖=1 𝑃 (𝐴𝑖). Teorema 11: Se a relação de crença ≾ obedece SP1 a SP5 então ∃! 𝑃 ∶ 𝒜 → [0, 1], medida de probabilidade, tal que 𝑃 representa ≾ . Demo: Já foi mostrado que 𝑃 é uma medida de probabilidade 𝜎- aditiva, de modo que apenas resta mostrar a unicidade de 𝑃 . Considere que existe uma outra medida 𝑃 ′ que concorde com a re- lação ≾. Como 𝑋 ∼ Unif(0, 1), 𝑃 ′ ({𝑋 ∈ [0, 𝑎]}) = 𝑎. Se 𝐴 é um evento, existe um único 𝑎∗ tal que 𝐴 ∼ {𝑋 ∈ [0, 𝑎∗]} e, como 𝑃 ′ concorda com a relação ≾, 𝑃 ′(𝐴) = 𝑃 ′ ({𝑋 ∈ [0, 𝑎∗]}) = 𝑎∗ = 𝑃(𝐴) . 16 CHAPTER 2. PROBABILIDADE SUBJETIVA 2.5 Medida de Probabilidade Condicional Nova Relação: (𝐴|𝐷) ≾ (𝐵|𝐷) (Sabendo que 𝐷 ocorreu, 𝐵 é preferível a 𝐴). • Para 𝐷 = Ω, temos o caso anterior: 𝐴 ≾ 𝐵 ⇔ (𝐴|Ω) ≾ (𝐵|Ω). • Suponha que vale as suposições SP1 a SP5 e, adicionalmente, SP6: (𝐴|𝐷) ≾ (𝐵|𝐷) ⇔ (𝐴 ∩ 𝐷) ≾ (𝐵 ∩ 𝐷) ((𝐴 ∩ 𝐷|Ω) ≾ (𝐵 ∩ 𝐷|Ω)) Propriedades decorrentes de SP1 a SP6: 1. ∀𝐴, 𝐵, 𝐷, (𝐴|𝐷) ≾ (𝐵|𝐷) ou (𝐵|𝐷) ≾ (𝐴|𝐷). 2. Se (𝐴|𝐷) ≾ (𝐵|𝐷) e (𝐵|𝐷) ≾ (𝐸|𝐷) então (𝐴|𝐷) ≾ (𝐸|𝐷). 3. 𝐴, 𝐵, 𝐷, 𝐸 com 𝐴 ∩ 𝐷 ∩ 𝐸 ∼ 𝐵 ∩ 𝐷 ∩ 𝐸 ∼ ∅. (𝐴|𝐷) ≾ (𝐵|𝐷) ⇔ (𝐴 ∪ 𝐸|𝐷) ≾ (𝐵 ∪ 𝐸|𝐷). 4. (𝐴|𝐷) ≾ (𝐵|𝐷) ⇔ (𝐴𝑐|𝐷) ≿ (𝐵𝑐|𝐷). 5. Seja 𝐵, 𝐷 e (𝐴𝑛)𝑛≥1 tal que 𝐴𝑛 ⊇ 𝐴𝑛+1. (𝐵|𝐷) ≾ (𝐴𝑛|𝐷), ∀𝑛, então (𝐵|𝐷) ≾ ( ∞ ⋂ 𝑛=1 𝐴𝑛|𝐷). 6. (𝐴𝑛)𝑛≥1 e (𝐵𝑛)𝑛≥1 tal que 𝐴𝑖 ∩ 𝐴𝑗 ∼ 𝐴𝑘 ∩ 𝐴𝑙 ∼ ∅, 𝑖 ≠ 𝑗, 𝑘 ≠ 𝑙, e (𝐴𝑛|𝐷) ≾ (𝐵𝑛|𝐷), ∀𝑛. Então ( ∞ ⋃ 𝑛=1 𝐴𝑛|𝐷) ≾ ( ∞ ⋃ 𝑛=1 𝐵𝑛|𝐷) Teorema 12: ∀𝐴, 𝐵, 𝐷 ∈ 𝒜, considere ≾ satisfazendo SP1 a SP6.Então 𝑃 ∶ 𝒜 → [0, 1] de modo que para cada 𝐴 ∈ 𝒜 é associada 𝑃(𝐴) ∈ [0, 1] tal que 𝐴 ∼ {𝑋 ∈ [0, 𝑃 (𝐴)]} é uma medida de probabilidade que representa ≾, isto é, (𝐴|Ω) ≾ (𝐵|Ω) ⇔ 𝑃(𝐴) ≤ 𝑃(𝐵). Além disso, se 𝐷 ∈ 𝒜 é tal que 𝑃(𝐷) ≥ 0, então (𝐴|𝐷) ≾ (𝐵|𝐷) ⇔ 𝑃(𝐴|𝐷) ≤ 𝑃(𝐵|𝐷), onde 𝑃 (⋅|𝐷) ∶ 𝒜 → [0, 1] é uma medida de probabilidade tal que 𝑃(𝐴|𝐷) = 𝑃(𝐴 ∩ 𝐷)𝑃(𝐷) . Chapter 3 Introdução à Inferência Bayesiana 3.1 Conceitos Básicos • Inferência Estatística: fazer afirmações sobre quantidades não observáveis em um determinado contexto. • 𝜃 : parâmetro - quantidade desconhecida de interesse (não-observável em determinado contexto). • Θ : espaço paramétrico - conjunto onde 𝜃 toma valores (supostamente conhecido). • 𝐸 = (𝑋, 𝜃, {𝑓(𝑥|𝜃)}): experimento - “tornar visível algo que antes era invisível” ou, mais especificamente no nosso contexto, observar uma re- alização 𝑥 ∈ 𝔛 de um vetor aleatório 𝑋 com alguma distribuição 𝑓(𝑥|𝜃). Essa distribuição pertence, na maioria dos casos, à uma família de dis- tribuições fixada mas que depende do parâmetro desconhecido de inter- esse 𝜃. Note que na grande maioria dos problemas do dia a dia de um estatístico ele se utiliza de resultados experimentais para fazer afirmações sobre 𝜃 e este, por sua vez, é não-observável em geral. • 𝔛 : espaço amostral - conjunto onde 𝑋 toma valores (supostamente conhecido). • ℱ : 𝜎-álgebra de (sub)conjuntos de 𝔛. • Neste espaço amostral, defini-se uma família 𝒫 = {𝑃(⋅|𝜃) ∶ 𝜃 ∈ Θ}, isto é, um conjunto de distribuições (condicionais) para 𝑋 indexadas por 𝜃. • (𝔛, ℱ, 𝒫) : modelo estatístico (clássico). 17 18 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA • 𝑉𝑥(𝜃) = 𝑓(𝑥|𝜃) : função de verossimilhança. 3.1.1 Inferência Frequentista (ou Clássica) • 𝜃 é considerado fixo (apesar de desconhecido) e, portanto, não recebe uma distribuição de probabilidade. • Baseia-se no ” princípio” da amostragem repetida (interpretação frequen- tista de probabilidade), isto é, supõe que é possivel realizar infinitas vezes o experimento. Assim, o 𝑥 é apenas um dos possiveis resultados (hipóteti- cos) do experimento. • Probabilidade somente é definida em (uma 𝜎-álgebra de) 𝔛. 3.1.2 Inferência Bayesiana • Baseia-se na interpretação subjetivista de probabilidade, de modo que a SUA incerteza sobre algo desconhecido deve ser quantificada (traduzida) em termos de probabilidade. • Assim, SUA incerteza sobre o parâmetro (desconhecido) é representada por uma distribuição de probabilidade, 𝜃 é tratado como uma variável aleatória (v.a.) e SUA distribuição para 𝜃 antes da realização do experi- mento, 𝑓(𝜃), é chamada de distribuição a priori. Note que a atribuição de uma distribuição a prior para 𝜃 independe da natureza do parâmetro, ele pode ser a proporção de indivíduos que avalia positivamente o governo atual (quantidade essa que muda a todo instante) ou ainda a milésima casa do 𝜋 (algum número de 0 a 9, fixo porém desconhecido no momento dessa leitura). • A atualização de SUA incerteza sobre 𝜃, incorporando uma nova infor- mação trazida pelos dados 𝑥 (representada por 𝑓(𝑥|𝜃)) é feita pelo Teo- rema de Bayes: • Teorema de Bayes: 𝑓(𝜃|𝑥)⏟ 𝑑𝑖𝑠𝑡.𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟𝑖 = 𝑓(𝜃)𝑓(𝑥|𝜃) ∫ Θ 𝑓(𝑥|𝜃)𝑑𝑃𝜃 ∝ 𝑓(𝜃)⏟ 𝑝𝑟𝑖𝑜𝑟𝑖 𝑣𝑒𝑟𝑜𝑠𝑠𝑖𝑚𝑖𝑙ℎ𝑎𝑛𝑎 ⏞𝑓(𝑥|𝜃) . • Toda a inferência sobre 𝜃 será baseada exclusivamente em 𝑓(𝜃|𝑥), não sendo necessário considerar pontos amostrais que poderiam mas não foram observados (como é feito na inferência frequentista). 3.1. CONCEITOS BÁSICOS 19 • Observação: será utilizada a notação geral para integral (de Lebesgue): ∫ Θ 𝑓(𝑥|𝜃)𝑑𝑃𝜃 = ⎧{ ⎨{⎩ ∫ Θ 𝑓(𝑥|𝜃)𝑓(𝜃)𝑑𝜃 (caso abs. contínuo) ∑ Θ 𝑓(𝑥|𝜃)𝑓(𝜃) (caso discreto) Exemplo 1a. Suponha que existem duas moedas, uma delas tem 𝜃 = 1/2 (honesta) e a outra 𝜃 = 3/4 (viesada). Uma moeda é escolhida e é feito um lançamento da moeda selecionada. Nesse experimento, tem-se 𝑋|𝜃 ∼ 𝐵𝑒𝑟(𝜃), com Θ = {1/2, 3/4} e 𝔛 = {0, 1}. Como “chutar” o valor de 𝜃? Considere que não existe razão para você acreditar que há algum tipo de prefer- ência na escolha de uma ou outra moeda, isto é, considere que a priori 𝑓(𝜃 = 1/2) = 𝑓(𝜃 = 3/4) = 1/2. Suponha que o lançamento resultou em cara (𝑥 = 1). En- tão 𝑓(𝜃 = 3/4|𝑋 = 1) = 𝑓(𝑋 = 1|𝜃 = 3/4)𝑓(𝜃 = 3/4)∑𝜃 𝑓(𝑋 = 1|𝜃)𝑓(𝜃) = 3 4 1 2 3 4 1 2 + 1 2 1 2 = 3/45/4 = 3 5 = 1 − 𝑓(𝜃 = 1/2|𝑋 = 1)⏟⏟⏟⏟⏟⏟⏟ 2/5 . Se, no entando, o resultado do lançamento da moeda fosse coroa (𝑥 = 0), teríamos 𝑃(𝜃 = 3/4|𝑋 = 0) = 1 4 1 2 1 4 1 2 + 1 2 1 2 = 1/21/2 + 2/2 = 1 3 . 20 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA 0 1 0.50 0.55 0.60 0.65 0.70 0.75 0.50 0.55 0.60 0.65 0.70 0.75 0.0 0.2 0.4 0.6 θ P (θ |x ) x 0 1 Assim, se sua decisão for escolher o valor mais provável de 𝜃 após observar 𝑥, a conclusão seria que a moeda é viesada (𝜃 = 3/4) se for observado cara (𝑥 = 1) e que a moeda é honesta (𝜃 = 1/2) se o resultado for coroa (𝑥 = 0). Exemplo 1b. Considere agora que serão realizados 𝑛 lançamentos da moeda, de modo que agora tem-se 𝑋|𝜃 ∼ 𝐵𝑖𝑛(𝑛, 𝜃), 𝜃 ∈ {1/2, 3/4}, 𝑥 ∈ {0, 1, … , 𝑛}. Suponha que observa-se 𝑋 = 𝑥. 𝑓(𝜃 = 3/4|𝑋 = 𝑥) = 𝑓(𝑥|𝜃 = 3/4)𝑓(𝜃 = 3/4) ∑ 𝜃∈{1/2,3/4} 𝑓(𝑥|𝜃)𝑓(𝜃) = (𝑛𝑥) ( 3 4) 𝑥 (14) 𝑛−𝑥 1 2 (𝑛𝑥) ( 3 4) 𝑥 (14) 𝑛−𝑥 1 2 + ( 𝑛 𝑥) ( 1 2) 𝑥 (12) 𝑛−𝑥 1 2 = 1 1 + (2 𝑛 3𝑥 ) = 3 𝑥 3𝑥 + 2𝑛 . theta = c(0.5,0.75) prior=0.5 # priori P(theta[1]) = 1-P(theta[2]) n=5; post = function(x){ (prior*dbinom(x,n,theta)) / sum(prior * dbinom(x,n,theta)) } tibble(x=as.factor(rep(seq(0,n),each=length(theta))), x1=rep(theta,(n+1)),x2=rep(theta,(n+1)),y1=0, y2=as.vector(apply(matrix(seq(0,n)),1,post))) %>% ggplot() + geom_hline(yintercept=0.5, col="darkgrey",lty=3) + geom_segment(aes(x=x1,xend=x2,y=y1,yend=y2,colour=x),lwd=2) + xlab(expression(theta)) + ylab(expression(paste("P(",theta,"|x)"))) + 3.1. CONCEITOS BÁSICOS 21 theme_bw()+ facet_wrap(~x) 3 4 5 0 1 2 0.50 0.55 0.60 0.65 0.70 0.750.50 0.55 0.60 0.65 0.70 0.750.50 0.55 0.60 0.65 0.70 0.75 0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00 θ P (θ |x ) x 0 1 2 3 4 5 Note que o Exemplo 1.a é um caso particular desse exemplo com 𝑛 = 1. Se novamente sua decisão é baseada no valor mais provável de 𝜃, deve-se escolher 𝜃 = 3/4 se 𝑓(𝜃 = 3/4|𝑋 = 𝑥) > 𝑓(𝜃 = 1/2|𝑋 = 𝑥) ⟺ 𝑓(𝜃 = 3/4|𝑋 = 𝑥) > 12 ⟺3𝑥 3𝑥 + 2𝑛 > 1 2 ⟺ 3 𝑥 > 2𝑛 ⟺ 𝑥𝑛 = ̄𝑥 > log3 2 ≈ 0, 63. Exemplo 1c. Considere que uma moeda será lançada 𝑛 vezes mas que 𝜃 é desconhecido, de modo que Θ = [0, 1]. Para simplificar, vamos assumir 𝑓(𝜃) = 𝕀[0,1](𝜃), isto é, 𝜃 ∼ 𝑈𝑛𝑖𝑓(0, 1) ∼ 𝐵𝑒𝑡𝑎(1, 1). Essa priori corresponde ao caso em que você acredita que todos os valores possíveis para 𝜃 são igualmente “prováveis”, assim como nos exemplos anteriores. Novamente, 𝑋|𝜃 ∼ 𝐵𝑖𝑛(𝑛, 𝜃) 𝑓(𝜃|𝑥) = 𝑓(𝑥|𝜃)𝑓(𝜃) ∫ 1 0 𝑓(𝑥|𝜃)𝑓(𝜃)𝑑𝜃 = (𝑛𝑥) 𝜃 𝑥(1 − 𝜃)𝑛−𝑥 𝕀[0,1](𝜃) ∫ 1 0 (𝑛𝑥) 𝜃 𝑥(1 − 𝜃)𝑛−𝑥𝑑𝜃 = Γ(1+𝑥+1+𝑛−𝑥) Γ(1+𝑥)Γ(1+𝑛−𝑥) 𝜃𝑥(1 − 𝜃)𝑛−𝑥 𝕀[0,1](𝜃) ∫ 1 0 Γ(1+𝑥+1+𝑛−𝑥) Γ(1+𝑥)Γ(1+𝑛−𝑥) 𝜃𝑥(1 − 𝜃)𝑛−𝑥𝑑𝜃⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟ 1 = Γ(1+𝑥+1+𝑛−𝑥)Γ(1+𝑥)Γ(1+𝑛−𝑥) 𝜃𝑥(1 − 𝜃)𝑛−𝑥 𝕀[0,1](𝜃). Logo 𝜃|𝑥 ∼ 𝐵𝑒𝑡𝑎(1 + 𝑥, 1 + 𝑛 − 𝑥). Nesse exemplo, o valor “mais provável” (com maior densidade a posteriori) para 𝜃 é a moda da distribuição, 𝑀𝑜𝑑𝑎(𝜃|𝑥) 22 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA = (1 + 𝑥) − 1(1 + 𝑥) + (1 + 𝑛 − 𝑥) − 2 = 𝑥 𝑛 = ̄𝑥. Suponha que foi observado 𝑛 = 5 e 𝑥 = 2, a posteriori é 𝜃|𝑥 = 2 ∼ 𝐵𝑒𝑡𝑎(3, 4) e a moda é 𝑀𝑜𝑑𝑎(𝜃|𝑥) = 1+𝑥−11+1+𝑛−2 = 25 = 0, 4; 3 4 5 0 1 2 0.00 0.25 0.50 0.75 1.000.00 0.25 0.50 0.75 1.000.00 0.25 0.50 0.75 1.00 0 2 4 6 0 2 4 6 θ f( θ| x) x 0 1 2 3 4 5 Prior Algumas medidas resumo da distribuição posterior para esse exemplo são • 𝑀𝑜𝑑𝑎(𝜃|𝑥) = 1 + 𝑥 − 11 + 1 + 𝑛 − 2 = 2 5 = 0, 4; • 𝐸[𝜃|𝑥] = 1 + 𝑥1 + 1 + 𝑛 = 3 7 = 0, 43;• 𝑀𝑒𝑑(𝜃|𝑥) ≈ 1 + 𝑥 − 1/31 + 1 + 𝑛 − 2/3 = 8/3 19/3 ≈ 0, 42; • 𝑉 𝑎𝑟(𝜃|𝑥) = (1 + 𝑥)(1 + 𝑛 − 𝑥)(1 + 1 + 𝑛)2(1 + 1 + 𝑛 + 1) = 12 392 ≈ 0, 031. Exemplo 1d. Por fim, suponha que no exemplo anterior, sua opinião a priori é representada por uma distribuição beta qualquer com parâmetros 𝑎 e 𝑏, 𝑎, 𝑏 > 0. Desta forma, 𝑋|𝜃 ∼ 𝐵𝑖𝑛(𝑛, 𝜃) e 𝜃 ∼ 𝐵𝑒𝑡𝑎(𝑎, 𝑏). Calculando a distribuição a posteriori de forma similar ao exemplo anterior, temos que 𝜃|𝑋 = 𝑥 ∼ 𝐵𝑒𝑡𝑎(𝑎 + 𝑥, 𝑏+𝑛−𝑥). Note que o exemplo anterior é o caso particular em que 𝑎 = 𝑏 = 1 . 3.1. CONCEITOS BÁSICOS 23 theta = seq(0,1,0.01) a=2; b=2; n=5 vero1 = as.vector(apply(matrix(seq(0,n)),1, function(x){dbeta(theta,1+x,1+n-x)})) post1 = as.vector(apply(matrix(seq(0,n)),1, function(x){dbeta(theta,a+x,b+n-x)})) tibble(x=as.factor(rep(seq(0,n),each=length(theta))), theta=rep(theta,(n+1)),post=post1,vero=vero1) %>% ggplot() + geom_line(aes(x=theta,y=dbeta(theta,a,b),linetype="Prior",colour="Prior"),lwd=1) + geom_line(aes(x=theta,y=post,linetype="Posterior",colour=x),lwd=1.3) + geom_line(aes(x=theta,y=vero,linetype="Verossimilhança",colour=x),lwd=1) + xlab(expression(theta)) + ylab(expression(paste("f(",theta,"|x)"))) + theme_bw()+labs(linetype="")+ facet_wrap(~x) 3 4 5 0 1 2 0.00 0.25 0.50 0.75 1.000.00 0.25 0.50 0.75 1.000.00 0.25 0.50 0.75 1.00 0 2 4 6 0 2 4 6 θ f( θ| x) Posterior Prior Verossimilhança colour 0 1 2 3 4 5 Prior Suponha agora que 𝑎 = 𝑏 = 2, 𝑛 = 5 e 𝑥 = 2, de modo que 𝜃|𝑥 = 2 ∼ 𝐵𝑒𝑡𝑎(4, 5). Algumas medidas resumo da distribuição posterior para esse exemplo são • 𝑀𝑜𝑑𝑎(𝜃|𝑥) = 𝑎 + 𝑥 − 1𝑎 + 𝑏 + 𝑛 − 2 = 3 7 ≈ 0, 428; • 𝐸[𝜃|𝑥] = 𝑎 + 𝑥𝑎 + 𝑏 + 𝑛 = 4 9 ≈ 0, 444; • 𝑀𝑒𝑑(𝜃|𝑥) ≈ 𝑎 + 𝑥 − 1/3𝑎 + 𝑏 + 𝑛 − 2/3 = 11/3 25/3 ≈ 0, 440; 24 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA • 𝑉 𝑎𝑟(𝜃|𝑥) = (𝑎 + 𝑥)(𝑏 + 𝑛 − 𝑥)(𝑎 + 𝑏 + 𝑛)2(𝑎 + 𝑏 + 𝑛 + 1) = 20 810 ≈ 0, 0247. 3.2 Teorema de De Finetti Definição. Uma coleção finita 𝑋1, 𝑋2, … , 𝑋𝑛 de quantidades aleatórias é dita permutável se a distribuição de (𝑋𝜋1 , … , 𝑋𝜋𝑛) é a mesma para toda permutação 𝜋 = (𝜋1, … , 𝜋𝑛) dos índices (1, … , 𝑛). Uma coleção infinita de quantidades aleatórias é permutável se toda subcoleção é permutável. • Segue da definição que cada uma das variáveis 𝑋1, … , 𝑋𝑛 tem a mesma distribuição marginal. Além disso, (𝑋𝑖, 𝑋𝑗) têm mesma distribuição que (𝑋𝑘, 𝑋𝑙), ∀𝑖 ≠ 𝑗 e 𝑘 ≠ 𝑙, e assim por diante. Proposição. Uma coleção 𝐶 de variáveis aleatórias é permitável se, e somente se, para todo 𝑛 finito menor ou igual ao tamanho da coleção 𝐶, toda 𝑛-upla (sequência ordenada de 𝑛 elementos) de elementos distintos de 𝐶 têm a mesma distribuição que toda outra 𝑛-upla. Exemplo 1. Considere uma coleção 𝑋1, 𝑋2, … uma sequência (finita ou infinita) de variáveis aleatórias independentes e identica- mente distribuidas (v.a. i.i.d). Note que 𝑓(𝑥1, … , 𝑥𝑛) = 𝑛 ∏ 𝑖=1 𝑓(𝑥𝑖) , ∀𝑛 , de modo que (𝑋𝑖1 , … , 𝑋𝑖𝑛) têm a mesma distribuição de (𝑋𝑗1 , … , 𝑋𝑗𝑛), para 𝑖1 ≠ … ≠ 𝑖𝑛 e 𝑗1 ≠ … ≠ 𝑗𝑛. Então, toda coleção de v.a. i.i.d é permutável. Exemplo 2: Foi visto no exemplo anterior que a suposição que uma sequência de v.a. é i.i.d. implica que tal sequência é também per- mutável. Sabe-se também que independência implica em correlação nula, 𝜌 = 0. Será então que v.a. identicamente distribuídas e não correlacionadas são também permutáveis? 3.2. TEOREMA DE DE FINETTI 25 𝑋1 / 𝑋2 −1 0 +1 𝑓(𝑥1) −1 0.10 0.05 0.15 0.3 0 0.15 0.20 0.05 0.4 +1 0.05 0.15 0.10 0.3 𝑓(𝑥2) 0.3 0.4 0.3 1.0 𝑐𝑜𝑟(𝑋1, 𝑋2) = Cov(𝑋1,𝑋2)√Var(𝑋1)Var(𝑋2) = E[(𝑋1−E[𝑋1])(𝑋2−E[𝑋2])] √Var(𝑋1)Var(𝑋2) = E[𝑋1𝑋2]−E[𝑋1]E[𝑋2]√Var(𝑋1)Var(𝑋2) 𝐸(𝑋1) = 𝐸(𝑋2) = 0 𝐸(𝑋1𝑋2) = −1 ⋅ 0, 2 + 0 + 1 ⋅ 0, 2 = 0 ⇒ 𝑐𝑜𝑟(𝑋1, 𝑋2) = 0 (𝑋1, 𝑋2) são identicamente distribuídas e não correlacionadas mas não são per- mutáveis pois, por exemplo, 𝑃((𝑋1, 𝑋2) = (1, −1)) ≠ 𝑃((𝑋2, 𝑋1) = (1, −1)) . Exemplo 3: Suponha que 𝑋1, 𝑋2, … são condicionalmente i.i.d. dado 𝑌 = 𝑦 com densidade 𝑓(𝑥𝑖|𝑦), 𝑖 = 1, 2, … e 𝑌 tem densidade ℎ(𝑦). Então 𝑋1, 𝑋2, … são permutaveis. 𝑓𝑋𝑖1 ,…,𝑋𝑖𝑛 (𝑥1, … , 𝑥𝑛) = ∫ 𝑛 ∏ 𝑗=1 𝑓(𝑥𝑗|𝑦)ℎ(𝑦)𝑑𝑦, para qualquer 𝑛-upla 𝑋𝑖1 , … , 𝑋𝑖𝑛 . Note que o lado direito não depende dos rótulos𝑖1, … , 𝑖𝑛. Teorema de Representação de De Finetti. (para v.a. Bernoulli) Uma sequência infinita (𝑋𝑛)𝑛≥1 de v.a. Bernoulli é permutável se, e somente se, existe uma v.a 𝜃 em [0, 1] tal que, condicional a 𝜃, (𝑋𝑖)𝑛≥1 são i.i.d. 𝐵𝑒𝑟(𝜃). Além disso, se a sequência é permutável, então a distribuição de 𝜃 é única e 1 𝑛 ∞ ∑ 𝑖=1 𝑋𝑖 𝑞.𝑐. ⟶ 𝑛↑∞ 𝜃 . 𝑃 (𝑋1 = 𝑥1, … , 𝑋𝑛 = 𝑥𝑛) = ∫ 1 0 𝜃∑ 𝑥𝑖(1−𝜃)𝑛−∑ 𝑥𝑖 𝑑𝐹(𝜃) = ∫ 1 0 𝑛 ∏ 𝑖=1 𝜃𝑥𝑖(1 − 𝜃)1−𝑥𝑖⏟⏟⏟⏟⏟⏟⏟ 𝑓(𝑥𝑖|𝜃) 𝑓(𝜃) 𝑑𝜃 𝐹(𝜃) = lim 𝑛↑∞ P(∑𝑖 𝑋𝑖𝑛 ≤ 𝜃) . Exemplo 4: (1.19/1.20 - Schervish) Seja (𝑋𝑛)𝑛≥1 v.a. Bernoulli. 26 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA Considere que o Estatístico 1 acredita que 𝑃1(𝑋1 = 𝑥1, … , 𝑋𝑛 = 𝑥𝑛) = 12𝑥 + 2 1 (𝑛+4𝑥+2) , de modo que 𝑃1(𝑋1 = 1) = 12 3 3! 2! 5! = 4 10 = 0, 4 . Por outro lado, o Estatístico 2 acredita que 𝑃2(𝑋1 = 𝑥1, … , 𝑋𝑛 = 𝑥𝑛) = 1 (𝑛 + 1)(𝑛𝑥) e, então, 𝑃2(𝑋1 = 1) = 1 2 = 0, 5 . Contudo, pelo Teorema de Finetti, ambos acreditam que o limite 𝜃 = lim 𝑛↑∞ 1 𝑛 𝑛 ∑ 𝑖=1 𝑋𝑖 existe com probabilidade 1 e que 𝑃(𝑋1 = 1|𝜃) = 𝜃, mas não tem opiniões diferentes sobre 𝜃. Suponha agora que foi observado 𝑥 = (𝑥1, … , 𝑥20) com 20 ∑ 𝑖=1 𝑥𝑖 = 14. Então, 𝑃𝑖(𝑋21 = 1|𝑋1 = 𝑥1, … , 𝑋20 = 𝑥20) = 𝑃𝑖(𝑋1 = 𝑥1, … , 𝑋20 = 𝑥20, 𝑋21 = 1) 𝑃𝑖(𝑋1 = 𝑥1, … , 𝑋20 = 𝑥20) de modo que, 𝑃1(𝑋21 = 1|X = x) = 12 17 1 (2517) 12 16 1 (2416) = 1617 24! 16!8! 25! 17!8! = 1617 17 25 = 16 25 = 0, 64 𝑃2(𝑋21 = 1|X = x) = 1 22(2115) 1 21(2014) = 2122 20! 14!6! 21 ⋅ 20! 15 ⋅ 14!6! = 2122 15 21 = 15 22 = 0, 68 Teorema de Representação de De Finetti Uma sequência de v.a.s {𝑋𝑛}𝑛≥1 assumindo valores (em um subconjunto de) ℝ𝐾 é permutável se, e somente se, existe uma medida de probabilidade sobre (uma 𝜎-álgebra do) conjunto de funções de distribuições que “sorteia” uma 𝐹 e, dada esta 𝐹 , {𝑋𝑛}𝑛≥1 é i.i.d. com distribuição 𝐹 . Isto é, 𝐹X(𝑥1, … , 𝑥𝑛) = ∫ ∏ 𝑛 𝑖=1 𝐹(𝑥𝑖)𝑑𝜇(𝐹), ∀𝑛. Alem disso, 𝐹𝑛 ⟶𝑛↑∞ 𝐹 ∗ e a distribuição de 𝐹 ∗ = 𝑙𝑖𝑚 𝑛↑∞ 𝐹𝑛 é única e é 𝜇. 3.3. SUFICIÊNCIA 27 3.3 Suficiência Muitas vezes, a quantidade de dados é muito grande e desejamos “resumir” a informação trazida pelos dados. Uma forma de fazê-lo sem perder informação sobre o parâmetro de interesse é usar uma estatística suficiente. Definição. Dizemos que uma função da amostra 𝑇 ∶ 𝔛 → ℝ𝑝 é uma estatística suficiente (do ponto de vista frequentista) se 𝑓 (𝑥|𝑇 (𝑥), 𝜃) = 𝑓 (𝑥|𝑇 (𝑥)). Em palavras, conhecendo o valor da estatística suficiente, a distribuição da amostra (do v.a. 𝑋) não depende mais do parâmetro 𝜃. Isso quer dizer que a informação disponível na amostra 𝑋 sobre 𝜃 está contida em 𝑇 (𝑋). Obter uma estatística suficiente nem sempre é uma tarefa fácil mas o resultado a seguir, conhecido como critério da fatoração permite identificar estatísticas suficientes. Teorema. A estatística 𝑇 ∶ 𝔛 → ℝ𝑝 é suficiente para a família de distribuições {𝑓(⋅|𝜃) ∶ 𝜃 ∈ Θ} se, e somente se, para todo 𝑥 ∈ 𝔛 e para todo 𝜃 ∈ Θ, podemos escrever 𝑓 (𝑥|𝜃) = 𝑢(𝑥)𝑣 (𝑇 (𝑥), 𝜃), onde 𝑢 é uma função positiva que não depende de 𝜃 e 𝑣 é uma função não-negativa e depende de 𝑥 somente através de 𝑇 (𝑥). Exemplo. Seja 𝑋1, … , 𝑋𝑛 v.a. tais que, condicional ao conheci- mento de 𝜃, são c.i.i.d. com 𝑋1|𝜃 ∼ 𝐸𝑥𝑝(𝜃). Então, 𝑓(𝑥|𝜃) = ∏ 𝑓(𝑥𝑖|𝜃) = ∏ 𝜃𝑒−𝜃𝑥𝑖 𝕀ℝ+(𝑥𝑖) = 𝜃𝑛𝑒−𝜃 ∑ 𝑥𝑖 ∏ 𝕀ℝ+(𝑥𝑖) = 𝑣 (∑ 𝑥𝑖, 𝜃) 𝑢(𝑥). Portanto, 𝑇 (𝑥) = ∑ 𝑥𝑖 é estatística suficiente para 𝜃. De fato, como 𝑇 (𝑋) = ∑ 𝑋𝑖|𝜃 ∼ 𝐺𝑎𝑚𝑎(𝑛, 𝜃) e {𝑋1 = 𝑥1, … , 𝑋𝑛 = 𝑥𝑛} ⊆ {𝑇 (𝑋) = ∑ 𝑋𝑖 = ∑ 𝑥𝑖 = 𝑡}, 𝑓 (𝑥|𝑇 (𝑥), 𝜃) = 𝑓 (𝑥, 𝑇 (𝑥)|𝜃)𝑓 (𝑇 (𝑥)|𝜃) = 𝑓 (𝑥|𝜃) 𝑓 (𝑡|𝜃) = 𝜃𝑛𝑒𝜃 ∑ 𝑥𝑖 ∏ 𝕀ℝ+(𝑥𝑖) 𝜃𝑛 Γ(𝑛) 𝑡𝑛−1𝑒𝜃𝑡 ∏ 𝕀ℝ+(𝑥𝑖) = Γ(𝑛)𝑡𝑛−1 𝕀ℝ+ (𝑡) , que não depende de 𝜃. Sob o enfoque bayesiano, a definição de suficiência é um pouco mais intuitiva que a frequentista. Definição: Dizemos que uma função da amostra 𝑇 ∶ 𝔛 → ℝ𝑝 é uma estatística suficiente (no sentido bayesiano) se 𝑓 (𝜃|𝑇 (𝑥)) = 𝑓 (𝜃|𝑥), para todo 𝑥 ∈ 𝔛. 28 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA Voltando ao exemplo, suponha agora que, a priori, 𝜃 ∼ 𝐺𝑎𝑚𝑎(𝑎, 𝑏). Então, 𝑓(𝜃|𝑥) ∝ 𝑓(𝑥|𝜃)𝑓(𝜃) ∝ 𝜃𝑛𝑒−𝜃 ∑ 𝑥𝑖 𝜃𝑎−1𝑒−𝑏𝜃 ∝ 𝜃𝑎+𝑛−1𝑒−(𝑏+∑ 𝑥𝑖)𝜃 Seja 𝑇 = 𝑇 (𝑋) = ∑ 𝑋𝑖, temos que 𝑇 |𝜃 ∼ 𝐺𝑎𝑚𝑚𝑎(𝑛, 𝜃), de modo que 𝑓 (𝜃|𝑇 (𝑥) = 𝑡) ∝ 𝑓(𝑡|𝜃)𝑓(𝜃) ∝ 𝜃𝑛𝑡𝑛−1𝑒𝜃𝑡 𝜃𝑎−1𝑒−𝑏𝜃 ∝ 𝜃𝑎+𝑛−1𝑒−(𝑏+𝑡)𝜃 , com 𝑡 = ∑ 𝑥𝑖. Assim, 𝜃|𝑥 ∼ 𝜃|𝑇 (𝑥) ∼ 𝐺𝑎𝑚𝑚𝑎 (𝑎 + 𝑛, 𝑏 + ∑ 𝑥𝑖) e, portanto, 𝑇 (𝑋) = ∑ 𝑋𝑖 é estatística suficiente para 𝜃. Pelo teorema da fatoração, temos que 𝑓 (𝑥|𝜃) = 𝑢(𝑥)𝑣 (𝑇 (𝑥), 𝜃) e, portanto 𝑓(𝜃|𝑥) ∝ 𝑓(𝜃)𝑓 (𝑥|𝜃) ∝ 𝑓(𝜃)𝑣 (𝑇 (𝑥), 𝜃) , que só depende de 𝑥 por meio de 𝑇 (𝑥). Para os casos mais comuns, as definições são equivalentes (Schervish, 2012). Um dos princípios de inferência estatística é o princípio da suficiência. Segundo este, se 𝑇 é uma estatística suficiente para 𝜃 e se dois pontos amostrais 𝑥, 𝑦 ∈ 𝔛 são tais que 𝑇 (𝑥) = 𝑇 (𝑦) então as inferências baseadas nesses pontos devem ser as mesmas. Adiante, retomaremos esse princípio de forma mais formal. 3.4 Distribuição a Priori • A priori é sempre subjetiva (assim como a escolha do modelo estatístico)! – Por exemplo, dizer que os dados seguem uma distribuição normal, é uma escolha subjetiva, muitas vezes baseadas nas facilidades matemáticas que essa distribuição proporciona. – Do mesmo modo, suponha que dois indivíduos que consideram que a distribuição do parêmetro é simétrica, com mesmas suposições sobre média e variância. O primeiro pode optar por representar sua distribuição usando uma distribuição Normal, enquanto o segundo pode utilizar uma distribuição T ou Cauchy. • Não existe “opinião errada”, existem opiniões diferentes, dado o nível de conhecimento e as experiências prévias do indivíduo. Contudo, algumas “boas práticas” devem ser consideradas como, por exemplo, tomar cuidado para não atribuir probabilidade nula a pontos “possíveis” do espaço paramétrico. 3.4. DISTRIBUIÇÃO A PRIORI 29 • A priori deve ser sua opinião apenas sobre o parâmetro 𝜃 e não deve depender de fatores como o desenho do experimento ou o objetivo do estudo. 3.4.1 Método do Histograma • Muitas vezes, para “extrair” o conhecimento de um especialista, podemos dividir o espaço paramétrico em regiões e pedir para o especialista “or- denar” esses conjuntos, utilizando “pesos” que refletem a crença que o parâmetro esteja em cada uma daquelas regiões. • Exemplo 1. (Albert (2009), pág 27) – Seja 𝜃 uma proporção desconhecida (Θ = [0, 1]); – Considere a partição 𝑇 = {[0, 0.1), [0.1, 0.2), … , [0.9, 1]}; – Suponha que um especialistas atribui pesos 𝑝 = (1, 5.2, 8, 7.2, 4.6, 2.1, 0.7, 0.1, 0, 0) a esse intervalos; – A piori, nesse caso, é o histograma apresentado a seguir. p=c(1, 5.2, 8, 7.2, 4.6, 2.1, 0.7, 0.1, 0, 0) prior = c(0,p/(sum(p))) tibble(theta=seq(0,1,0.1), prior) %>% ggplot(data=.) + geom_step(aes(x=theta,y=prior),direction="vh",color="red",lwd=1.5) 0.0 0.1 0.2 0.00 0.25 0.50 0.75 1.00 theta pr io r 30 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA • Voltando ao exemplo da moeda, suponha novamente que foram observados 𝑥 = 2 sucessos em 𝑛 = 5 lançamentos. A posteriori nesse caso pode ser obtida multiplicando a distribuição a priori pela verossimilhança e “padronizando” a função obtida. Assim: n=5 x=2 p = c(1, 5.2, 8, 7.2, 4.6, 2.1, 0.7, 0.1, 0, 0) p = p/(sum(p)) theta = seq(0,1,0.01) prior = c(rep(p,each=10),0)/sum(c(rep(p,each=10),0)) vero = dbinom(x,n,theta)/sum(dbinom(x,n,theta)) post = (prior * vero)/sum(prior * vero) pH = tibble(theta=rep(theta,3),dens=c(prior,vero,post),Dist=rep(c('1.priori','2.verossimilhança','3.posteriori'),each=101)) %>% ggplot(data=.) + geom_line(aes(x=theta,y=dens,colour=Dist),lwd=1.5) pH 0.00 0.01 0.02 0.03 0.00 0.25 0.50 0.75 1.00 theta de ns Dist 1.priori 2.verossimilhança 3.posteriori 3.4.2 Elicitação de Hiperparâmetros • Nessa abordagem, a priori é obtida da seguinte maneira: 1. Escolha uma família de distribuições conveniente. O conceito de “conveniência” aqui pode levar em conta, por exemplo, o suporte da distribuição, se é flexível o suficiente para acomodar diversos tipos 3.4. DISTRIBUIÇÃO A PRIORI 31 de opinião, se permite a obtenção analítica da posteriori e assim por diante; 2. Obtenha um conjunto de medidas resumo (como média, variância, quantis, etc.); 3. Utilize as medidas resumo para calcular hiperparâmetros da dis- tribuição escolhida. • Exemplo: Na seção anterior, a priori dada pelo histograma tem média 𝑚 = 0.31 e variância aproximadamente 𝑣 = 0.02. Podemos utilizar como priori, por exemplo, uma distribuição beta com essa média e variância, já que a beta tem um suporte conveniente e facilita as contas, como também já vimos. Assim, vamos considerar uma distribuição 𝐵𝑒𝑡𝑎(𝑎, 𝑏) e escolher 𝑎 e 𝑏 satisfazendo: (i) 𝐸[𝜃] = 𝑎𝑎 + 𝑏 = 𝑚 ⟺ 𝑏 = ( 1 − 𝑚 𝑚 ) 𝑎 (ii) 𝑉 𝑎𝑟(𝜃) = 𝑎𝑏(𝑎 + 𝑏)2(𝑎 + 𝑏 + 1) = 0.02 ⟺ 𝑎 = 𝑚(𝑚 − 𝑚2 − 𝑣) 𝑣 Resolvendo o sistema temos, de forma geral, que 𝑎 = 𝑚(𝑚 − 𝑚 2 − 𝑣) 𝑣 e 𝑏 = (1 − 𝑚)(𝑚 − 𝑚2 − 𝑣) 𝑣 . Assim, no nosso exemplo, teríamos uma 𝐵𝑒𝑡𝑎(3, 6.7). Além disso, já vimos que, nesse caso, a distribuição a posteriori é 𝐵𝑒𝑡𝑎(3 + 𝑥, 6.7 + 𝑛 − 𝑥). Considerando novamente 𝑛 = 5 e 𝑥 = 2, temos: n=5; x=2 m=0.31; v=0.02 a=m*(m-m^2-v)/v; b=(1-m)*(m-m^2-v)/v p = c(1, 5.2, 8, 7.2, 4.6, 2.1, 0.7, 0.1, 0, 0) p = p/(sum(p)) theta = seq(0,1,0.01) prior = dbeta(theta,a,b)/sum(dbeta(theta,a,b)) vero = dbinom(x,n,theta)/sum(dbinom(x,n,theta)) post = dbeta(theta,a+x,b+n-x)/sum(dbeta(theta,a+x,b+n-x)) priorH = c(rep(p,each=10),0)/sum(c(rep(p,each=10),0)) tibble(theta=rep(theta,4),dens=c(prior,vero,post,priorH), Dist=rep(c('1.Priori Beta','2.Verossimilhança','3.Posteriori','0.Priori Histograma'),each=101)) %>% ggplot(data=.) + geom_line(aes(x=theta,y=dens,colour=Dist),lwd=1.5) 32 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA 0.00 0.01 0.02 0.03 0.00 0.25 0.50 0.75 1.00 theta de ns Dist 0.Priori Histograma 1.Priori Beta 2.Verossimilhança 3.Posteriori 3.4.3 Prioris Conjugadas Como visto no exemplo da moeda, em que a distribuição a priori era 𝐵𝑒𝑡𝑎(𝑎, 𝑏), a posteriori era facilmente obtida e também estava na classe das distribuições 𝐵𝑒𝑡𝑎. Em particular, quando observa-se 𝑥 sucessos em 𝑛 realizações de ensaios de Bernoulli, a distribuição a posteriori é 𝐵𝑒𝑡𝑎(𝑎 + 𝑥, 𝑏 + 𝑛 − 𝑥). Isso ocorre pois essa distribuição pertence à uma classe bastante espefícica de distribuições a priori, chamadas distribuições conjugadas. Definição Seja 𝒫 = {𝑓(𝑥|𝜃) ∶ 𝜃 ∈ Θ} uma família de distribuições (condi- cionais) para 𝑋 e considere 𝒞 = {ℎ(𝜃|𝑎) ∶ 𝑎 ∈ 𝐴} uma família de distribuições para 𝜃. Dizemos que (a família) 𝒞 é conjugada para 𝒫 se, ∀ ℎ(𝜃) ∈ 𝒞, ℎ(𝜃|𝑥) ∝ 𝑓(𝑥|𝜃)ℎ(𝜃) ∈ 𝒞, ∀𝑥 ∈ 𝔛. Resultado 1. Seja 𝑋 v.a. tal que, condicional ao conhecimento de 𝜃, 𝑋|𝜃 ∼ 𝐵𝑖𝑛(𝑛, 𝜃). Considere que, a priori, 𝜃 ∼ 𝐵𝑒𝑡𝑎(𝑎, 𝑏). Então, 𝜃|𝑋 = 𝑥 ∼ 𝐵𝑒𝑡𝑎(𝑎 + 𝑥, 𝑏+𝑛−𝑥). Portanto, a família 𝒞 = {𝐵𝑒𝑡𝑎(𝑎1, 𝑎2) ∶ (𝑎1, 𝑎2) ∈ ℝ2+} é conjugada para 𝒫 = {𝐵𝑖𝑛(𝑛, 𝜃) ∶ 𝜃 ∈ [0, 1]}. • Esse resultado também vale se 3.4. DISTRIBUIÇÃO A PRIORI 33 1. 𝑋1, … , 𝑋𝑛 são v.a.s condicionalmente independentes e identicamente distribuidas (c.i.i.d.) com 𝑋𝑖|𝜃 ∼ 𝐵𝑒𝑟(𝜃) 2. 𝑋𝑖|𝜃 ∼ 𝐺𝑒𝑜(𝜃), 𝑖 = 1, … , 𝑛 𝑐.𝑖.𝑖.𝑑. 3. 𝑋𝑖|𝜃 ∼ 𝐵𝑖𝑛𝑁𝑒𝑔(𝑘, 𝜃) 𝜃 ∼ 𝐵𝑒𝑡𝑎(𝑎, 𝑏) ⇒ 𝜃|𝑋 = 𝑥 ∼ 𝐵𝑒𝑡𝑎(𝑎 + 𝑠, 𝑏 + 𝑓) em que 𝑠 é o número de sucessos e 𝑓 é onúmero de fracassos. Resultado 2. (generalização do resultado anterior para o caso em que o número de categorias é maior que 2) Seja 𝑋|𝜃 ∼ 𝑀𝑢𝑙𝑡𝑖𝑛𝑜𝑚𝑖𝑎𝑙(𝑛, 𝜃), isto é, sua função de probabilidade é dada por 𝑓(𝑥|𝜃) = ( 𝑛𝑥1, 𝑥2, … , 𝑥𝑘 ) 𝑘−1 ∏ 𝑖=1 𝜃𝑖 (1 − 𝑘−1 ∑ 𝑖=1 𝜃𝑖) 𝑛 − 𝑘−1 ∑ 𝑖=1 𝑥𝑖 ⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟ 𝜃 𝑥𝑘𝑘 em que 𝜃𝑖 ∈ [0, 1] com ∑ 𝐾 𝑖=1 𝜃𝑖 = 1, 𝑥𝑖 ∈ {0, 1, … , 𝑛} com ∑ 𝑛 𝑖=1 𝑥𝑖 = 𝑛 e ( 𝑛𝑥1, 𝑥2, … , 𝑥𝑘 ) = 𝑛!𝑥1!𝑥2! … 𝑥𝑘! . Considere que, a priori, 𝜃 ∼ 𝐷𝑖𝑟𝑖𝑐ℎ𝑙𝑒𝑡(𝑎1, … , 𝑎𝑘), 𝑎𝑖 > 0, 𝑖 = 1, … , 𝑘, isto é, a f.d.p. a priori para 𝜃 é dada por 𝑓(𝜃) = Γ(∑ 𝐾 𝑖=1 𝑎𝑖) Γ(𝑎1)Γ(𝑎2) … Γ(𝑎𝑘) 𝑘−1 ∏ 𝑖=1 𝜃𝑎𝑖−1𝑖 ( 1 − 𝑘−1 ∑ 𝑖=1 𝜃𝑖 ⏟⏟⏟⏟⏟ 𝜃𝑘 ) 𝑎𝑘−1 . Então, a distribuição a posteriori para 𝜃 é 𝜃|𝑋 = 𝑥 ∼ 𝐷𝑖𝑟𝑖𝑐ℎ𝑙𝑒𝑡(𝑎1 +𝑥1, … , 𝑎𝑘 + 𝑥𝑘). Demo: Para verificar o resultado, basta ver que 𝑓(𝜃|𝑥) = 𝑓(𝑥|𝜃)𝑓(𝜃)∫Θ 𝑓(𝑥|𝜃)𝑓(𝜃)𝑑𝜃 ∝ 𝑓(𝑥|𝜃)𝑓(𝜃) ∝ ∏𝑘−1𝑖=1 𝜃 (𝑎𝑖+𝑥𝑖−1) 𝑖 (1 − ∑ 𝑘−1 𝑖=1 𝜃𝑖) (𝑎𝑘+𝑥𝑘)−1 Resultado 3. Seja 𝑋1, … , 𝑋𝑛 v.a. c.i.i.d tais que 𝑋𝑖|𝜃 ∼ 𝑈𝑛𝑖𝑓(0, 𝜃) e considere que, a priori,𝜃 ∼ 𝑃𝑎𝑟𝑒𝑡𝑜(𝑎, 𝑏). Então 𝜃|𝑋 = 𝑥 ∼ 𝑃𝑎𝑟𝑒𝑡𝑜 (𝑎 + 𝑛, 𝑚𝑎𝑥{𝑏, 𝑥(𝑛)}). 34 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA Demo: 𝑓(𝑥|𝜃) 𝑐𝑖= ∏𝑛𝑖=1 𝑓(𝑥𝑖|𝜃) 𝑖𝑑= ∏𝑛𝑖=1 1 𝜃 𝕀[0,𝜃](𝑥𝑖) = 1 𝜃𝑛 𝕀[0,𝜃](𝑥(𝑛)) = 1𝜃𝑛 𝕀[𝑥(𝑛),+∞)(𝜃) em que 𝑥(𝑛) = 𝑚𝑎𝑥{𝑥1, … , 𝑥𝑛}. 𝑓(𝜃) = 𝑎𝑏 𝑎 𝜃𝑎+1 𝕀[𝑏,+∞](𝜃). Então 𝑓(𝜃|𝑥) ∝ 𝑓(𝑥|𝜃)𝑓(𝜃) = 1𝜃𝑎+𝑛+1 𝕀[𝑥(𝑛),+∞)(𝜃)𝕀[𝑏,+∞)(𝜃) = 1 𝜃𝑎+𝑛+1 𝕀[𝑚𝑎𝑥{𝑏,𝑥(𝑛)},+∞)(𝜃) ⇒ 𝜃|𝑋 = 𝑥 ∼ 𝑃𝑎𝑟𝑒𝑡𝑜(𝑎 + 𝑛, 𝑚𝑎𝑥{𝑏, 𝑥(𝑛)}). Resultado 4. Seja 𝑋1, … , 𝑋𝑛, 𝑌1, … , 𝑌𝑚 v.a. condicionalmente independentes tais que 𝑋𝑖|𝜃 ∼ 𝐸𝑥𝑝(𝜃), 𝑖 = 1, … , 𝑛 e 𝑌𝑗|𝜃 ∼ 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜃), 𝑗 = 1, … , 𝑚. Considere que, a priori, 𝜃 ∼ 𝐺𝑎𝑚𝑎(𝑎, 𝑏). Então 𝜃|𝑥, 𝑦 ∼ 𝐺𝑎𝑚𝑎(𝑎 + 𝑛 + ∑𝑗 𝑦𝑗 , 𝑏 + 𝑚 + ∑𝑖 𝑥𝑖). Demo: 𝑓(𝑥, 𝑦|𝜃) 𝑐𝑖= 𝑓(𝑥|𝜃)𝑓(𝑦|𝜃) 𝑐𝑖= ∏𝑛𝑖=1 𝑓(𝑥𝑖|𝜃) ∏ 𝑚 𝑗=1 𝑓(𝑦𝑖|𝜃) = ∏ 𝑛 𝑖=1 𝜃𝑒−𝜃𝑥𝑖 ∏ 𝑚 𝑗=1 𝜃𝑦𝑗𝑒−𝜃 𝑦𝑗! = 1 ∏𝑚𝑗=1 𝑦𝑗! 𝜃𝑛+∑𝑗 𝑦𝑗𝑒−(𝑚+∑𝑖 𝑥𝑖)𝜃 𝑓(𝜃) = 𝑏 𝑎 Γ(𝑎)𝜃 𝑎−1𝑒−𝑏𝜃 𝑓(𝜃|𝑥, 𝑦) ∝ 𝑓(𝑥, 𝑦|𝜃)𝑓(𝜃) ∝ 𝜃[𝑎+𝑛+∑𝑗 𝑦𝑗]−1𝑒−[𝑏+𝑚+∑𝑖 𝑥𝑖]𝜃 ⇒ 𝜃|𝑥, 𝑦 ∼ 𝐺𝑎𝑚𝑎(𝑎 + 𝑛 + ∑𝑗 𝑦𝑗, 𝑏 + 𝑚 + ∑𝑖 𝑥𝑖) Resultado 5. Seja 𝒫 = {𝑓(𝑥|𝜃) ∶ 𝜃 ∈ Θ} e 𝒞 = {ℎ(𝜃|𝑎) ∶ 𝑎 ∈ 𝐴} uma família conjugada para 𝒫. Considere ℳ = {ℎ(𝜃) = ∑𝑚𝑖=1 𝑤𝑖ℎ𝑖(𝜃) ∶ ℎ𝑖 ∈ 𝒞 𝑒 𝑤𝑖 > 0, ∑ 𝑚 𝑖=1 𝑤𝑖 = 1}. Então ℳ é família conjugada para 𝒫. Demo: Como 𝒞 é conjugada para 𝒫, para toda função ℎ𝑖 ∈ 𝒞, temos que 𝑓𝑖(𝜃|𝑥) ∝ ℎ𝑖(𝜃)𝑓(𝑥|𝜃) ∈ 𝒞. Então ℎ ∈ ℳ ⇒ 𝑓(𝜃|𝑥) ∝ ℎ(𝜃)𝑓(𝑥|𝜃) ∝ ∑𝑚𝑖=1 𝑤𝑖 ℎ𝑖(𝜃)𝑓(𝑥|𝜃)⏟⏟⏟⏟⏟ ∈𝒞 ∝ ∑𝑚𝑖=1 𝑤∗𝑖 𝑓𝑖(𝜃|𝑥) ∈ ℳ. Exemplo. Seja 𝑋|𝜃 ∼ 𝐵𝑖𝑛(𝑛, 𝜃) e 𝑓(𝜃) = 𝑤𝑓1(𝜃) + (1 − 𝑤)𝑓2(𝜃), com 𝑓1 ∼ 𝐵𝑒𝑡𝑎(𝑎1, 𝑏1) e 𝑓2 ∼ 𝐵𝑒𝑡𝑎(𝑎2, 𝑏2). 3.4. DISTRIBUIÇÃO A PRIORI 35 𝑓(𝜃|𝑥) = 𝑓(𝑥|𝜃)𝑓(𝜃) ∫10 𝑓(𝑥|𝜃)𝑓(𝜃) = 𝑓(𝑥|𝜃)[𝑤𝑓1(𝜃) + (1 − 𝑤)𝑓2(𝜃)] 𝑤 ∫10 𝑓1(𝜃)𝑓(𝑥|𝜃)𝑑𝜃 + (1 − 𝑤) ∫ 1 0 𝑓2(𝜃)𝑑𝜃 ∝ 𝑤(𝑛𝑥) Γ(𝑎1+𝑏1) Γ(𝑎1)Γ(𝑏1) 𝜃 𝑎1+𝑥−1(1 − 𝜃)𝑏1+𝑛−𝑥−1 + (1 − 𝑤)(𝑛𝑥) Γ(𝑎2+𝑏2) Γ(𝑎2)Γ(𝑏2) 𝜃 𝑎2+𝑥−1(1 − 𝜃)𝑏2+𝑛−𝑥−1 𝑤(𝑛𝑥) Γ(𝑎1+𝑏1) Γ(𝑎1)Γ(𝑏1) Γ(𝑎1+𝑥)Γ(𝑏1+𝑛−𝑥) Γ(𝑎1+𝑏1+𝑛)⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟ 𝐴 + (1 − 𝑤)(𝑛𝑥) Γ(𝑎2+𝑏2) Γ(𝑎2)Γ(𝑏2) Γ(𝑎2+𝑥)Γ(𝑏2+𝑛−𝑥) Γ(𝑎2+𝑏2+𝑛)⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟ 𝐵 ∝ 𝐴𝐴 + 𝐵⏟ 𝑤∗ 𝐵𝑒𝑡𝑎(𝑎1 + 𝑥, 𝑏1 + 𝑛 − 𝑥) + 𝐵 𝐴 + 𝐵⏟ 1−𝑤∗ 𝐵𝑒𝑡𝑎(𝑎2 + 𝑥, 𝑏2 + 𝑛 − 𝑥). Primeiramente, suponha que 𝑛 = 5, e temos uma mistura das distribuições 𝐵𝑒𝑡𝑎(5, 12) e 𝐵𝑒𝑡𝑎(10, 3), com 𝑤 = 0.5. O gráfico a seguir apresenta as dis- tribuições a priori, a verossimilhança e a posteriori para cada possível valor de 𝑥 em {0, 1, … , 5}. a1=5; b1=12 a2=10; b2=3 n=5 w=0.5 theta = seq(0,1,0.01) A = as.vector(apply(matrix(seq(0,n)),1, function(x){w*choose(n,x)*gamma(a1+b1)/(gamma(a1)*gamma(b1))* (gamma(a1+x)*gamma(b1+n-x))/gamma(a1+b1+n)})) B = as.vector(apply(matrix(seq(0,n)),1, function(x){(1-w)*choose(n,x)*gamma(a2+b2)/(gamma(a2)*gamma(b2))* (gamma(a2+x)*gamma(b2+n-x))/gamma(a2+b2+n)})) w2 = A/(A+B) prior2 = as.vector(apply(matrix(seq(0,n)),1, function(x){w*dbeta(theta,a1,b1)+ (1-w)*dbeta(theta,a2,b2)})) post2 = as.vector(as.matrix(mapply(function(x,w2){ w2*dbeta(theta,a1+x,b1+n-x)+ (1-w2)*dbeta(theta,a2+x,b2+n-x)},seq(0,n),w2))) #vero = as.vector(apply(matrix(seq(0,n)),1, # function(x){dbinom(x,prob=theta,size=n)})) 36 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA # Verossimilhança proporcional visualmente melhor vero = as.vector(apply(matrix(seq(0,n)),1, function(x){dbeta(theta,x+1,n-x+1)})) tibble(x=as.factor(rep(seq(0,n),each=length(theta))), w2=rep(w2,each=length(theta)), theta=rep(theta,(n+1)),vero=vero,prior=prior2,post=post2) %>% ggplot() + geom_line(aes(x=theta,y=post, colour=x),lwd=1.5) + geom_line(aes(x=theta,y=prior,colour="Prior"),lwd=1,lty=2) + geom_line(aes(x=theta,y=vero,colour="Verossimilhança"),lwd=1,lty=2)+ xlab(expression(theta)) + ylab(expression(paste("f(",theta,"|x)")))+ theme_bw() 0 2 4 6 0.00 0.25 0.50 0.75 1.00 θ f( θ| x) x 0 1 2 3 4 5 Prior Verossimilhança Agora, suponha que 𝑛 = 5 e foi observado 𝑥 = 2. Novamente, considere a mis- tura das distribuições 𝐵𝑒𝑡𝑎(5, 12) e 𝐵𝑒𝑡𝑎(10, 3) mas agora com pesos 𝑤 variando no conjunto {0, 0.1, … , 0.9, 1}. n=5; x=2 w = seq(0,1,0.1) A = as.vector(apply(matrix(w),1, function(w){w*choose(n,x)*gamma(a1+b1)/(gamma(a1)* gamma(b1))*(gamma(a1+x)*gamma(b1+n-x))/gamma(a1+b1+n)})) 3.4. DISTRIBUIÇÃO A PRIORI 37 B = as.vector(apply(matrix(w),1, function(w){(1-w)*choose(n,x)*gamma(a2+b2)/(gamma(a2)* gamma(b2))*(gamma(a2+x)*gamma(b2+n-x))/gamma(a2+b2+n)})) w2 = A/(A+B) prior2 = as.vector(apply(matrix(w),1,function(w){ w*dbeta(theta,a1,b1)+(1-w)*dbeta(theta,a2,b2)})) post2 = as.vector(as.matrix(mapply(function(w,w2){ w2*dbeta(theta,a1+x,b1+n-x)+ (1-w2)*dbeta(theta,a2+x,b2+n-x)},w,w2))) vero = as.vector(apply(matrix(rep(x,2*n+1)),1, function(x){dbeta(theta,x+1,n-x+1)})) z<-length(w) tibble(w=as.factor(rep(w,each=length(theta))), w2=rep(w2,each=length(theta)), theta=rep(theta,z), prior = prior2, post = post2, vero = vero) %>% ggplot(colour = w) + geom_line(aes(x=theta,y=post, colour=w),lwd=1.5) + geom_line(aes(x=theta,y=prior,colour="Priori")) + geom_line(aes(x=theta,y=vero,colour="Verossimilhança"),lwd=1,lty=2)+ xlab(expression(theta)) + ylab(expression(paste("f(",theta,"|x)")))+ theme_bw() 0 1 2 3 4 0.00 0.25 0.50 0.75 1.00 θ f( θ| x) w 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Priori Verossimilhança 38 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA 3.4.4 Prioris “Não-Informativas” 3.4.4.1 Priori de Bayes-Laplace Princípio da Razão Insuficiente. Quando não existe razão suficiente para acreditar mais em algum subconjunto do espaço paramétrico Θ, deve-se adotar equiprobabilidade. Exemplo 1. Se Θ = {𝜃1, 𝜃2, … , 𝜃𝑘} então a priori de Bayes-Laplace é 𝑓(𝜃) = 1/𝑘, 𝜃 ∈ Θ . Exemplo 2. Se Θ = [𝑎, 𝑏] então a priori de Bayes-Laplace é 𝑓(𝜃) = 1/(𝑏 − 𝑎), 𝜃 ∈ Θ . 𝑓(𝜃|𝑥) = 𝑓(𝜃)𝑓(𝑥|𝜃)∫Θ 𝑓(𝜃)𝑓(𝑥|𝜃) 𝑑𝜃 = 𝑐 𝑓(𝑥|𝜃)𝑐 ∫Θ 𝑓(𝑥|𝜃) 𝑑𝜃 = 𝑓(𝑥|𝜃)∫Θ 𝑓(𝑥|𝜃) 𝑑𝜃 ∝ 𝑓(𝑥|𝜃) . As principais críticas da priori de Bayes-Laplace são 1. A distribuição é imprópria quando o espaço paramétrico Θ não é finito ou limitado. Por exemplo, Θ = ℕ, Θ = ℤ ou Θ = ℝ. Nesses casos, a priori de Bayes-Laplace é 𝑓(𝜃) ∝ 𝕀Θ(𝜃), que não é uma distribuição de probabilidade. 2. Não é invariante a reparametrizações. Considere, por exemplo, 𝑓(𝜃) uma f.d.p. a priori para 𝜃 e 𝑔 uma transformação um-a-um (injetora) de 𝜃 tal que 𝜓 = 𝑔(𝜃). A distribuição de 𝜓 pode ser calculada por 𝑓𝜓(𝜓) = 𝑓 (𝑔−1(𝜓)) ∣ 𝑑𝑔−1(𝜓) 𝑑𝜓 ∣ . Assim, se 𝑔 é uma transformação não linear e a distribuição a priori para 𝜃 é uniforme, a distribuição para 𝜓 não é uniforme, em geral. 3.4. DISTRIBUIÇÃO A PRIORI 39 3.4.4.2 Priori de Jeffreys Seja 𝑔uma transformação um-a-um do parâmetro 𝜃 e defina 𝜓 = 𝑔(𝜃). Considere uma função ℎ ∶ 𝔛 × Θ ⟶ ℝ. Uma classe de distribuições a priori invariantes pode ser definida por 𝑓(𝜃) ∝ (Var𝑋|𝜃 [ 𝜕ℎ(𝑋|𝜃) 𝜕𝜃 ∣ 𝜃]) 1/2 . Demo. Para mostrar a invariância do método, considere o caso contínuo em que 𝑓𝜓(𝜓) = 𝑓 (𝑔−1(𝜓)) ∣ 𝜕𝑔−1(𝜓) 𝜕𝜓 ∣ . Seja ℎ∗(𝑥, 𝜓) = ℎ (𝑥, 𝑔−1(𝜓)). Então 𝜕ℎ∗(𝑥, 𝜓) 𝜕𝜓 = 𝜕ℎ (𝑥, 𝑔−1(𝜓)) 𝜕𝜓 = 𝜕ℎ(𝑥, 𝜃) 𝜕𝜃 ∣𝜃=𝑔−1(𝜓) ⋅ 𝜕𝑔 −1(𝜓) 𝜕𝜓 , e, portanto, Var [𝜕ℎ ∗(𝑋, 𝜓) 𝜕𝜓 ∣ 𝜃 = 𝑔 −1(𝜓)] = Var [𝜕ℎ(𝑋, 𝜃)𝜕𝜃 ∣ 𝜃 = 𝑔 −1(𝜓)] ⋅ [𝜕𝑔 −1(𝜓) 𝜕𝜓 ] 2 = [𝑓 (𝑔−1(𝜓)) (𝜕𝑔 −1(𝜓) 𝜕𝜓 )] 2 , de modo que 𝑓𝜓(𝜓) = 𝑓 (𝑔−1(𝜓)) ∣ 𝜕𝑔−1(𝜓) 𝜕𝜓 ∣ = Var [ 𝜕ℎ∗(𝑋, 𝜓) 𝜕𝜓 ∣ 𝜃 = 𝑔 −1(𝜓)] 1/2 . A escolha mais usual para ℎ é ℎ(𝑥, 𝜃) = log 𝑓(𝑥|𝜃) . Assim, como 𝐸 [𝜕 log 𝑓(𝑋|𝜃)𝜕𝜃 ∣ 𝜃] = 0, temos 𝑓(𝜃) ∝ Var [𝜕 log 𝑓(𝑋|𝜃)𝜕𝜃 ∣ 𝜃] 1/2 = E[(𝜕 log 𝑓(𝑋|𝜃)𝜕𝜃 ) 2 ∣ 𝜃] 1/2 = [ℐ(𝜃)]1/2 , onde ℐ(𝜃) é a Informação de Fisher de 𝜃. Neste caso, 𝑓(𝜃) ∝ [ℐ(𝜃)]1/2 é chamada priori de Jeffreys. Exemplo 1. Considere novamente o experimento de lançar uma moeda 𝑛 vezes e contar o número de caras, isto é, 𝑋|𝜃 ∼ Bin(𝑛, 𝜃). Então, 𝑓(𝑥|𝜃) = (𝑛𝑥)𝜃 𝑥(1 − 𝜃)𝑛−𝑥 ⟹ log 𝑓(𝑥|𝜃) = log (𝑛𝑥) + 𝑥 log 𝜃 + (𝑛 − 𝑥) log(1 − 𝜃) 40 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA 𝜕 log 𝑓(𝑥|𝜃) 𝜕𝜃 = 𝑥 𝜃 − 𝑛 − 𝑥 1 − 𝜃 = 𝑥 − 𝑛𝜃 𝜃(1 − 𝜃) . Como 𝐸 [𝑋|𝜃] = 𝑛𝜃 e 𝑉 𝑎𝑟(𝑋|𝜃) = 𝐸 [(𝑋 − 𝐸 [𝑋|𝜃])2 ∣ 𝜃] = 𝐸 [(𝑋 − 𝑛𝜃)2 ∣ 𝜃] = 𝑛𝜃(1 − 𝜃), a informação de Fisher neste caso é ℐ𝑥(𝜃) = E[( 𝜕 log 𝑓(𝑥|𝜃) 𝜕𝜃 ) 2 ∣ 𝜃] = E[( 𝑋 − 𝑛𝜃𝜃(1 − 𝜃)) 2 ∣ 𝜃] = 1𝜃2(1 − 𝜃)2 E [(𝑋 − 𝑛𝜃) 2 | 𝜃] = 1𝜃2(1 − 𝜃)2 Var (𝑋 | 𝜃) = 𝑛 𝜃(1 − 𝜃)𝜃2(1 − 𝜃)2 = 𝑛 𝜃(1 − 𝜃) = 𝑛𝜃 −1(1 − 𝜃)−1 , de modo que a priori de Jeffreys é 𝑓(𝜃) ∝ [ℐ𝑥(𝜃)] 1/2 ∝ 𝜃−1/2(1 − 𝜃)−1/2 . Exemplo 2. Considere agora que a mesma moeda é lançada e anota-se o número de caras 𝑌 até que sejam observadas 𝑟 coroas, isto é, 𝑌 |𝜃 ∼ BinNeg(𝑟, 𝜃). Então, 𝑓(𝑦|𝜃) = (𝑦 + 𝑟 − 1𝑦 )𝜃 𝑦(1 − 𝜃)𝑟 ⟹ log 𝑓(𝑦|𝜃) = log (𝑦+𝑘−1𝑦 ) + 𝑦 log 𝜃 + 𝑟 log(1 − 𝜃) 𝜕 log 𝑓(𝑦|𝜃) 𝜕𝜃 = 𝑦 𝜃 − 𝑟 1 − 𝜃 = 1 𝜃 [𝑦 − 𝑟 𝜃 1 − 𝜃] . Como 𝐸 [𝑋|𝜃] = 𝑟 𝜃1 − 𝜃 e 𝑉 𝑎𝑟(𝑋|𝜃) = 𝑟 𝜃 (1 − 𝜃)2 , a informação de Fisher neste caso é ℐ𝑦(𝜃) = E[ 1 𝜃2 (𝑦 − 𝑟 𝜃 1 − 𝜃) 2 ∣ 𝜃] = 1𝜃2 Var (𝑌 | 𝜃) = 𝑟 𝜃(1 − 𝜃)2 = 𝑟𝜃−1(1 − 𝜃)−2 , de modo que a priori de Jeffreys é 𝑓(𝜃) ∝ [ℐ𝑦(𝜃)] 1/2 ∝ 𝜃−1/2(1 − 𝜃)−1 . Note que nos exemplos apresentados, a priori depende da regra de parada, isto é, a forma como decidimos quando parar de lançar a moeda e que determina se o modelo estatístico é binomial ou binomial negativo. Em outras palavras, a opinião a priori definida dessa forma depende do modelo adotado, mesmo que o parâmetro seja o mesmo nos dois casos. 3.4. DISTRIBUIÇÃO A PRIORI 41 3.4.4.3 Priori de Máxima Entropia Entropia é um conceito físico que quantifica a desordem ou imprevisibilidade de um sistema, ou da falta de informação sobre ele. O conceito de entropia desem- penha um importante papel na teoria da informação. O princípio da máxima entropia afirma que a distribuição de probabilidade que melhor representa a falta de informação é aquela com a maior entropia. Caso Discreto. Considere um espaço paramétrico enumerável Θ = {𝜃1, 𝜃2, …}. A entropia da distribuição ℎ (Shannon, 1948) é dada por ℰ(ℎ) = E[− logℎ(𝜃)] = − ∑ 𝜃∈Θ log [ℎ(𝜃)] ℎ(𝜃) . Definição. Considere um espaço paramétrico Θ e ℎ uma f.d.p. para 𝜃. A distribuição da máxima entropia para 𝜃 é a função ℎ que maximiza ℰ(ℎ) (Jaynes, 2003) Exemplo 1. Considere o espaço paramétrico Θ = {𝜃1, … , 𝜃𝑘} e ℎ(𝜃𝑖) = 𝑝𝑖 uma distribuição discreta para 𝜃. A distribuição da máxima entropia para 𝜃 é a função ℎ que maximiza ℰ(ℎ) = − 𝑘 ∑ 𝑖=1 𝑝𝑖 log(𝑝𝑖) com a restrição 𝑘 ∑ 𝑖=1 ℎ(𝜃𝑖) = 𝑘 ∑ 𝑖=1 𝑝𝑖 = 1 . Utilizando o método de multiplicadores de Lagrange, deve-se maximizar a função lagrangiana ℰ∗(ℎ) = − 𝑘 ∑ 𝑖=1 𝑝𝑖 log(𝑝𝑖) + 𝜆 ( 𝑘 ∑ 𝑖=1 𝑝𝑖 − 1) 𝜕ℰ∗(ℎ) 𝜕𝑝𝑖 = − [𝑝𝑖 1 𝑝𝑖 + log(𝑝𝑖)]+𝜆 = 0 ⟺ 𝑝𝑖 = 𝑒𝜆−1 , 𝑖 = 1, … , 𝑘 . Assim, como 𝑝𝑖 deve ser constante e ∑ 𝑝𝑖 = 1, conclui-se que 𝑝𝑖 = 1/𝑘, para 𝑖 = 1, … , 𝑘 . Exemplo 2. Considere agora Θ = {𝜃1, 𝜃2, …} e suponha que há 𝑚 informações parciais a respeito do parâmetro 𝜃 que podem ser escritas como E[𝑔𝑗(𝜃)] = 𝜇𝑗 , 𝑗 = 1, … , 𝑚 . Usando novamente o método de Lagrange, deve-se maximizar ℰ∗(ℎ) = ∞ ∑ 𝑖=1 𝑝𝑖 log(𝑝𝑖)+𝜆 ( ∞ ∑ 𝑖=1 𝑝𝑖 − 1)+ 𝑚 ∑ 𝑗=1 𝜆𝑗 ( ∞ ∑ 𝑖=1 𝑝𝑖 𝑔𝑗(𝜃𝑖) − 𝜇𝑗) 𝜕ℰ∗(ℎ) 𝜕𝑝𝑖 = − log(𝑝𝑖) − 1 + 𝜆 + 𝑚 ∑ 𝑗=1 𝜆𝑗 𝑔𝑗(𝜃𝑖) = 0 ⟺ 𝑝𝑖 ∝ 42 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA 𝑒𝜆−1+∑ 𝑚 𝑗=1 𝜆𝑗 𝑔𝑗(𝜃𝑖) ∝ 𝑒∑ 𝑚 𝑗=1 𝜆𝑗 𝑔𝑗(𝜃𝑖) , 𝑖 = 1, … , 𝑘 . Como ∑ 𝑝𝑖 = 1, 𝑝𝑖 = 𝑒∑ 𝑚 𝑗=1 𝜆𝑗 𝑔𝑗(𝜃𝑖) ∑∞𝑖=1 𝑒 ∑𝑚𝑗=1 𝜆𝑗 𝑔𝑗(𝜃𝑖) e 𝜆𝑗 é obtido por meio das restrições. Exemplo 2a. Seja Θ = {0, 1, 2, …} e suponha que E[𝜃] = 𝜇. Usando o resultado do exemplo anterior com 𝑔(𝜃) = 𝜃 e 𝜃𝑖 = 𝑖, 𝑖 = 0, 1, 2, … , 𝑝𝑖 = 𝑒∑ 𝑚 𝑗=1 𝜆𝑗 𝑔𝑗(𝜃𝑖) ∑∞𝑖=0 𝑒 ∑𝑚𝑗=1 𝜆𝑗 𝑔𝑗(𝜃𝑖) = 𝑒 𝜆 𝑖 ∑∞𝑖=0 𝑒𝜆 𝑖 ∣𝑒𝜆∣<1 = 𝑒 𝜆 𝑖 1/ (1 − 𝑒𝜆) = (𝑒𝜆)𝑖 (1 − 𝑒𝜆) ⟹ 𝜃 ∼ Geo (1 − 𝑒𝜆) . Como E [𝜃] = 𝑒 𝜆 (1 − 𝑒𝜆) = 𝜇, tem-se que 𝜆 = log 𝜇 1 + 𝜇 . Exemplo 2b. Considere que Θ = {1, 2, … , 𝑘} e suponha que Med(𝜃) = 𝑚 . Nesse caso, 𝑔(𝜃) = 𝕀 (𝜃 ≤ 𝑚) e 𝜃𝑖 = 𝑖, 𝑖 = 1, 2, … , 𝑘 , de modo que E [𝑔(𝜃)] = E [𝕀(𝜃 ≤ 𝑚)] = P (𝜃 ≤ 𝑚) = 1/2 e, portanto, ∑ 𝑖≤𝑚 𝑝𝑖 = ∑ 𝑗>𝑚 𝑝𝑗 = 1/2 . 𝑝𝑖 = 𝑒∑ 𝑚 𝑗=1 𝜆𝑗 𝑔𝑗(𝜃𝑖) ∑𝑘𝑖=1 𝑒 ∑𝑚𝑗=1 𝜆𝑗 𝑔𝑗(𝜃𝑖) = ⎧{{ ⎨{{⎩ 𝑒𝜆 ∑𝑖≤𝑚 𝑒𝜆 , 𝑖 ≤ 𝑚 1 ∑𝑖≤𝑚 1 , 𝑖 > 𝑚 = ⎧{ ⎨{⎩ 1 2𝑚 , 𝑖 ≤ 𝑚1 2(𝑘 − 𝑚) , 𝑖 > 𝑚 (A distribuição de 𝜃 é uniforme por blocos.) Divergência de Kullbach-Leibler. Considere duas distribuições discre- tas 𝑝 = (𝑝1, … , 𝑝𝑘) e 𝑞 = (𝑞1, … , 𝑞𝑘) , tal que 𝑝𝑖, 𝑞𝑖 > 0 , 𝑖 = 1, … , 𝑘 , e ∑ 𝑝𝑖 = ∑ 𝑞𝑖 = 1. A divergência de Kullbach-Leibler entre 𝑝 e 𝑞 (Kullback and Leibler, 1951) é dada por 𝐷(𝑝 || 𝑞) = ∑ 𝑝𝑖 log( 𝑝𝑖 𝑞𝑖 ) . 3.4. DISTRIBUIÇÃO A PRIORI 43 Suponha que 𝑔 = (1/𝑘, … , 1/𝑘) 𝐷(𝑝 || 𝑞) = 𝑘 ∑ 𝑖=1 𝑝𝑖 log( 𝑝𝑖 1/𝑘) = 𝑘 ∑ 𝑖=1 𝑝𝑖 [𝑙𝑛(𝑝𝑖) − 𝑙𝑛(1/𝑘)] = 𝑘 ∑ 𝑖=1 𝑝𝑖𝑙𝑛(𝑝𝑖) + 𝑙𝑛(𝑘) 𝑘 ∑ 𝑖=1 𝑝𝑖 = 𝑙𝑛(𝑘) − ℰ(𝑝) Assim, exceto por uma constante, ℰ(𝑝) está associado com quanto a distribuição 𝑝 “diverge” da distribuição uniforme (priori de referência na ausência total de informação). Observação: No caso geral, se 𝐻 e 𝐻0 são duas medidas definidas em Θ tais que 𝐻 é absolutamente contínua com relação à 𝐻0 (𝐻 ≪ 𝐻0), a divergência de Kullbach-Leibler é definida como 𝐷(𝐻 || 𝐻0) = ∫ Θ log( 𝑑𝐻𝑑𝐻0 ) 𝑑𝐻 , em que 𝑑𝐻𝑑𝐻0 é derivada de Radon-Nikodym. Se 𝐻 e 𝐻0 são medidas de prob- abilidade absolutamente contínuas com relação a medida de Lebesgue 𝜆 com f.d.p. 𝑑𝐻𝑑𝜆 = ℎ e 𝑑𝐻0 𝑑𝜆 = ℎ0, temos que, 𝐷(𝐻 || 𝐻0) = ∫ Θ log( 𝑑𝐻/𝑑𝜆𝑑𝐻0/𝑑𝜆 ) 𝑑𝐻𝑑𝜆 𝑑𝜆 = ∫Θ log( ℎ(𝜃)ℎ0(𝜃) ) ℎ(𝜃) 𝑑𝜃 Como a definição anterior de entropia vale apenas para o caso discreto, Jaynes (2003) sugere que no caso contínuo seja utilizada a entropia relativa, dada por ℰ(ℎ) = − ∫ Θ ℎ(𝜃) log( ℎ(𝜃)ℎ0(𝜃) ) 𝑑𝜃 = 𝐷(ℎ || ℎ0) , onde ℎ0 é uma priori de referência na ausência total de informação, preferivel- mente invariante. Assim como no caso discreto, se temos 𝑚 restrições 𝐸[𝑔𝑖(𝜃)] = 𝜇𝑖, a densidade de máxima entropia é ℎ(𝜃) ∝ ℎ0(𝜃) exp{ 𝑚 ∑ 𝑗=1 𝜆𝑗 𝑔𝑗(𝜃)} e os 𝜆𝑗 , 𝑗 = 1, … , 𝑚 , são obtidos das re- strições. Por exemplo, se 𝐸[𝜃] = 𝜇, basta fazer 44 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA 𝜇 = ∫ Θ 𝜃 𝑐 ℎ0(𝜃) exp{𝜆𝜃} 𝑑𝜃 com 𝑐−1 = ∫ Θ ℎ0(𝜃)𝑒𝑥𝑝{𝜆𝜃}𝑑𝜃. Exemplo 1: Θ = ℝ+ e E[𝜃] = 𝜇 . Tomando ℎ0(𝜃) ∝ 𝕀ℝ+(𝜃) (f.d.p. imprópria), tem-se ℎ(𝜃) ∝ 𝑒𝜆𝜃 𝕀ℝ+(𝜃) ∝ −𝜆𝑒𝜆𝜃 𝕀ℝ+(𝜃) 𝕀ℝ−(𝜆) . Como E[𝜃] = −1/𝜆= 𝜇 , tem-se que 𝜆 = −1/𝜇, isto é, 𝜃 ∼ Exp(1/𝜇) , de modo que ℎ(𝜃) = 1𝜇𝑒 − 𝜃𝜇 , 𝜇 > 0 . Exemplo 2 Θ = ℝ e E[𝜃] = 𝜇 e Var(𝜃) = E[(𝜃 − 𝜇)2] = 𝜎2 . Tomando 𝑔1(𝜃) = 𝜃 e 𝑔2(𝜃) = (𝜃 − 𝜇)2, tem-se pelo resultado anterior que ℎ(𝜃) ∝ exp {𝜆1𝜃 + 𝜆2(𝜃 − 𝜇)2} ∝ exp {𝜆1𝜃 + 𝜆2(𝜃2 − 2𝜃𝜇 + 𝜇2)} ∝ exp{𝜆2 [𝜃2 − (2𝜇 − 𝜆1 𝜆2 ) 𝜃]} ∝ exp{𝜆2 [𝜃 − (𝜇 − 𝜆1 2𝜆2 )] 2 } . Considere que 𝜃 ∼ 𝑁(𝜇, 𝜎2), isto é, 𝑓(𝜃) = 1√2𝜋 𝜎 exp{− 1 2𝜎2 (𝑥 − 𝜇) 2} ∝ exp{− 12𝜎2 (𝑥 − 𝜇) 2} . Assim, para concluir que a distribuição de máxima entropia nesse caso é a Normal anterior, basta tomar 𝜇 − 𝜆12𝜆2 = 𝜇 para ver que 𝜆1 = 0 e 𝜆2 = − 1 2𝜎2 . 3.5 Alguns Princípios de Inferência Considere um experimento 𝐸 = (𝑋, 𝜃, {𝑓(𝑥|𝜃)}) que consiste em observar um particular valor 𝑥 ∈ 𝔛 do v.a. 𝑋 que, para cada possível valor do parâmetro (desconhecido) 𝜃 ∈ Θ, tem f.d.p. 𝑓(𝑥|𝜃). De forma geral, uma inferência sobre 𝜃 baseada no resultado 𝑥 do experimento 𝐸 será denotada por Inf(𝐸, 𝑥) . Princípio de Suficiência. Considere um experimento 𝐸 = (𝑋, 𝜃, {𝑓(𝑥|𝜃)}) e suponha que 𝑇 (𝑋) é uma estatística suficiente para 𝜃. Se 𝑥1 e 𝑥2 são dois pontos amostrais tais que 𝑇 (𝑥1) = 𝑇 (𝑥2) então Inf(𝐸, 𝑥1) = Inf(𝐸, 𝑥2) . 3.5. ALGUNS PRINCÍPIOS DE INFERÊNCIA 45 Exemplo 1a. Seja 𝑋1, … , 𝑋𝑛 c.i.i.d. tais que 𝑋1 ∼ 𝐵𝑒𝑟(𝜃) . Considere 𝑛 = 10 e os pontos amostrais 𝑥1 = (1, 1, 1, 1, 1, 1, 0, 0, 0, 0) e 𝑥2 = (1, 0, 1, 0, 1, 0, 1, 0, 1, 1) tais que 𝑇 (𝑥1) = ∑ 𝑥1𝑖 = 6 e 𝑇 (𝑥2) = ∑ 𝑥2𝑖 = 6. Um possível estimador para 𝜃 nesse exemplo é a média amostral, de modo que ̄𝑥1 = ̄𝑥2 = ∑ 𝑥𝑖 𝑛 = 0, 6 . Exemplo 1b. Ainda no contexto do exemplo anterior, considere que a priori 𝜃 ∼ Beta(𝑎, 𝑏) . Então, se 𝑇 (𝑥1) = 𝑇 (𝑥2) = 𝑡, 𝜃|𝑥1 ∼ 𝜃|𝑥2 ∼ 𝜃|𝑇 (𝑥1) = 𝑡 ∼ 𝐵𝑒𝑡𝑎(𝑎 + 𝑡, 𝑏 + 𝑛 − 𝑡) . Princípio da Condicionalidade. Suponha que 𝐸1 = (𝑋1, 𝜃, {𝑓(𝑥1|𝜃)}) e 𝐸2 = (𝑋2, 𝜃, {𝑓(𝑥2|𝜃)}) são dois experimentos onde somente o parâmetro 𝜃 precisa ser comum. Considere um experimento misto em que é observada uma v.a. 𝐽 , com 𝑃(𝐽 = 1) = 𝑃(𝐽 = 2) = 1/2, independente de 𝑋1, 𝑋2 e 𝜃, e então o experimento 𝐸𝐽 é realizado. Formalmente, o experimento realizado nesse caso é 𝐸∗ = (𝑋∗, 𝜃, {𝑓∗(𝑥∗|𝜃)}), onde 𝑋∗ = (𝐽, 𝑋𝐽) e 𝑓∗(𝑥|𝜃) = 1 2 𝑓𝑗(𝑥𝑗|𝜃) . Então, Inf (𝐸∗, (𝑗, 𝑥𝑗)) = Inf (𝐸𝑗, 𝑥𝑗) . Princípio da Verossimilhança. Suponha dois experimentos 𝐸1 = (𝑋1, 𝜃, {𝑓1(𝑥1|𝜃)}) e 𝐸2 = (𝑋2, 𝜃, {𝑓2(𝑥2|𝜃)}), ambos com o mesmo parâmetro 𝜃. Suponha que 𝑥1 e 𝑥2 são pontos amostrais de 𝐸1 e 𝐸2, respectivamente, tais que 𝑓1(𝑥1|𝜃) ∝ 𝑐(𝑥1, 𝑥2)𝑓2(𝑥2|𝜃) , ∀𝜃 ∈ Θ ., então, Inf(𝐸1, 𝑥1) = Inf(𝐸2, 𝑥2). Teorema de Birnbaum. (P. Suficiência ∧ P. Condicionalidade) ⟺ P. Verossimilhança. Demo: (⟹) Seja 𝑥∗1, 𝑥∗2, 𝐸1, 𝐸2 como no P. Verossimilhança e 𝐸∗ como no P. Condicionalidade. Então, 𝑓1(𝑥1|𝜃) ∝ 𝑐(𝑥1, 𝑥2)𝑓2(𝑥2|𝜃) . No espaço do experimento 𝐸∗, defina 𝑇 (𝑗, 𝑥𝑗) = { (1, 𝑥∗1), se 𝑗 = 1, 𝑥1 = 𝑥∗1 (𝑗, 𝑥𝑗), c. c. . Como 𝑓∗(𝑥∗|𝜃) = 𝑓∗ ((𝑗, 𝑥𝑗)|𝜃) = 1/2 𝑓𝑗(𝑥𝑗|𝜃), pelo o Teorema da Fatoração é possível concluir que 𝑇 (𝑗, 𝑥𝑗) é suficiente para 𝜃 no 46 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA experimento 𝐸∗. Então, pelo P. Suficiência, Inf (𝐸∗, (1, 𝑥1)) = Inf (𝐸∗, (2, 𝑥2)) e, pelo P. Condicionalidade, Inf (𝐸∗, (1, 𝑥∗1)) = Inf (𝐸1, 𝑥∗1) = Inf (𝐸∗, (2, 𝑥2)) = Inf (𝐸2, 𝑥∗2) , de modo que Inf (𝐸1, 𝑥∗1) = Inf (𝐸2, 𝑥∗2) e, portanto, vale o P. Verossimilhança. (⟸) Como vale o P. Verossimilhança, 𝑓1(𝑥∗1|𝜃) ∝ 𝑓2(𝑥∗2|𝜃) e Inf(𝐸1, 𝑥∗1) = Inf(𝐸2, 𝑥∗2) . Além disso, se 𝑥∗ = (1, 𝑥∗1), 𝑓∗(𝑥∗|𝜃) = 𝑓∗ ((1, 𝑥∗1)|𝜃) = 1/2 𝑓1(𝑥∗1|𝜃) ∝ 𝑓1(𝑥∗1|𝜃) ∝ 1/2 𝑓2(𝑥∗2|𝜃) = 𝑓∗ ((2, 𝑥∗2)|𝜃) , e, como vale P. Verossimilhança, então Inf (𝐸∗, (1, 𝑥∗1)) = Inf(𝐸1, 𝑥∗1) . Usando o mesmo argumento, se 𝑥∗ = (2, 𝑥∗2), conclui-se que Inf (𝐸∗, (2, 𝑥∗2)) = 𝐼𝑛𝑓(𝐸2, 𝑥∗2) . Portando, vale o P. Condicionalidade. Pelo Teorema de Fatoração, 𝑓(𝑥|𝜃) = 𝑔 (𝑇 (𝑥), 𝜃) ℎ(𝑥) ∝ 𝑔 (𝑇 (𝑥), 𝜃) . Se 𝑥1 e 𝑥2 são pontos amostrais tais que 𝑇 (𝑥1) = 𝑇 (𝑥2), 𝑓1(𝑥1|𝜃) ∝ 𝑔 (𝑇 (𝑥1), 𝜃) ∝ 𝑔(𝑇 (𝑥2), 𝜃) ∝ 𝑓2(𝑥2|𝜃) , tem-se, pelo P. Verossimilhança, que Inf(𝐸1, 𝑥1) = Inf(𝐸2, 𝑥2) e, portanto vale o P. Suficiência. Exemplo. Seja 𝑋1|𝜃 ∼ 𝐵𝑖𝑛(𝑛, 𝜃) e 𝑋2|𝜃 ∼ 𝐵𝑖𝑛𝑁𝑒𝑔(𝑟, 𝜃), onde 𝑛 é número total de lançamentos (fixado) e 𝑟 é número de fracas- sos (fixado). Então, 𝐸1 = (𝑋1, 𝜃, {( 𝑛𝑥1)𝜃 𝑥1(1 − 𝜃)𝑛−𝑥1 ∶ 𝜃 ∈ [0, 1]}) e 𝐸2 = (𝑋2, 𝜃, {(𝑟+𝑥2−1𝑥2 )𝜃 𝑥2(1 − 𝜃)𝑟 ∶ 𝜃 ∈ [0, 1]}) . Note que em am- bos os experimentos, o parâmetro 𝜃 é o mesmo! (I) Estimação pontual usando Estimador Não-Viesado (ENV) para 𝜃, isto é, ̂𝜃𝑖(𝑋𝑖) tal que 𝐸 [ ̂𝜃𝑖(𝑋𝑖)|𝜃] = 𝜃. Nesse caso, Inf(𝐸𝑖, 𝑥𝑖) = ̂𝜃𝑖(𝑥𝑖) para 𝑖 = 1, 2. Então, ̂𝜃1(𝑋𝑖) = 𝑋1 𝑛 e ̂𝜃2(𝑋2) = 𝑋2 − 1 𝑋2 + 𝑟 − 1 são ENV para 𝜃 em 𝐸1 e 𝐸2, respectivamente. Suponha que 𝑛 = 12, 𝑟 = 3 e 𝑥1 = 𝑥2 = 9. Então, as funções de verossimilhança são 𝑓1(𝑥1|𝜃) = (129 )𝜃9(1 − 𝜃)3 ∝ (119 )𝜃9(1 − 𝜃)3 = 𝑓2(𝑥2|𝜃). Contudo, ̂𝜃1(𝑥1) = 9 12 = 0, 75 ≠ ̂𝜃2(𝑥2) = 8 11 ≈ 0, 72 ̄72, e 3.5. ALGUNS PRINCÍPIOS DE INFERÊNCIA 47 portanto, o ENV viola o P. Verossimilhança. (II) Estimador de Máxima Verossimilhança (EMV) 𝛿𝑀𝑉 é um estimador tal que 𝛿𝑀𝑉 (𝑥) = arg sup 𝜃∈Θ 𝑓(𝑥|𝜃) . 𝛿1𝑀𝑉 (𝑥1) = 𝑥1 𝑛 = 𝛿 2 𝑀𝑉 (𝑥2) = 𝑥2 𝑥2 + 𝑟 = 912 = 0, 75 . Portanto, o EMV não viola o P. Verossimilhança. (III) Suponha que deseja-se testar 𝐻0 ∶ 𝜃 ≤ 1/2 (Θ0) contra 𝐻1 ∶ 𝜃 > 1/2 (Θ1) , com Θ = Θ0 ∪ Θ1 . 𝜙(𝑥) = { 1, 𝑇 (𝑥) ≤ 𝑐(𝛼)0, 𝑇 (𝑥) > 𝑐(𝛼) em que 𝑇 é uma estatística de teste (isto é, valores “grandes” de 𝑇 (𝑥) indicam que 𝑥 é “favorável” a 𝐻0) e 𝑐(𝛼) é tal que 𝛼 = sup 𝜃0∈Θ0 P(Rejeitar 𝐻0 | 𝜃0) sup 𝜃0∈Θ0 P ({𝑥 ∈ 𝔛 ∶ 𝑇 (𝑥) ≤ 𝑐(𝛼)} | 𝜃0) . Considere 𝑇 (𝑥) = 𝑅𝑉 (𝑥) = 𝑠𝑢𝑝 Θ0 𝑓(𝑥|𝜃) 𝑠𝑢𝑝 Θ 𝑓(𝑥|𝜃) , de modo que um 𝑝-value pode ser calculado por 𝑝(𝑥) = sup Θ0 P (𝑇 (𝑋) ≥ 𝑇 (𝑥)|𝜃). Assim, um teste que conduz a uma decisão equivalente ao descrito anterior- mente é rejeitar 𝐻0 se, e somente se, 𝑝(𝑥) ≤ 𝛼. Considere a escolha usual 𝛼 = 0.05. Então, 𝑝1(𝑥1) = 𝑃(𝑋1 ≥ 9|𝜃 = 1/2) = 0.073 > 0.05 ⇒ Não rejeita 𝐻0 . 𝑝2(𝑥2) = 𝑃 (𝑋2 ≥ 9|𝜃 = 1/2) = 0.0327 < 0.05 ⇒ Rejeita 𝐻0 . Portanto, o Teste da Razão de Verossimilhanças viola o P. Verossim- ilhança. (IV) Aboragem Bayesiana ⇒ 𝐼𝑛𝑓(𝐸𝑖, 𝑥𝑖) = 𝑓𝑖(𝜃|𝑥𝑖) a) Bayesiano Subjetivista Como o parâmetro 𝜃 é o mesmo nos dois experimentos, a priori deve ser a mesma. 𝑓(𝜃) não depende de {𝑓𝑖(𝑥|𝜃) ∶ 𝜃 ∈ Θ} 𝑓(𝜃|𝑥) ∝ 𝑓(𝜃)𝑓(𝑥1|𝜃) ∝ 𝑓(𝜃)𝑓(𝑥2|𝜃) e, portanto, satisfaz o P. Verossimilhança. b) Bayesiano Objetivista (p.e., usando priori de Jeffreys) Para 𝐸1, 𝑓1(𝜃) ∝ |𝐼𝐹 (𝜃)|1/2 ∝ 𝜃−1/2(1 − 𝜃)−1/2 ∼ 𝐵𝑒𝑡𝑎(1/2, 1/2) Para 𝐸2, 𝑓2(𝜃) ∝ 𝜃−1(1 − 𝜃)−1/2 ∼ 𝐵𝑒𝑡𝑎(0, 1/2) (distribuição im- própria). 48 CHAPTER 3. INTRODUÇÃO À INFERÊNCIA BAYESIANA Se o número de sucessos é 𝑥 = 𝑥1 = 𝑥2 e número de fracassos é 𝑦 = 𝑛 − 𝑥1 = 𝑟, temos que 𝜃|𝑋1 = 𝑥1 ∼ 𝐵𝑒𝑡𝑎(𝑥+1/2, 𝑦+1/2) e 𝜃|𝑋2 = 𝑥2 ∼ 𝐵𝑒𝑡𝑎(𝑥, 𝑦+1/2) . Como 𝑓1(𝑥1|𝜃) ∝ 𝑓2(𝑥2|𝜃) mas 𝑓1(𝜃) ≠ 𝑓2(𝜃), tem-se que 𝑓1(𝜃|𝑥1) ≠ 𝑓2(𝜃|𝑥2) e, portanto, esse procedimento viola o P. Verossimilhança. Chapter 4 Introdução à Teoría da Decisão A teoria da decisão é uma das possíveis formas de embasar a inferência bayesiana. Sob essa abordagem, considera-se uma função de perda (ou função de utilidade) que quantifica numericamente as consequências de sua decisão para um dado valor do parâmetro. Essa quantificação de “preferência” é nova- mente subjetiva e é possível fazer uma construção de função de perda similar ao que fizemos com probabilidade. Ou seja, dado um conjunto de suposições, existe uma função de perda que representa numericamente suas preferências para cada decisão e cada possível valor do parâmetro. Essa construção não será feita aqui mas podeser encontrada no livro Optimal Statistical Decisions (DeGroot, 1970). 4.1 Conceitos Básicos • 𝑑 ∈ 𝒟 ∶ decisão - uma particular afirmação, por exemplo, sobre 𝜃. No contexto inferencial, uma decisão pode ser uma estimativa (pontual ou intervalar) para 𝜃 ou a escolha de uma hipótese específica em um teste de hipóteses. • 𝒟 ∶ espaço de decisões - conjunto de todas as possíveis decisões (afir- mações). • 𝜃: estado da natureza - quantidade desconhecida ou parâmetro, no contexto de inferência estatística. • Θ: espaço dos estados da natureza - espaço paramétrico. 49 50 CHAPTER 4. INTRODUÇÃO À TEORÍA DA DECISÃO Exemplo 1. Suponha que você está saindo de casa pela manhã e precisa tomar uma importante decisão: levar ou não seu guarda-chuva. • 𝒟 = {𝐺, 𝐺𝑐} , onde 𝐺 ∶ levar guarda-chuva. • Θ = {𝐶, 𝐶𝑐} , onde 𝐶 ∶ chuva. Suponha que carregar o guarda-chuva é algo que não lhe agrada mas, por outro lado, você odeia ficar molhado e acredita que a pior situação seria não levá-lo e tomar chuva. Você ficará incomodado se levar o guarda-chuva e chover pois, além de tê-lo carregado, voltou para casa com os sapatos molhados. Note que, nessas circunstâncias, o cenário preferido por você seria não levar o guarda-chuva e não chover. Para quantificar suas preferências, considere uma função de perda 𝐿 ∶ 𝒟×Θ ⟶ ℝ, de modo que, quanto mais algum cenário lhe gera incômodo, maior sua perda. Um exemplo é apresentado a seguir. Estados da Natureza Decisão 𝐶 𝐶𝑐 𝐺 2 (ruim) 1 (bom) 𝐺𝑐 3 (pior) 0 (melhor) 𝑃(𝜃) p 1-p Uma possível maneira de tomar uma decisão é escolher a decisão “menos prej- udicial”. Se levar o Guarda chuva, no pior caso, sua perda é max 𝜃 𝐿(𝐺, 𝜃) = 2 e, se não levá-lo, a maior perda possível é max 𝜃 𝐿(𝐺𝑐, 𝜃) = 3. Assim, a decisão que tem a menor dentre as maiores perdas é levar o guarda-chuva. Esse pro- cedimento para tomada de decisões é chamado min-max e consiste em escolher a decisão 𝑑′ tal que 𝑑′ = argmin 𝑑 max 𝜃 𝐿(𝑑, 𝜃). Sendo um pouco mais otimista, você pode escolher a decisão que tenha a maior dentre as menores perdas. Esse procedimento é chamado max-min e consiste em escolher a decisão 𝑑′ = argmax 𝑑 min 𝜃 𝐿(𝑑, 𝜃). No nosso exemplo, esse proced- imento também sugere que você sempre carregue o guarda-chuvas. Note que a decisão escolhida pelos dois procedimentos descritos anteriormente sugere que você sempre deve carregar o guarda-chuvas. Contudo, isso pode não ser razoável. Imagine que você estava lendo notícias antes de sair de casa e viu que a probabilidade de chuva era 0.01. Nesse caso, não parece fazer sentido você levar o guarda-chuva, já que isso vai te trazer um desconforto e a chance de chover é muito baixa. Assim, a probabilidade de chover deveria ser levada 4.1. CONCEITOS BÁSICOS 51 em consideração em sua tomada de decisão. Uma maneira de fazer isso é utilizar a perda esperada. Note que 𝜃 é uma quantidade desconhecida e, pelo que já foi discutido anteriormente, você deve descrever sua incerteza em relação a essa quantidade em termos de probabili- dade. Suponha que no exemplo 𝑃(𝐶) = 𝑝, 0 ≤ 𝑝 ≤ 1. Para cada decisão 𝑑 ∈ 𝒟, é possível calcular o valor esperado da função de perda (perda esperada ou risco da decisão 𝑑 contra a priori 𝑃 ) 𝜌(𝑑, 𝑃 ) = 𝐸 [𝐿(𝑑, 𝜃) | 𝑃 ] = ∫ Θ 𝐿(𝜃)𝑑𝑃(𝜃). No exemplo, temos • 𝐸 [𝐿(𝐺, 𝜃)] = 𝐿(𝐺, 𝐶)𝑃(𝐶) + 𝐿(𝐺, 𝐶𝑐)𝑃 (𝐶𝑐) = 2𝑝 + 1(1 − 𝑝) = 𝑝 + 1; • 𝐸 [𝐿(𝐺𝑐, 𝜃)] = 𝐿(𝐺𝑐, 𝐶)𝑃 (𝐶) + 𝐿(𝐺𝑐, 𝐶𝑐)𝑃 (𝐶𝑐) = 3𝑝 + 0(1 − 𝑝) = 3𝑝. Deste modo, as perdas esperadas associadas a cada decisão dependem da prob- abilidade de chuva 𝑝. Assim, para cada possível valor de 𝑝, deve-se tomar a decisão que tem menor perda esperada. Por exemplo, se a probabilidade de chuva é 𝑝 = 0.1, temos que as perdas esperadas para as decisões de levar ou não o guarda-chuva são, respectivamente, 𝐸 [𝐿(𝐺, 𝜃)] = 1.1 e 𝐸 [𝐿(𝐺𝑐, 𝜃)] = 0.3. Assim, sob essa abordagem, sua decisão seria de não levar o guarda-chuva nesse caso. Por outro lado, se a probabilidade de chuva for 𝑝 = 0.9, suas perdas es- peradas seriam respectivamente 𝐸 [𝐿(𝐺, 𝜃)] = 1.9 e 𝐸 [𝐿(𝐺𝑐, 𝜃)] = 2.7, de modo que a decisão ótima seria levar o guarda-chuva. O gráfico a seguir apresenta as perdas para cada decisão 𝑑 e para cada valor de 𝑝. É possível notar que a decisão ótima é levar o guarda-chuva quando 𝑝 > 0.5 e não levá-lo caso contrário. 52 CHAPTER 4. INTRODUÇÃO À TEORÍA DA DECISÃO 0 1 2 3 0.00 0.25 0.50 0.75 1.00 p E [d ,θ | p] Decisão Levar o Guarda−Chuva Não Levar o Guarda−Chuva Vamos denotar por 𝜌∗ o risco de bayes, isto é, a perda esperada da decisão de Bayes (ou decisão ótima) 𝑑∗ ∈ 𝒟 tal que 𝜌∗(𝑃 ) = 𝜌(𝑑∗, 𝑃 ) = 𝑚𝑖𝑛 𝑑∈𝒟 𝜌(𝑑, 𝑃 ). Para uma argumentação mais formal sobre a escolha pela decisão que minimiza a perda esperada, ver Optimal Statistical Decisions (DeGroot, M.H.). • Vamos denotar um problema de decisão por (Θ, 𝒟, 𝐿, 𝑃 ), onde Θ é o espaço paramétrico, 𝒟 é o espaço de decisões, 𝐿 ∶ 𝒟 × Θ ⟶ ℝ é uma função de perda e 𝑃 é a distribuição de probabilidade que representa sua crença sobre a quantidade desconhecida 𝜃. Equivalentemente, a função de perda 𝐿 pode ser substituída por uma função de utilidade 𝑈 (por exemplo, tome 𝑈 = −𝐿). • A solução para um problema de decisão (Θ, 𝒟, 𝐿, 𝑃 ) é a decisão de Bayes, 𝑑∗ ∈ 𝒟, tal que 𝜌∗(𝑃 ) = 𝜌(𝑑∗, 𝑃 ) = inf 𝑑∈𝒟 𝜌(𝑑, 𝜃), com 𝜌(𝑑, 𝑃 ) = ∫ Θ 𝐿(𝑑, 𝜃)𝑑𝑃(𝜃). 4.2. ALEATORIZAÇÃO E DECISÕES MISTAS 53 4.2 Aleatorização e Decisões Mistas Seja 𝐷 = {𝑑1, 𝑑2, …} um espaço de decisões e considere ℳ o conjunto de todas as decisões mistas (ou aleatorizadas), isto é, para toda distribuição de probabil- idades 𝑄 = {𝑞1, 𝑞2, …}, uma decisão 𝑑 ∈ ℳ se 𝑑 consiste em escolher a decisão 𝑑𝑖 com probabilidade 𝑞𝑖. Assim, a perda associada à uma decisão 𝑑 ∈ ℳ é 𝐿(𝑑, 𝜃) = ∑ 𝑞𝑖𝐿(𝑑𝑖, 𝜃) e o risco dessa decisão é 𝜌(𝑑, 𝑃 ) = ∫ Θ 𝐿(𝑑, 𝜃)𝑑𝑃(𝜃) = ∫ Θ ∑ 𝑞𝑖𝐿(𝑑𝑖, 𝜃)𝑑𝑃(𝜃) = ∑ 𝑞𝑖 ∫ Θ 𝐿(𝑑𝑖, 𝜃)𝑑𝑃(𝜃) = ∑ 𝑞𝑖 𝜌(𝑑𝑖, 𝜃). Considere a decisão 𝑑∗ ∈ 𝒟 tal que 𝜌(𝑑∗, 𝑃 ) = inf 𝑑∈𝒟 𝜌(𝑑, 𝜃). Então, ∀ 𝑑 ∈ ℳ, 𝜌(𝑑, 𝑃 ) = ∑ 𝑞𝑖 𝜌(𝑑𝑖, 𝜃) ≥ ∑ 𝑞𝑖 𝜌(𝑑∗, 𝜃). • Em palavras, para toda decisão aleatorizada 𝑑 ∈ ℳ, existe uma decisão não aleatorizada 𝑑∗ ∈ 𝒟 ⊂ ℳ, tal que 𝜌(𝑑∗, 𝑃 ) ≤ 𝜌(𝑑, 𝑃 ). 4.3 Problemas com Dados Suponha que antes de escolher uma decisão 𝑑 ∈ 𝒟, é possível observar um v.a. 𝑋 que (supostamente) está relacionado com 𝜃 (isto é, 𝑋 traz alguma informação sobre 𝜃). Desde modo, considere a família 𝒫 = {𝑓(⋅|𝜃) ∶ 𝜃 ∈ Θ} de funções de distribuição condicionais para 𝑋, isto é, para cada 𝜃 ∈ Θ é possível determinar a distribuição condicional de 𝑋|𝜃. Essa distribuição, juntamente com a distribuição a priori 𝑓(𝜃), determina totalmente uma distribuição conjunta 𝑓(𝑥, 𝜃) = 𝑓(𝑥|𝜃)𝑓(𝜃). Pode-se definir uma função de decisão 𝛿 ∶ 𝔛 ⟶ 𝒟 que associa a cada resul- tado experimental 𝑥 ∈ 𝔛 uma decisão 𝑑 ∈ 𝒟. Denote o conjunto de todas as possíveis funções de decisão por Δ. O risco 𝑟(𝛿, 𝑃 ) da função de decisão 𝛿 ∈ Δ é dado por 𝑟(𝛿, 𝑃 ) = 𝐸 [𝐿 (𝛿, 𝜃)] = ∫ Θ ∫ 𝔛 𝐿 (𝛿(𝑥), 𝜃) 𝑑𝑃(𝑥, 𝜃). A função de decisão de Bayes, 𝛿∗ ∈ Δ, é tal que 𝜌∗(𝑃 ) = 𝜌(𝛿∗, 𝑃 ) = inf 𝛿∈Δ 𝜌(𝛿, 𝑃 ). 54 CHAPTER 4. INTRODUÇÃO À TEORÍA DA DECISÃO Exemplo 1. Seja Θ = {𝜃1, 𝜃2}, 𝒟 = {𝑑1, 𝑑2}, 𝑋|𝜃1 ∼ 𝐵𝑒𝑟(3/4), 𝑋|𝜃2 ∼ 𝐵𝑒𝑟(1/3), 𝔛 = {0, 1} e, a priori, 𝑃(𝜃 = 3/4) = 𝑃(𝜃 = 1/3) = 1/2. Considere a função de perda a seguir. L 𝜃1 𝜃2 𝑑1 0 5 𝑑2 10 0 Temos que |Δ| = 22 = 4, de modo que as possíveis funções de decisão são 𝛿1(𝑥) = { 𝑑1, 𝑥 = 1 𝑑2, 𝑥 = 0 𝛿2(𝑥) = { 𝑑1, 𝑥 = 0 𝑑2, 𝑥 = 1 𝛿3(𝑥) = 𝑑1 e 𝛿4(𝑥) = 𝑑2. Para a função 𝛿1, temos x 𝜃 𝐿(𝛿1(𝑥), 𝜃) 𝑃 (𝑥|𝜃) 𝑃 (𝜃) 𝑃 (𝑥, 𝜃) 0 𝜃1 10 1/4 1/2 1/8 0 𝜃2 0 2/3 1/2 2/6 1 𝜃1 0 3/4 1/2 3/8 1 𝜃2 5 1/3 1/2 1/6 𝜌(𝛿1) = 1 ∑ 𝑥=0 2 ∑ 𝑖=1 𝐿(𝛿1(𝑥), 𝜃𝑖) 𝑃 (𝑋 = 𝑥|𝜃𝑖)𝑃 (𝜃𝑖)⏟⏟⏟⏟⏟⏟⏟ 𝑃(𝑥,𝜃) = 10 18 + 5 1 6 = 50 24 De forma análoga,𝜌(𝛿2, 𝑃 ) = 130/24 , 𝜌(𝛿3, 𝑃 ) = 60/24 , 𝜌(𝛿4, 𝑃 ) = 120/24 , e, assim. 𝛿∗(𝑥) = 𝛿∗1(𝑥) = { 𝑑1, 𝑥 = 1 𝑑2, 𝑥 = 0 Risco de Bayes: 𝜌∗(𝑃 ) = 𝜌(𝛿∗, 𝑃 ) = 50/24. Em problemas mais complicados, pode ser muito trabalhoso (ou impossível) obter a função de decisão dessa forma, chamada forma normal. Sob essa abor- dagem, é necessário encontrar a função de decisão de bayes 𝛿∗ dentre todas as possíveis funções de decisão. Nesses casos, pode ser mais fácil resolver o prob- lema usando a forma extensiva em que, para cada 𝑥 ∈ 𝔛, obtem-se a decisão de Bayes 𝑑∗𝑥 que minimiza o risco posterior, definido por 𝑟𝑥(𝑑) = ∫ Θ 𝐿(𝑑, 𝜃)𝑑𝑃(𝜃|𝑥). 4.3. PROBLEMAS COM DADOS 55 Assim, é posível obter uma decisão de Bayes 𝑑∗𝑥 para um específico ponto 𝑥 observado ou, ainda, construir uma função de decisão de Bayes, fazendo 𝛿∗(𝑥) = 𝑑∗𝑥 para cada 𝑥 ∈ 𝔛. A seguir, é mostrado que essa duas formas produzem resultados que minimizam o risco. Note que 𝑟(𝛿, 𝑃 ) = 𝐸 [𝐿 (𝛿, 𝜃)] = ∫ Θ ∫ 𝔛 𝐿 (𝛿(𝑥), 𝜃) 𝑑𝑃(𝑥, 𝜃) = ∫ Θ ∫ 𝔛 𝐿 (𝛿(𝑥), 𝜃) 𝑑𝑃(𝑥|𝜃)𝑑𝑃(𝜃) = ∫ 𝔛 ⎡ ⎢ ⎢ ⎣ ∫ Θ 𝐿 (𝛿(𝑥), 𝜃) 𝑑𝑃(𝜃|𝑥) ⏟⏟⏟⏟⏟⏟⏟⏟⏟ 𝑟𝑥(𝛿(𝑥)) ⎤ ⎥ ⎥ ⎦ 𝑑𝑃(𝑥). Note que a integral interna (em 𝜃) pode ser resolvida para cada 𝑥 fixado. Para cada 𝑥, considere a decisão 𝑑∗𝑥 tal que 𝑟𝑥 (𝑑∗𝑥) = inf𝑑∈𝒟 𝑟𝑥(𝑑). Assim 𝑟(𝛿, 𝑃 ) = ∫ 𝔛 ⎡ ⎢ ⎢ ⎣ ∫ Θ 𝐿 (𝛿(𝑥), 𝜃) 𝑑𝑃(𝜃|𝑥) ⏟⏟⏟⏟⏟⏟⏟⏟⏟ 𝑟𝑥(𝛿(𝑥)) ⎤ ⎥ ⎥ ⎦ 𝑑𝑃(𝑥) = ∫ 𝔛 [𝑟𝑥 (𝛿(𝑥))] 𝑑𝑃 (𝑥) ≥ ∫ 𝔛 [𝑟𝑥 (𝑑∗𝑥)] 𝑑𝑃 (𝑥) = ∫ 𝔛 [𝑟𝑥 (𝑑∗𝑥)] 𝑑𝑃 (𝑥). Assim, a função 𝛿∗(𝑥) = 𝑑∗𝑥 é uma função de decisão de Bayes. No Exemplo 1 𝑋|𝜃1 ∼ 𝐵𝑒𝑟(3/4) , 𝑋|𝜃2 ∼ 𝐵𝑒𝑟(1/3) e 𝑃(𝜃1) = 𝑃(𝜃2) = 1/2. 𝑃(𝜃1|𝑥 = 0) = 𝑃(𝑋 = 0|𝜃1)𝑃 (𝜃1) 𝑃 (𝑋 = 0|𝜃1)𝑃 (𝜃1) + 𝑃(𝑋 = 0|𝜃2)𝑃 (𝜃2) = 1 4 1 2 1 4 1 2 + 23 12 = 311 𝑃(𝜃2|𝑋 = 0) = 8 11 𝑟𝑥(𝑑1, 𝑃 ) = 2 ∑ 𝑖=1 𝐿(𝑑1, 𝜃𝑖)𝑃 (𝜃𝑖|𝑋 = 0) = 0 𝑃(𝜃1|𝑋 = 0) + 10 𝑃(𝜃2|𝑋 = 0) = 80 11 𝑟𝑥(𝑑2, 𝑃 ) = 5 𝑃(𝜃1|𝑋 = 0) + 0 𝑃(𝜃2|𝑋 = 0) = 15 11 Logo, para 𝑥 = 0, 𝑑∗0 = 𝑑2. De forma análoga, para 𝑥 = 1, 𝑑∗1 = 𝑑2 e, assim, 𝛿∗(𝑥) = { 𝑑2, 𝑥 = 0𝑑1, 𝑥 = 1 . 56 CHAPTER 4. INTRODUÇÃO À TEORÍA DA DECISÃO Chapter 5 Estimação 5.1 Estimação Pontual Todos os problemas de inferência estatística podem ser vistos como um caso particular de Teoria da Decisão. Um problema de estimação pontual consiste em encontrar um “chute” para o valor do parâmetro 𝜃, de modo que o espaço de decisões é 𝒟 = Θ. Além disso, nesse tipo de problema é usual considerar funções de perda da forma 𝐿(𝑑, 𝜃) = 𝑠(𝜃)Δ(𝑑, 𝜃), onde Δ é alguma distância (ou uma medida de discrepância) relacionada ao erro por tomar a decisão 𝑑 quando o valor do parâmetro é 𝜃 e 𝑠 é uma função não-negativa relacionada à gravidade do erro para cada 𝜃 (pode ser constante). Exemplo Considere um problema de estimação pontual, isto é, 𝒟 = Θ, onde a função de perda é dada por 𝐿(𝑑, 𝜃) = (𝑑−𝜃)2, conhecida como perda quadrática. 𝑟𝑥(𝑑) = ∫ Θ (𝑑 − 𝜃)2 𝑑𝑃(𝜃|𝑥) = ∫ Θ (𝑑2 − 2𝑑𝜃 + 𝜃2) 𝑑𝑃(𝜃|𝑥) = 𝑑2 ∫ Θ 𝑑𝑃(𝜃|𝑥) − 2𝑑 ∫ Θ 𝜃 𝑑𝑃(𝜃|𝑥) + ∫ Θ 𝜃2 𝑑𝑃(𝜃|𝑥) = 𝑑2 − 2𝑑 𝐸[𝜃|𝑥] + 𝐸[𝜃2|𝑥] = 𝑔(𝑑). 𝜕𝑔(𝑑) 𝜕𝑑 = 2𝑑 − 2𝐸[𝜃|𝑥] = 0 ⇒ 𝑑 ∗ 𝑥 = 𝐸[𝜃|𝑥]. Logo, um estimador para 𝜃 contra a perda quadrática é 𝛿∗(𝑋) = 𝐸[𝜃|𝑋]. • Estimador de Bayes para 𝜃 contra diferentes funções de perda: 1. Perda Quadrática: 𝐿2(𝑑, 𝜃) = (𝑑 − 𝜃)2 ⟹ 𝛿∗2(𝑋) = 𝐸[𝜃|𝑋]; 57 58 CHAPTER 5. ESTIMAÇÃO 2. Perda Absoluta: 𝐿1(𝑑, 𝜃) = |𝑑 − 𝜃| ⟹ 𝛿∗1(𝑋) = 𝑀𝑒𝑑(𝜃|𝑋); 3. Perda 0-1: 𝐿0(𝑑, 𝜃) = 𝑐 𝕀(𝑑 ≠ 𝜃) ⟹ 𝛿∗0(𝑋) = 𝑀𝑜𝑑𝑎(𝜃|𝑋). Exemplo 1. Voltando à Perda Quadrática: 𝐿(𝑑, 𝜃) = 𝑎(𝑑 − 𝜃)2, 𝑎 > 0. Já vimos que 𝛿∗(𝑋) = 𝐸[𝜃|𝑋]. É importante notar que esse estimador só faz sentido se 𝐸[𝜃|𝑋] ∈ 𝒟. Nos casos em que isso não ocorre, tomamos um valor 𝑑∗𝑥 ∈ 𝒟 próximo a 𝐸[𝜃|𝑋] tal que 𝑟𝑥 (𝑑∗𝑥) é mínimo. O risco a posteriori para esse estimador é 𝑟𝑥 (𝛿∗(𝑥)) = 𝑟𝑥 (𝐸[𝜃|𝑥]) = ∫ Θ 𝐿 (𝛿∗(𝑥), 𝜃) 𝑑𝑃(𝜃|𝑥) = ∫ Θ (𝜃 − 𝐸[𝜃|𝑥])2 𝑑𝑃(𝜃|𝑥) = 𝑉 𝑎𝑟(𝜃|𝑥), de modo que o risco de Bayes é dado por 𝜌∗ (𝑃 ) = 𝜌 (𝛿∗(𝑋), 𝑃 ) = ∫ 𝔛 ∫ Θ (𝜃 − 𝐸[𝜃|𝑥])2𝑑𝑃(𝜃|𝑥) ⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟ 𝑉 𝑎𝑟[𝜃|𝑥] 𝑑𝑃(𝑥) = 𝐸 [𝑉 𝑎𝑟(𝜃|𝑋)]. A variância da posteriori 𝑉 𝑎𝑟(𝜃|𝑥) pode ser vista como uma medida de in- formação, no sentido que quanto menor essa variância, mais concentrada é a distribuição e há “menos incerteza” sobre 𝜃. Nesse sentido, espera-se que ao observar 𝑋 = 𝑥, a variância 𝑉 𝑎𝑟(𝜃|𝑥) diminua em relação a variância da priori 𝑉 𝑎𝑟(𝜃). 𝑉 𝑎𝑟(𝜃)⏟ 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒 = 𝐸 [𝑉 𝑎𝑟(𝜃|𝑋)]⏟⏟⏟⏟⏟ ⇓ + 𝑉 𝑎𝑟 [𝐸(𝜃|𝑋)]⏟⏟⏟⏟⏟ ⇑ Aparentemente, quando espera-se que a variância da posteriori diminua, a var- iância do estimador deveria aumentar. Muitas vezes isso é colocado como se o objetivo fosse encontrar o estimador de maior variância, em contradição com a abordagem frequentista. Contudo, há outra interpretação desse resultado: deseja-se obter um estimador que varie bastante de acordo com o valor obser- vado de 𝑋, isto é, a informação trazida pela amostra muda sua opinião sobre 𝜃. Exemplo 2. Considere 𝑋1, ...𝑋𝑛 c.i.i.d. tais que 𝑋𝑖|𝜃 ∼ 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜃) e, a priori, 𝜃 ∼ 𝐺𝑎𝑚𝑎(𝑎, 𝑏). A função de verossimilhança é 𝑓(𝑥|𝜃) ∝ ∏ 𝜃𝑥𝑖 𝑒−𝜃 e a priori é 𝑓(𝜃) ∝ 𝜃𝑎−1 𝑒−𝑏𝜃. 5.1. ESTIMAÇÃO PONTUAL 59 Assim, 𝑓(𝜃|𝑥) ∝ 𝜃∑ 𝑥𝑖 𝑒−𝑛𝜃 ⋅ 𝜃𝑎−1 𝑒−𝑏𝜃 ∝ 𝜃𝑎+∑ 𝑥𝑖−1 𝑒−(𝑏+𝑛)𝜃, de modo que 𝜃|𝑋 = 𝑥 ∼ 𝐺𝑎𝑚𝑎 (𝑎 + ∑ 𝑥𝑖, 𝑏 + 𝑛). Como visto anteriormente, o estimador de Bayes contra a perda quadrática é 𝛿∗(𝑋) = 𝐸[𝜃|𝑋] = 𝑎 + ∑𝑖 𝑋𝑖𝑏 + 𝑛 . Para calcular o risco de Bayes, note que 𝐸[𝑋𝑖|𝜃] = 𝜃, de modo que 𝐸[𝑋𝑖] = 𝐸 [𝐸(𝑋𝑖|𝜃)] = 𝐸[𝜃] = 𝑎/𝑏. Além disso, 𝑉 𝑎𝑟(𝜃) = 𝑎 𝑏2 e 𝑉 𝑎𝑟(𝜃|𝑋) = 𝑎 + ∑𝑖 𝑋𝑖 (𝑏 + 𝑛)2 . Então, 𝜌∗(𝑃 ) = 𝐸 [𝑉 𝑎𝑟(𝜃|𝑋)] = 𝐸 [𝑎 + ∑𝑖 𝑋𝑖(𝑏 + 𝑛)2 ] = (𝑎 + ∑ 𝐸[𝑋𝑖]) (𝑏 + 𝑛)2 = 𝑎 𝑏 (𝑏 + 𝑛) (𝑏 + 𝑛)2 =𝑎 𝑏(𝑏 + 𝑛) . Por fim, note que a decisão de Bayes pode ser escrita como uma combinação linear convexa da média da distribuição a priori e do estimador de máxima verossimilhança 𝐸[𝜃|𝑋] = 𝑎 + ∑𝑖 𝑋𝑖𝑏 + 𝑛 = 𝑏 𝑏 + 𝑛 ( 𝑎 𝑏 ) + 𝑛 𝑏 + 𝑛�̄�. Resultado: Seja 𝐿(𝑑, 𝜃) = 𝕀(|𝜃 − 𝑑| > 𝜀) = 1 − 𝕀(𝑑 − 𝜀 ≤ 𝜃 ≤ 𝑑 + 𝜀) , 𝜀 > 0. Então, 𝛿∗(𝑋) é centro do intervalo modal, isto é, o intervalo de tamanho 2𝜀 de maior densidade a posteriori. Em particular, quando 𝜀 ↓ 0, temos que 𝛿∗(𝑋) = 𝑀𝑜𝑑𝑎(𝜃|𝑋). Demo: O risco posterior de uma decisão 𝑑 é 𝑟𝑥(𝑑) = 𝐸 [𝐿(𝑑, 𝜃)|𝑥] = 𝐸 [𝕀(|𝜃 − 𝑑| > 𝜀)] = 𝐸 [1 − 𝕀(𝑑 − 𝜀 ≤ 𝜃 ≤ 𝑑 + 𝜀)|𝑥] = 1 − 𝑃(𝑑 − 𝜀 ≤ 𝜃 ≤ 𝑑 + 𝜀|𝑥). O risco 𝑟𝑥(𝑑) é mínimo quando a probabilidade 𝑃(𝑑−𝜀 ≤ 𝜃 ≤ 𝑑+𝜀|𝑥) é máxima. Assim, basta tomar o intervalo [𝑑∗𝑥 − 𝜀 ; 𝑑∗𝑥 + 𝜀] com maior probabilidade a posteriori e o estimador de Bayes nesse caso será o valor central desse intervalo, 𝑑∗𝑥. Exemplo 3. Considere o exemplo anterior onde 𝜃|𝑥 ∼ 𝐺𝑎𝑚𝑎(𝑎 + ∑ 𝑥𝑖, 𝑏 + 𝑛) e a função de perda do resultado anterior, 𝐿(𝑑, 𝜃) = 𝕀(|𝜃 − 𝑑| > 𝜀). Temos que 𝑓(𝜃|𝑥) ∝ 𝜃 𝐴𝑥 ⏞⏞⏞⏞⏞𝑎+∑ 𝑥𝑖−1𝑒− 𝐵𝑥 ⏞(𝑏+𝑛) 𝜃 = 𝜃𝐴𝑥𝑒−𝐵𝑥𝜃 theta = seq(0,1.2,0.01) #Parâmetros da dist a posteriori gama a1 = 3 60 CHAPTER 5. ESTIMAÇÃO b1 = 10 posterior = dgamma(theta, a1, b1 ) # Escolhendo valores de epsilon e calculando a perda mínima associada e=c(0.5,0.4,0.3,0.25,0.2,0.15,0.1,0.05,0) loss <- NULL for(i in 1:length(e)){ loss[i] <- theta[which.min(as.vector(apply(matrix(theta), 1, function(d) sum(posterior*(abs(theta-d)>e[i])))))]} # Criando o gráfico n <- length(e) tibble(x=rep(loss,each=length(theta)), e=rep(round(e,2),each=length(theta)), theta=rep(theta,(n)), post = rep(posterior,n)) %>% ggplot() + geom_segment(aes(x=x, xend=x, y=0,yend=dgamma(x, a1, b1 ),colour=as.factor(e))) + geom_point(aes(x=x, y=0,colour=as.factor(e))) + geom_segment(aes(x=x-e, xend=x+e, y=0,yend=0,colour=as.factor(e))) + geom_line(aes(x=theta,y=post,colour="Dist.
Compartilhar