Baixe o app para aproveitar ainda mais
Prévia do material em texto
Introduc¸a˜o a Infereˆncia Bayesiana Helio S. Migon IM and COPPE - UFRJ migon@im.ufrj.br 2006 Conteu´do 1. Conceitos Ba´sicos da Infereˆncia 2. Distribuic¸a˜o a Priori 3. Sumariazac¸a˜o 4. Infereˆncia Preditiva 1 1 - CONCEITOS BA´SICOS DA INFEREˆNCIA 1.1. Introduc¸a˜o Informac¸a˜o Objetivo e´ sempre ma´ximar a informac¸a˜o para reduzir incerteza Toda a informac¸a˜o de que dispomos e´ u´til e deve ser aproveitada Duas viso˜es da Estat´ıstica: Bayesiano e cla´ssico 2 Exemplo: Considere os seguintes experimentos i) Um mu´sico especialista em mu´sica cla´ssica: escolhidos ao acaso 10 trechos de partituras desses autores, o mu´sico acerta o autor dos 10; ii) Um beˆbado: Feitos 10 lanc¸amentos da moeda o beˆbado acerta os 10 resultados; iii) Uma velhinha inglesa apreciadora de cha´: De 10 x´ıcaras enchidas com leite e cha´ sem nenhuma ordem espec´ıfica, ela acerta os 10 resultados. A informac¸a˜o obtida nos 3 experimentos e´ a mesma Acreditamos mais na afirmac¸a˜o do mu´sico que a da velhinha e, certamente, mais que a do beˆbado 3 O conceito de probabilidade Subjetiva • A probabilidade de um evento A mede do grau de confianc¸a em A Seja o evento A = ‘esta´ chovendo em Moscou ’ i) Uma pessoa do Rio que na˜o conhece nada sobre o clima de Moscou poderia ter P (A | H1) = 0, 5 ii) Uma pessoa em Leningrado poder´ıamos ter: P (A | H2) = 0, 8, se chove em Leningrado 0, 2, caso contra´rio iii) Ja´ para uma pessoa em Moscou: P (A | H3) = 1, se chove 0, caso contra´rio 4 Construc¸a˜o subjetiva de probabilidade Perdas quadra´ticas (de Finetti, 1975) • A probabilidade p que atribuo a A e´ obtida atrave´s da minimizac¸a˜o da perda quadra´tica (p− E)2 = (p− 1)2, se E = 1 p2, se E = 0 E´ poss´ıvel obter as propriedades ba´sicas de probabilidade. i) p ∈ [ 0, 1 ] ii) P (E¯) = 1−P (E) As perdas poss´ıveis associadas a`s especificac¸o˜es de P (E) = p e P (E¯) = q sa˜o: E=1: (p− 1)2 + q2 E=0: p2 + (q − 1)2 5 Figure 1: As perdas sa˜o dadas por AC2 quando E = 1 e BC2 quando E = 0 iii) P (E ∩F ) = P (E | F )P (F ) Defina-se P (E | F ) como a probabil- idade de E se F=1. Chamando essa probabilidade de p, P (F ) de q e P (E ∩ F ) de r, temos como perda total dessas especificac¸o˜es (p− E)2F + (q − F )2 + (r − EF )2 com valores: E=F=1 : (p− 1)2 + (q − 1)2 + (r − 1)2 E=0, F=1 : p2 + (q − 1)2 + r2 F=0 : q2 + r2 6 1.2 - Elementos de Infereˆncia Teorema de Bayes Quantidade de interesse desconhecida θ com valores em Θ Informac¸a˜o inicial sumarizada por p(θ | H), onde H histo´ria Dados: observac¸a˜o de uma quantidade aleato´ria X relacionada com θ A distribuic¸a˜o amostral de X dada por p(X | θ,H) 7 A questa˜o e´ como passar de p(θ | H) para p(θ | x,H) p(θ | x,H) = p(θ, x | H) p(x | H) = p(x | θ,H) p(θ | H) p(x | H) onde p(x | H) = ∫ Θ p(x, θ | H) dθ. p(θ | x) ∝ p(x | θ) p(θ) A constante da fo´rmula sera´ k−1 = ∫ Θ p(x | θ)p(θ) dθ = Eθ[p(x | θ)] 8 Func¸a˜o de verossimilhanc¸a A func¸a˜o de verossimilhanc¸a de θ e´ l( · ;x) : Θ→ R+ θ → l(θ ;x) = p(x | θ) i) ∫ R p(x | θ) dx = 1 mas ∫ Θ l(θ ;x) dθ = k 6= 1, em geral. ii) A func¸a˜o de verossimilhanc¸a conecta a priori a` posteriori usando para isso os dados do experimento. Exemplo: X ∼ Binomial(2,θ) p(x | θ) = l(θ;x) = ( 2 x ) θx(1− θ)2−x , x = 0, 1, 2 ; θ ∈ Θ = (0, 1) • Note que: a) se x=1 enta˜o l(θ ;x = 1) = 2θ(1− θ) e o valor mais prova´vel (ou veross´ımil) de θ e´ 1/2. b) se x=2 enta˜o l(θ ;x = 2) = θ2 , valor mais prova´vel e´ 1. c) se x=0 enta˜o l(θ ;x = 0) = (1− θ)2 , valor mais prova´vel e´ 0. 9 • Essas verossimilhanc¸as esta˜o plotadas na figura 2.1. Figure 2: Func¸a˜o de verossimilhanc¸a para diferentes valores de x. 10 Exemplo • Joa˜o vai ao me´dico e este desconfia da doenc¸a A. Toma va´rias provideˆncias: examina Joa˜o, observa os sintomas e faz exames de rotina. Seja θ o indicador da doenc¸a A em Joa˜o O me´dico assume que P (θ = 1|H) = 0, 7 Exame de laborato´rio X do tipo +/- relacionado com θ P (X = 1 | θ = 0) = 0, 40, P (X = 1 | θ = 1) = 0, 95, Joa˜o faz o teste e o resultado e´ X=1 P (θ = 1 | X = 1) ∝ l(θ = 1 ;X = 1)P (θ = 1) ∝ (0, 95)(0, 7) = 0, 665 P (θ = 0 | X = 1) ∝ (0, 40)(0, 30) = 0, 120 11 P (θ = 1 | X = 1) = 0, 665/0, 785 = 0, 847 e P (θ = 0 | X = 1) = 0, 120/0, 785 = 0, 153 Me´dico pede a Joa˜o teste Y, tambe´m, do tipo +/- P (Y = 1 | θ = 1) = 0, 99 P (Y = 1 | θ = 0) = 0, 04 Usando a priori p(θ|x) p(y | x) = ∑ θ∈Θ p(y | θ) p(θ | x) e portanto, P (Y = 1 | X = 1) = P (Y = 1 | θ = 1)P (θ = 1 | X = 1) + +P (Y = 1 | θ = 0)P (θ = 0 | X = 1) = (0, 99)(0, 847) + (0, 04)(0, 153) = 0, 845 e P (Y = 0 | X = 1) = 1− P (Y = 1 | X = 1) = 0, 155 Joa˜o faz o teste Y e observa-se Y=0 Agora 12 P (θ = 1 | X = 1, Y = 0) ∝ l(θ = 1 ;Y = 0)P (θ = 1 | X = 1) ∝ (0, 01)(0, 847) .= 0, 0085 P (θ = 0 | X = 1, Y = 0) ∝ (0, 96)(0, 155) = 0, 1466 ou P (θ = 1 | Y = 0, X = 1) = 0, 0085/0, 1551 = 0, 055 P (θ = 0 | Y = 0, X = 1) = 0, 1466/0, 1551 = 0, 945. Resumindo P (θ = 1) = 0, 7, antes de X e Y 0, 847, apo´s X e antes de Y 0, 055, apo´s X e Y 13 Distribuic¸a˜o Preditiva • Queremos prever Y cuja descric¸a˜o probabil´ıstica e´ P (Y | θ), que pode independer de X p(y | x) = ∫Θ p(y, θ | x)dθ = ∫Θ p(y | θ, x)p(θ | x)dθ = ∫ Θ p(y | θ)p(θ | x)dθ = Eθ|x[p(y | θ)] Exemplo (cont.) • Antes de observar Y , a nossa previsa˜o atribuia muita chance em Y = 1, mas o observado foi Y = 0. Isto deve levar o me´dico a repensar o modelo. Deve questionar se: i) 0,7 refletia adequadamente P (θ = 1) ? ii) O teste X e´ ta˜o inexpressivo? A distribuic¸a˜o amostral de X e´ correta? iii) O teste Y e´ ta˜o poderoso? 14 Natureza sequencial do teorema de Bayes Observa-se X1 com probabilidade P1(X1 | θ) levando a p(θ | x1) ∝ l1(θ ;x1)p(θ) Observa-se X2 com probabilidade P2(X2 | θ), X2 ⊥ X1|θ p(θ | x2, x1) ∝ l2(θ ;x2)p(θ | x1) ∝ l2(θ ;x2)l1(θ ;x1)p(θ) Repetindo-se este processo n vezes p(θ | xn, xn−1, . . . , x1) ∝ [ n∏ i=1 li(θ ;xi) ] p(θ) O teorema de Bayes satisfaz a p(θ | xn, . . . , x1) ∝ ln(θ ;xn)p(θ | x1, . . . , xn−1) 15 Tma 1.1: Observac¸a˜o e priori normais Sejam θ ∼ N(µ, τ 2), (X | θ) ∼ N(θ, σ2), com σ2 conhecido. Enta˜o, a distribuic¸a˜o a posteriori de θ e´ (θ | X = x) ∼ N(µ1, τ 21 ) onde µ1 = τ−2µ+ σ−2x τ−2 + σ−2 e τ−21 = τ −2 + σ−2 Note que: 1) A precisa˜o a posteriori e´ a soma das preciso˜es da priori e da verossimilhanc¸a 2) Seja w = τ−2/(τ−2 + σ−2), w ∈ (0, 1), logo µ1 = wµ+ (1− w)x 3) Na˜o e´ fa´cil usar o teorema de Bayes com prioris na˜o normais. Mistura de Normais p(θ) = ∑ αipi(θ), αi > 0, ∑ αi = 1 onde pi(θ) sa˜o normais. 16 Permutabilidade Permutabilidade e´ um conceito mais fraco que o conceito de independeˆncia Definic¸a˜o Quantidades aleato´rias X1, . . . , Xn do tipo 0-1 sa˜o permuta´veis se as n! permutac¸o˜es (Xk1, . . . , Xkn) tem a mesma distribuic¸a˜o de probabilidade n-dimensional Exemplo • Uma urna com m bolas, r das quais com o nu´mero 1 e m-r com o nu´mero 0. Selecionamos uma por vez, sem reposic¸a˜o e denotamos por Xk o d´ıgito da k-e´sima bola selecionada. Assim X1, . . . , Xn e´ uma sequeˆncia permuta´vel, mas as quantidades aleato´rias na˜o sa˜o independentes. • Tma. 1.2: Para toda sequeˆncia infinita de quantidades aleato´rias {Xn, n = 1, 2, . . . } permuta´veis com valores em {0, 1} corresponde uma distribuic¸a˜o F em (0,1) tal que: P (X1 = 1, . . . , Xk = 1, Xk+1 = 0, . . . , Xn = 0) = ∫ 1 0 θk(1−θ)n−kdF (θ) ,∀n e k ≤ n 17 2 - DISTRIBUIC¸O˜ES A PRIORI •A partir do conhecimento sobre θ pode-se descrever sua densidade por uma particular forma funcional. O caso mais importante e´ o das distribuic¸o˜es conjugadas. Def.: Seja F = { p(x|θ), θ ∈ Θ} uma famı´lia de distribuic¸o˜es amostrais A classe Ψ e´ conjugada a F se ∀ p ∈ F e p(θ) ∈ Ψ enta˜o p(θ | x) ∈ Ψ (i) A classe Ψ pode ser muito ampla. (ii) A classe Ψ pode ser muito restrita. Por exemplo: Ψ = {P : P (θ = θ0) = 1} Exemplificando o processo de construc¸a˜o de famı´lias conjugadas • Considere (Xi|θ) ∼ Ber(θ), θ ∈ (0, 1), i = 1, · · · , n. Logo p(x | θ) = θt(1− θ)n−t onde t = n∑ i=1 xi xi = 0, 1, i = 1, · · · , n Do teorema de Bayes 18 p(θ | x) ∝ p(x | θ) p(θ) ∝ θt(1− θ)n−t p(θ). Note que p(θ) e p(θ | x) esta˜o relacionadas atrave´s da verosssimilhanc¸a • Assim se constroi a conjugada baseado no nu´cleo da verossimil- hanc¸a que e´ da forma θa(1− θ)b. Considere agora a famı´lia Beta (i) Se θ ∼ Beta(α, β), enta˜o p(θ) = 1 B(α, β) θα−1(1− θ)β−1, 0 < θ < 1 e α, β > 0 e 1 B(α, β) = Γ(α+ β) Γ(α)Γ(β) (ii) A me´dia, moda e variaˆncia de θ sa˜o dadas, respectivamente, por α α+ β , α− 1 α+ β − 2 e αβ (α+ β)2(α+ β + 1) 19 Usando priori Beta obte´m-se a posteriori p(θ | x) ∝ θα+t−1(1− θ)β+n−t−1 e portanto (θ | x) ∼ Beta(α+ t, β + n− t) A famı´lia de distribuic¸o˜es Beta e´ conjugada a` Bernoulli (binomial) A constante de proporcionalidade sera´ 1/B(α+ t, β + n− t) O me´todo de determinac¸a˜o da classe conjugada consiste em : (i) identificar a classe Ψ de distribuic¸o˜es para θ tal que l(θ;x) e´ pro- porcional a um membro de Ψ ; (ii) verificar se Ψ e´ fechada por amostragem. Se existe k tal que k−1 = ∫ l(θ;x)dθ < ∞ e todo p ∈ Ψ e´ definido atrave´s de p(θ) = kl(θ;x), para algum l(θ;x) enta˜o Ψ e´ dita ser famı´lia conjugada natural ao modelo amostral gerador de l. 20 Principais Famı´lias Conjugadas (i) Binomial A famı´lia de distribic¸o˜es Beta e´ conjugada a` Binomial (ou Bernoulli) (ii) Normal com variaˆncia conhecida A famı´lia de normais e´ conjugada a` Normal - Tma 1.1 (iii) Poisson Se X = (X1, . . . , Xn) Poisson(θ) enta˜o: p(x | θ) = n∏ i=1 p(xi | θ) = n∏ i=1 e−θθxi xi! l(θ | x) ∝ e−nθθΣxi. Nu´cleo tem a forma θae−bθ caracterizando uma Gama p(θ) ∝ θα−1e−βθ, α, β > 0 e θ > 0 A me´dia e variaˆncia a priori sa˜o E(θ) = α β e V (θ) = α β2 CV (θ) = √ V (θ) E(θ) A densidade a posteriori sera´ p(θ | x) ∝ θα+Σxi−1 exp{−(β + n) θ} 21 3. SUMARIZAC¸A˜O Sabemos que a Infereˆncia Classica e´: Estimac¸a˜o na˜o viciada (mı´nima variaˆncia) Intervalo de Confianc¸a Testes de Significaˆncia E a Infereˆncia Bayesiana. O que e´? Teoria da decisa˜o Sumarizac¸a˜o Resumir a informac¸a˜o dispon´ıvel atrave´s de uns poucos nu´meros para comunicac¸a˜o 22 Estimac¸a˜o Pontual - Teoria da decisa˜o Sumarizac¸a˜o - Intervalo de Credibilidade Figure 3: Densidade a posteriori de θ com treˆs regio˜es distintas: a primeira contendo cerca de 30 % da probabilidade total, a segunda com 10 % e a terceira com cerca de 60 %. A moda dessa densidade e´ 3,5, a me´dia e´ 5,075 e a mediana 5,27. 23 3.1 Problema de Decisa˜o i) Espac¸o do paraˆmetro ou estados da natureza - Θ ii) Espac¸o dos resultados poss´ıveis de um experimento - Ω iii) Espaco das ac¸o˜es poss´ıveis - A Regra de decisa˜o: δ : Ω→ A Perda: L(δ, θ): Θ× A → R+ Def.: O risco a posteriori e´ definido por R(δ) = Eθ|x[L(δ, θ)] Def.: Uma regra de decisa˜o δ∗ e´ o´tima R(δ∗) < R(δ), ∀δ 24 3.2 Estimac¸a˜o Estimador e´ a regra de decisa˜o o´tima O seu valor observado e´ denominado estimativa Perda Absoluta • Lema 1 Seja L1(δ, θ) = 0 , se |θ − δ| < ε 1 , se |θ − δ| ≥ ε ∀ε > 0. O es- timador de θ e´ δ1 = moda(θ), a moda da distribuic¸a˜o atualizada de θ ou EMVG. Perda Quadra´tica • Lema 2 Seja L2(δ, θ) = (δ−θ)2 a perda associada a` estimac¸a˜o de θ por δ. O estimador de θ e´ δ2 = E(θ), a me´dia da distribuic¸a˜o atualizada de θ. 25 Perda Zero-Um • Lema 3 Seja agora L3(δ, θ) = |δ − θ|. O estimador de θ e´ δ3 = med(θ), a mediana da distribuic¸a˜o atualizada de θ. Figure 4: Perdas: quadra´tica, − − −−; absoluta, · · · · · · ; 0-1 , −−−−. 26 Estimac¸a˜o por intervalos • Definic¸a˜o C e´ um intervalo de confianc¸a Bayesiano ou intervalo de credibilidade de 100(1− α)% para θ se P (θ ∈ C) ≥ 1− α. • Exemplo: Seja X = (X1, . . . , Xn) uma amostra da N(θ, σ2) com σ2 conhecido. p(θ) ∝ cte l(θ;x) ∝ exp { − n 2σ2 (θ − x)2 } Logo p(θ | x) ∝ l(θ;x)p(θ) ∝ l(θ;x) Assim θ | x ∼ N(x, σ2n ) ou √ n(θ − x)/σ | x ∼ N(0, 1) (i) P (√ n(θ − x¯) σ ≤ zα | x ) = 1− α ⇒ θ ≤ zα σ√ n + x com probabilidade 1− α 27 • Intervalo C=(−∞, x + zασ/ √ n ] cujo comprimento e´ in- finito. (ii) Sejam zβ e zγ tais que: P ( −zβ ≤ √ n(θ − x) σ ≤ zγ | x ) = 1− α. Usando a simetria da normal tem-se: Φ(−zβ) = P (X ≤ −zβ) = P (X ≥ zβ) = 1− P (X < zβ) = β e a probabilidade do intervalo acima e´ dada por Φ(zγ)− Φ(−zβ) = 1− (γ + β) e portanto γ + β = α. O IC 100(1− α)% sera´ −zβ ≤ √ n (θ − x) σ ≤ zγ − σ√ n zβ + x ≤ θ ≤ zγ σ√ n + x Enta˜o C = [ x− σ√ n zβ, x+ zγ σ√ n ] e´ IC 100(1− α)% para θ. 28 Figure 5: Densidade da distribuic¸a˜o normal padronizada. O comprimento de C e´ (zγ + zβ)σ/ √ n Permanece ainda a questa˜o de como minimizar este comprimento. Considere que zγ < zα/2 < zβ e defina a = zα/2 − zγ > 0, b = zβ − zα/2 > 0 e A e B como as a´reas compreendidas entre zβ e zα/2 e entre zα/2 e zγ O comprimento do intervalo acima e´ 2zα/2 + b− a mas A = B Temos que b > a Logo, o IC de extremos sime´tricos −zα/2 e zα2 e´ o de menor comprimento A regia˜o de credibilidade de menor comprimento e´ aquela que conte´m os valores mais prova´veis de θ dado x 29 • Def.: Um IC 100(1 − α)% de MDP para θ e´ o IC 100(1 − α)% da forma C = {θ ∈ Θ : p(θ | x) ≥ k(α)} onde k(α) e´ a maior constante tal que P (θ ∈ C | x) ≥ 1− α. Figure 6: O intervalo de confianc¸a de MDP e´ dado por C1 ∪ C2. 30 4. INFEREˆNCIA PREDITIVA Queremos prever Y cuja descric¸a˜o probabil´ıstica e´ P (Y | θ), que pode independer de X p(y | x) = ∫Θ p(y, θ | x)dθ = ∫Θ p(y | θ, x)p(θ | x)dθ = ∫ Θ p(y | θ)p(θ | x)dθ = Eθ|x[p(y | θ)] Exemplo Questa˜o : qual a probabilidade do 13o filho ser do sexo M ? Dados : MMFMMMMFMMMF, M-masculino/F-feminino Pr[X13 = 1|(9, 3)] onde (9, 3) denota o nu´mero de filhos do sexo M/F . Pr[X13 = 1|(9, 3)] = ∫ 1 0 P [X13 = 1, θ|(9, 3)] dθ = ∫ 1 0 P [X13 = 1|θ, (9, 3)] p(θ|(9, 3)) dθ = ∫ 1 0 θ p(θ|(9, 3)) dθ = E[θ | (9, 3)] Distribuic¸a˜o a Priori 31 p(θ) = k θa−1(1− θ)b−1 0 ≤ θ ≤ 1 , (a, b > 0) p(θ | (9, 3)) = p((9,3) |θ) p(θ)p((9,3)) ∝ θ3(1− θ)9 θa−1(1− θ)b−1, ∝ θ3+a−1(1− θ)9+b−1 Pr[X13 = 1 | (9, 3)] = E[θ|(r, s)] = a+ 3 a+ b+ 12 Qual o valor de a and b? • Opinia˜o inicial de que as chances de M e F sa˜o sime´tricas e con- centradas em 0.5. Escolhemos a famı´lia das betas com a = b = 2 Ie.: E(θ) = 0.5, P (0.4 < θ < 0.6) = 0.3 e probabilidade 13o filho ser M sera´ 11/16=0.69 32
Compartilhar