cap1
12 pág.

cap1


DisciplinaInferência Bayesiana27 materiais237 seguidores
Pré-visualização3 páginas
P (\u3b8 = 1 | X = 1, Y = 0) \u221d l(\u3b8 = 1;Y = 0)P (\u3b8 = 1 | X = 1)
\u221d (0, 01)(0, 847) = 0, 0085
P (\u3b8 = 0 | X = 1, Y = 0) \u221d l(\u3b8 = 0;Y = 0)P (\u3b8 = 0 | X = 1)
\u221d (0, 96)(0, 153) = 0, 1469.
A constante normalizadora e´ 1/(0,0085+0,1469)=1/0,1554 e assim a distribuic¸a\u2dco
a posteriori de \u3b8 e´
P (\u3b8 = 1 | X = 1, Y = 0) = 0, 0085/0, 1554 = 0, 055
P (\u3b8 = 0 | X = 1, Y = 0) = 0, 1469/0, 1554 = 0, 945.
Verifique como a probabilidade de doenc¸a se alterou ao longo do experimento
P (\u3b8 = 1) =
\uf8f1\uf8f2\uf8f3
0, 7, antes dos testes
0, 847, apo´s o teste X
0, 055, apo´s X e Y .
Note tambe´m que o valor observado de Y recebia pouca probabilidade preditiva.
Isto pode levar o me´dico a repensar o modelo, i.e.,
(i) Sera´ que P (\u3b8 = 1) = 0, 7 e´ uma priori adequada?
(ii) Sera´ que as distribuic¸o\u2dces amostrais de X e Y esta\u2dco corretas ? O teste X e´
ta\u2dco inexpressivo e Y e´ realmente ta\u2dco poderoso?
6 CAPI´TULO 1. INTRODUC¸A\u2dcO
Exemplo 1.2 : Seja Y \u223c Binomial(12, \u3b8) e em um experimento observou-se
Y = 9. A func¸a\u2dco de verossimilhanc¸a de \u3b8 e´ dada por
l(\u3b8) =
(
12
9
)
\u3b8 9(1\u2212 \u3b8)3, \u3b8 \u2208 (0, 1).
Que distribuic¸a\u2dco poderia ser usada para resumir probabilisticamente nosso
conhecimento sobre o para\u2c6metro \u3b8? Note que, como 0 < \u3b8 < 1 queremos que,
p(\u3b8) = 0\u21d2 p(\u3b8|y) = 0, \u2200\u3b8 3 (0, 1).
Podemos por exemplo assumir que \u3b8 \u223c N(µ, \u3c32) truncada no intervalo (0,1).
Neste caso, denotando por fN(·|µ, \u3c32) a func¸a\u2dco de densidade da distribuic¸a\u2dco
N(µ, \u3c32) segue que a func¸a\u2dco de densidade a priori de \u3b8 e´ dada por
p(\u3b8) =
fN(\u3b8|µ, \u3c32)\u222b 1
0
fN(\u3b8|µ, \u3c32)d\u3b8
=
(2pi\u3c32)\u22121/2 exp(\u22120.5(\u3b8 \u2212 µ)2/\u3c32)
\u3a6
(
1\u2212 µ
\u3c3
)
\u2212 \u3a6
(\u2212µ
\u3c3
) .
Na Figura 1.1 esta func¸a\u2dco de densidade esta´ representada para alguns valores de µ
e \u3c32. Note como informac¸o\u2dces a priori bastante diferentes podem ser representadas.
0.0 0.2 0.4 0.6 0.8 1.0
0.
0
0.
5
1.
0
1.
5
2.
0
2.
5
3.
0
\u3b8
p(\u3b8
)
N(0.5,0.5)
N(0,0.5)
N(1,0.5)
N(2,0.5)
Figura 1.1: Densidades a priori normais truncadas para o parametro \u3b8 no Exemplo
1.2.
Outra possibilidade e´ atrave´s de uma reparametrizac¸a\u2dco. Assumindo-se que
1.1. TEOREMA DE BAYES 7
\u3b4 \u223c N(µ, \u3c32) e fazendo a transformac¸a\u2dco
\u3b8 =
exp(\u3b4)
1 + exp(\u3b4)
segue que a transformac¸a\u2dco inversa e´ simplesmente
\u3b4 = log
(
\u3b8
1\u2212 \u3b8
)
= logito(\u3b8).
Portanto a densidade a priori de \u3b8 fica
p(\u3b8) = fN(\u3b4(\u3b8)|µ, \u3c32)
\u2223\u2223\u2223\u2223d\u3b4d\u3b8
\u2223\u2223\u2223\u2223
= (2pi\u3c32)\u22121/2 exp
{
\u2212 1
2\u3c32
(
log
(
\u3b8
1\u2212 \u3b8
)
\u2212 µ
)2}
1
\u3b8(1\u2212 \u3b8)
e e´ chamada de normal-logistica. Na Figura 1.2 esta func¸a\u2dco de densidade esta´
representada para alguns valores de µ e \u3c32. Novamente note como informac¸o\u2dces
a priori bastante diferentes podem ser representadas. Em particular a func¸a\u2dco de
densidade de \u3b8 sera´ sempre unimodal quando \u3c32 \u2264 2 e bimodal quando \u3c32 > 2.
0.0 0.2 0.4 0.6 0.8 1.0
0
1
2
3
4
\u3b8
p(\u3b8
)
N(\u22121,0.25)
N(1,1)
N(0,4)
Figura 1.2: Densidades a priori tipo logisticas para o para\u2c6metro \u3b8 no Exemplo 1.2.
Finalmente, podemos atribuir uma distribuic¸a\u2dco a priori \u3b8 \u223c Beta(a, b) (ver
Ape\u2c6ndice A),
p(\u3b8) =
\u393(a+ b)
\u393(a)\u393(b)
\u3b8a\u22121(1\u2212 \u3b8)b\u22121, a > 0, b > 0, \u3b8 \u2208 (0, 1).
8 CAPI´TULO 1. INTRODUC¸A\u2dcO
Esta distribuic¸a\u2dco e´ sime´trica em torno de 0,5 quando a = b e assime´trica quando
a 6= b. Variando os valores de a e b podemos definir uma rica familia de dis-
tribuic¸o\u2dces a priori para \u3b8, incluindo a distribuic¸a\u2dco Uniforme no intervalo (0,1) se
a = b = 1. Algumas possibilidades esta\u2dco representadas na Figura 1.3.
0.0 0.2 0.4 0.6 0.8 1.0
0
1
2
3
4
5
\u3b8
p(\u3b8
)
Beta(1.5,4)
Beta(2,0.5)
Beta(7,1.5)
Beta(3,3)
Figura 1.3: Densidades a priori Beta para o para\u2c6metro \u3b8 no Exemplo 1.2.
Um outro resultado importante ocorre quando se tem uma u´nica observac¸a\u2dco
da distribuic¸a\u2dco normal com me´dia desconhecida. Se a me´dia tiver priori normal
enta\u2dco os para\u2c6metros da posteriori sa\u2dco obtidos de uma forma bastante intuitiva
como visto no teorema a seguir.
Teorema 1.1 Se X|\u3b8 \u223c N(\u3b8, \u3c32) sendo \u3c32 conhecido e \u3b8 \u223c N(µ0, \u3c4 20 ) enta\u2dco
\u3b8|x \u223c N(µ1, \u3c4 21 ) sendo
µ1 =
\u3c4\u221220 µ0 + \u3c3
\u22122x
\u3c4\u221220 + \u3c3\u22122
e \u3c4\u221221 = \u3c4
\u22122
0 + \u3c3
\u22122.
Prova. Temos que
p(x|\u3b8) \u221d exp{\u2212\u3c3\u22122(x\u2212 \u3b8)2/2} e p(\u3b8) \u221d exp{\u2212\u3c4\u221220 (\u3b8 \u2212 µ0)/2}
e portanto
p(\u3b8|x) \u221d exp
{
\u22121
2
[\u3c3\u22122(\u3b82 \u2212 2x\u3b8) + \u3c4\u221220 (\u3b82 \u2212 2µ0\u3b8)]
}
\u221d exp
{
\u22121
2
[\u3b82(\u3c3\u22122 + \u3c4\u221220 )\u2212 2\u3b8(\u3c3\u22122x+ \u3c4\u221220 µ0)]
}
.
1.1. TEOREMA DE BAYES 9
sendo que os termos que na\u2dco dependem de \u3b8 foram incorporados a` constante de
proporcionalidade. Definindo \u3c4\u221221 = \u3c3
\u22122+ \u3c4\u221220 e \u3c4
\u22122
1 µ1 = \u3c3
\u22122x\u2212 \u3c4\u221220 µ0 segue que
p(\u3b8|x) \u221d exp
{
\u2212\u3c4
\u22122
1
2
(\u3b82 \u2212 2\u3b8µ1)
}
\u221d exp
{
\u2212\u3c4
\u22122
1
2
(\u3b8 \u2212 µ1)2
}
pois µ1 na\u2dco depende de \u3b8. Portanto, a func¸a\u2dco de densidade a posteriori (a menos
de uma constante) tem a mesma forma de uma normal com me´dia µ1 e varia\u2c6ncia
\u3c4 21 .
Note que, definindo precisa\u2dco como o inverso da varia\u2c6ncia, segue do teorema
que a precisa\u2dco a posteriori e´ a soma das preciso\u2dces a priori e da verossimilhanc¸a
e na\u2dco depende de x. Interpretando precisa\u2dco como uma medida de informac¸a\u2dco
e definindo w = \u3c4\u221220 /(\u3c4
\u22122
0 + \u3c3
\u22122) \u2208 (0, 1) enta\u2dco w mede a informac¸a\u2dco relativa
contida na priori com respeito a` informac¸a\u2dco total. Podemos escrever enta\u2dco que
µ1 = wµ0 + (1\u2212 w)x
ou seja, µ1 e´ uma combinac¸a\u2dco linear convexa de µ0 e x e portanto
min{µ0, x} \u2264 µ1 \u2264 max{µ0, x}.
A distribuic¸a\u2dco preditiva de X tambe´m e´ facilmente obtida notando que pode-
mos reescrever as informac¸o\u2dces na forma de equac¸o\u2dces com erros na\u2dco correlaciona-
dos. Assim,
X = \u3b8 + \ufffd, \ufffd \u223c N(0, \u3c32)
\u3b8 = µ0 + w, w \u223c N(0, \u3c4 20 )
tal que Cov(\u3b8, \ufffd) = Cov(µ0, w) = 0. Portanto a distribuic¸a\u2dco (incondicional) de
X e´ normal pois ele resulta de uma soma de varia´veis aleato´rias com distribuic¸a\u2dco
normal. Ale´m disso,
E(X) = E(\u3b8) + E(\ufffd) = µ0
V ar(X) = V ar(\u3b8) + V ar(\ufffd) = \u3c4 20 + \u3c3
2
Conclusa\u2dco, X \u223c N(µ0, \u3c4 20 + \u3c32).
Exemplo 1.3 : (Box & Tiao, 1992) Os f´\u131sicos A e B desejam determinar uma
constante f´\u131sica \u3b8. O f´\u131sico A tem mais experie\u2c6ncia nesta a´rea e especifica sua
priori como \u3b8 \u223c N(900, 202). O f´\u131sico B tem pouca experie\u2c6ncia e especifica uma
priori muito mais incerta em relac¸a\u2dco a` posic¸a\u2dco de \u3b8, \u3b8 \u223c N(800, 802). Assim, na\u2dco
10 CAPI´TULO 1. INTRODUC¸A\u2dcO
e´ dificil verificar que
para o fisico A: P (860 < \u3b8 < 940) \u2248 0, 95
para o fisico B: P (640 < \u3b8 < 960) \u2248 0, 95.
Faz-se enta\u2dco uma medic¸a\u2dco X de \u3b8 em laborato´rio com um aparelho calibrado
com distribuic¸a\u2dco amostral X|\u3b8 \u223c N(\u3b8, 402) e observou-se X = 850. Aplicando o
teorema 1.1 segue que
(\u3b8|X = 850) \u223c N(890, 17, 92) para o f´\u131sico A
(\u3b8|X = 850) \u223c N(840, 35, 72) para o f´\u131sico B.
Note tambe´m que os aumentos nas preciso\u2dces a posteriori em relac¸a\u2dco a`s preciso\u2dces
a priori foram,
ˆ para o f´\u131sico A: precisa\u2dco(\u3b8) passou de \u3c4\u221220 = 0, 0025 para \u3c4
\u22122
1 = 0, 00312
(aumento de 25%).
ˆ para o f´\u131sico B: precisa\u2dco(\u3b8) passou de \u3c4\u221220 = 0, 000156 para \u3c4
\u22122
1 = 0, 000781
(aumento de 400%).
A situac¸a\u2dco esta´ representada graficamente na Figura 1.4. Note como a dis-
tribuic¸a\u2dco a posteriori representa um compromisso entre a distribuic¸a\u2dco a priori
e a verossimilhanc¸a. Ale´m disso, como as incertezas iniciais sa\u2dco bem diferentes
o mesmo experimento fornece muito pouca informac¸a\u2dco adicional para o fisico A
enquanto que a incerteza do fisico B foi bastante reduzida.
1.2 Princ´\u131pio da Verossimilhanc¸a
O exemplo a seguir (DeGroot, 1970, pa´ginas 165 e 166) ilustra esta propriedade.
Imagine que cada item de uma populac¸a\u2dco de itens manufaturados pode ser clas-
sificado como defeituoso ou na\u2dco defeituoso. A proporc¸a\u2dco \u3b8 de itens defeituosos
na populac¸a\u2dco e´ desconhecida e uma amostra de itens sera´ selecionada de acordo
com um dos seguintes me´todos:
(i) n itens sera\u2dco selecionados ao acaso.
(ii) Itens sera\u2dco selecionados ao acaso ate´