cap2
22 pág.

cap2


DisciplinaInferência Bayesiana27 materiais243 seguidores
Pré-visualização5 páginas
Cap´\u131tulo 2
Distribuic¸o\u2dces a Priori
A utilizac¸a\u2dco de informac¸a\u2dco a priori em infere\u2c6ncia Bayesiana requer a especificac¸a\u2dco
de uma distribuic¸a\u2dco a priori para a quantidade de interesse \u3b8. Esta distribuic¸a\u2dco
deve representar (probabilisticamente) o conhecimento que se tem sobre \u3b8 antes
da realizac¸a\u2dco do experimento. Neste capitulo sera\u2dco discutidas diferentes formas
de especificac¸a\u2dco da distribuic¸a\u2dco a priori.
2.1 Distribuic¸o\u2dces Conjugadas
A partir do conhecimento que se tem sobre \u3b8, pode-se definir uma fam\u131´lia
parame´trica de densidades. Neste caso, a distribuic¸a\u2dco a priori e´ representada
por uma forma funcional, cujos para\u2c6metros devem ser especificados de acordo
com este conhecimento. Estes para\u2c6metros indexadores da familia de distribuic¸o\u2dces
a priori sa\u2dco chamados de hiperpara\u2c6metros para distingui-los dos para\u2c6metros de
interesse \u3b8.
Esta abordagem em geral facilita a ana´lise e o caso mais importante e´ o
de distribuic¸o\u2dces conjugadas. A ide´ia e´ que as distribuic¸o\u2dces a priori e a posteriori
pertenc¸am a mesma classe de distribuic¸o\u2dces e assim a atualizac¸a\u2dco do conhecimento
que se tem de \u3b8 envolve apenas uma mudanc¸a nos hiperpara\u2c6metros. Neste caso, o
aspecto sequencial do me´todo Bayesiano pode ser explorado definindo-se apenas
a regra de atualizac¸a\u2dco dos hiperpara\u2c6metros ja´ que as distribuic¸o\u2dces permanecem
as mesmas.
Definic¸a\u2dco 2.1 Se F = {p(x|\u3b8), \u3b8 \u2208 \u398} e´ uma classe de distribuic¸o\u2dces amostrais
enta\u2dco uma classe de distribuic¸o\u2dces P e´ conjugada a F se
\u2200 p(x|\u3b8) \u2208 F e p(\u3b8) \u2208 P \u21d2 p(\u3b8|x) \u2208 P.
13
14 CAPI´TULO 2. DISTRIBUIC¸O\u2dcES A PRIORI
Gamerman (1996, 1997 Cap. 2) alerta para o cuidado com a utilizac¸a\u2dco in-
discriminada de distribuic¸o\u2dces conjugadas. Essencialmente, o problema e´ que tal
distribuic¸a\u2dco nem sempre e´ uma representac¸a\u2dco adequada da incerteza a priori. Sua
utilizac¸a\u2dco esta´ muitas vezes associada a` tratabilidade anal´\u131tica decorrente.
Uma vez entendidas suas vantagens e desvantagens a questa\u2dco que se coloca
agora e´ \u201ccomo\u201d obter uma fam\u131´lia de distribuic¸o\u2dces conjugadas.
(i) Identifique a classe P de distribuic¸o\u2dces para \u3b8 tal que l(\u3b8;x) seja proporcional
a um membro desta classe.
(ii) Verifique se P e´ fechada por amostragem, i.e., se \u2200 p1, p2 \u2208 P \u2203 k tal que
kp1p2 \u2208 P .
Se, ale´m disso, existe uma constante k tal que k\u22121 =
\u222b
l(\u3b8;x)d\u3b8 < \u221e e todo
p \u2208 P e´ definido como p(\u3b8) = k l(\u3b8;x) enta\u2dco P e´ a fam\u131´lia conjugada natural ao
modelo amostral gerador de l(\u3b8; x).
Exemplo 2.1 : Sejam X1, . . . , Xn \u223c Bernoulli(\u3b8). Enta\u2dco a densidade amostral
conjunta e´
p(x|\u3b8) = \u3b8t(1\u2212 \u3b8)n\u2212t, 0 < \u3b8 < 1 sendo t =
n\u2211
i=1
xi
e pelo teorema de Bayes segue que
p(\u3b8|x) \u221d \u3b8t(1\u2212 \u3b8)n\u2212tp(\u3b8).
Note que l(\u3b8;x) e´ proporcional a` densidade de uma distribuic¸a\u2dco
Beta(t + 1, n \u2212 t + 1). Ale´m disso, se p1 e p2 sa\u2dco as densidades das dis-
tribuic¸o\u2dces Beta(a1, b1) e Beta(a2, b2) enta\u2dco
p1p2 \u221d \u3b8a1+a2\u22122(1\u2212 \u3b8)b1+b2\u22122,
ou seja p1p2 e´ proporcional a` densidade da distribuic¸a\u2dco Beta com para\u2c6metros
a1 + a2 \u2212 1 e b1 + b2 \u2212 1. Conclui-se que a fam\u131´lia de distribuic¸o\u2dces Beta com
para\u2c6metros inteiros e´ conjugada natural a` fam\u131´lia Bernoulli. Na pra´tica esta
classe pode ser ampliada para incluir todas as distribuic¸o\u2dces Beta, i.e. incluindo
todos os valores positivos dos para\u2c6metros.
2.2 Conjugac¸a\u2dco na Fam\u131´lia Exponencial
A fam\u131´lia exponencial inclui muitas das distribuic¸o\u2dces de probabilidade mais comu-
mente utilizadas em Estatistica, tanto continuas quanto discretas. Uma caracter-
2.2. CONJUGAC¸A\u2dcO NA FAMI´LIA EXPONENCIAL 15
istica essencial desta familia e´ que existe uma estatistica suficiente com dimensa\u2dco
fixa. Veremos adiante que a classe conjugada de distribuic¸o\u2dces e´ muito fa´cil de
caracterizar.
Definic¸a\u2dco 2.2 A familia de distribuic¸o\u2dces com func¸a\u2dco de (densidade) de probabil-
idade p(x|\u3b8) pertence a` familia exponencial a um para\u2c6metro se podemos escrever
p(x|\u3b8) = a(x) exp{u(x)\u3c6(\u3b8) + b(\u3b8)}.
Note que pelo crite´rio de fatorac¸a\u2dco de Neyman U(X) e´ uma estatistica suficiente
para \u3b8.
Neste caso, a classe conjugada e´ facilmente identificada como,
p(\u3b8) = k(\u3b1, \u3b2) exp{\u3b1\u3c6(\u3b8) + \u3b2b(\u3b8)}.
e aplicando o teorema de Bayes segue que
p(\u3b8|x) = k(\u3b1+ u(x), \u3b2 + 1) exp{[\u3b1+ u(x)]\u3c6(\u3b8) + [\u3b2 + 1]b(\u3b8)}.
Agora, usando a constante k, a distribuic¸a\u2dco preditiva pode ser facilmente obtida
sem necessidade de qualquer integrac¸a\u2dco. A partir da equac¸a\u2dco p(x)p(\u3b8|x) =
p(x|\u3b8)p(\u3b8) e apo´s alguma simplificac¸a\u2dco segue que
p(x) =
p(x|\u3b8)p(\u3b8)
p(\u3b8|x) =
a(x)k(\u3b1, \u3b2)
k(\u3b1+ u(x), \u3b2 + 1)
.
Exemplo 2.2 : Uma extensa\u2dco direta do Exemplo 2.1 e´ o modelo binomial, i.e.
X|\u3b8 \u223c Binomial(n, \u3b8). Neste caso,
p(x|\u3b8) =
(
n
x
)
exp
{
x log
(
\u3b8
1\u2212 \u3b8
)
+ n log(1\u2212 \u3b8)
}
e a fam\u131´lia conjugada natural e´ Beta(r, s). Podemos escrever enta\u2dco
p(\u3b8) \u221d \u3b8r\u22121(1\u2212 \u3b8)s\u22121
\u221d exp
{
(r \u2212 1) log
(
\u3b8
1\u2212 \u3b8
)
+
(
s+ r \u2212 2
n
)
n log(1\u2212 \u3b8)
}
\u221d exp {\u3b1\u3c6(\u3b8) + \u3b2b(\u3b8)} .
A posteriori tambe´m e´ Beta com para\u2c6metros \u3b1 + x e \u3b2 + 1 ou equivalentemente
16 CAPI´TULO 2. DISTRIBUIC¸O\u2dcES A PRIORI
r + x e s+ n\u2212 x, i.e.
p(\u3b8|x) \u221d exp
{
(r + x\u2212 1)\u3c6(\u3b8) +
[
s+ r \u2212 2 + n
n
]
b(\u3b8)
}
\u221d \u3b8r+x\u22121(1\u2212 \u3b8)s+n\u2212x\u22121.
Como ilustrac¸a\u2dco, no Exemplo 2.2 suponha que n = 12, X = 9 e usamos dis-
tribuic¸o\u2dces conjugadas Beta(1,1), Beta(2,2) e Beta(1,3). As func¸o\u2dces de densidade
destas distribuic¸o\u2dces juntamente com a func¸a\u2dco de verossimilhanc¸a normalizada e as
respectivas densidades a posteriori esta\u2dco na Figura 2.1. A distribuic¸a\u2dco preditiva
e´ dada por
p(x) =
(
n
x
)
B(r + x, s+ n\u2212 x)
B(r, s)
, x = 0, 1, . . . , n, n \u2265 1,
onde B\u22121 e´ a constante normalizadora da distribuic¸a\u2dco Beta, i.e. (ver Ape\u2c6ndice
A)
B\u22121(a, b) =
\u393(a+ b)
\u393(a)\u393(b)
.
Esta distribuic¸a\u2dco e´ denominada Beta-Binomial.
No Exemplo 2.2 suponha novamente que n = 12, X = 9 e usamos as prioris
conjugadas Beta(1,1), Beta(2,2) e Beta(1,3). Na Tabela 2.1 esta\u2dco listadas as
probabilidades preditivas P (X = k) associadas a estas prioris.
k Beta(1,1) Beta(2,2) Beta(1,3)
0 0.0769 0.0286 0.2000
1 0.0769 0.0527 0.1714
2 0.0769 0.0725 0.1451
3 0.0769 0.0879 0.1209
4 0.0769 0.0989 0.0989
5 0.0769 0.1055 0.0791
6 0.0769 0.1077 0.0615
7 0.0769 0.1055 0.0462
8 0.0769 0.0989 0.0330
9 0.0769 0.0879 0.0220
10 0.0769 0.0725 0.0132
11 0.0769 0.0527 0.0066
12 0.0769 0.0286 0.0022
Tabela 2.1: Probabilidades preditivas da Beta-Binomial com diferentes prioris.
No caso geral em que se tem uma amostra X1, . . . , Xn da fam\u131´lia exponencial
a natureza sequencial do teorema de Bayes permite que a ana´lise seja feita por
2.2. CONJUGAC¸A\u2dcO NA FAMI´LIA EXPONENCIAL 17
0.0 0.2 0.4 0.6 0.8 1.0
0.
0
1.
0
2.
0
3.
0
\u3b8
veross
priori
posteriori
0.0 0.2 0.4 0.6 0.8 1.0
0.
0
1.
0
2.
0
3.
0
\u3b8
veross
priori
posteriori
0.0 0.2 0.4 0.6 0.8 1.0
0.
0
1.
0
2.
0
3.
0
\u3b8
veross
priori
posteriori
Figura 2.1: Densidades a priori, a posteriori e func¸a\u2dco de verossimilhanc¸a normalizada
para o Exemplo 2.2.
replicac¸o\u2dces sucessivas. Assim a cada observac¸a\u2dco xi os para\u2c6metros da distribuic¸a\u2dco
a posteriori sa\u2dco atualizados via
\u3b1i = \u3b1i\u22121 + u(xi)
\u3b2i = \u3b2i\u22121 + 1
com \u3b10 = \u3b1 e \u3b20 = \u3b2. Apo´s n observac¸o\u2dces temos que
\u3b1n = \u3b1+
n\u2211
i=1
u(xi)
\u3b2n = \u3b2 + n
e a distribuic¸a\u2dco preditiva e´ dada por
p(x) =
[
n\u220f
i=1
a(xi)
]
k(\u3b1, \u3b2)
k(\u3b1+
\u2211
u(xi), \u3b2 + n)
.
18 CAPI´TULO 2. DISTRIBUIC¸O\u2dcES A PRIORI
Finalmente, a definic¸a\u2dco de fam\u131´lia exponencial pode ser extendida ao caso
multiparame´trico, i.e.
p(x|\u3b8) =
[
n\u220f
i=1
a(xi)
]
exp
{
r\u2211
j=1
[
n\u2211
i=1
uj(xi)
]
\u3c6j(\u3b8) + nb(\u3b8)
}
com \u3b8 = (\u3b81, . . . , \u3b8r). Neste caso, pelo crite´rio de fatorac¸a\u2dco, temos que\u2211
U1(xi), . . . ,
\u2211
Ur(xi) e´ uma estat´\u131stica conjuntamente