Buscar

Apostila - Estatística Bayesiana

Prévia do material em texto

—
Estat´ıstica Bayesiana
Vin´ıcius Silva Osterne Ribeiro
www.osterne.com
—
Estat´ıstica Bayesiana www.osterne.com
Conteu´do
1 Conceitos Iniciais 1
1.1 Deduc¸a˜o versus Infereˆncia . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Probabilidade versus Infereˆncia . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Componentes de uma ana´lise Bayesiana 5
2.1 Verossimilhanc¸a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Distribuic¸a˜o a` priori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3 Distribuic¸a˜o a` posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.4 Func¸a˜o de Perda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.5 Formulac¸a˜o de infereˆncia como problema de decisa˜o . . . . . . . . . . . . . 6
3 Func¸a˜o de perda 9
4 Propriedades de um estimador Bayesiano 15
5 Priori conjugada 23
5.1 Modelo Poisson-Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
5.2 Modelo Binomial Negativa-Beta . . . . . . . . . . . . . . . . . . . . . . . . 26
6 Componentes de uma ana´lise Bayesiana 27
6.1 Triplet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
6.2 Suma´rio estat´ıstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
6.3 Gra´ficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
6.4 Infereˆncias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
7 Teste de hipo´teses 33
3
8 Priori na˜o-informativa 37
8.1 Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
8.2 Priori de Jeffrey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
9 Exerc´ıcios 41
Cap´ıtulo 1
Conceitos Iniciais
Em seus estudos De Finetti definiu probabilidade como sendo a taxa com que os
indiv´ıduos esta˜o preparados para apostar na ocorreˆncia de um evento. Sabe-se, por-
tanto, que a probabilidade na˜o possui apenas o sistema formal (constituido de fenoˆmenos,
axiomas e teoremas), mas va´rios, dependendo do fenoˆmeno de interesse. A Teoria da
Probabilidade de Kolmogorov, por exemplo, e´ ortodoxa, fixa e a mais usada. Entretanto,
existem outros sistemas formais que na˜o satisfazem os axiomas de Kolmogorov. Um exem-
plo simples e´ a da probabilidade negativa, que na mecaˆnica quaˆntica e´ usada de maneira
natural e interpreta´vel. Bem como nas ’Quasi-distribuic¸o˜es’, nas quais existem algumas
distribuic¸o˜es que na˜o integram ’um’, mesmo assim possuem uma utilidade em descrever
a incerteza sobre a varia´vel aleato´ria. A integral
∫ ∞
0
1
x
dx
por exemplo, e´ uma func¸a˜o que na˜o integra ’um’, pois o resultado e´ ∞, pore´m podemos
afirmar que para valores pro´ximos de zero (a func¸a˜o e´ descrescente) ha´ uma maior chance
de um evento ocorrer. Em suma, probabilidade pode ser interpretada ou ate´ mesmo
reformulada de acordo com a necessidade de se abordar um fenoˆmeno.
Interpretac¸o˜es
• Cla´ssica: se existem 6 lados em um dado enta˜o ele e´ aparentemente sime´trico, logo
cada lado tem a mesma chance de ocorrer.
• Frequentista: existe uma evideˆncia emp´ırica que dados semelhantes, jogados no
1
Estat´ıstica Bayesiana www.osterne.com
passado produzem frequeˆncia de ocorreˆncias dos lados aproximadamente iguais.
• Subjetivista: os argumentos acima sa˜o sugestivos, fazem sentido, pore´m tratam
apenas de eventos superfluos, o que importa, na verdade, e´ o que voceˆ acredita que
vai acontecer em apenas um lac¸amento de dado, ou de forma mais pra´tica, como
voceˆ apostaria com base em informac¸o˜es adquiridas?
E´ o´bvio que o subjetivista pode, apo´s ana´lise minuciosa do experimento, chegar na
mesma conclusa˜o das viso˜es anteriores (cla´ssica e frequentista), pore´m outras razo˜es po-
dem surgir para mudar a probabilidade.
A teoria da relatividade, por exemplo, sugere que as quantidades f´ısicas devem ser
definidas do ponto de vista do observado usando o objeto espec´ıfico de medic¸a˜o. Assim,
conceitos como velocidade e distaˆncia na˜o podem ser definidos de forma absoluta, mas
em termos relativos, Dessa forma, na˜o existe probabilidade verdadeira (absoluta), uma
vez que na˜o esta´ acess´ıvel.
1.1 Deduc¸a˜o versus Infereˆncia
Considere um fenoˆmeno qualquer e suas observac¸o˜es (y1, y2, ..., yn). Iremos associar a
esse conjunto de observac¸o˜es uma lei de incertezas (desconhecida), pois do ponto de vista
Bayesiano essa lei deve ser desconhecida. Essa tal lei na estat´ıstica frequentista e´ a mode-
lagem dos dados, f(xi|θ). Precisamos, para isso, termos conhecimento de infereˆncia, que
nada mais e´ do que o processo de aprendizado sobre θ, com base em y = (y1, y2, ..., yn)
e/ou qualquer informac¸a˜o relevante sobre θ. De modo antagoˆnico a infereˆncia, temos a
deduc¸a˜o, que se baseia na lo´gica para responder as questo˜es probabilisticas. Para enten-
dermos melhor tal diferenc¸a, suponha que em um lote de 500 pec¸as, 10 sa˜o amostradas
ao acaso e dentre essas 10, 9 sa˜o defeituosas. O que podemos dizer sobre δ, o verdadeiro
valor do paraˆmetro?
• Deduc¸a˜o: como em 10 pec¸as, 9 foram defeituosas, enta˜o o poss´ıvel valor de δ pode
ser 0≤δ≤499.
• Infereˆncia: se em 10 pec¸as, 9 sa˜o defeituosas, enta˜o no lote deve haver muito mais
pec¸as defeituosas.
Estat´ıstica Bayesiana www.osterne.com
Em geral, quando o n´ıvel de incerteza e´ muito grande, lo´gica na˜o funciona. A infereˆncia,
por outro lado, e´ a infereˆncia em termos probabil´ısticos.
1.2 Probabilidade versus Infereˆncia
No exemplo anterior podemos utilizar o seguinte ca´lculo para as probabilidades de r, o
nu´mero de pec¸as defeituosas, dado o conhecimento de δ:
P (x = r|δ) =
(
r
δ
)(
500−δ
10−r
)(
500
10
)
Note que usando probabilidade na˜o podemos fazer muito, pois so´ podemos entender pro-
babilidade quando conhecemos δ. Do ponto de vista da infereˆncia, se δ fosse 9, seria muito
pouco prova´vel que uma amostra de tamanho 10, seriam observadas 9 pec¸as defeituosas
(pois em uma amostra so´, vinheram todas as pec¸as defeituosas), pois
P (x = 9|δ = 9) = 2.10−18
E mais
P (x = 9|δ = 100) = 31.10−6
P (x = 9|δ = 400) = 0.268
P (x = 9|δ = 500) = 0.391
Em geral, a Estat´ıstica esta´ interessada na inversa˜o:
λ(δ|x)
E, a partir deste ponto, inicia-se a diferenc¸a das estat´ısticas:
• Bayesiana (P (δ|x)): considera δ como varia´vel aleato´ria, sendo que qualquer fonte
de informac¸a˜o relevante fornece evideˆncias sobre δ. Na˜o existe nada objetivo, tudo
Estat´ıstica Bayesiana www.osterne.com
e´ sujetivo, ale´m de considerar P (x|δ) uma distribuic¸a˜o condicional.
• Frequentista (Lx(δ)): o paraˆmetro δ e´ fixo e desconhecido e somente os dados forne-
cera˜o evideˆncias sobre o paraˆmetro δ. Uma vez estabelecidas as suposic¸o˜es iniciais
o processo se torna objetivo. Nesta caso, P (x|δ) na˜o e´ tratatada como uma distri-
buic¸a˜o condicional.
1.3 Teorema de Bayes
Do ponto de vista discreto o Teorema de Bayes sera´
P (Ai|H) = P (Ai)P (H|Ai)∑n
i=1 P (Ai)P (H|Ai)
(1.1)
E do ponto de vista cont´ınuo o Teorema de Bayes sera´
P (θ|x) = P (θ)f(x|θ)∫
H
P (θ)f(x|θ)dθ (1.2)
Sendo, para o u´ltimo caso, x1, x2, ..., xn|θ∼f(x|θ) iid, com θ∼P (θ)
Cap´ıtulo 2
Componentes de uma ana´lise
Bayesiana
2.1 Verossimilhanc¸a
A verossimilhanc¸a reu´ne evideˆncias sobre θ com base na amostra.
Notac¸a˜o:
Lx(θ) = f(x|θ) (2.1)
2.2 Distribuic¸a˜o a` priori
Expressa o que sabemos de θ antes de observar os dados.
Notac¸a˜o:
P (θ)
A distribuic¸a˜o a` priori e´ criteriosamente escolhida. Ela pode ser proveniente (cons-
truida) de va´rias fontes, dentreelas esta˜o a opinia˜o de especialistas e conhecimentos de
estudos anteriores. Tal componente na˜o carrega nenhuma informac¸a˜o relevante que possa
afetar os dados (prioris na˜o informativas).
5
Estat´ıstica Bayesiana www.osterne.com
2.3 Distribuic¸a˜o a` posteriori
Essa componente usa o Teorema de Bayes para combinar P (θ) e f(x|θ) de forma a ter
uma distribuic¸a˜o de probabilidade do paraˆmetro θ dado a amostra.
Notac¸a˜o:
P (θ|x) = P (θ)f(x|θ)∫
H
P (θ)f(x|θ)dθ
2.4 Func¸a˜o de Perda
Do ponto de vista Bayesiano, as infereˆncias sobre θ podem ser vistas como um pro-
cesso de decisa˜o. Obviamente, existem va´rios estimadores poss´ıveis, mas qual o melhor
deles? Iremos observar isso na pra´tica, mas, em geral, a medida de qua˜o bom ou ruim e´
um estimador e´ expressa no que chamamos de utilidade, a qual dependedo contexto do
problema. Algumas observac¸o˜es sa˜o importantes:
• Em algumas situc¸oo˜es, um estimador que superestima e´ melhor que um estimador
que subestima o paraˆmetro.
• Quando formulamos o problema de estimac¸a˜o como uma regra de decisa˜o, a escolha
do estimador dependera´ da finalidade do mesmo.
• A utilidade, em geral, sera´ uma func¸a˜o de cada aspecto relevante da decisa˜o.
2.5 Formulac¸a˜o de infereˆncia como problema de de-
cisa˜o
Seja d∈D uma decisa˜o entre va´rias poss´ıveis do conjunto D de deciso˜es. Enta˜o a func¸a˜o
utilidade pode ser denotada por
U(d, θ)
Que leva em considerac¸a˜o a decisa˜o e o valor de θ. Eta func¸a˜o depende de como vai
ser definida, pois ha´ casos em que desejamos maximiza´-la e ha´ casos em que desejamos
minimiza´-la, isto e´, minimizar/maximizar a esperanc¸a da func¸a˜o utilidade:
min/max [Eθ(U(d, θ))]
Estat´ıstica Bayesiana www.osterne.com
No contexto Bayesiano mais usual, a func¸a˜o utilidade e´ vista como uma func¸a˜o de perda.
Estat´ıstica Bayesiana www.osterne.com
Cap´ıtulo 3
Func¸a˜o de perda
Representa uma medida de qua˜o ruim seria se toma´ssemos a decisa˜o d se θ for o ver-
dadeiro valor do paraˆmetro. Dessa forma, queremos minimizar a func¸a˜o de perda.
Observac¸a˜o: Em estimac¸a˜o pontual, queremos representar o valor de θ atrave´s de apenas
um valor de θ̂. Enta˜o, se θ = θ̂, teremos perda zero.
Definic¸a˜o 1 (Func¸a˜o de perda) L(d, θ) e´ uma func¸a˜o de perda, tal que
• E[L(d, θ)] = 0
• Se d1 e d2 sa˜o deciso˜es em D e se E[L(d1, θ)] e´ maior ou igual a E[L(d2, θ)], enta˜o
d2 deve ser preferido.
I. Perda quadra´tica
Considere (d− θ) a distaˆncia entre o estimador e o paraˆmetro, enta˜o
L(d− θ) = (d− θ)2
E[L(d− θ)] = E[(d− θ)2]
= E[d2 − 2dθ + θ2]
= d2 − 2dE[θ] + E[θ2]
= d2 − 2dE[θ] + E[θ2] + (E2[θ]− E2[θ])
Note que a expressa˜o acima tem mı´nimo quando
9
Estat´ıstica Bayesiana www.osterne.com
(d− E[θ])2 = 0
d = E[θ]
Logo, o estimador o´timo sob perda quadra´tica e´ a esperanc¸a. Sabendo disso, considere
o modelo Bayesiano x1, x2, ..., xn|θ∼f(x|θ)θ∼P (θ)
Temos enta˜o, que o estimador Bayesino sob perda quadra´tica e´ dado por
d = θ̂ = E[θ|x]
II. Perda bilinear
Penaliza se errarmos para mais ou para menos
L(d, θ) =
a(θ − d), d≤θb(d− θ), d>θ
Precisamos minimizar E[L(d, θ)] com θ∼f(θ).
Fica a cargo do leitor mostrar que E[L(d, θ)] sera´ mı´nima quando
F (d) =
a
a+ b
Onde
F (d) =
∫ d
−∞
f(θ)dθ
Corola´rio 3.0.1 () Quando a func¸a˜o de perda e´ L(d, θ) = |d − θ| chamamos de perda
absoluta. Note que,
L(d, θ) =
d− θ, d≥θθ − d, d<θ
Estat´ıstica Bayesiana www.osterne.com
Isto e´, uma func¸a˜o bilinear com a = b = 1. Consequentemente, o ponto d o´timo e´ quando
F (d) =
1
2
Que e´ o ponto referente a mediana de θ
Em conclusa˜o, o estimador Bayesiano sob perda absoluta e´
d = θ̂ = median(θ|x)
III. Perda zero-um
Considerando b uma constante arbitra´ria, temos
L(d, θ) =
0, |d− θ|≤b1, |θ − d|>b
O objetivo e´ minimizar a esperanc¸a dessas func¸o˜es:
E[L(d, θ)] = 0.P (|d− θ|≤b) + 1.P (|θ − d|>b)
= P (|θ − d|>b)
= P (θ < d− b) + P (θ > d+ b)
Para minimizar, devemos derivar e igualar a zero. Fazendo isso, chegamos em
f(d− b) = f(d+ b)
Isso so´ vai acontecer quando d for a moda, portanto, o estimador Bayesiano sob perda
zero-um e´ a moda a posteriori.
Em suma, os estimadores Bayesianos mais comuns sa˜o:
Estat´ıstica Bayesiana www.osterne.com
θ̂ = E[θ|x]
θ̂ = Median[θ|x]
θ̂ = Mo[θ|x]
Para ilustrar o que foi falado ate´ agora dos estimadores vamos a um exemplo simples.
Suponha que a proporc¸a˜o de itens defeituosos de um lote seja θ e que, a priori, na˜o
sabemos nada sobre θ. Vamos encontrar os estimadores Bayesianos para θ considerando
o modelo de Bernoulli para a amostra.
Antes de tudo, vamos ilustrar o problema:x1, x2, ..., xn|θ∼Bernoulli(θ)θ∼U [0, 1]
Feito isso, vamos ao primeiro passo, encontrar a verossimlhanc¸a:
Lx(θ) =
n∏
i=1
f(xi|θ)
= θ
∑n
i=1Xi(1− θ)n−
∑n
i=1Xi
A segunda componente e´ a distribuic¸a˜o a` priori
P (θ) = 1
E a terceira e u´ltima componente (reponsa´vel por responder a questa˜o) e´ a distribuic¸a˜o a`
posteriori:
P (θ|x) = P (θ)Lx(θ)∫ 1
0
P (θ)Lx(θ)dθ
=
θ
∑n
i=1Xi(1− θ)n−∑ni=1Xi∫ 1
0
θ
∑n
i=1Xi(1− θ)n−∑ni=1Xidθ
Estat´ıstica Bayesiana www.osterne.com
A distribuic¸a˜o a` posteriori trata-se, portanto:
θ|x∼Beta
(
n∑
i=1
Xi + 1, n−
n∑
i=1
Xi + 1
)
Os estimadores Bayesianos sob perda quadra´tica, sob perda absoluta e sob perda zero-um
sa˜o , respecitivamente:
E[θ|x] =
∑n
i=1Xi + 1
n+ 2
Median[θ|x] = m
Mo[θ|x] =
∑n
i=1Xi
n
Onde m e´ encontrado numericamente utilizando a integral antes definida.
Estat´ıstica Bayesiana www.osterne.com
Cap´ıtulo 4
Propriedades de um estimador
Bayesiano
1. Comportamento quando se tem amostras grandes
Em geral, quando se tem amostras grandes a distribuic¸a˜o a` priori na˜o afeta a dis-
tribuic¸a˜o a` posteriori. Vejamos um exemplo na˜o qual vamos exepcificar dois modelos
(M1eM2): x1, x2, ..., xn|θ∼Bernoulli(θ)θ∼U [0, 1]x1, x2, ..., xn|θ∼Bernoulli(θ)θ∼Beta[1, 2]
Sabemos assim, que
E1 =
1
2
E2 =
1
3
A posteriori, temos
n∑
i=1
Xi = 10 n = 100
Consequentemente
15
Estat´ıstica Bayesiana www.osterne.com
E1[θ|x] = 0.108 E2[θ|x] = 0.107
2. Consisteˆncia
E´ poss´ıvel mostrar que, quando n tende ao infinito, a distribuic¸a˜o a` postoriori tendera´
ao uma distribuic¸a˜o Normal centrada no verdadeiro valor do para˜metro.
P (θ|x)→ N(θ, .)
Em particular
θ̂n → θ
Quando n tende ao infinito, sendo θ̂n o estimador Bayesiano.
3. Se x e θ sa˜o independentes, isto e´, carrega informac¸a˜o sobre θ enta˜o
P (θ|x) = P (θ)f(x|θ)∫
H
P (θ)f(x|θ)dθ =
P (θ)f(x)∫
H
P (θ)f(x)dθ
= P (θ)
4. Suficieˆncia
T (x) e´ suficiente se, e somente se, conseguirmos esta fatorac¸a˜o:
f(x|θ) = q(t(x)|θ)h(x)
Logo
P (θ|x) = q(t(x)|θ)h(x)P (θ)∫
H
q(t(x)|θ)h(x)P (θ)dθ
=
q(t(x)|θ)P (θ)∫
H
q(t(x)|θ)P (θ)dθ
= P (θ|t(x))
Todas infereˆncias sera˜o baseadas na estat´ıstica suficiente, portanto, o princ´ıpio de
suficeˆncia e´ naturalmente satisfeito.
Estat´ıstica Bayesiana www.osterne.com
Observac¸a˜o: O princ´ıpio de suficieˆncia, em suma, nos diz que uma estat´ıstica e´ sufi-
ciente se, tirada uma amostra, toda a informac¸a˜o que conte´m θ ou quando a distribuic¸a˜o
condicionada de X dado T = t na˜o depende de θ (f(x|t, θ) = f(x|t)), isto e´, conhecido
T = t, a informac¸a˜o sobre a amostra, nada acrescenta sobre θ. Se T (X) e´ uma estat´ıstica
suficiente para θ e se T (x) = T (x
′
), o princ´ıpio estabelece a identidade das infereˆncias fei-
tas a partir dos dados x ou x
′
. Logo, a evideˆncia fornecida por T (x) e´ ideˆntica a` fornecida
pelos dados x.
5. Ancilaridade
Uma estat´ıstica cuja distribuic¸a˜o na˜o depende de θ e´ chamada ancilar.Usando argu-
mentos similares ao cado anterior e´ poss´ıvel mostrar que o princ´ıpio da ancilaridade e´
naturalmente satisfeito.
6. Princ´ıpio de Verossimilhanc¸a
A func¸a˜o de verossimilhanc¸a tem papel fundamental, quer na infereˆncia cla´ssica, quer
na infereˆncia bayesiana, como ve´ıculo portador da informac¸a˜o dada pela amostra. O
princ´ıpio da verossimilhanc¸a sustenta que toda a informac¸a˜o dada pela amostra esta´
contida na func¸a˜o de verossimilhanc¸a. Temos, portanto, o modelo de verossimilhanc¸a
fraco e o modelo de verossimilhanc¸a forte. O modelo de verossimilhanc¸a fraco estabele
o seguinte: se as observa c¸o˜es a e b, escalares ou vetores, com a, b pertecentes ao espac¸o
amostral X, temos que:
f(a|θ) = k(a, b)f(b|θ)
Onde k na˜o depende de θ, enta˜o as infereˆncias sobre θ feitas a partir de a ou b, sa˜o
ideˆnticas. O que diferencia do princ´ıpio de verossimilhanc¸a forte e´ o fato de introduzir-
mos agora a relac¸a˜o entre dois modelos estat´ısticos, o primeiro fornecendo observac¸oes de
x pertencendo a X, fX(x|θ), e o segundo fornecendo informac¸o˜es sobre y tambe´m perten-
cendo a X, fY (y|θ), sendo o espac¸o parama´trico comum entre os dois modelos. Enta˜o,
se:
fX(x|θ) = k(x, y)fY (y|θ)
Onde k na˜o depende de θ, enta˜o as infereˆncias sobre θ feitas a partir de x ou y, sa˜o
ideˆnticas. Como ja´ citamos, tal princ´ıpio estabelece que as infereˆncias obtidas de x e
Estat´ıstica Bayesiana www.osterne.com
y, amostras de uma mesma populac¸a˜o, devem coincidir, ou seja, a distribuic¸a˜o conjunta
f(x, θ) = f(y, θ). Enta˜o:
P (θ|x) = P (θ)f(x|θ)∫
H
P (θ)f(x|θ)dθ
=
P (θ)f(x)∫
H
P (θ)f(x)dθ
=
KP (θ)f(y|θ)
K
∫
H
P (θ)f(y|θ)dθ
= P (θ|y)
E o princ´ıpio de verossimilhanc¸a e´ naturalmente satisfeito.
Observac¸a˜o 1: Uma forma interessante de se observar o princ´ıpio dito acima e´ pensar
que o mesmo estabelece que a observac¸ao particular de x representa o u´nico elemento do
espac¸o amostral, qualquer que seja esse espac¸o, relevante nas infereˆncias de θ. Isso con-
tradiz os cla´ssicos, visto que defendem a avaliac¸a˜o a qual a informac¸a˜o contida em x deve
passar por todos os pontos do espac¸o amostral. Assim, para os bayesianos, as te´cnicas de
amostragem sa˜o irrelevantes.
Considere o exemplo em que temos uma sucessa˜o de lanc¸amentos de uma moeda, ide-
pendentes e condicionados por θ que designa a probabilidade de sair ”cara”. Suponha,
portanto, que tivemos o seguinte resultado na amostra:
x = {K,C,K,K,C,C,K,C,C,C}
Sendo K, cara, e C, coroa. Este resultado podia ser obtido por diferentes processos, como
”lanc¸ar a moeda ate´ que aparec¸am 6 coroas”ou ”lanc¸ar a moeda ate´ que aparec¸am 3 coroas
consecutivas”. Note que, definido qualquer uma das duas afirmac¸o˜es acima, chegar´ıamos
a uma func¸a˜o de verossimilhanc¸a, que seria proporcional a
θ4(1− θ)6
Enta˜o, se especificarmos uma resultado x satisfato´rio, a escolha de qualquer um dos dois
me´todos, sendo cada um com espac¸o amostral diferente, nada vem a acrescentar, pois
Estat´ıstica Bayesiana www.osterne.com
toda a informac¸a˜o que x pode dar a respeito do paraˆmetro, esta´ nessa expressa˜o.
Observac¸a˜o 2: A teoria bayesiana, como ja´ comentamos, e´ o meio de considerar
formalmente uma informac¸a˜o a` priori. Tal informac¸a˜o na˜o so´ e´ u´til por si mesma, como
tambe´m aprofunda a nossa compreensa˜o das limitac¸o˜es da Estat´ıstica Cla´ssica, especi-
almente a EMV. Um exemplo para ajudar o leitor a entender essa ideia, consiste, por
exemplo, em testar a hipo´tese H0 : θ = 1/2 contra a alternativa H1 : θ>1/2 para questio-
narmos se uma moeda e´ ou na˜o viciada. Sa˜o considerados assim, dois experimentos:
• E1: Lanc¸ar a moeda 12 vezes.
• E2: Lanc¸ar a moeda ate´ que aparec¸am 3 caras.
Para isso, admita que o valor observado da varia´vel aleato´ria em estudo, o nu´mero de
coroas, foi x = 9. Para o cla´ssico, o n´ıvel cr´ıtico da hipo´tese nula decorrente da observac¸a˜o
difere nos dois casos, pois no caso E1 , a varia´vel tem ditribuic¸a˜o binomial, com n´ıvel cr´ıtico
dado por:
P1 = P (X≥9|θ = 1/2)
=
(
12
9
)(
1
2
)12
+
(
12
10
)(
1
2
)12
+
(
12
11
)(
1
2
)12
+
(
12
12
)(
1
2
)12
= 0.075
Sendo no caso E2 , a varia´vel tem ditribuic¸a˜o binomial negativa, com n´ıvel cr´ıtico dado
por:
P1 = P (X≥9|θ = 1/2)
=
(
11
9
)(
1
2
)12
+
(
12
10
)(
1
2
)13
+
(
13
11
)(
1
2
)14
+ ...
= 0.0375
Enta˜o, para um n´ıvel de significaˆncia de 5%, rejeitamos H0 no caso E2, mas na˜o rejei-
tamos em E1. Isso implica que o princ´ıpio da verossimilhanc¸a na˜o esta´ correto utilizando
essa ana´lise, pois as concluso˜es a serem tiradas nos dois casos devem ser indeˆnticas e as
Estat´ıstica Bayesiana www.osterne.com
func¸o˜es de verossimilhanc¸as devem ser proporcionais. De fato, temos:
E1 : L1(θ|x) =
(
n
x
)
θx(1− θ)n−x
=
(
12
9
)
θ9(1− θ)3
= 220θ9(1− θ)3
E2 : L2(θ|x) =
(
K + x− 1
x
)
θx(1− θ)k
=
(
11
9
)
θ9(1− θ)3
= 55θ9(1− θ)3
Da exposic¸a˜o feita acima, nota-se claramente o desrespeito do princ´ıpio de verossimi-
lhanc¸a por parte dos me´todos cla´ssicos. Talvez, o que pode se assemelhar com o cla´ssicos
sejam as estimativas de verossimilhanc¸a, pois no que diz respeito a espac¸o amostral, temos
fortes violac¸o˜es do pr´ıncipio explicado.
7. Na˜o vie´s
Seja θ̂n algum estimador de θ. Sabemos que
EQM [θ̂n] = E[(θ̂n − θ)2|θ]
= V [θ̂n|θ] +
[
(θ̂n − θ)|θ)− θ
]2
= V [θ̂n|θ] + β2(θ̂n)
Enta˜o, quando β2(θ̂n) e´ zero, podemos afirmar que θ̂n e´ na˜o viciado. Atente-se que, do
ponto de vista cla´ssico, um estimador e´ inadmiss´ıvel se seu EQM e´ maior que o EQM de um
outro estimador. Entretanto, na bayesiana isso na˜o vale. Suponha que θ̂n = a (a cont´ınua
para todo x) e se θ = a, enta˜o o EQM e´ zero. Assim, nesse caso, tal estimador faz pouco
sentido. Pensando em contornar esse tipo de problema, os frequentistas estabeleceram o
crite´rio de na˜o vie´s. No entanto, este crite´rio e´ puramente arbitra´rio, porque exclui muitos
estimadores u´teis que se comportam melhor que os estimadores na˜o viciados. Para ilustra,
considere
Estat´ıstica Bayesiana www.osterne.com
X∼N(
√
θ, 1)
Seja θ̂n = x
2, enta˜o
E[θ̂n = x
2] = E[x2] = V [x] + E2[x] = 1 + θ
Podemos afirmar que θ̂n e´ viciado. Do ponto de vista cla´ssico, faz-se a adaptac¸a˜o
S(x) = x21
E assim, S(x) e´ um estimador na˜o viciado. Pore´m, para x < 1, temos S(x) < 0, o que
na˜o faz sentido, ja´ que θ deve ser maior que zero.
Considere agora
t(x) =
x
2 − 1 |x| > 1
0 c.c.
Note que t(x) e´ viesado, mas t(x) na˜o fere as suposic¸o˜es iniciais do modelo, ou seja,
temos uma situac¸a˜o em que um estimador na˜o viciado na˜o faz sentido e um estimador
viciado e´ melhor. Essa visa˜o nos atenta para sabermos que o vie´s e´ uma falsa ideia de que
EQM sa˜o melhores, pois devemos observar na˜o somente EQM, mas tambe´m sua variaˆncia.
Dito isso, o estimador Bayesiano e´ viciado, sob perda quadra´tica, e na˜o viciado, sob perda
absoluta ou perda zero-um.
8. Invariaˆncia
Suponha que θ e´ o paraˆmetro de interesse, mas queremos fazer infereˆncia sobre φ = g(θ).
Nem sempre o estimador Bayesiano e´ invariante sob transformac¸o˜es, por exemplo, se
φ = θ2:
E[φ|x] = E[θ2|x] = V [θ|x] + E2[θ|x]
E[θ2|x]≥E2[θ|x]
Nem sempre a invariaˆncia vale no estimador Bayesiano, isso sob perda quadra´tica. Pore´m,
invariaˆncia na˜o e´ garantida somente quando o estimador Bayesiano e´ a me´dia e a moda a
posteriori, no caso da mediana podemos garantir a invaria˜ncia.
Estat´ıstica Bayesiana www.osterne.com
Cap´ıtulo 5
Priori conjugada
Considere o experimento aleato´riox1, x2, ..., xn, com T (x) sendo a estat´ıstica suficiente
para θ. Enta˜o:
f(x|θ) = g(t(x)|θ).h(x)
Note que a estat´ıstica suficiente possui a mesma dimensa˜o do paraˆmetro θ. Assim ana´lise
se torna mais simples se pudermos escolher uma distribuic¸a˜o para os dados onde exista
uma estat´ıstica suficientede dimensa˜o fixa. Em outras palavras, escolhendo uma f(x|θ)
tal que se tenha uma estat´ıtica sufuciente com dimensa˜o fixa, enta˜o podemos escolher uma
famı´lia de distribuic¸a˜o a` priori para qualquer tamanho amostral n tal que a ditribuic¸a˜o a`
posteriori pertenc¸a a` mesma famı´lia da distribuic¸a˜o a` priori:
P (θ|x) = g(t(x|θ))h(x)P (θ)∫
H
g(t(x|θ))h(x)P (θ)dθ
=
g(t(x|θ))P (θ)∫
H
g(t(x|θ))P (θ)dθ
Enta˜o
Definic¸a˜o 2 (Modelo conjugado) Um modelo conjugado (ou distribuic¸a˜o a` priori con-
jugada) e´ definida de tal forma que P (θ|x) e´ da mesma famı´lia de P (θ).
23
Estat´ıstica Bayesiana www.osterne.com
Como exemplo temos o modelo Bernoulli-Beta, tal quex1, x2, ..., xn|θ∼Bern(θ)θ∼Beta(α, β)
Veremos mais exemplos nas pa´ginas seguintes, mas antes teremos que enunciar um
teorema muito u´til:
Teorema 5.0.1 () Seja x1, x2, ..., xn∼Bern(θ)θ∼P (θ)
considere o nu´cleo da distribuic¸a˜o a` posteriori (parte que envolve somente a varia´vel
aleato´ria) com a seguinte relac¸a˜o
P (θ|x) = f(x|θ)P (θ)
Se na combinac¸a˜o P (θ) com f(x|θ) puder ser identificada o nu´cleo de uma distribuic¸a˜o
conhecida, enta˜o a distribuic¸a˜o a` posteriori tera´ essa distribuic¸a˜o.
Para facilitar o desenvolviemento de agumas questo˜es, considere a nova notac¸a˜o abaixo:
f(x|θ) = [x|θ]
P (θ) = [θ]
Assim, no exemplo anteriormente citado (Modelo Bernoulli-Beta), temos
[θ|x] ∝ [x|θ][θ]
∝ αθ
∑n
i=1Xi(1− θ)n−
∑n
i=1Xiθα−1(1− θ)β−1
∝ αθ
∑n
i=1Xi+α−1(1− θ)n−
∑n
i=1Xi+β−1
Portanto
θ|x∼Beta
(
n∑
i=1
Xi + α, n−
n∑
i=1
Xi + β
)
Estat´ıstica Bayesiana www.osterne.com
5.1 Modelo Poisson-Gama
Outro exemplo de modelo conjugado e´ o Modelo Poisson-Gama:x1, x2, ..., xn|θ∼Pois(θ)θ∼Gama(α, β)
Utilizando o mesmo racioc´ınio
[θ|x] ∝ [x|θ][θ]
∝ θ
∑n
i=1Xie−nθθα−1e−βθ
∝ θα+
∑n
i=1Xi−1e−θ(n+β)
Portanto
θ|x∼Gama
(
α +
n∑
i=1
Xi, n+ β
)
De posse da ditribuic¸a˜o a` priori, podemos calcular me´dia, variaˆncia e mediana:
E[θ|x] = α +
∑n
i=1Xi
n+ β
V [θ|x] = α +
∑n
i=1Xi
(n+ β)2
Med[θ|x] = m
Na qual, o valor de m da mediana pode ser encontrado usando
∫ m
0
P (θ|x)dθ = 1/2
Ale´m disso, podemos calcular a moda e a probabilidade relacionada a θ:
Mo[θ|x] = α +
∑n
i=1Xi − 1
(n+ β)
P (θ < θ∗) =
∫ θ∗
0
P (θ|x)dθ
Estat´ıstica Bayesiana www.osterne.com
Dessa forma, de posse da distribuic¸a˜o a` posteriori podemos calcular/encontrar qual-
quer informac¸a˜o sobre θ. Temos, portanto a forma:
dist. a` posteriori ∝ verossimilhanc¸a x dist. a` priori
Vejamos, a seguir, mais alguns exemplos de modelos conjugados.
5.2 Modelo Binomial Negativa-Beta
Temos o seguinte modelox1, x2, ..., xn|θ∼BinNeg(r, θ)θ∼Beta(a, b)
Sabemos que
P (Xi = xi) =
(
xi + r − 1
xi
)
θxi(1− θ)r
Enta˜o a probabilidade conjunta do modelo Binomial-Negativa, e´ dado por:
[x|θ] ∝ θ
∑n
i=1Xi(1− θ)nr
Para o modelo Beta, temos:
[θ] ∝ θa−1(1− θ)b−1
Enta˜o o modelo conjugado e´ dado por
[θ|x] ∝ θ
∑n
i=1Xi(1− θ)nrθa−1(1− θ)b−1
∝ θ
∑n
i=1Xi+a(1− θ)nr−b
A distribuic¸a˜o a posteriori e´ enta˜o a distribuic¸a˜o Beta(
∑n
i=1Xi + a, nr − b).
Cap´ıtulo 6
Componentes de uma ana´lise
Bayesiana
O processo de ana´lise bayesiana deve ser visto como um processo de transic¸a˜o, na qual
o primeiro passo e´ definir a distribuic¸a˜o a` priori e a transic¸a˜o (aquisic¸a˜o dos dados) nos
levaria a distribuic¸a˜o posteriori. De posse dessa distribuic¸a˜o e´ necessa´rio fazermos algumas
ana´lises, veja a seguir.
6.1 Triplet
Consiste em avaliar como o teorema de Bayes sintetiza as informac¸o˜es amostrais e a`
priori. Em particular, o teorema de Bayes preserva os zeros das distribuic¸o˜es.
Exemplo: Se x1, x2, ..., xn|θ∼U [0, θ], enta˜o L(θ) tera´ o comportamento:θ
−n, θ≥max(xi)
0, c.c.
Considere tambe´m
θ∼Beta(α, β)
Enta˜o, quando P (θ) = 0 ou f(θ|x) = 0, o zero e´ preservado, isto e´, P (θ|underlinex) = 0
para todos os valores corresposndentes.
27
Estat´ıstica Bayesiana www.osterne.com
6.2 Suma´rio estat´ıstico
O princ´ıpio ba´sico da estat´ıstica bayesiana e´ que todas as informac¸o˜es devem ser ex-
traidas da distribuic¸a˜o a` posteriori. Na estat´ıstica frequentista teˆm-se apenas treˆs tipos
de infereˆncia: estimac¸a˜o pontual, estimac¸a˜o intervalar e teste de hipo´tese. Na estat´ıstica
bayesiana, podemos fazer todas esses tipos de infereˆncias e muito mais. Teˆm-se aqui
maior flexibilidade de responder qualquer tipo de pergunta sobre θ. Podemos enta˜o cal-
cular me´dia, moda, mediana, quantis, etc.
6.3 Gra´ficos
Quando poss´ıvel, podemos fazer gra´ficos dos paraˆmetros de interesse. Se tivermos a
distribuic¸a˜o a` posteriori em forma exata podemos avaliar:
• Forma (moda, simetria, anti-moda, curtose)
• Locac¸a˜o (me´dia, mediana)
• Dispersa˜o (variaˆncia, matriz de covariaˆncia)
• Dependeˆncia (gra´ficos θ1Xθ2 em formato de c´ırculos nos faz afirmar indepedeˆncia e
gra´ficos θ1Xθ2 em formato oval nos faz afirmar depedeˆncia)
6.4 Infereˆncias
As infereˆncias podem ser informais, explicada por aux´ılio de gra´ficos e, portanto, sem
preocupac¸a˜o com o rigor matema´tico, e formais, que sa˜o justificadas formalmente. Vamos
ter uma breve visa˜o da infereˆncia formal agora e , posteriormente, iremos nos aprofundar
mais.
Nas infereˆncias formais temos as diviso˜es:
a. Estimac¸a˜o pontual
O estimador o´timo a` posteriori e´ θ̂ = E[θ|x]. Modas e medianas tambe´m sa˜o
estimadores naturais para θ, pore´m com interpretac¸o˜es diferentes:
– Me´dia: valor esperado, centro de massa
Estat´ıstica Bayesiana www.osterne.com
– Mediana: valor centrado
– Moda: valor mais prova´vel
Note que o Estimador de Ma´xima Verossimilhanc¸a na˜o tem essas interpretac¸o˜es, pois
a func¸a˜o de verossimilhanc¸a na˜o e´ densidade. O E.M.V. e´ o valor mais plaus´ıvel/veross´ımel
em face a amostra obsercvada.
b. Estimac¸a˜o Intervalar:
Se precisamos determinar um intervalo no qual θ esta, podemos extrair esse inter-
valo diretamente da distribuic¸a˜o a` posteriori. Tal intervalo e´ chamado de Intervalo
de Credibilidade, o qual tem interpretac¸a˜o completamente diferente do tradicional
Intervalo de Confianc¸a: no primeiro e´ simplesmente afirmar que temos uma proba-
bildade p de θ esta´ dentro de um intervalo; enquanto no segundo, temos que explicar
que se o procedimento for repetido inu´meras vezes, sob as mesma condic¸o˜es, em uma
probabilidade p de casos o I.C. contera´ o paraˆmetro.
c. Teste de hipo´tese:
A estrutura dos testes de hipo´teses bayesianos tem a mesma motivac¸a˜o que a visa˜o
frequentista.
H0 : θ � Θ
H0 : θ � Θ
∗
No teste de hipo´tese bayesiano podemos ter n hipo´teses. Veremos tambe´m que
testar hipo´teses corresponde a calcular probabilidades a` posteriori:
P (H0|x), P (H1|x), ..., P (Hn|x)
No paradigma bayesiano, testar as hipo´teses
H0 : θ � Θ0
H0 : θ � Θ1
Estat´ıstica Bayesiana www.osterne.com
e´, a grosso modo, simplesmente calcular
α0 = P (θ�Θ0|x)
α1 = P (θ�Θ1|x)
Considere tambe´m as seguintes probabilidades a` priori:
pi0 = P (θ�Θ0)
pi1 = P (θ�Θ1)
Definic¸a˜o 3 (Odds Ratio) A raza˜o α0/α1 e´ chamada ’odds ratio’ a` posteriori de H0
em relac¸a˜o a H1.
Definic¸a˜o 4 (Odds Ratio) A raza˜o pi0/pi1 e´ chamada ’odds ratio’ a` priori de H0 em
relac¸a˜o a H1.
Exemplo 1 (Odds ratio) Crianc¸as sa˜o classificadas como abaixo da me´dia, caso tenham
QI menor que 100, eacima da me´dia, cado tenham QI maior que 100. Iremos, portanto,
testar a hipo´tese:
H0 : θ < 100
H0 : θ > 100
Sendo θ|x∼N(110.39; 62.23) enta˜o:
α0 = P (θ < 100|x) = 0.106
α0 = P (θ > 100|x) = 0.894
O odds ratio a´ posteriori e´ dado por 0.11857, invertendo esse valor para uma melhor
interpretac¸a˜o, chegamos em 8.44, ou seja, a chance de o grupo ter QI acima da me´dia e´
8.44 vezes maior que ter QI abaixo da me´dia.
Estat´ıstica Bayesiana www.osterne.com
Na pro´xima sec¸a˜o irmeos nos aprofundar mais em teste de hipo´teses.
Estat´ıstica Bayesiana www.osterne.com
Cap´ıtulo 7
Teste de hipo´teses
Testar hipo´teses do ponto de vista bayesiano e´ desnecessa´rio, mas se em determinado
problema realmente precisarmos decidir entre duas ou mais hipo´teses, enta˜o teremos uma
problema de decisa˜o. Seja D = {d0, d1} espac¸o de deciso˜es associadas a`s hipo´teses:
• H0 : θ�Θ0
• H1 : θ�Θ1
Onde
d0 :aceita H0(decide-se por H0)
d1 :aceita H1(decide-se por H1)
A tomada de decisa˜o envolve aspectos relacionados a perda/ganho por tomar a decisa˜o
errada/correta. Assim, definimos uma func¸a˜o custo (por tomar uma decisa˜o):
Tabela 7.1: ANOVA
Verdadeiro Decisa˜o de
valor de θ d0 d1
θ�Θ0 0 w0
θ�Θ1 w1 0
Em que zero significa a na˜o existeˆncia de erro e w0/w1 o custo do erro. A func¸a˜o fica
definida por:
C(θi, dj)
0, θ�Θiwj, θ�Θj
33
Estat´ıstica Bayesiana www.osterne.com
Considerando a` priori
pi0 = P (θ�Θ0)
pi1 = P (θ�Θ1)
A perda esperada sera´:
Eθ[C(d0, θ)] = w1P (θ�Θ1|x)
= w1
P (θ�Θ1)f(x|θ�Θ1)
k
Eθ[C(d1, θ)] = w1P (θ�Θ0|x)
= w1
P (θ�Θ0)f(x|θ�Θ0)
k
Uma regra de decisa˜o poss´ıvel e´ escolher d0 ou d1 que leve a uma menor perda esperada,
isto e´, decidiremos por H0 se:
Eθ[C(d0, θ)]
Eθ[C(d1, θ)]
< 1
E por H1 caso contra´rio. Atente-se para uma observac¸a˜o: caso o valor desse quociente
seja aproximadamente 1, enta˜o a decisa˜o sera´ fra´gil. Outra informac¸a˜o importante e´,
hipo´teses pontuais do tipo
• H0 : θ = θ0
• H1 : θ = θ1
na˜o fazem sentido algum do ponto de vista pra´tico, uma vez que um pesquisador
dificilmente tera´ uma hipo´tese ta˜o precisa.
Estat´ıstica Bayesiana www.osterne.com
Sabendo disso, e´ muito mais plaus´ıvel pensar
• H0 : θ�(θ0 − b, θ0 + b)
Sendo b alguma constante pequena. Enta˜o,caro leitor, na˜o devemos testar pontos,
mas sim, intervalos. Se a persisteˆncia em testar pontos continuar, ha´ um procedimento
bayesiano que consiste testar pontos baseados em intervalos muito pequenos, permitindo
uma boa aproximac¸a˜o:
• H0 : θ = θ0
• H1 : θ�(θ0 − b, θ0 + b)
Como citamos anteriormente, o odds ratio tambe´m e´ ultilizado em teste de hipo´teses
da seguinte maneira:
P (H0|x)
P (H1|x)
Na qual iremos observar quantas vezes uma hipo´tese e´ maior que a outra.
Estat´ıstica Bayesiana www.osterne.com
Cap´ıtulo 8
Priori na˜o-informativa
Em muitas situac¸o˜es podemos na˜o dispor de qualquer informac¸a˜o a` priori, embora esse
argumento seja questiona´vel, temos procedimento para retratar esse desconhecimento a`
priori sobre o paraˆmetro de interesse. As prioris na˜o informativas sa˜o divididas em duas:
8.1 Uniforme
Se θ tem distribuic¸a˜o U [a, b], enta˜o pode-se expressar
P (θ)∝1
A expressa˜o acima significa dizer que temos desconhecimento ma´ximo sobre θ. As
infereˆncias a` posteriori ira˜o, nesse caso, coincidirem com as infereˆncias frequentistas.
Observac¸a˜o:
P (θ) somente na˜o e´ informativa para θ, se precisarmos estimar uma func¸a˜o de θ, por
exemplo, φ(θ) = θ2, pois
P (θ) ∝ 1
φ = θ2
θ =
√
φ
∂θ
∂φ
=
1
2
√
φ
37
Estat´ıstica Bayesiana www.osterne.com
E assim P (φ) = 1
2
√
φ
, deixa de ser uniforme.
8.2 Priori de Jeffrey
Vimos que a priori uniforme somente constitue como na˜o-informativa para o paraˆmetro
θ, isto e´, para outras func¸o˜es de θ a priori passa a ser informativa. Jeffrey, para contornar
esse problema, propoˆs uma priori baseada apenas na estrutura do modelo. A ferramenta
ba´sica e´ a quantidade de informac¸a˜o de Fisher, que e´ dada por:
IF (θ) = −E
[
∂2ln(f(x|θ))
∂θ2
]
Enta˜o, Jeffrey sugeriu a distribuic¸a˜o a` priori impro´pria dada pela raiz do determinante
da matriz de informac¸a˜o de Fisher.
P (θ) = |IF (θ)|1/2
Note que quando θ e´ um vetor de paraˆmetros, a priori de Jeffrey e´ dada pelo determi-
nante de ’menos’ a esperanc¸a da matriz Hessiana (matriz de derivadas segundas).
Exemplo 2 Seja x1, x2, ..., xn|µ, σ2∼N(µ, σ2), com µ, σ2 desconhecidos, encontre a pri-
ori de Jeffrey para o modelo.
Soluc¸a˜o:
f(x|µ, σ2) ∝ (σ2)−1/2exp
[
(x− µ)2
2σ2
]
l = ln(f(x|µ, σ2))
l ∝ −ln(σ2)− 1
2σ2
(x− µ)2
A matriz Hessiana e´ dada por:  ∂2l∂µ2 ∂2l∂µ∂σ2
∂2l
∂σ2∂µ
∂2l
∂σ22

Estat´ıstica Bayesiana www.osterne.com
Calculando cada entrada da matriz:
∂2l
∂µ2
= − 1
σ2
∂2l
∂µ∂σ2
=
−(x− µ)
σ4
∂2l
∂σ22
= − 1
σ6
(x− µ)2
E suas esperanc¸as:
−E
[
∂2l
∂µ2
]
=
1
σ2
−E
[
∂2l
∂σ22
]
=
1
2σ4
−E
[
∂2l
∂µ∂σ2
]
= 0
A matriz final fica  1σ2 0
0 1
2σ4

O determinante dessa matriz e´ dado por 1
2σ6
. E calculando a ra´ız, temos a priori de
Jeffrey dada por 1
σ3
.
Em suma
P (µ, σ2)∝ 1
σ3
Estat´ıstica Bayesiana www.osterne.com
Cap´ıtulo 9
Exerc´ıcios
Exemplo 3 Suponha que a proporc¸a˜o de itens defeituosos em um lote seja θ (desconhe-
cido), em uma amostra de 20 itens, encontrou-se apenas 1 item com problema. Supondo
que θ∼B(5, 10), encontre o estimador Bayesiano para θ usando Perda quadra´tica, Perda
absoluta e Perda zero-um.
Para responder essa questa˜o e´ essencial saber qual a distribuic¸a˜o a posteriori resultante.
Baseado no texto, podemos deduzir quex1, x2, ..., xn|θ∼Bin(20, θ)θ∼Beta(a, b)
Em posse disso, podemos encontrar a partir de
P (Xi = xi) =
(
n
xi
)
θXi(1− θ)1−Xi
a distribuic¸a˜o conjunta do modelo binomial ja´ aplicando a constante de proporcionalidade
[x|θ] ∝ θ
∑n
i=1Xi(1− θ)n−
∑n
i=1Xi
Para o modelo Beta, encontra-se
[θ] ∝ θa−1(1− θ)b − 1
41
Estat´ıstica Bayesiana www.osterne.com
A distribuic¸a˜o a posteriori resulta em
[θ|x] ∝ [x|θ][θ]
∝ θ
∑n
i=1Xi(1− θ)n−
∑n
i=1Xiθa−1(1− θ)b−1
∝ θ
∑n
i=1Xi+a−1(1− θ)n−
∑n
i=1Xi+b−1
Assim, a distribuic¸a˜o a posteriori e´ dada pela distribuic¸a˜o Beta(
∑n
i=1Xi+a, n−
∑n
i=1Xi+
b). Substituindo os valores, chegamos a B(6, 29). Agora estamos aptos a responder os
itens.
a. Perda quadra´tica
O estimador bayesiano sob perda quadra´tica, como ja´ vimos, e´ dado por:
d = θ̂ = E[θ|x]
Logo
θ̂ =
6
35
b. Perda absoluta
O estimador bayesiano sob perda absoluta, como ja´ vimos, e´ dado por:
d = θ̂ = median[θ|x]
Logo, usando o R
θ̂ =
c. Perda zero-um
O estimador bayesiano sob perda zero-um, como ja´ vimos, e´ dado por:
d = θ̂ = mo[θ|x]
Logo,
θ̂ =
5
33
Estat´ıstica Bayesiana www.osterne.com
Exemplo 4 Em um conjunto de rolos de filmes, o nu´mero de defeitos nos rolos e´ uma
varia´vel aleato´ria X com me´dia desconhecida θ. Uma amostra de cinco rolos foi sele-
cionada e observou-se o seguinte nu´mero de defeitos: 2,2,6,0 e 3. Supondo θ∼G(3, 1).
Encontre o estimador bayesiano baseado na perda quadra´tica.
Soluc¸a˜o:
Como a distribuic¸a˜o do paraˆmetro e´ uma Gama, enta˜o seria interessante escolhermos
para a distribuic¸a˜o da amostra uma Poisson, pois ambas teˆm o mesmo nu´cleo. Enta˜o,
passamos a ter: x1, x2, ..., xn|θ∼Pois(θ)θ∼Gama(a, b)
Considerando θ = X, a = 3 e b = 1, valores que substituiremos depois. De posse disso,
podemos calcular a distribuic¸a˜o a posteriori seguindo os passos a seguir.
Primeiramente, precisamos da probabilidade conjuntada distribuic¸a˜o Poisson:
n∏
i=1
P (Xi = xi) =
n∏
i=1
(
eθθX
X!
)
=
e−nθθ
∑n
i=1Xi∏n
i=1Xi!
∝ e−nθθ
∑n
i=1Xi
Para a distribuic¸a˜o Gama, temos:
[θ] = θa−1e−bθ
Portanto, a conjugac¸a˜o fica:
[θ|x] ∝ [x|θ][θ]
∝ e−nθθ
∑n
i=1Xiθa−1e−bθ
∝ e−(b+n)θθ
∑n
i=1Xi+a−1
Estat´ıstica Bayesiana www.osterne.com
Substituindo os valores que ja´ t´ınhamos, obtem-se:
[θ|x] ∼ G
(
n∑
i=1
Xi + a, b+ n
)
∼ G(16, 6)
Sob perda quadra´tica, o estimador bayesiano e´ dado por
d = θ̂ = E[θ|x] = 16
6
Exemplo 5 Suponha que as alturas (em cm) dos indiv´ıduos de uma populac¸a˜o tenha
distribuic¸a˜o normal com me´dia θ e varia˜ncia 10. Suponha tambe´m que θ∼N(172, 4). Dez
pessoas sa˜o selecionadas ao acaso, a altura me´dia encontrada foi X = 176. Encontre os
estimadores de Bayes para θ sob perda quadra´tica e absoluta.
Soluc¸a˜o:
Note que neste exemplo tanto a amostra como o paraˆmetro teˆm distribuic¸a˜o normal.
Em Box e Tiao (1973), na questa˜o dos dois f´ısicos, encontra-se a demonstrac¸a˜o tem
distribuic¸a˜o N(θ, σ2), com variaˆncia conhecida, e o paraˆmetro tem distribuic¸a˜o N(a, b2),
enta˜o a distribuic¸a˜o a posteriori tem distribuic¸a˜o N(A,B2), na qual
A =
1
b2
a+ nX
σ2
x
1
b2
+ n
σ2
B2 =
1
1
b2
+ n
σ2
Portanto, substituindo os valores, podemos concluir que a distribuic¸a˜o a posteriori e´ dada
por
[θ|x = 176]∼N(175.2, 0.89442722)
Logo, o estimador sob perda quadra´tica (me´dia) e o estimador sob perda absoluta (medi-
ana) e´ dado por 175.2.
Exemplo 6 Suponha que uma amostra aleato´ria x1, x,..., xn|θ∼U(0, θ) independentes e
indenticamente distribuidos e que θ∼Pareto(xm, k). Encontre a moda a posteriori de θ.
Soluc¸a˜o:
Estat´ıstica Bayesiana www.osterne.com
Exemplo 7 Suponha que uma amostra aleato´ria x1, x,..., xn|θ∼BinNeg(r, θ) independen-
tes e indenticamente distribuidos, com r conhecido e 0 < θ < 1 e´ o paraˆmetro de interesse.
a. Suponha que a` priori θ∼Beta(a, b), encontre a distribuic¸a˜o a posteriori de θ.
Soluc¸a˜o:
Como ja´ vimos, essa questa˜o trata-se do modelo Binomial Negativa - Beta, enta˜o a
distribuic¸a˜o a posteriori sera´
Beta(
∑
i = 1nXi + a, r + b)
b. Agora considere que na˜o existe informac¸a˜o a priori dispon´ıvel, encontre a distri-
buic¸a˜o posteriori de θ usando a priori de Jeffrey.
Soluc¸a˜o:
A ferramenta principal da priori de Jeffrey e´ a informac¸a˜o de Fisher, que a´ dada
por
IF (θ) = −E
[
∂2ln(f(xi|θ))
∂2θ
]
Como temos apenas um paraˆmetro desconhecido, na˜o precisamos construir a matriz
Hessiana. Assim:
P (Xi = xi) =
(
xi + r − 1
xi
)
θxi(1− θ)r
l = ln(P (Xi = xi))
ln(P (Xi = xi)) = ln
(
xi + r − 1
xi
)
+ xiln(θ) + rln(1− θ)
Derivando l duas vezes em relac¸a˜o a θ, obtemos
−xi
θ2
− r
(1− θ)2
Estat´ıstica Bayesiana www.osterne.com
Enta˜o, a informac¸a˜o de Fisher e´ dada por
IF (θ) = −E
[
−xi
θ2
− r
(1− θ)2
]
=
E[xi]
θ2
+
r
(1− θ)2
=
r/θ
θ2
+
r
(1− θ)2
=
r
θ3
+
r
(1− θ)2
Exemplo 8 Suponha que em uma amostra aleato´ria obteve-se x1, x2, ..., xn|θ∼BinNeg(r, θ).
Um pesquisador tem absoluta certeza de que θ pode assumir qualquer valor no intervalo
(a, b), onde 0 < a < b < 1. Encontre a distribuic¸a˜o a posteriori de θ.
Soluc¸a˜o:
Sabemos que para o modelo Binomial-Negativa, temos:
P (Xi = xi) =
(
xi + r − 1
xi
)
θxi(1− θ)r
Enta˜o, a probabilidade conjunta ja´ aplicada a constante de proporcionalidade e´ dada por
[x|θ] ∝ θ
∑n
i=1Xi(1− θ)nr
Para o modelo uniforme, temos
[θ] ∝ 1
θ
Assim, o modelo conjugado resulta em
[θ|x] ∝ 1
θ
θ
∑n
i=1Xi(1− θ)nr
∝ θ
∑n
i=1Xi−1(1− θ)nr
∝ θ
∑n
i=1Xi−1(1− θ)nr+1−1
Estat´ıstica Bayesiana www.osterne.com
Portanto, identifica-se a distribuic¸a˜o
Beta
(
n∑
i=1
Xi, nr + 1
)
Exemplo 9 Seja x1, x2, ..., xn|β∼G(α, β) independente e identicamente distribuidos, com
α conhecido. Encontre uma distribuic¸a˜o conjugada para o modelo. Especifique a distri-
buic¸a˜o a posteriori resultante.
Soluc¸a˜o:
Encontrando a distribuic¸a˜o conjunta para o modelo Gama chega-se em:
f(xi|θ) = b
a
Γ(a)
θa−1e−
b
θ
n∏
i=1
f(xi|θ) =
n∏
i=1
(
ba
Γ(a)
θa−1e−
b
θ
)
E aplicando a constante de proporcionalidade:
[x|θ] ∝ θn(a−1)e−nbθ
Escolhendo uma distribuic¸a˜o Qui-quadrado para β, temos:
[θ] ∝ θ v2−1e−θ2
Portanto, a posteriori, temos a seguinte distribuic¸a˜o:
[θ|x] ∝ θn(a−1)+ v2−1e−nbθ − θ2
∝ θ 2n(a−1)+v2 e−2nbθ
−1−θ
2
∼ χ2(2n(a− 1) + v)
Exemplo 10 Considere um modelo conjugado Normal-Gama Inversa, isto e´x1, x2, ..., xn|θ∼Normal(0, σ
2)
θ∼Gama− Inversa(a, b)
Estat´ıstica Bayesiana www.osterne.com
Sabendo-se que a distribuic¸a˜o posteriori σ2|x∼Gama− Inversa(20, 30), encontre os valo-
res de a e b que levaram a esta ditribuic¸a˜o a posteriori. Use o fato de que
∑n
i=1Xi
2 = 3.5.
Soluc¸a˜o:
Pela amostra, sabemos que
f(xi|θ) = 1√
2piσ2
e
−1
2σ2
X2i
Logo, chamando σ2 de θ, podemos expressar:
[x|θ]∝θ−12 exp
[−∑ni=1X2i
2θ
]
Como o paraˆmetro tem distribuic¸a˜o Gama-Inversa, podemos escrever:
[θ]∝θ−(a+1)e−b/θ
A distribuic¸a˜o a posteriori e´, portanto, escrito como:
[θ|x]∝θ−(a+1)−1/2exp
[−∑ni=1X2i
2θ
− b
θ
]
E assim, pode-se identificar uma distribuic¸a˜o Gama Inversa de paraˆmetros 2a+1
2
e 1.75+b.
Substituindo tais valores, concluimos que
a = 19.50
b = 28.75
Bibliografia
[1] Notas de aula da disciplina de Estat´ıstica Bayesiana (2016.1). professor Jose´ Ailton.
[2] Estat´ıstica Bayesiana.
[3] Bos e Tiao.
49
	Conceitos Iniciais
	Dedução versus Inferência
	Probabilidade versus Inferência
	Teorema de Bayes
	Componentes de uma análise Bayesiana
	Verossimilhança
	Distribuição à priori
	Distribuição à posteriori
	Função de Perda
	Formulação de inferência como problema de decisão
	Função de perda
	Propriedades de um estimador Bayesiano
	Priori conjugada
	Modelo Poisson-Gama
	Modelo Binomial Negativa-Beta
	Componentes de uma análise Bayesiana
	Triplet
	Sumário estatístico
	Gráficos
	Inferências
	Teste de hipóteses
	Priori não-informativa
	Uniforme
	Priori de Jeffrey
	Exercícios

Continue navegando