Baixe o app para aproveitar ainda mais
Prévia do material em texto
— Estat´ıstica Bayesiana Vin´ıcius Silva Osterne Ribeiro www.osterne.com — Estat´ıstica Bayesiana www.osterne.com Conteu´do 1 Conceitos Iniciais 1 1.1 Deduc¸a˜o versus Infereˆncia . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 Probabilidade versus Infereˆncia . . . . . . . . . . . . . . . . . . . . . . . . 3 1.3 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2 Componentes de uma ana´lise Bayesiana 5 2.1 Verossimilhanc¸a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.2 Distribuic¸a˜o a` priori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.3 Distribuic¸a˜o a` posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.4 Func¸a˜o de Perda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.5 Formulac¸a˜o de infereˆncia como problema de decisa˜o . . . . . . . . . . . . . 6 3 Func¸a˜o de perda 9 4 Propriedades de um estimador Bayesiano 15 5 Priori conjugada 23 5.1 Modelo Poisson-Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 5.2 Modelo Binomial Negativa-Beta . . . . . . . . . . . . . . . . . . . . . . . . 26 6 Componentes de uma ana´lise Bayesiana 27 6.1 Triplet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 6.2 Suma´rio estat´ıstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 6.3 Gra´ficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 6.4 Infereˆncias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 7 Teste de hipo´teses 33 3 8 Priori na˜o-informativa 37 8.1 Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 8.2 Priori de Jeffrey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 9 Exerc´ıcios 41 Cap´ıtulo 1 Conceitos Iniciais Em seus estudos De Finetti definiu probabilidade como sendo a taxa com que os indiv´ıduos esta˜o preparados para apostar na ocorreˆncia de um evento. Sabe-se, por- tanto, que a probabilidade na˜o possui apenas o sistema formal (constituido de fenoˆmenos, axiomas e teoremas), mas va´rios, dependendo do fenoˆmeno de interesse. A Teoria da Probabilidade de Kolmogorov, por exemplo, e´ ortodoxa, fixa e a mais usada. Entretanto, existem outros sistemas formais que na˜o satisfazem os axiomas de Kolmogorov. Um exem- plo simples e´ a da probabilidade negativa, que na mecaˆnica quaˆntica e´ usada de maneira natural e interpreta´vel. Bem como nas ’Quasi-distribuic¸o˜es’, nas quais existem algumas distribuic¸o˜es que na˜o integram ’um’, mesmo assim possuem uma utilidade em descrever a incerteza sobre a varia´vel aleato´ria. A integral ∫ ∞ 0 1 x dx por exemplo, e´ uma func¸a˜o que na˜o integra ’um’, pois o resultado e´ ∞, pore´m podemos afirmar que para valores pro´ximos de zero (a func¸a˜o e´ descrescente) ha´ uma maior chance de um evento ocorrer. Em suma, probabilidade pode ser interpretada ou ate´ mesmo reformulada de acordo com a necessidade de se abordar um fenoˆmeno. Interpretac¸o˜es • Cla´ssica: se existem 6 lados em um dado enta˜o ele e´ aparentemente sime´trico, logo cada lado tem a mesma chance de ocorrer. • Frequentista: existe uma evideˆncia emp´ırica que dados semelhantes, jogados no 1 Estat´ıstica Bayesiana www.osterne.com passado produzem frequeˆncia de ocorreˆncias dos lados aproximadamente iguais. • Subjetivista: os argumentos acima sa˜o sugestivos, fazem sentido, pore´m tratam apenas de eventos superfluos, o que importa, na verdade, e´ o que voceˆ acredita que vai acontecer em apenas um lac¸amento de dado, ou de forma mais pra´tica, como voceˆ apostaria com base em informac¸o˜es adquiridas? E´ o´bvio que o subjetivista pode, apo´s ana´lise minuciosa do experimento, chegar na mesma conclusa˜o das viso˜es anteriores (cla´ssica e frequentista), pore´m outras razo˜es po- dem surgir para mudar a probabilidade. A teoria da relatividade, por exemplo, sugere que as quantidades f´ısicas devem ser definidas do ponto de vista do observado usando o objeto espec´ıfico de medic¸a˜o. Assim, conceitos como velocidade e distaˆncia na˜o podem ser definidos de forma absoluta, mas em termos relativos, Dessa forma, na˜o existe probabilidade verdadeira (absoluta), uma vez que na˜o esta´ acess´ıvel. 1.1 Deduc¸a˜o versus Infereˆncia Considere um fenoˆmeno qualquer e suas observac¸o˜es (y1, y2, ..., yn). Iremos associar a esse conjunto de observac¸o˜es uma lei de incertezas (desconhecida), pois do ponto de vista Bayesiano essa lei deve ser desconhecida. Essa tal lei na estat´ıstica frequentista e´ a mode- lagem dos dados, f(xi|θ). Precisamos, para isso, termos conhecimento de infereˆncia, que nada mais e´ do que o processo de aprendizado sobre θ, com base em y = (y1, y2, ..., yn) e/ou qualquer informac¸a˜o relevante sobre θ. De modo antagoˆnico a infereˆncia, temos a deduc¸a˜o, que se baseia na lo´gica para responder as questo˜es probabilisticas. Para enten- dermos melhor tal diferenc¸a, suponha que em um lote de 500 pec¸as, 10 sa˜o amostradas ao acaso e dentre essas 10, 9 sa˜o defeituosas. O que podemos dizer sobre δ, o verdadeiro valor do paraˆmetro? • Deduc¸a˜o: como em 10 pec¸as, 9 foram defeituosas, enta˜o o poss´ıvel valor de δ pode ser 0≤δ≤499. • Infereˆncia: se em 10 pec¸as, 9 sa˜o defeituosas, enta˜o no lote deve haver muito mais pec¸as defeituosas. Estat´ıstica Bayesiana www.osterne.com Em geral, quando o n´ıvel de incerteza e´ muito grande, lo´gica na˜o funciona. A infereˆncia, por outro lado, e´ a infereˆncia em termos probabil´ısticos. 1.2 Probabilidade versus Infereˆncia No exemplo anterior podemos utilizar o seguinte ca´lculo para as probabilidades de r, o nu´mero de pec¸as defeituosas, dado o conhecimento de δ: P (x = r|δ) = ( r δ )( 500−δ 10−r )( 500 10 ) Note que usando probabilidade na˜o podemos fazer muito, pois so´ podemos entender pro- babilidade quando conhecemos δ. Do ponto de vista da infereˆncia, se δ fosse 9, seria muito pouco prova´vel que uma amostra de tamanho 10, seriam observadas 9 pec¸as defeituosas (pois em uma amostra so´, vinheram todas as pec¸as defeituosas), pois P (x = 9|δ = 9) = 2.10−18 E mais P (x = 9|δ = 100) = 31.10−6 P (x = 9|δ = 400) = 0.268 P (x = 9|δ = 500) = 0.391 Em geral, a Estat´ıstica esta´ interessada na inversa˜o: λ(δ|x) E, a partir deste ponto, inicia-se a diferenc¸a das estat´ısticas: • Bayesiana (P (δ|x)): considera δ como varia´vel aleato´ria, sendo que qualquer fonte de informac¸a˜o relevante fornece evideˆncias sobre δ. Na˜o existe nada objetivo, tudo Estat´ıstica Bayesiana www.osterne.com e´ sujetivo, ale´m de considerar P (x|δ) uma distribuic¸a˜o condicional. • Frequentista (Lx(δ)): o paraˆmetro δ e´ fixo e desconhecido e somente os dados forne- cera˜o evideˆncias sobre o paraˆmetro δ. Uma vez estabelecidas as suposic¸o˜es iniciais o processo se torna objetivo. Nesta caso, P (x|δ) na˜o e´ tratatada como uma distri- buic¸a˜o condicional. 1.3 Teorema de Bayes Do ponto de vista discreto o Teorema de Bayes sera´ P (Ai|H) = P (Ai)P (H|Ai)∑n i=1 P (Ai)P (H|Ai) (1.1) E do ponto de vista cont´ınuo o Teorema de Bayes sera´ P (θ|x) = P (θ)f(x|θ)∫ H P (θ)f(x|θ)dθ (1.2) Sendo, para o u´ltimo caso, x1, x2, ..., xn|θ∼f(x|θ) iid, com θ∼P (θ) Cap´ıtulo 2 Componentes de uma ana´lise Bayesiana 2.1 Verossimilhanc¸a A verossimilhanc¸a reu´ne evideˆncias sobre θ com base na amostra. Notac¸a˜o: Lx(θ) = f(x|θ) (2.1) 2.2 Distribuic¸a˜o a` priori Expressa o que sabemos de θ antes de observar os dados. Notac¸a˜o: P (θ) A distribuic¸a˜o a` priori e´ criteriosamente escolhida. Ela pode ser proveniente (cons- truida) de va´rias fontes, dentreelas esta˜o a opinia˜o de especialistas e conhecimentos de estudos anteriores. Tal componente na˜o carrega nenhuma informac¸a˜o relevante que possa afetar os dados (prioris na˜o informativas). 5 Estat´ıstica Bayesiana www.osterne.com 2.3 Distribuic¸a˜o a` posteriori Essa componente usa o Teorema de Bayes para combinar P (θ) e f(x|θ) de forma a ter uma distribuic¸a˜o de probabilidade do paraˆmetro θ dado a amostra. Notac¸a˜o: P (θ|x) = P (θ)f(x|θ)∫ H P (θ)f(x|θ)dθ 2.4 Func¸a˜o de Perda Do ponto de vista Bayesiano, as infereˆncias sobre θ podem ser vistas como um pro- cesso de decisa˜o. Obviamente, existem va´rios estimadores poss´ıveis, mas qual o melhor deles? Iremos observar isso na pra´tica, mas, em geral, a medida de qua˜o bom ou ruim e´ um estimador e´ expressa no que chamamos de utilidade, a qual dependedo contexto do problema. Algumas observac¸o˜es sa˜o importantes: • Em algumas situc¸oo˜es, um estimador que superestima e´ melhor que um estimador que subestima o paraˆmetro. • Quando formulamos o problema de estimac¸a˜o como uma regra de decisa˜o, a escolha do estimador dependera´ da finalidade do mesmo. • A utilidade, em geral, sera´ uma func¸a˜o de cada aspecto relevante da decisa˜o. 2.5 Formulac¸a˜o de infereˆncia como problema de de- cisa˜o Seja d∈D uma decisa˜o entre va´rias poss´ıveis do conjunto D de deciso˜es. Enta˜o a func¸a˜o utilidade pode ser denotada por U(d, θ) Que leva em considerac¸a˜o a decisa˜o e o valor de θ. Eta func¸a˜o depende de como vai ser definida, pois ha´ casos em que desejamos maximiza´-la e ha´ casos em que desejamos minimiza´-la, isto e´, minimizar/maximizar a esperanc¸a da func¸a˜o utilidade: min/max [Eθ(U(d, θ))] Estat´ıstica Bayesiana www.osterne.com No contexto Bayesiano mais usual, a func¸a˜o utilidade e´ vista como uma func¸a˜o de perda. Estat´ıstica Bayesiana www.osterne.com Cap´ıtulo 3 Func¸a˜o de perda Representa uma medida de qua˜o ruim seria se toma´ssemos a decisa˜o d se θ for o ver- dadeiro valor do paraˆmetro. Dessa forma, queremos minimizar a func¸a˜o de perda. Observac¸a˜o: Em estimac¸a˜o pontual, queremos representar o valor de θ atrave´s de apenas um valor de θ̂. Enta˜o, se θ = θ̂, teremos perda zero. Definic¸a˜o 1 (Func¸a˜o de perda) L(d, θ) e´ uma func¸a˜o de perda, tal que • E[L(d, θ)] = 0 • Se d1 e d2 sa˜o deciso˜es em D e se E[L(d1, θ)] e´ maior ou igual a E[L(d2, θ)], enta˜o d2 deve ser preferido. I. Perda quadra´tica Considere (d− θ) a distaˆncia entre o estimador e o paraˆmetro, enta˜o L(d− θ) = (d− θ)2 E[L(d− θ)] = E[(d− θ)2] = E[d2 − 2dθ + θ2] = d2 − 2dE[θ] + E[θ2] = d2 − 2dE[θ] + E[θ2] + (E2[θ]− E2[θ]) Note que a expressa˜o acima tem mı´nimo quando 9 Estat´ıstica Bayesiana www.osterne.com (d− E[θ])2 = 0 d = E[θ] Logo, o estimador o´timo sob perda quadra´tica e´ a esperanc¸a. Sabendo disso, considere o modelo Bayesiano x1, x2, ..., xn|θ∼f(x|θ)θ∼P (θ) Temos enta˜o, que o estimador Bayesino sob perda quadra´tica e´ dado por d = θ̂ = E[θ|x] II. Perda bilinear Penaliza se errarmos para mais ou para menos L(d, θ) = a(θ − d), d≤θb(d− θ), d>θ Precisamos minimizar E[L(d, θ)] com θ∼f(θ). Fica a cargo do leitor mostrar que E[L(d, θ)] sera´ mı´nima quando F (d) = a a+ b Onde F (d) = ∫ d −∞ f(θ)dθ Corola´rio 3.0.1 () Quando a func¸a˜o de perda e´ L(d, θ) = |d − θ| chamamos de perda absoluta. Note que, L(d, θ) = d− θ, d≥θθ − d, d<θ Estat´ıstica Bayesiana www.osterne.com Isto e´, uma func¸a˜o bilinear com a = b = 1. Consequentemente, o ponto d o´timo e´ quando F (d) = 1 2 Que e´ o ponto referente a mediana de θ Em conclusa˜o, o estimador Bayesiano sob perda absoluta e´ d = θ̂ = median(θ|x) III. Perda zero-um Considerando b uma constante arbitra´ria, temos L(d, θ) = 0, |d− θ|≤b1, |θ − d|>b O objetivo e´ minimizar a esperanc¸a dessas func¸o˜es: E[L(d, θ)] = 0.P (|d− θ|≤b) + 1.P (|θ − d|>b) = P (|θ − d|>b) = P (θ < d− b) + P (θ > d+ b) Para minimizar, devemos derivar e igualar a zero. Fazendo isso, chegamos em f(d− b) = f(d+ b) Isso so´ vai acontecer quando d for a moda, portanto, o estimador Bayesiano sob perda zero-um e´ a moda a posteriori. Em suma, os estimadores Bayesianos mais comuns sa˜o: Estat´ıstica Bayesiana www.osterne.com θ̂ = E[θ|x] θ̂ = Median[θ|x] θ̂ = Mo[θ|x] Para ilustrar o que foi falado ate´ agora dos estimadores vamos a um exemplo simples. Suponha que a proporc¸a˜o de itens defeituosos de um lote seja θ e que, a priori, na˜o sabemos nada sobre θ. Vamos encontrar os estimadores Bayesianos para θ considerando o modelo de Bernoulli para a amostra. Antes de tudo, vamos ilustrar o problema:x1, x2, ..., xn|θ∼Bernoulli(θ)θ∼U [0, 1] Feito isso, vamos ao primeiro passo, encontrar a verossimlhanc¸a: Lx(θ) = n∏ i=1 f(xi|θ) = θ ∑n i=1Xi(1− θ)n− ∑n i=1Xi A segunda componente e´ a distribuic¸a˜o a` priori P (θ) = 1 E a terceira e u´ltima componente (reponsa´vel por responder a questa˜o) e´ a distribuic¸a˜o a` posteriori: P (θ|x) = P (θ)Lx(θ)∫ 1 0 P (θ)Lx(θ)dθ = θ ∑n i=1Xi(1− θ)n−∑ni=1Xi∫ 1 0 θ ∑n i=1Xi(1− θ)n−∑ni=1Xidθ Estat´ıstica Bayesiana www.osterne.com A distribuic¸a˜o a` posteriori trata-se, portanto: θ|x∼Beta ( n∑ i=1 Xi + 1, n− n∑ i=1 Xi + 1 ) Os estimadores Bayesianos sob perda quadra´tica, sob perda absoluta e sob perda zero-um sa˜o , respecitivamente: E[θ|x] = ∑n i=1Xi + 1 n+ 2 Median[θ|x] = m Mo[θ|x] = ∑n i=1Xi n Onde m e´ encontrado numericamente utilizando a integral antes definida. Estat´ıstica Bayesiana www.osterne.com Cap´ıtulo 4 Propriedades de um estimador Bayesiano 1. Comportamento quando se tem amostras grandes Em geral, quando se tem amostras grandes a distribuic¸a˜o a` priori na˜o afeta a dis- tribuic¸a˜o a` posteriori. Vejamos um exemplo na˜o qual vamos exepcificar dois modelos (M1eM2): x1, x2, ..., xn|θ∼Bernoulli(θ)θ∼U [0, 1]x1, x2, ..., xn|θ∼Bernoulli(θ)θ∼Beta[1, 2] Sabemos assim, que E1 = 1 2 E2 = 1 3 A posteriori, temos n∑ i=1 Xi = 10 n = 100 Consequentemente 15 Estat´ıstica Bayesiana www.osterne.com E1[θ|x] = 0.108 E2[θ|x] = 0.107 2. Consisteˆncia E´ poss´ıvel mostrar que, quando n tende ao infinito, a distribuic¸a˜o a` postoriori tendera´ ao uma distribuic¸a˜o Normal centrada no verdadeiro valor do para˜metro. P (θ|x)→ N(θ, .) Em particular θ̂n → θ Quando n tende ao infinito, sendo θ̂n o estimador Bayesiano. 3. Se x e θ sa˜o independentes, isto e´, carrega informac¸a˜o sobre θ enta˜o P (θ|x) = P (θ)f(x|θ)∫ H P (θ)f(x|θ)dθ = P (θ)f(x)∫ H P (θ)f(x)dθ = P (θ) 4. Suficieˆncia T (x) e´ suficiente se, e somente se, conseguirmos esta fatorac¸a˜o: f(x|θ) = q(t(x)|θ)h(x) Logo P (θ|x) = q(t(x)|θ)h(x)P (θ)∫ H q(t(x)|θ)h(x)P (θ)dθ = q(t(x)|θ)P (θ)∫ H q(t(x)|θ)P (θ)dθ = P (θ|t(x)) Todas infereˆncias sera˜o baseadas na estat´ıstica suficiente, portanto, o princ´ıpio de suficeˆncia e´ naturalmente satisfeito. Estat´ıstica Bayesiana www.osterne.com Observac¸a˜o: O princ´ıpio de suficieˆncia, em suma, nos diz que uma estat´ıstica e´ sufi- ciente se, tirada uma amostra, toda a informac¸a˜o que conte´m θ ou quando a distribuic¸a˜o condicionada de X dado T = t na˜o depende de θ (f(x|t, θ) = f(x|t)), isto e´, conhecido T = t, a informac¸a˜o sobre a amostra, nada acrescenta sobre θ. Se T (X) e´ uma estat´ıstica suficiente para θ e se T (x) = T (x ′ ), o princ´ıpio estabelece a identidade das infereˆncias fei- tas a partir dos dados x ou x ′ . Logo, a evideˆncia fornecida por T (x) e´ ideˆntica a` fornecida pelos dados x. 5. Ancilaridade Uma estat´ıstica cuja distribuic¸a˜o na˜o depende de θ e´ chamada ancilar.Usando argu- mentos similares ao cado anterior e´ poss´ıvel mostrar que o princ´ıpio da ancilaridade e´ naturalmente satisfeito. 6. Princ´ıpio de Verossimilhanc¸a A func¸a˜o de verossimilhanc¸a tem papel fundamental, quer na infereˆncia cla´ssica, quer na infereˆncia bayesiana, como ve´ıculo portador da informac¸a˜o dada pela amostra. O princ´ıpio da verossimilhanc¸a sustenta que toda a informac¸a˜o dada pela amostra esta´ contida na func¸a˜o de verossimilhanc¸a. Temos, portanto, o modelo de verossimilhanc¸a fraco e o modelo de verossimilhanc¸a forte. O modelo de verossimilhanc¸a fraco estabele o seguinte: se as observa c¸o˜es a e b, escalares ou vetores, com a, b pertecentes ao espac¸o amostral X, temos que: f(a|θ) = k(a, b)f(b|θ) Onde k na˜o depende de θ, enta˜o as infereˆncias sobre θ feitas a partir de a ou b, sa˜o ideˆnticas. O que diferencia do princ´ıpio de verossimilhanc¸a forte e´ o fato de introduzir- mos agora a relac¸a˜o entre dois modelos estat´ısticos, o primeiro fornecendo observac¸oes de x pertencendo a X, fX(x|θ), e o segundo fornecendo informac¸o˜es sobre y tambe´m perten- cendo a X, fY (y|θ), sendo o espac¸o parama´trico comum entre os dois modelos. Enta˜o, se: fX(x|θ) = k(x, y)fY (y|θ) Onde k na˜o depende de θ, enta˜o as infereˆncias sobre θ feitas a partir de x ou y, sa˜o ideˆnticas. Como ja´ citamos, tal princ´ıpio estabelece que as infereˆncias obtidas de x e Estat´ıstica Bayesiana www.osterne.com y, amostras de uma mesma populac¸a˜o, devem coincidir, ou seja, a distribuic¸a˜o conjunta f(x, θ) = f(y, θ). Enta˜o: P (θ|x) = P (θ)f(x|θ)∫ H P (θ)f(x|θ)dθ = P (θ)f(x)∫ H P (θ)f(x)dθ = KP (θ)f(y|θ) K ∫ H P (θ)f(y|θ)dθ = P (θ|y) E o princ´ıpio de verossimilhanc¸a e´ naturalmente satisfeito. Observac¸a˜o 1: Uma forma interessante de se observar o princ´ıpio dito acima e´ pensar que o mesmo estabelece que a observac¸ao particular de x representa o u´nico elemento do espac¸o amostral, qualquer que seja esse espac¸o, relevante nas infereˆncias de θ. Isso con- tradiz os cla´ssicos, visto que defendem a avaliac¸a˜o a qual a informac¸a˜o contida em x deve passar por todos os pontos do espac¸o amostral. Assim, para os bayesianos, as te´cnicas de amostragem sa˜o irrelevantes. Considere o exemplo em que temos uma sucessa˜o de lanc¸amentos de uma moeda, ide- pendentes e condicionados por θ que designa a probabilidade de sair ”cara”. Suponha, portanto, que tivemos o seguinte resultado na amostra: x = {K,C,K,K,C,C,K,C,C,C} Sendo K, cara, e C, coroa. Este resultado podia ser obtido por diferentes processos, como ”lanc¸ar a moeda ate´ que aparec¸am 6 coroas”ou ”lanc¸ar a moeda ate´ que aparec¸am 3 coroas consecutivas”. Note que, definido qualquer uma das duas afirmac¸o˜es acima, chegar´ıamos a uma func¸a˜o de verossimilhanc¸a, que seria proporcional a θ4(1− θ)6 Enta˜o, se especificarmos uma resultado x satisfato´rio, a escolha de qualquer um dos dois me´todos, sendo cada um com espac¸o amostral diferente, nada vem a acrescentar, pois Estat´ıstica Bayesiana www.osterne.com toda a informac¸a˜o que x pode dar a respeito do paraˆmetro, esta´ nessa expressa˜o. Observac¸a˜o 2: A teoria bayesiana, como ja´ comentamos, e´ o meio de considerar formalmente uma informac¸a˜o a` priori. Tal informac¸a˜o na˜o so´ e´ u´til por si mesma, como tambe´m aprofunda a nossa compreensa˜o das limitac¸o˜es da Estat´ıstica Cla´ssica, especi- almente a EMV. Um exemplo para ajudar o leitor a entender essa ideia, consiste, por exemplo, em testar a hipo´tese H0 : θ = 1/2 contra a alternativa H1 : θ>1/2 para questio- narmos se uma moeda e´ ou na˜o viciada. Sa˜o considerados assim, dois experimentos: • E1: Lanc¸ar a moeda 12 vezes. • E2: Lanc¸ar a moeda ate´ que aparec¸am 3 caras. Para isso, admita que o valor observado da varia´vel aleato´ria em estudo, o nu´mero de coroas, foi x = 9. Para o cla´ssico, o n´ıvel cr´ıtico da hipo´tese nula decorrente da observac¸a˜o difere nos dois casos, pois no caso E1 , a varia´vel tem ditribuic¸a˜o binomial, com n´ıvel cr´ıtico dado por: P1 = P (X≥9|θ = 1/2) = ( 12 9 )( 1 2 )12 + ( 12 10 )( 1 2 )12 + ( 12 11 )( 1 2 )12 + ( 12 12 )( 1 2 )12 = 0.075 Sendo no caso E2 , a varia´vel tem ditribuic¸a˜o binomial negativa, com n´ıvel cr´ıtico dado por: P1 = P (X≥9|θ = 1/2) = ( 11 9 )( 1 2 )12 + ( 12 10 )( 1 2 )13 + ( 13 11 )( 1 2 )14 + ... = 0.0375 Enta˜o, para um n´ıvel de significaˆncia de 5%, rejeitamos H0 no caso E2, mas na˜o rejei- tamos em E1. Isso implica que o princ´ıpio da verossimilhanc¸a na˜o esta´ correto utilizando essa ana´lise, pois as concluso˜es a serem tiradas nos dois casos devem ser indeˆnticas e as Estat´ıstica Bayesiana www.osterne.com func¸o˜es de verossimilhanc¸as devem ser proporcionais. De fato, temos: E1 : L1(θ|x) = ( n x ) θx(1− θ)n−x = ( 12 9 ) θ9(1− θ)3 = 220θ9(1− θ)3 E2 : L2(θ|x) = ( K + x− 1 x ) θx(1− θ)k = ( 11 9 ) θ9(1− θ)3 = 55θ9(1− θ)3 Da exposic¸a˜o feita acima, nota-se claramente o desrespeito do princ´ıpio de verossimi- lhanc¸a por parte dos me´todos cla´ssicos. Talvez, o que pode se assemelhar com o cla´ssicos sejam as estimativas de verossimilhanc¸a, pois no que diz respeito a espac¸o amostral, temos fortes violac¸o˜es do pr´ıncipio explicado. 7. Na˜o vie´s Seja θ̂n algum estimador de θ. Sabemos que EQM [θ̂n] = E[(θ̂n − θ)2|θ] = V [θ̂n|θ] + [ (θ̂n − θ)|θ)− θ ]2 = V [θ̂n|θ] + β2(θ̂n) Enta˜o, quando β2(θ̂n) e´ zero, podemos afirmar que θ̂n e´ na˜o viciado. Atente-se que, do ponto de vista cla´ssico, um estimador e´ inadmiss´ıvel se seu EQM e´ maior que o EQM de um outro estimador. Entretanto, na bayesiana isso na˜o vale. Suponha que θ̂n = a (a cont´ınua para todo x) e se θ = a, enta˜o o EQM e´ zero. Assim, nesse caso, tal estimador faz pouco sentido. Pensando em contornar esse tipo de problema, os frequentistas estabeleceram o crite´rio de na˜o vie´s. No entanto, este crite´rio e´ puramente arbitra´rio, porque exclui muitos estimadores u´teis que se comportam melhor que os estimadores na˜o viciados. Para ilustra, considere Estat´ıstica Bayesiana www.osterne.com X∼N( √ θ, 1) Seja θ̂n = x 2, enta˜o E[θ̂n = x 2] = E[x2] = V [x] + E2[x] = 1 + θ Podemos afirmar que θ̂n e´ viciado. Do ponto de vista cla´ssico, faz-se a adaptac¸a˜o S(x) = x21 E assim, S(x) e´ um estimador na˜o viciado. Pore´m, para x < 1, temos S(x) < 0, o que na˜o faz sentido, ja´ que θ deve ser maior que zero. Considere agora t(x) = x 2 − 1 |x| > 1 0 c.c. Note que t(x) e´ viesado, mas t(x) na˜o fere as suposic¸o˜es iniciais do modelo, ou seja, temos uma situac¸a˜o em que um estimador na˜o viciado na˜o faz sentido e um estimador viciado e´ melhor. Essa visa˜o nos atenta para sabermos que o vie´s e´ uma falsa ideia de que EQM sa˜o melhores, pois devemos observar na˜o somente EQM, mas tambe´m sua variaˆncia. Dito isso, o estimador Bayesiano e´ viciado, sob perda quadra´tica, e na˜o viciado, sob perda absoluta ou perda zero-um. 8. Invariaˆncia Suponha que θ e´ o paraˆmetro de interesse, mas queremos fazer infereˆncia sobre φ = g(θ). Nem sempre o estimador Bayesiano e´ invariante sob transformac¸o˜es, por exemplo, se φ = θ2: E[φ|x] = E[θ2|x] = V [θ|x] + E2[θ|x] E[θ2|x]≥E2[θ|x] Nem sempre a invariaˆncia vale no estimador Bayesiano, isso sob perda quadra´tica. Pore´m, invariaˆncia na˜o e´ garantida somente quando o estimador Bayesiano e´ a me´dia e a moda a posteriori, no caso da mediana podemos garantir a invaria˜ncia. Estat´ıstica Bayesiana www.osterne.com Cap´ıtulo 5 Priori conjugada Considere o experimento aleato´riox1, x2, ..., xn, com T (x) sendo a estat´ıstica suficiente para θ. Enta˜o: f(x|θ) = g(t(x)|θ).h(x) Note que a estat´ıstica suficiente possui a mesma dimensa˜o do paraˆmetro θ. Assim ana´lise se torna mais simples se pudermos escolher uma distribuic¸a˜o para os dados onde exista uma estat´ıstica suficientede dimensa˜o fixa. Em outras palavras, escolhendo uma f(x|θ) tal que se tenha uma estat´ıtica sufuciente com dimensa˜o fixa, enta˜o podemos escolher uma famı´lia de distribuic¸a˜o a` priori para qualquer tamanho amostral n tal que a ditribuic¸a˜o a` posteriori pertenc¸a a` mesma famı´lia da distribuic¸a˜o a` priori: P (θ|x) = g(t(x|θ))h(x)P (θ)∫ H g(t(x|θ))h(x)P (θ)dθ = g(t(x|θ))P (θ)∫ H g(t(x|θ))P (θ)dθ Enta˜o Definic¸a˜o 2 (Modelo conjugado) Um modelo conjugado (ou distribuic¸a˜o a` priori con- jugada) e´ definida de tal forma que P (θ|x) e´ da mesma famı´lia de P (θ). 23 Estat´ıstica Bayesiana www.osterne.com Como exemplo temos o modelo Bernoulli-Beta, tal quex1, x2, ..., xn|θ∼Bern(θ)θ∼Beta(α, β) Veremos mais exemplos nas pa´ginas seguintes, mas antes teremos que enunciar um teorema muito u´til: Teorema 5.0.1 () Seja x1, x2, ..., xn∼Bern(θ)θ∼P (θ) considere o nu´cleo da distribuic¸a˜o a` posteriori (parte que envolve somente a varia´vel aleato´ria) com a seguinte relac¸a˜o P (θ|x) = f(x|θ)P (θ) Se na combinac¸a˜o P (θ) com f(x|θ) puder ser identificada o nu´cleo de uma distribuic¸a˜o conhecida, enta˜o a distribuic¸a˜o a` posteriori tera´ essa distribuic¸a˜o. Para facilitar o desenvolviemento de agumas questo˜es, considere a nova notac¸a˜o abaixo: f(x|θ) = [x|θ] P (θ) = [θ] Assim, no exemplo anteriormente citado (Modelo Bernoulli-Beta), temos [θ|x] ∝ [x|θ][θ] ∝ αθ ∑n i=1Xi(1− θ)n− ∑n i=1Xiθα−1(1− θ)β−1 ∝ αθ ∑n i=1Xi+α−1(1− θ)n− ∑n i=1Xi+β−1 Portanto θ|x∼Beta ( n∑ i=1 Xi + α, n− n∑ i=1 Xi + β ) Estat´ıstica Bayesiana www.osterne.com 5.1 Modelo Poisson-Gama Outro exemplo de modelo conjugado e´ o Modelo Poisson-Gama:x1, x2, ..., xn|θ∼Pois(θ)θ∼Gama(α, β) Utilizando o mesmo racioc´ınio [θ|x] ∝ [x|θ][θ] ∝ θ ∑n i=1Xie−nθθα−1e−βθ ∝ θα+ ∑n i=1Xi−1e−θ(n+β) Portanto θ|x∼Gama ( α + n∑ i=1 Xi, n+ β ) De posse da ditribuic¸a˜o a` priori, podemos calcular me´dia, variaˆncia e mediana: E[θ|x] = α + ∑n i=1Xi n+ β V [θ|x] = α + ∑n i=1Xi (n+ β)2 Med[θ|x] = m Na qual, o valor de m da mediana pode ser encontrado usando ∫ m 0 P (θ|x)dθ = 1/2 Ale´m disso, podemos calcular a moda e a probabilidade relacionada a θ: Mo[θ|x] = α + ∑n i=1Xi − 1 (n+ β) P (θ < θ∗) = ∫ θ∗ 0 P (θ|x)dθ Estat´ıstica Bayesiana www.osterne.com Dessa forma, de posse da distribuic¸a˜o a` posteriori podemos calcular/encontrar qual- quer informac¸a˜o sobre θ. Temos, portanto a forma: dist. a` posteriori ∝ verossimilhanc¸a x dist. a` priori Vejamos, a seguir, mais alguns exemplos de modelos conjugados. 5.2 Modelo Binomial Negativa-Beta Temos o seguinte modelox1, x2, ..., xn|θ∼BinNeg(r, θ)θ∼Beta(a, b) Sabemos que P (Xi = xi) = ( xi + r − 1 xi ) θxi(1− θ)r Enta˜o a probabilidade conjunta do modelo Binomial-Negativa, e´ dado por: [x|θ] ∝ θ ∑n i=1Xi(1− θ)nr Para o modelo Beta, temos: [θ] ∝ θa−1(1− θ)b−1 Enta˜o o modelo conjugado e´ dado por [θ|x] ∝ θ ∑n i=1Xi(1− θ)nrθa−1(1− θ)b−1 ∝ θ ∑n i=1Xi+a(1− θ)nr−b A distribuic¸a˜o a posteriori e´ enta˜o a distribuic¸a˜o Beta( ∑n i=1Xi + a, nr − b). Cap´ıtulo 6 Componentes de uma ana´lise Bayesiana O processo de ana´lise bayesiana deve ser visto como um processo de transic¸a˜o, na qual o primeiro passo e´ definir a distribuic¸a˜o a` priori e a transic¸a˜o (aquisic¸a˜o dos dados) nos levaria a distribuic¸a˜o posteriori. De posse dessa distribuic¸a˜o e´ necessa´rio fazermos algumas ana´lises, veja a seguir. 6.1 Triplet Consiste em avaliar como o teorema de Bayes sintetiza as informac¸o˜es amostrais e a` priori. Em particular, o teorema de Bayes preserva os zeros das distribuic¸o˜es. Exemplo: Se x1, x2, ..., xn|θ∼U [0, θ], enta˜o L(θ) tera´ o comportamento:θ −n, θ≥max(xi) 0, c.c. Considere tambe´m θ∼Beta(α, β) Enta˜o, quando P (θ) = 0 ou f(θ|x) = 0, o zero e´ preservado, isto e´, P (θ|underlinex) = 0 para todos os valores corresposndentes. 27 Estat´ıstica Bayesiana www.osterne.com 6.2 Suma´rio estat´ıstico O princ´ıpio ba´sico da estat´ıstica bayesiana e´ que todas as informac¸o˜es devem ser ex- traidas da distribuic¸a˜o a` posteriori. Na estat´ıstica frequentista teˆm-se apenas treˆs tipos de infereˆncia: estimac¸a˜o pontual, estimac¸a˜o intervalar e teste de hipo´tese. Na estat´ıstica bayesiana, podemos fazer todas esses tipos de infereˆncias e muito mais. Teˆm-se aqui maior flexibilidade de responder qualquer tipo de pergunta sobre θ. Podemos enta˜o cal- cular me´dia, moda, mediana, quantis, etc. 6.3 Gra´ficos Quando poss´ıvel, podemos fazer gra´ficos dos paraˆmetros de interesse. Se tivermos a distribuic¸a˜o a` posteriori em forma exata podemos avaliar: • Forma (moda, simetria, anti-moda, curtose) • Locac¸a˜o (me´dia, mediana) • Dispersa˜o (variaˆncia, matriz de covariaˆncia) • Dependeˆncia (gra´ficos θ1Xθ2 em formato de c´ırculos nos faz afirmar indepedeˆncia e gra´ficos θ1Xθ2 em formato oval nos faz afirmar depedeˆncia) 6.4 Infereˆncias As infereˆncias podem ser informais, explicada por aux´ılio de gra´ficos e, portanto, sem preocupac¸a˜o com o rigor matema´tico, e formais, que sa˜o justificadas formalmente. Vamos ter uma breve visa˜o da infereˆncia formal agora e , posteriormente, iremos nos aprofundar mais. Nas infereˆncias formais temos as diviso˜es: a. Estimac¸a˜o pontual O estimador o´timo a` posteriori e´ θ̂ = E[θ|x]. Modas e medianas tambe´m sa˜o estimadores naturais para θ, pore´m com interpretac¸o˜es diferentes: – Me´dia: valor esperado, centro de massa Estat´ıstica Bayesiana www.osterne.com – Mediana: valor centrado – Moda: valor mais prova´vel Note que o Estimador de Ma´xima Verossimilhanc¸a na˜o tem essas interpretac¸o˜es, pois a func¸a˜o de verossimilhanc¸a na˜o e´ densidade. O E.M.V. e´ o valor mais plaus´ıvel/veross´ımel em face a amostra obsercvada. b. Estimac¸a˜o Intervalar: Se precisamos determinar um intervalo no qual θ esta, podemos extrair esse inter- valo diretamente da distribuic¸a˜o a` posteriori. Tal intervalo e´ chamado de Intervalo de Credibilidade, o qual tem interpretac¸a˜o completamente diferente do tradicional Intervalo de Confianc¸a: no primeiro e´ simplesmente afirmar que temos uma proba- bildade p de θ esta´ dentro de um intervalo; enquanto no segundo, temos que explicar que se o procedimento for repetido inu´meras vezes, sob as mesma condic¸o˜es, em uma probabilidade p de casos o I.C. contera´ o paraˆmetro. c. Teste de hipo´tese: A estrutura dos testes de hipo´teses bayesianos tem a mesma motivac¸a˜o que a visa˜o frequentista. H0 : θ � Θ H0 : θ � Θ ∗ No teste de hipo´tese bayesiano podemos ter n hipo´teses. Veremos tambe´m que testar hipo´teses corresponde a calcular probabilidades a` posteriori: P (H0|x), P (H1|x), ..., P (Hn|x) No paradigma bayesiano, testar as hipo´teses H0 : θ � Θ0 H0 : θ � Θ1 Estat´ıstica Bayesiana www.osterne.com e´, a grosso modo, simplesmente calcular α0 = P (θ�Θ0|x) α1 = P (θ�Θ1|x) Considere tambe´m as seguintes probabilidades a` priori: pi0 = P (θ�Θ0) pi1 = P (θ�Θ1) Definic¸a˜o 3 (Odds Ratio) A raza˜o α0/α1 e´ chamada ’odds ratio’ a` posteriori de H0 em relac¸a˜o a H1. Definic¸a˜o 4 (Odds Ratio) A raza˜o pi0/pi1 e´ chamada ’odds ratio’ a` priori de H0 em relac¸a˜o a H1. Exemplo 1 (Odds ratio) Crianc¸as sa˜o classificadas como abaixo da me´dia, caso tenham QI menor que 100, eacima da me´dia, cado tenham QI maior que 100. Iremos, portanto, testar a hipo´tese: H0 : θ < 100 H0 : θ > 100 Sendo θ|x∼N(110.39; 62.23) enta˜o: α0 = P (θ < 100|x) = 0.106 α0 = P (θ > 100|x) = 0.894 O odds ratio a´ posteriori e´ dado por 0.11857, invertendo esse valor para uma melhor interpretac¸a˜o, chegamos em 8.44, ou seja, a chance de o grupo ter QI acima da me´dia e´ 8.44 vezes maior que ter QI abaixo da me´dia. Estat´ıstica Bayesiana www.osterne.com Na pro´xima sec¸a˜o irmeos nos aprofundar mais em teste de hipo´teses. Estat´ıstica Bayesiana www.osterne.com Cap´ıtulo 7 Teste de hipo´teses Testar hipo´teses do ponto de vista bayesiano e´ desnecessa´rio, mas se em determinado problema realmente precisarmos decidir entre duas ou mais hipo´teses, enta˜o teremos uma problema de decisa˜o. Seja D = {d0, d1} espac¸o de deciso˜es associadas a`s hipo´teses: • H0 : θ�Θ0 • H1 : θ�Θ1 Onde d0 :aceita H0(decide-se por H0) d1 :aceita H1(decide-se por H1) A tomada de decisa˜o envolve aspectos relacionados a perda/ganho por tomar a decisa˜o errada/correta. Assim, definimos uma func¸a˜o custo (por tomar uma decisa˜o): Tabela 7.1: ANOVA Verdadeiro Decisa˜o de valor de θ d0 d1 θ�Θ0 0 w0 θ�Θ1 w1 0 Em que zero significa a na˜o existeˆncia de erro e w0/w1 o custo do erro. A func¸a˜o fica definida por: C(θi, dj) 0, θ�Θiwj, θ�Θj 33 Estat´ıstica Bayesiana www.osterne.com Considerando a` priori pi0 = P (θ�Θ0) pi1 = P (θ�Θ1) A perda esperada sera´: Eθ[C(d0, θ)] = w1P (θ�Θ1|x) = w1 P (θ�Θ1)f(x|θ�Θ1) k Eθ[C(d1, θ)] = w1P (θ�Θ0|x) = w1 P (θ�Θ0)f(x|θ�Θ0) k Uma regra de decisa˜o poss´ıvel e´ escolher d0 ou d1 que leve a uma menor perda esperada, isto e´, decidiremos por H0 se: Eθ[C(d0, θ)] Eθ[C(d1, θ)] < 1 E por H1 caso contra´rio. Atente-se para uma observac¸a˜o: caso o valor desse quociente seja aproximadamente 1, enta˜o a decisa˜o sera´ fra´gil. Outra informac¸a˜o importante e´, hipo´teses pontuais do tipo • H0 : θ = θ0 • H1 : θ = θ1 na˜o fazem sentido algum do ponto de vista pra´tico, uma vez que um pesquisador dificilmente tera´ uma hipo´tese ta˜o precisa. Estat´ıstica Bayesiana www.osterne.com Sabendo disso, e´ muito mais plaus´ıvel pensar • H0 : θ�(θ0 − b, θ0 + b) Sendo b alguma constante pequena. Enta˜o,caro leitor, na˜o devemos testar pontos, mas sim, intervalos. Se a persisteˆncia em testar pontos continuar, ha´ um procedimento bayesiano que consiste testar pontos baseados em intervalos muito pequenos, permitindo uma boa aproximac¸a˜o: • H0 : θ = θ0 • H1 : θ�(θ0 − b, θ0 + b) Como citamos anteriormente, o odds ratio tambe´m e´ ultilizado em teste de hipo´teses da seguinte maneira: P (H0|x) P (H1|x) Na qual iremos observar quantas vezes uma hipo´tese e´ maior que a outra. Estat´ıstica Bayesiana www.osterne.com Cap´ıtulo 8 Priori na˜o-informativa Em muitas situac¸o˜es podemos na˜o dispor de qualquer informac¸a˜o a` priori, embora esse argumento seja questiona´vel, temos procedimento para retratar esse desconhecimento a` priori sobre o paraˆmetro de interesse. As prioris na˜o informativas sa˜o divididas em duas: 8.1 Uniforme Se θ tem distribuic¸a˜o U [a, b], enta˜o pode-se expressar P (θ)∝1 A expressa˜o acima significa dizer que temos desconhecimento ma´ximo sobre θ. As infereˆncias a` posteriori ira˜o, nesse caso, coincidirem com as infereˆncias frequentistas. Observac¸a˜o: P (θ) somente na˜o e´ informativa para θ, se precisarmos estimar uma func¸a˜o de θ, por exemplo, φ(θ) = θ2, pois P (θ) ∝ 1 φ = θ2 θ = √ φ ∂θ ∂φ = 1 2 √ φ 37 Estat´ıstica Bayesiana www.osterne.com E assim P (φ) = 1 2 √ φ , deixa de ser uniforme. 8.2 Priori de Jeffrey Vimos que a priori uniforme somente constitue como na˜o-informativa para o paraˆmetro θ, isto e´, para outras func¸o˜es de θ a priori passa a ser informativa. Jeffrey, para contornar esse problema, propoˆs uma priori baseada apenas na estrutura do modelo. A ferramenta ba´sica e´ a quantidade de informac¸a˜o de Fisher, que e´ dada por: IF (θ) = −E [ ∂2ln(f(x|θ)) ∂θ2 ] Enta˜o, Jeffrey sugeriu a distribuic¸a˜o a` priori impro´pria dada pela raiz do determinante da matriz de informac¸a˜o de Fisher. P (θ) = |IF (θ)|1/2 Note que quando θ e´ um vetor de paraˆmetros, a priori de Jeffrey e´ dada pelo determi- nante de ’menos’ a esperanc¸a da matriz Hessiana (matriz de derivadas segundas). Exemplo 2 Seja x1, x2, ..., xn|µ, σ2∼N(µ, σ2), com µ, σ2 desconhecidos, encontre a pri- ori de Jeffrey para o modelo. Soluc¸a˜o: f(x|µ, σ2) ∝ (σ2)−1/2exp [ (x− µ)2 2σ2 ] l = ln(f(x|µ, σ2)) l ∝ −ln(σ2)− 1 2σ2 (x− µ)2 A matriz Hessiana e´ dada por: ∂2l∂µ2 ∂2l∂µ∂σ2 ∂2l ∂σ2∂µ ∂2l ∂σ22 Estat´ıstica Bayesiana www.osterne.com Calculando cada entrada da matriz: ∂2l ∂µ2 = − 1 σ2 ∂2l ∂µ∂σ2 = −(x− µ) σ4 ∂2l ∂σ22 = − 1 σ6 (x− µ)2 E suas esperanc¸as: −E [ ∂2l ∂µ2 ] = 1 σ2 −E [ ∂2l ∂σ22 ] = 1 2σ4 −E [ ∂2l ∂µ∂σ2 ] = 0 A matriz final fica 1σ2 0 0 1 2σ4 O determinante dessa matriz e´ dado por 1 2σ6 . E calculando a ra´ız, temos a priori de Jeffrey dada por 1 σ3 . Em suma P (µ, σ2)∝ 1 σ3 Estat´ıstica Bayesiana www.osterne.com Cap´ıtulo 9 Exerc´ıcios Exemplo 3 Suponha que a proporc¸a˜o de itens defeituosos em um lote seja θ (desconhe- cido), em uma amostra de 20 itens, encontrou-se apenas 1 item com problema. Supondo que θ∼B(5, 10), encontre o estimador Bayesiano para θ usando Perda quadra´tica, Perda absoluta e Perda zero-um. Para responder essa questa˜o e´ essencial saber qual a distribuic¸a˜o a posteriori resultante. Baseado no texto, podemos deduzir quex1, x2, ..., xn|θ∼Bin(20, θ)θ∼Beta(a, b) Em posse disso, podemos encontrar a partir de P (Xi = xi) = ( n xi ) θXi(1− θ)1−Xi a distribuic¸a˜o conjunta do modelo binomial ja´ aplicando a constante de proporcionalidade [x|θ] ∝ θ ∑n i=1Xi(1− θ)n− ∑n i=1Xi Para o modelo Beta, encontra-se [θ] ∝ θa−1(1− θ)b − 1 41 Estat´ıstica Bayesiana www.osterne.com A distribuic¸a˜o a posteriori resulta em [θ|x] ∝ [x|θ][θ] ∝ θ ∑n i=1Xi(1− θ)n− ∑n i=1Xiθa−1(1− θ)b−1 ∝ θ ∑n i=1Xi+a−1(1− θ)n− ∑n i=1Xi+b−1 Assim, a distribuic¸a˜o a posteriori e´ dada pela distribuic¸a˜o Beta( ∑n i=1Xi+a, n− ∑n i=1Xi+ b). Substituindo os valores, chegamos a B(6, 29). Agora estamos aptos a responder os itens. a. Perda quadra´tica O estimador bayesiano sob perda quadra´tica, como ja´ vimos, e´ dado por: d = θ̂ = E[θ|x] Logo θ̂ = 6 35 b. Perda absoluta O estimador bayesiano sob perda absoluta, como ja´ vimos, e´ dado por: d = θ̂ = median[θ|x] Logo, usando o R θ̂ = c. Perda zero-um O estimador bayesiano sob perda zero-um, como ja´ vimos, e´ dado por: d = θ̂ = mo[θ|x] Logo, θ̂ = 5 33 Estat´ıstica Bayesiana www.osterne.com Exemplo 4 Em um conjunto de rolos de filmes, o nu´mero de defeitos nos rolos e´ uma varia´vel aleato´ria X com me´dia desconhecida θ. Uma amostra de cinco rolos foi sele- cionada e observou-se o seguinte nu´mero de defeitos: 2,2,6,0 e 3. Supondo θ∼G(3, 1). Encontre o estimador bayesiano baseado na perda quadra´tica. Soluc¸a˜o: Como a distribuic¸a˜o do paraˆmetro e´ uma Gama, enta˜o seria interessante escolhermos para a distribuic¸a˜o da amostra uma Poisson, pois ambas teˆm o mesmo nu´cleo. Enta˜o, passamos a ter: x1, x2, ..., xn|θ∼Pois(θ)θ∼Gama(a, b) Considerando θ = X, a = 3 e b = 1, valores que substituiremos depois. De posse disso, podemos calcular a distribuic¸a˜o a posteriori seguindo os passos a seguir. Primeiramente, precisamos da probabilidade conjuntada distribuic¸a˜o Poisson: n∏ i=1 P (Xi = xi) = n∏ i=1 ( eθθX X! ) = e−nθθ ∑n i=1Xi∏n i=1Xi! ∝ e−nθθ ∑n i=1Xi Para a distribuic¸a˜o Gama, temos: [θ] = θa−1e−bθ Portanto, a conjugac¸a˜o fica: [θ|x] ∝ [x|θ][θ] ∝ e−nθθ ∑n i=1Xiθa−1e−bθ ∝ e−(b+n)θθ ∑n i=1Xi+a−1 Estat´ıstica Bayesiana www.osterne.com Substituindo os valores que ja´ t´ınhamos, obtem-se: [θ|x] ∼ G ( n∑ i=1 Xi + a, b+ n ) ∼ G(16, 6) Sob perda quadra´tica, o estimador bayesiano e´ dado por d = θ̂ = E[θ|x] = 16 6 Exemplo 5 Suponha que as alturas (em cm) dos indiv´ıduos de uma populac¸a˜o tenha distribuic¸a˜o normal com me´dia θ e varia˜ncia 10. Suponha tambe´m que θ∼N(172, 4). Dez pessoas sa˜o selecionadas ao acaso, a altura me´dia encontrada foi X = 176. Encontre os estimadores de Bayes para θ sob perda quadra´tica e absoluta. Soluc¸a˜o: Note que neste exemplo tanto a amostra como o paraˆmetro teˆm distribuic¸a˜o normal. Em Box e Tiao (1973), na questa˜o dos dois f´ısicos, encontra-se a demonstrac¸a˜o tem distribuic¸a˜o N(θ, σ2), com variaˆncia conhecida, e o paraˆmetro tem distribuic¸a˜o N(a, b2), enta˜o a distribuic¸a˜o a posteriori tem distribuic¸a˜o N(A,B2), na qual A = 1 b2 a+ nX σ2 x 1 b2 + n σ2 B2 = 1 1 b2 + n σ2 Portanto, substituindo os valores, podemos concluir que a distribuic¸a˜o a posteriori e´ dada por [θ|x = 176]∼N(175.2, 0.89442722) Logo, o estimador sob perda quadra´tica (me´dia) e o estimador sob perda absoluta (medi- ana) e´ dado por 175.2. Exemplo 6 Suponha que uma amostra aleato´ria x1, x,..., xn|θ∼U(0, θ) independentes e indenticamente distribuidos e que θ∼Pareto(xm, k). Encontre a moda a posteriori de θ. Soluc¸a˜o: Estat´ıstica Bayesiana www.osterne.com Exemplo 7 Suponha que uma amostra aleato´ria x1, x,..., xn|θ∼BinNeg(r, θ) independen- tes e indenticamente distribuidos, com r conhecido e 0 < θ < 1 e´ o paraˆmetro de interesse. a. Suponha que a` priori θ∼Beta(a, b), encontre a distribuic¸a˜o a posteriori de θ. Soluc¸a˜o: Como ja´ vimos, essa questa˜o trata-se do modelo Binomial Negativa - Beta, enta˜o a distribuic¸a˜o a posteriori sera´ Beta( ∑ i = 1nXi + a, r + b) b. Agora considere que na˜o existe informac¸a˜o a priori dispon´ıvel, encontre a distri- buic¸a˜o posteriori de θ usando a priori de Jeffrey. Soluc¸a˜o: A ferramenta principal da priori de Jeffrey e´ a informac¸a˜o de Fisher, que a´ dada por IF (θ) = −E [ ∂2ln(f(xi|θ)) ∂2θ ] Como temos apenas um paraˆmetro desconhecido, na˜o precisamos construir a matriz Hessiana. Assim: P (Xi = xi) = ( xi + r − 1 xi ) θxi(1− θ)r l = ln(P (Xi = xi)) ln(P (Xi = xi)) = ln ( xi + r − 1 xi ) + xiln(θ) + rln(1− θ) Derivando l duas vezes em relac¸a˜o a θ, obtemos −xi θ2 − r (1− θ)2 Estat´ıstica Bayesiana www.osterne.com Enta˜o, a informac¸a˜o de Fisher e´ dada por IF (θ) = −E [ −xi θ2 − r (1− θ)2 ] = E[xi] θ2 + r (1− θ)2 = r/θ θ2 + r (1− θ)2 = r θ3 + r (1− θ)2 Exemplo 8 Suponha que em uma amostra aleato´ria obteve-se x1, x2, ..., xn|θ∼BinNeg(r, θ). Um pesquisador tem absoluta certeza de que θ pode assumir qualquer valor no intervalo (a, b), onde 0 < a < b < 1. Encontre a distribuic¸a˜o a posteriori de θ. Soluc¸a˜o: Sabemos que para o modelo Binomial-Negativa, temos: P (Xi = xi) = ( xi + r − 1 xi ) θxi(1− θ)r Enta˜o, a probabilidade conjunta ja´ aplicada a constante de proporcionalidade e´ dada por [x|θ] ∝ θ ∑n i=1Xi(1− θ)nr Para o modelo uniforme, temos [θ] ∝ 1 θ Assim, o modelo conjugado resulta em [θ|x] ∝ 1 θ θ ∑n i=1Xi(1− θ)nr ∝ θ ∑n i=1Xi−1(1− θ)nr ∝ θ ∑n i=1Xi−1(1− θ)nr+1−1 Estat´ıstica Bayesiana www.osterne.com Portanto, identifica-se a distribuic¸a˜o Beta ( n∑ i=1 Xi, nr + 1 ) Exemplo 9 Seja x1, x2, ..., xn|β∼G(α, β) independente e identicamente distribuidos, com α conhecido. Encontre uma distribuic¸a˜o conjugada para o modelo. Especifique a distri- buic¸a˜o a posteriori resultante. Soluc¸a˜o: Encontrando a distribuic¸a˜o conjunta para o modelo Gama chega-se em: f(xi|θ) = b a Γ(a) θa−1e− b θ n∏ i=1 f(xi|θ) = n∏ i=1 ( ba Γ(a) θa−1e− b θ ) E aplicando a constante de proporcionalidade: [x|θ] ∝ θn(a−1)e−nbθ Escolhendo uma distribuic¸a˜o Qui-quadrado para β, temos: [θ] ∝ θ v2−1e−θ2 Portanto, a posteriori, temos a seguinte distribuic¸a˜o: [θ|x] ∝ θn(a−1)+ v2−1e−nbθ − θ2 ∝ θ 2n(a−1)+v2 e−2nbθ −1−θ 2 ∼ χ2(2n(a− 1) + v) Exemplo 10 Considere um modelo conjugado Normal-Gama Inversa, isto e´x1, x2, ..., xn|θ∼Normal(0, σ 2) θ∼Gama− Inversa(a, b) Estat´ıstica Bayesiana www.osterne.com Sabendo-se que a distribuic¸a˜o posteriori σ2|x∼Gama− Inversa(20, 30), encontre os valo- res de a e b que levaram a esta ditribuic¸a˜o a posteriori. Use o fato de que ∑n i=1Xi 2 = 3.5. Soluc¸a˜o: Pela amostra, sabemos que f(xi|θ) = 1√ 2piσ2 e −1 2σ2 X2i Logo, chamando σ2 de θ, podemos expressar: [x|θ]∝θ−12 exp [−∑ni=1X2i 2θ ] Como o paraˆmetro tem distribuic¸a˜o Gama-Inversa, podemos escrever: [θ]∝θ−(a+1)e−b/θ A distribuic¸a˜o a posteriori e´, portanto, escrito como: [θ|x]∝θ−(a+1)−1/2exp [−∑ni=1X2i 2θ − b θ ] E assim, pode-se identificar uma distribuic¸a˜o Gama Inversa de paraˆmetros 2a+1 2 e 1.75+b. Substituindo tais valores, concluimos que a = 19.50 b = 28.75 Bibliografia [1] Notas de aula da disciplina de Estat´ıstica Bayesiana (2016.1). professor Jose´ Ailton. [2] Estat´ıstica Bayesiana. [3] Bos e Tiao. 49 Conceitos Iniciais Dedução versus Inferência Probabilidade versus Inferência Teorema de Bayes Componentes de uma análise Bayesiana Verossimilhança Distribuição à priori Distribuição à posteriori Função de Perda Formulação de inferência como problema de decisão Função de perda Propriedades de um estimador Bayesiano Priori conjugada Modelo Poisson-Gama Modelo Binomial Negativa-Beta Componentes de uma análise Bayesiana Triplet Sumário estatístico Gráficos Inferências Teste de hipóteses Priori não-informativa Uniforme Priori de Jeffrey Exercícios
Compartilhar