Baixe o app para aproveitar ainda mais
Prévia do material em texto
ESTATÍSTICA BAYESIANA AULA 1 Anderson Castro Soares de Oliveira Departamento de Estatística/ICET/UFMT Introdução INFERÊNCIA ESTATÍSTICA • O problema fundamental da estatística é a inferência. • Dados são coletado e a partir deles desejamos fazer de- clarações (inferências) sobre uma ou mais características desconhecidas • Os dados quase sempre apresentam incertezas • A inferência estatística nos fornece métodos e ferramentas para tirar conclusões, apesar da incerteza nos dados. • A inferência estatística é feita com base em um modelo de probabilidade • Existem duas abordagens para fazer inferência estatística Frequentista×Bayesiana INFERÊNCIA ESTATÍSTICA • A inferência frequentista ou clássica baseia-se no princípio da repetitibilidade. • Uma vez determinado o modelo estatístico,a estimação de parâmetros e os testes de hipóteses sobre os parâmetros são realizados levando-se em conta a variabilidade ine- rente à amostra observada. • A idéia central da inferência clássica consiste em considerar- se a variabilidade que seria observada caso um mesmo experimento fosse repetido, sob as mesmas condições, um grande número de vezes. • A teoria de verossimilhança desempenha papel de desta- que na inferência clássica INFERÊNCIA ESTATÍSTICA • A inferência Bayesiana adota uma postura subjetivista atra- vés do uso explícito de probabilidades para quantificar o grau de incerteza acerca de quantidades de interesse não observadas. • O objetivo da inferência Bayesiana consiste em combinar toda a informação subjetiva disponível referente a um pro- blema, com a informação proveniente dos dados observa- dos, através de declarações probabilísticas via teorema de Bayes. HISTÓRIA INFERÊNCIA BAYESIANA • Thomas Bayes (1702− 1761) foi um pastor presbiteriano e matemático inglês; • Em 1719, ele se matriculou na Universidade de Edimburgo, onde estudou lógica e teologia. • Ele estudou o problema de determinar a probabilidade das causas através dos efeitos observados. • O teorema que leva seu nome refere-se à probabilidade de um evento condicionado pela ocorrência de outro evento. • Membro da Royal Society desde 1742, Bayes foi um dos primeiros a usar a probabilidade indutivamente e estabele- cer uma base matemática para a inferência probabilística. HISTÓRIA INFERÊNCIA BAYESIANA • Laplace (1862) estudou o resultado de Bayes para qualquer distribuição; • A teoria das probabilidades foi originalmente introduzida entre 1764 e 1838; • O conceito de probabilidade inversa foi usado entre 1838 e 1945; • Fisher introduziu a estatística clássica entre 1938 e 1955; • 1955 surgiram os testes Bayesianos; HISTÓRIA INFERÊNCIA BAYESIANA • De Finetti (1974) introduziu a existência da priori como prin- cipal fundamento da inferência Bayesiana; • 1990 surgiram os Métodos MCMC (em inglês: Markov Chain Monte Carlo, ou em português: Monte Carlo com cadeias de Markov). • Atualmente, baseado no trabalho de Bayes desenvolveu-se uma poderosa teoria que alcançou notáveis ??aplicações nas mais diversas áreas do conhecimento. Probabilidade DEFINIÇÃO PROBABILIDADE • Há várias definições para probabilidade. • As três mais utilizadas são: Clássica, Frequentista e Axio- mática DEFINIÇÃO PROBABILIDADE Definição Clássica • Seja A um evento e Ω o espaço amostral finito, então se todos os resultados elementares de Ω sao equiprováveis a medida da probabilidade de ocorrência do evento P(A) = #A #Ω em que #A é a cardinalidade de A e #Ω é a cardinalidade de Ω DEFINIÇÃO PROBABILIDADE Definição Frequentista • Seja A um evento, então P(A) = lim n→∞ nA n em que nA é o número de ocorrências do evento A em n realizações. DEFINIÇÃO PROBABILIDADE Definição Axiomática - Axiomas de Kolmogorov • Probabilidade ou medida de probabilidade na σ-algebra F e a função P, definida em F , e que satisfaz os axiomas seguintes: 1. Para algum A ∈ F , existe um numero P(A) ≥ 0 2. P(Ω) = 1 3. (Aditividade finita). Se A1,A2, ..,An ∈ F são disjuntos (2 a 2), então P ( n⋃ i=1 Ai ) = n∑ i=1 P (Ai ) Os eventos são disjuntos, ou disjuntos 2 a 2, se são mutuamente exclusivos, ou seja, Ai ∩ Aj = ∅ se i 6= j PROPRIEDADES DE PROBABILIDADE • Dado um espaço de probabilidade (Ω,F ,P) e considerando os eventos abaixo nesse espaço, tem-se as propriedades de probabilidade 1. P(Ac) = 1− P(A) 2. P(∅) = 0 3. 0 ≤ P(A) ≤ 1 (Consequência do Axioma 1 e Propriedade 1) 4. Se A1 ⊂ A2 então P(A1) ≤ P(A2) 5. P(A1 ∪ A2) ≤ P(A1) + P(A2) 6. Regra da Adição de Probabilidades P(A1 ∪ A2) = P(A1) + P(A2)− P(A1 ∩ A2) PROBABILIDADE CONDICIONAL • Seja (Ω,F ,P) um espaço de probabilidade. Se A e B ∈ F e P(B) > 0, então a probabilidade condicional de A dado B é definida por: P(A|B) = P(A ∩ B) P(B) • teorema da multiplicação P(A ∩ B) = P(B)P(A|B) = P(A)P(B|A) PROBABILIDADE CONDICIONAL Exemplo • Em uma cidade onde se publicam três jornais A, B e C, constatou-se que entre 1000 famílias, os assinantes se dis- põem da seguinte forma Jornais A B C A e B A e C B e C A e B e C Numero de familias 140 230 370 80 90 130 50 PROBABILIDADE CONDICIONAL Exemplo • Qual a probabilidade de: a) Uma familia assinar o jornal A, dado que assinou o jornal B? b) Uma familia assinar o jornal A, dado que assina pelo menos um dos outros2 jornais ? c) Uma familia assinar o jornal A, dado que assina pelo menos um dos 3 jornais? PROBABILIDADE CONDICIONAL Exemplo • Suponha que A,B e C sejam eventos tais que P(A) = P(B) = P(C) = 1/4, P(A ∩ B) = P(C ∩ B) = 0 e P(A ∩ C) = 1/8. Calcule a as seguintes probabilidades: a) P(A|B) b) P(A|C) c) P(A ∩ (B ∪ C)) INDEPEDÊNCIA • Seja o espaço de probabilidade (Ω,F ,P). Os eventos ale- atórios A e B são independentes (estocastimente) se: P(A ∩ B) = P(A)P(B) • Os eventos aleatórios A1,A2, ...,An,são: • independente dois a dois (pares) se P(Ai ∩ Aj ) = P(Ai )P(Aj ) • coletivamente independentes se P(A1 ∩ A2 ∩ ... ∩ An) = P(A1)P(A2)...P(An) INDEPEDÊNCIA • Se A e B são independentes, P(A) = 13 e P(B c) = 14 , de- termine P(A ∪ B) • Se P(A) = 12 , P(B c) = 14 e P(A ∪ B) = 3 4 , A e B são independentes? INDEPEDÊNCIA Exemplo • Seja Ω = {w1,w2,w3,w4} e P(W ) = 14 para todo w ∈ Ω. Sejam os eventos A = {w1,w4}, B = {w2,w4} e C = {w3,w4}. • Verifique se os eventos são independentes dois a dois e coletivamente independentes. TEOREMA DE BAYES • Uma partição do espaço amostral Ω é uma família de con- juntos A1,A2, ...,An mutuamente exclusivos, isto é: • n⋃ i=1 Ai = Ω • Ai ∩ Aj = ∅, para todo i 6= j • Teorema da Probabilidade Total - Se a sequencia de even- tos aleatórios A1,A2, ...,An forma uma partição do espaço amostral Ω, então a probabilidade de um evento B contido em Ω e dada por P(B) = n∑ i=1 P(Ai)P(B|Ai) TEOREMA DE BAYES • Formula de Bayes - Se a seqüencia de eventos aleatóriosA1,A2, ...,An forma uma partição do espaço amostral Ω, então P(Ai |B) = P(Ai)P(B|Ai)∑ j P(Ai j)P(B|Aj) TEOREMA DE BAYES Exemplo • Apenas uma em cada dez pessoas de uma população tem tuberculose. Das pessoas que tem tuberculose 80% rea- gem positivamente ao teste Y, enquanto apenas 30% dos que não tem tuberculose reagem positivamente. Uma pes- soa da população e selecionada ao acaso e o teste Y é aplicado. a) Qual a probabilidade de que essa pessoa tenha tubercu- lose, se reagiu positivamente ao teste? b) Qual a probabilidade de que essa pessoa não tenha tuber- culose, se reagiu negativamente ao teste? Distribuição de Probabilidade DISTRIBUIÇÃO DE PROBABILIDADE • Distribuição de probabilidade - A distribuição de probabili- dades associa uma probabilidade a cada resultado numé- rico de um experimento, ou seja, dá a probabilidade de cada valor de uma variável aleatória • A distribuição discreta descreve quantidades aleatórias (da- dos de interesse) que podem assumir valores particulares e os valores são finitos. • A distribuição contínua representa quantidades aleatórias contínuas que podem tomar um número infinito de valores. DISTRIBUIÇÃO DE PROBABILIDADE Distribuições Discretas • Existemvárias distribuições discretas ou modelos probabi- lísticos discretos que podem ser usados em diversas situa- ções práticas, alguns exemplos são: • Distribuição uniforme discreta • Distribuição binomial • Distribuição de Poisson • Distribuição hipergeométrica • Distribuição Binominal negativa • Distribuição geométrica DISTRIBUIÇÃO DE PROBABILIDADE Distribuições Contínuas • Existem várias distribuições contínuas ou modelos proba- bilísticos contínuos que podem ser usados em diversas si- tuações práticas, alguns exemplos são: • Distribuição uniforme • Distribuição gama • Distribuição exponencial • Distribuição normal • Distribuição lognormal DISTRIBUIÇÃO DE PROBABILIDADE DISCRETA Distribuição uniforme discreta • Uma variável aleatória discreta X tem distribuição uniforme com parâmetros N se sua função de probabilidade for dada por: f (x) = 1 N x = 1,2, ...,N N = 1,2,3, ... • A Esperança, Variância e Função Geradora de Momentos distribuição uniforme discreta são dados por: E [X ] = N + 1 2 V (X ) = (N + 1)(N − 1) 12 Mx (t) = 1 N N∑ i=1 eit DISTRIBUIÇÃO DE PROBABILIDADE DISCRETA Distribuição binomial • Uma variável aleatória discreta X tem distribuição binomial com parâmetros n e p se sua função de probabilidade for dada por: f (x) = ( n x ) px (1−p)n−x x = 1,2, ...,n n = 1,2, ... 0 ≤ p ≤ 1 • A Esperança, Variância e Função Geradora de Momentos distribuição binomial são dados por: E [X ] = np V (X ) = np(1− p) Mx (t) = [ pet + (1− p) ]n DISTRIBUIÇÃO DE PROBABILIDADE DISCRETA Distribuição de Poisson • Uma variável aleatória discreta X tem distribuição de Pois- son com parâmetros λ se sua função de probabilidade for dada por: f (x) = e−λ λx x! , x = 0,1,2,3, ..., λ ≥ 0 • A Esperança, Variância e Função Geradora de Momentos distribuição de Poisson são dados por: E [X ] = λ V (X ) = λ Mx (t) = eλ(e t−1) DISTRIBUIÇÃO DE PROBABILIDADE DISCRETA Distribuição hipergeométrica • Uma variável aleatória discreta X tem distribuição hiperge- ométrica com parâmetros N,M e K se sua função de pro- babilidade for dada por: f (x) = (M x )(N−M K−x )(N K ) , x = 0,1,2, ...,K N,M,K ≥ 0 • A Esperança, Variância e Função Geradora de Momentos distribuição hipergeométrica são dados por: E [X ] = KM N V (X ) = KM n (N −M)(N − K ) N(N − 1) Mx (t) = não existe DISTRIBUIÇÃO DE PROBABILIDADE DISCRETA Distribuição Binomial Negativa • Uma variável aleatória discreta X tem distribuição binomial negativa com parâmetros r e p se sua função de probabili- dade for dada por: f (x) = ( r + x − 1 x ) pr (1−p)x , x = 0,1,2, ..., r > 0 ≤ p ≤ 1 • A Esperança, Variância e Função Geradora de Momentos distribuição binomial negativa são dados por: E [X ] = r(1− p) p V (X ) = r(1− p) p2 Mx (t) = ( p 1− (1− p)et )r DISTRIBUIÇÃO DE PROBABILIDADE DISCRETA Distribuição geométrica • Uma variável aleatória discreta X tem distribuição geomé- trica com parâmetro p se sua função de probabilidade for dada por: f (x) = p(1− p)x , x = 0,1,2, ..., 0 ≤ p ≤ 1 • A Esperança, Variância e Função Geradora de Momentos distribuição geométrica são dados por: E [X ] = 1 p V (X ) = 1− p p2 Mx (t) = pet 1− (1− p)et DISTRIBUIÇÃO DE PROBABILIDADE CONTINUA Distribuição uniforme • Uma variável aleatória continua X tem distribuição uniforme com parâmetros a e b, se sua função de densidade de pro- babilidade é dada por f (x) = { 1 b−a para x ∈ (a,b) 0 para x 6∈ (a,b) • A Esperança, Variância e Função Geradora de Momentos distribuição uniforme são dados por: E [X ] = a + b 2 V (X ) = (b − a)2 12 Mx (t) = ebt − eat (b − a)t , t 6= 0 DISTRIBUIÇÃO DE PROBABILIDADE CONTINUA Distribuição Gama • Uma variável aleatória continua X tem distribuição Gama com parâmetros λ e r , se sua função de densidade de pro- babilidade é dada por f (x) = λ Γ(r) (λx)r−1e−λx x ≥ 0 • A Esperança, Variância e Função Geradora de Momentos distribuição gama são dados por: E [X ] = r λ V (X ) = r λ2 Mx (t) = ( λ λ− t )r DISTRIBUIÇÃO DE PROBABILIDADE CONTINUA Distribuição exponencial • Uma variável aleatória continua X tem distribuição expo- nencial com parâmetro λ, se sua função de densidade de probabilidade é dada por f (x) = λe−λx , x > 0 • A Esperança, Variância e Função Geradora de Momentos distribuição exponencial são dados por: E [X ] = 1 λ V (X ) = 1 λ2 Mx (t) = λ λ− t DISTRIBUIÇÃO DE PROBABILIDADE CONTINUA Distribuição Normal • Uma variável aleatória continua X tem distribuição normal com parâmetros µ e σ2, se sua função de densidade de probabilidade é dada por f (x) = 1√ 2πσ2 e− (x−µ)2 2σ2 , −∞ < x <∞ em que −∞ < µ <∞ e σ2 > 0 • A Esperança, Variância e Função Geradora de Momentos distribuição normal são dados por: E [X ] = µ V (X ) = σ2 Mx (t) = eµt+ σ2t2 2 DISTRIBUIÇÃO DE PROBABILIDADE CONTINUA Distribuição Lognormal • Uma variável aleatória continua X tem distribuição Lognor- mal com parâmetros µ e σ2, se sua função de densidade de probabilidade é dada por f (x) = 1x√2πσ2 e− (ln(x)−µ)2 2σ2 para x > 0 0 caso contrário em que −∞ < µ <∞ e σ2 > 0 • A Esperança, Variância e Função Geradora de Momentos distribuição normal são dados por: E [X ] = eµ+ σ2 2 V (X ) = (eσ 2 − 1)e2µ+σ2 Mx (t) não existe DISTRIBUIÇÃO DE PROBABILIDADE CONTINUA Distribuição Qui-quadrado • Uma variável aleatória contínua X tem distribuição qui- quadrado com ν graus de liberdade se sua função densi- dade for dada por: f (x) = 1 2 ν 2 Γ ( ν 2 ) x ν2−1e− x2 , x > 0, ν = 1,2,3, ... • A Esperança, Variância e Função Geradora de Momentos distribuição Qui-quadrado são dados por: E [X ] = ν V (X ) = 2ν, Mx (t) = 1 (1− 2t) ν 2 , t < 1 2 DISTRIBUIÇÃO DE PROBABILIDADE CONTINUA Distribuição t-student • Uma variável aleatória contínua X tem distribuição t student com ν graus de liberdade se sua função densidade for dada por: f (x) = Γ(ν+12 )√ νπ Γ ( ν 2 ) (1 + x2 ν )−( ν+12 ) , −∞ < x <∞, ν = 1,2,3, ..., • A Esperança, Variância e Função Geradora de Momentos distribuição t-student são dados por: E [X ] = 0, ν > 1 V (X ) = ν ν − 2 , ν > 2 Mx (t) não existe DISTRIBUIÇÃO DE PROBABILIDADE CONTINUA Distribuição F-snedecor • Uma variável aleatória contínua X tem distribuição F stu- dent com ν1 e ν2 graus de liberdade se sua função densi- dade for dada por: f (x) = Γ (ν1+ν2 2 ) Γ (ν1 2 ) Γ (ν2 2 ) (ν1 ν2 ) ν1 2 x ν1−2 2( 1 + ( ν1 ν2 ) x ) ν1+ν2 2 0 < x <∞, ν1, ν2 = 1,2,3, ..., • A Esperança, Variância e Função Geradora de Momentos distribuição F são dados por: E [X ] = ν2 ν2 − 2 , ν2 > 2 V (X ) = 2 ( ν2 ν2 − 2 )2(ν1 + ν2 − 2 ν1(ν2 − 5) ) , ν > 4 Mx (t) não existe FUNÇÃO DE VEROSSIMILHANÇA • Quando numa função de densidade, a observação é fixa e o parâmetro variável não se tem mais uma função de densidade e sim uma função de verossimilhança • Se uma amostra aleatória X1, ...,Xn são variáveis aleatórias independentes e identicamente distruídas (i.i.d) com f.d.p. ouf.p.) f (x |θ), sua função de verossimilhança é dada por: L(θ; x) = f (x1, ..., xn|θ) = f (x1|θ)...f (xn|θ) = n∏ i=1 f (xi |θ) • O logaritmo natural da função de verossimilhança é deno- minado função de log-verossimilhança e é denotado por l(θ; x) = lnL(θ; x) Introdução Probabilidade Distribuição de Probabilidade
Compartilhar