Buscar

Introdução à Estatística Bayesiana

Prévia do material em texto

ESTATÍSTICA BAYESIANA
AULA 1
Anderson Castro Soares de Oliveira
Departamento de Estatística/ICET/UFMT
Introdução
INFERÊNCIA ESTATÍSTICA
• O problema fundamental da estatística é a inferência.
• Dados são coletado e a partir deles desejamos fazer de-
clarações (inferências) sobre uma ou mais características
desconhecidas
• Os dados quase sempre apresentam incertezas
• A inferência estatística nos fornece métodos e ferramentas
para tirar conclusões, apesar da incerteza nos dados.
• A inferência estatística é feita com base em um modelo de
probabilidade
• Existem duas abordagens para fazer inferência estatística
Frequentista×Bayesiana
INFERÊNCIA ESTATÍSTICA
• A inferência frequentista ou clássica baseia-se no princípio
da repetitibilidade.
• Uma vez determinado o modelo estatístico,a estimação de
parâmetros e os testes de hipóteses sobre os parâmetros
são realizados levando-se em conta a variabilidade ine-
rente à amostra observada.
• A idéia central da inferência clássica consiste em considerar-
se a variabilidade que seria observada caso um mesmo
experimento fosse repetido, sob as mesmas condições, um
grande número de vezes.
• A teoria de verossimilhança desempenha papel de desta-
que na inferência clássica
INFERÊNCIA ESTATÍSTICA
• A inferência Bayesiana adota uma postura subjetivista atra-
vés do uso explícito de probabilidades para quantificar o
grau de incerteza acerca de quantidades de interesse não
observadas.
• O objetivo da inferência Bayesiana consiste em combinar
toda a informação subjetiva disponível referente a um pro-
blema, com a informação proveniente dos dados observa-
dos, através de declarações probabilísticas via teorema de
Bayes.
HISTÓRIA INFERÊNCIA BAYESIANA
• Thomas Bayes (1702− 1761) foi um pastor presbiteriano e
matemático inglês;
• Em 1719, ele se matriculou na Universidade de Edimburgo,
onde estudou lógica e teologia.
• Ele estudou o problema de determinar a probabilidade das
causas através dos efeitos observados.
• O teorema que leva seu nome refere-se à probabilidade de
um evento condicionado pela ocorrência de outro evento.
• Membro da Royal Society desde 1742, Bayes foi um dos
primeiros a usar a probabilidade indutivamente e estabele-
cer uma base matemática para a inferência probabilística.
HISTÓRIA INFERÊNCIA BAYESIANA
• Laplace (1862) estudou o resultado de Bayes para qualquer
distribuição;
• A teoria das probabilidades foi originalmente introduzida
entre 1764 e 1838;
• O conceito de probabilidade inversa foi usado entre 1838 e
1945;
• Fisher introduziu a estatística clássica entre 1938 e 1955;
• 1955 surgiram os testes Bayesianos;
HISTÓRIA INFERÊNCIA BAYESIANA
• De Finetti (1974) introduziu a existência da priori como prin-
cipal fundamento da inferência Bayesiana;
• 1990 surgiram os Métodos MCMC (em inglês: Markov Chain
Monte Carlo, ou em português: Monte Carlo com cadeias
de Markov).
• Atualmente, baseado no trabalho de Bayes desenvolveu-se
uma poderosa teoria que alcançou notáveis ??aplicações
nas mais diversas áreas do conhecimento.
Probabilidade
DEFINIÇÃO PROBABILIDADE
• Há várias definições para probabilidade.
• As três mais utilizadas são: Clássica, Frequentista e Axio-
mática
DEFINIÇÃO PROBABILIDADE
Definição Clássica
• Seja A um evento e Ω o espaço amostral finito, então se
todos os resultados elementares de Ω sao equiprováveis a
medida da probabilidade de ocorrência do evento
P(A) =
#A
#Ω
em que #A é a cardinalidade de A e #Ω é a cardinalidade
de Ω
DEFINIÇÃO PROBABILIDADE
Definição Frequentista
• Seja A um evento, então
P(A) = lim
n→∞
nA
n
em que nA é o número de ocorrências do evento A em n
realizações.
DEFINIÇÃO PROBABILIDADE
Definição Axiomática - Axiomas de Kolmogorov
• Probabilidade ou medida de probabilidade na σ-algebra F
e a função P, definida em F , e que satisfaz os axiomas
seguintes:
1. Para algum A ∈ F , existe um numero P(A) ≥ 0
2. P(Ω) = 1
3. (Aditividade finita). Se A1,A2, ..,An ∈ F são disjuntos (2 a
2), então
P
(
n⋃
i=1
Ai
)
=
n∑
i=1
P (Ai )
Os eventos são disjuntos, ou disjuntos 2 a 2, se são
mutuamente exclusivos, ou seja, Ai ∩ Aj = ∅ se i 6= j
PROPRIEDADES DE PROBABILIDADE
• Dado um espaço de probabilidade (Ω,F ,P) e considerando
os eventos abaixo nesse espaço, tem-se as propriedades
de probabilidade
1. P(Ac) = 1− P(A)
2. P(∅) = 0
3. 0 ≤ P(A) ≤ 1 (Consequência do Axioma 1 e Propriedade
1)
4. Se A1 ⊂ A2 então P(A1) ≤ P(A2)
5. P(A1 ∪ A2) ≤ P(A1) + P(A2)
6. Regra da Adição de Probabilidades
P(A1 ∪ A2) = P(A1) + P(A2)− P(A1 ∩ A2)
PROBABILIDADE CONDICIONAL
• Seja (Ω,F ,P) um espaço de probabilidade. Se A e B ∈ F
e P(B) > 0, então a probabilidade condicional de A dado B
é definida por:
P(A|B) = P(A ∩ B)
P(B)
• teorema da multiplicação
P(A ∩ B) = P(B)P(A|B) = P(A)P(B|A)
PROBABILIDADE CONDICIONAL
Exemplo
• Em uma cidade onde se publicam três jornais A, B e C,
constatou-se que entre 1000 famílias, os assinantes se dis-
põem da seguinte forma
Jornais A B C A e B A e C B e C A e B e C
Numero de familias 140 230 370 80 90 130 50
PROBABILIDADE CONDICIONAL
Exemplo
• Qual a probabilidade de:
a) Uma familia assinar o jornal A, dado que assinou o jornal B?
b) Uma familia assinar o jornal A, dado que assina pelo menos
um dos outros2 jornais ?
c) Uma familia assinar o jornal A, dado que assina pelo menos
um dos 3 jornais?
PROBABILIDADE CONDICIONAL
Exemplo
• Suponha que A,B e C sejam eventos tais que P(A) =
P(B) = P(C) = 1/4, P(A ∩ B) = P(C ∩ B) = 0 e
P(A ∩ C) = 1/8. Calcule a as seguintes probabilidades:
a) P(A|B)
b) P(A|C)
c) P(A ∩ (B ∪ C))
INDEPEDÊNCIA
• Seja o espaço de probabilidade (Ω,F ,P). Os eventos ale-
atórios A e B são independentes (estocastimente) se:
P(A ∩ B) = P(A)P(B)
• Os eventos aleatórios A1,A2, ...,An,são:
• independente dois a dois (pares) se
P(Ai ∩ Aj ) = P(Ai )P(Aj )
• coletivamente independentes se
P(A1 ∩ A2 ∩ ... ∩ An) = P(A1)P(A2)...P(An)
INDEPEDÊNCIA
• Se A e B são independentes, P(A) = 13 e P(B
c) = 14 , de-
termine P(A ∪ B)
• Se P(A) = 12 , P(B
c) = 14 e P(A ∪ B) =
3
4 , A e B são
independentes?
INDEPEDÊNCIA
Exemplo
• Seja Ω = {w1,w2,w3,w4} e P(W ) = 14 para todo w ∈ Ω.
Sejam os eventos A = {w1,w4}, B = {w2,w4} e C =
{w3,w4}.
• Verifique se os eventos são independentes dois a dois e
coletivamente independentes.
TEOREMA DE BAYES
• Uma partição do espaço amostral Ω é uma família de con-
juntos A1,A2, ...,An mutuamente exclusivos, isto é:
•
n⋃
i=1
Ai = Ω
• Ai ∩ Aj = ∅, para todo i 6= j
• Teorema da Probabilidade Total - Se a sequencia de even-
tos aleatórios A1,A2, ...,An forma uma partição do espaço
amostral Ω, então a probabilidade de um evento B contido
em Ω e dada por
P(B) =
n∑
i=1
P(Ai)P(B|Ai)
TEOREMA DE BAYES
• Formula de Bayes - Se a seqüencia de eventos aleatóriosA1,A2, ...,An
forma uma partição do espaço amostral Ω, então
P(Ai |B) =
P(Ai)P(B|Ai)∑
j P(Ai j)P(B|Aj)
TEOREMA DE BAYES
Exemplo
• Apenas uma em cada dez pessoas de uma população tem
tuberculose. Das pessoas que tem tuberculose 80% rea-
gem positivamente ao teste Y, enquanto apenas 30% dos
que não tem tuberculose reagem positivamente. Uma pes-
soa da população e selecionada ao acaso e o teste Y é
aplicado.
a) Qual a probabilidade de que essa pessoa tenha tubercu-
lose, se reagiu positivamente ao teste?
b) Qual a probabilidade de que essa pessoa não tenha tuber-
culose, se reagiu negativamente ao teste?
Distribuição de Probabilidade
DISTRIBUIÇÃO DE PROBABILIDADE
• Distribuição de probabilidade - A distribuição de probabili-
dades associa uma probabilidade a cada resultado numé-
rico de um experimento, ou seja, dá a probabilidade de
cada valor de uma variável aleatória
• A distribuição discreta descreve quantidades aleatórias (da-
dos de interesse) que podem assumir valores particulares
e os valores são finitos.
• A distribuição contínua representa quantidades aleatórias
contínuas que podem tomar um número infinito de valores.
DISTRIBUIÇÃO DE PROBABILIDADE
Distribuições Discretas
• Existemvárias distribuições discretas ou modelos probabi-
lísticos discretos que podem ser usados em diversas situa-
ções práticas, alguns exemplos são:
• Distribuição uniforme discreta
• Distribuição binomial
• Distribuição de Poisson
• Distribuição hipergeométrica
• Distribuição Binominal negativa
• Distribuição geométrica
DISTRIBUIÇÃO DE PROBABILIDADE
Distribuições Contínuas
• Existem várias distribuições contínuas ou modelos proba-
bilísticos contínuos que podem ser usados em diversas si-
tuações práticas, alguns exemplos são:
• Distribuição uniforme
• Distribuição gama
• Distribuição exponencial
• Distribuição normal
• Distribuição lognormal
DISTRIBUIÇÃO DE PROBABILIDADE DISCRETA
Distribuição uniforme discreta
• Uma variável aleatória discreta X tem distribuição uniforme
com parâmetros N se sua função de probabilidade for dada
por:
f (x) =
1
N
x = 1,2, ...,N N = 1,2,3, ...
• A Esperança, Variância e Função Geradora de Momentos
distribuição uniforme discreta são dados por:
E [X ] =
N + 1
2
V (X ) =
(N + 1)(N − 1)
12
Mx (t) =
1
N
N∑
i=1
eit
DISTRIBUIÇÃO DE PROBABILIDADE DISCRETA
Distribuição binomial
• Uma variável aleatória discreta X tem distribuição binomial
com parâmetros n e p se sua função de probabilidade for
dada por:
f (x) =
(
n
x
)
px (1−p)n−x x = 1,2, ...,n n = 1,2, ... 0 ≤ p ≤ 1
• A Esperança, Variância e Função Geradora de Momentos
distribuição binomial são dados por:
E [X ] = np V (X ) = np(1− p)
Mx (t) =
[
pet + (1− p)
]n
DISTRIBUIÇÃO DE PROBABILIDADE DISCRETA
Distribuição de Poisson
• Uma variável aleatória discreta X tem distribuição de Pois-
son com parâmetros λ se sua função de probabilidade for
dada por:
f (x) = e−λ
λx
x!
, x = 0,1,2,3, ..., λ ≥ 0
• A Esperança, Variância e Função Geradora de Momentos
distribuição de Poisson são dados por:
E [X ] = λ V (X ) = λ Mx (t) = eλ(e
t−1)
DISTRIBUIÇÃO DE PROBABILIDADE DISCRETA
Distribuição hipergeométrica
• Uma variável aleatória discreta X tem distribuição hiperge-
ométrica com parâmetros N,M e K se sua função de pro-
babilidade for dada por:
f (x) =
(M
x
)(N−M
K−x
)(N
K
) , x = 0,1,2, ...,K N,M,K ≥ 0
• A Esperança, Variância e Função Geradora de Momentos
distribuição hipergeométrica são dados por:
E [X ] =
KM
N
V (X ) =
KM
n
(N −M)(N − K )
N(N − 1)
Mx (t) = não existe
DISTRIBUIÇÃO DE PROBABILIDADE DISCRETA
Distribuição Binomial Negativa
• Uma variável aleatória discreta X tem distribuição binomial
negativa com parâmetros r e p se sua função de probabili-
dade for dada por:
f (x) =
(
r + x − 1
x
)
pr (1−p)x , x = 0,1,2, ..., r > 0 ≤ p ≤ 1
• A Esperança, Variância e Função Geradora de Momentos
distribuição binomial negativa são dados por:
E [X ] =
r(1− p)
p
V (X ) =
r(1− p)
p2
Mx (t) =
(
p
1− (1− p)et
)r
DISTRIBUIÇÃO DE PROBABILIDADE DISCRETA
Distribuição geométrica
• Uma variável aleatória discreta X tem distribuição geomé-
trica com parâmetro p se sua função de probabilidade for
dada por:
f (x) = p(1− p)x , x = 0,1,2, ..., 0 ≤ p ≤ 1
• A Esperança, Variância e Função Geradora de Momentos
distribuição geométrica são dados por:
E [X ] =
1
p
V (X ) =
1− p
p2
Mx (t) =
pet
1− (1− p)et
DISTRIBUIÇÃO DE PROBABILIDADE CONTINUA
Distribuição uniforme
• Uma variável aleatória continua X tem distribuição uniforme
com parâmetros a e b, se sua função de densidade de pro-
babilidade é dada por
f (x) =
{
1
b−a para x ∈ (a,b)
0 para x 6∈ (a,b)
• A Esperança, Variância e Função Geradora de Momentos
distribuição uniforme são dados por:
E [X ] =
a + b
2
V (X ) =
(b − a)2
12
Mx (t) =
ebt − eat
(b − a)t
, t 6= 0
DISTRIBUIÇÃO DE PROBABILIDADE CONTINUA
Distribuição Gama
• Uma variável aleatória continua X tem distribuição Gama
com parâmetros λ e r , se sua função de densidade de pro-
babilidade é dada por
f (x) =
λ
Γ(r)
(λx)r−1e−λx x ≥ 0
• A Esperança, Variância e Função Geradora de Momentos
distribuição gama são dados por:
E [X ] =
r
λ
V (X ) =
r
λ2
Mx (t) =
(
λ
λ− t
)r
DISTRIBUIÇÃO DE PROBABILIDADE CONTINUA
Distribuição exponencial
• Uma variável aleatória continua X tem distribuição expo-
nencial com parâmetro λ, se sua função de densidade de
probabilidade é dada por
f (x) = λe−λx , x > 0
• A Esperança, Variância e Função Geradora de Momentos
distribuição exponencial são dados por:
E [X ] =
1
λ
V (X ) =
1
λ2
Mx (t) =
λ
λ− t
DISTRIBUIÇÃO DE PROBABILIDADE CONTINUA
Distribuição Normal
• Uma variável aleatória continua X tem distribuição normal
com parâmetros µ e σ2, se sua função de densidade de
probabilidade é dada por
f (x) =
1√
2πσ2
e−
(x−µ)2
2σ2 , −∞ < x <∞
em que −∞ < µ <∞ e σ2 > 0
• A Esperança, Variância e Função Geradora de Momentos
distribuição normal são dados por:
E [X ] = µ V (X ) = σ2 Mx (t) = eµt+
σ2t2
2
DISTRIBUIÇÃO DE PROBABILIDADE CONTINUA
Distribuição Lognormal
• Uma variável aleatória continua X tem distribuição Lognor-
mal com parâmetros µ e σ2, se sua função de densidade
de probabilidade é dada por
f (x) =
 1x√2πσ2 e−
(ln(x)−µ)2
2σ2 para x > 0
0 caso contrário
em que −∞ < µ <∞ e σ2 > 0
• A Esperança, Variância e Função Geradora de Momentos
distribuição normal são dados por:
E [X ] = eµ+
σ2
2 V (X ) = (eσ
2 − 1)e2µ+σ2
Mx (t) não existe
DISTRIBUIÇÃO DE PROBABILIDADE CONTINUA
Distribuição Qui-quadrado
• Uma variável aleatória contínua X tem distribuição qui-
quadrado com ν graus de liberdade se sua função densi-
dade for dada por:
f (x) =
1
2
ν
2 Γ
(
ν
2
) x ν2−1e− x2 , x > 0, ν = 1,2,3, ...
• A Esperança, Variância e Função Geradora de Momentos
distribuição Qui-quadrado são dados por:
E [X ] = ν V (X ) = 2ν, Mx (t) =
1
(1− 2t)
ν
2
, t <
1
2
DISTRIBUIÇÃO DE PROBABILIDADE CONTINUA
Distribuição t-student
• Uma variável aleatória contínua X tem distribuição t student
com ν graus de liberdade se sua função densidade for dada
por:
f (x) =
Γ(ν+12 )√
νπ Γ
(
ν
2
) (1 + x2
ν
)−( ν+12 )
, −∞ < x <∞, ν = 1,2,3, ...,
• A Esperança, Variância e Função Geradora de Momentos
distribuição t-student são dados por:
E [X ] = 0, ν > 1 V (X ) =
ν
ν − 2
, ν > 2 Mx (t) não existe
DISTRIBUIÇÃO DE PROBABILIDADE CONTINUA
Distribuição F-snedecor
• Uma variável aleatória contínua X tem distribuição F stu-
dent com ν1 e ν2 graus de liberdade se sua função densi-
dade for dada por:
f (x) =
Γ
(ν1+ν2
2
)
Γ
(ν1
2
)
Γ
(ν2
2
) (ν1
ν2
) ν1
2 x
ν1−2
2(
1 +
(
ν1
ν2
)
x
) ν1+ν2
2
0 < x <∞, ν1, ν2 = 1,2,3, ...,
• A Esperança, Variância e Função Geradora de Momentos
distribuição F são dados por:
E [X ] =
ν2
ν2 − 2
, ν2 > 2
V (X ) = 2
(
ν2
ν2 − 2
)2(ν1 + ν2 − 2
ν1(ν2 − 5)
)
, ν > 4 Mx (t) não existe
FUNÇÃO DE VEROSSIMILHANÇA
• Quando numa função de densidade, a observação é fixa
e o parâmetro variável não se tem mais uma função de
densidade e sim uma função de verossimilhança
• Se uma amostra aleatória X1, ...,Xn são variáveis aleatórias
independentes e identicamente distruídas (i.i.d) com f.d.p.
ouf.p.) f (x |θ), sua função de verossimilhança é dada por:
L(θ; x) = f (x1, ..., xn|θ) = f (x1|θ)...f (xn|θ) =
n∏
i=1
f (xi |θ)
• O logaritmo natural da função de verossimilhança é deno-
minado função de log-verossimilhança e é denotado por
l(θ; x) = lnL(θ; x)
	
	Introdução
	Probabilidade
	Distribuição de Probabilidade

Continue navegando