Buscar

Seleção de Preditores em Modelos de Regressão

Prévia do material em texto

Seleção de Preditores em Modelos de
Regressão
Carolina Marques Bastos
Universidade Federal do Rio de Janeiro
Instituto de Matemática
Departamento de Métodos Estat́ısticos
2011
Seleção de Preditores em Modelos de Regressão
Carolina Marques Bastos
Dissertação submetida ao Corpo Docente do Instituto de Matemática - Departamento
de Métodos Estat́ısticos da Universidade Federal do Rio de Janeiro - UFRJ, como parte
dos requisitos necessários à obtenção do grau de Mestre em Estat́ıstica.
Aprovada por:
Profo. Helio S. Migon
DME - UFRJ - Orientador
Profo. Thais C. O. Fonseca
DME - UFRJ
Profo. Marco A. Rodŕıguez
Université du Québec à Trois-Rivières
Rio de Janeiro
Agosto de 2011
ii
Agradecimentos
Agradeço a Deus por sempre colocar na minha vida ótimas oportunidades, por ter
me capacitado e guiado para a conclusão de mais uma etapa da minha vida.
A minha famı́lia, agradeço por sempre estar ao meu lado, dando apoio em todos os
passos da minha vida e comemorando cada vitória alcançada. Agradeço aos meus pais,
Katia e Heloy, por me apoiarem em todos os momentos, por todo o esforço para que
eu tivesse as melhores condições de estudo e por darem muito valor a cada conquista.
Obrigada por tudo!
Ao meu noivo Luiz, que acompanha de perto todas as vitórias ao longo do tempo
que estamos juntos. Gostaria de agradecer a sua compreensão e paciência em todos os
meus surtos diante desta dissertação. Sem o seu apoio, carinho e incentivo, eu não teria
chegado até aqui.
Agradeço às companheiras da FGV, Lúısa e Samanta, pela força e apoio de sempre.
Ao Marcelo Neri, por me incentivar desde o ińıcio e mostrar a importância do mestrado
na minha formação. Agradeço pela licença que me foi concedida durante esse peŕıodo,
por todos os conselhos e conversas.
As minhas amigas de turma: Carol, Camila, Renata e Priguete, que ajudaram muito
com estudos, trabalhos e momentos de lazer. Compartilhamos ótimos momentos. Obri-
gada por sempre estarem presentes ajudando! A amiga Renata um agradecimento es-
pecial por ter me apresentado minha best Luana (hehe)! Agradeço por compreender o
que ela chama de desapego, por segurar a vontade de fofocar durante horas enquanto eu
terminava a minha dissertação e, ela já tinha terminado a dela! Por me proporcionar
muitas risadas, momentos de reflexão, explicações sobre estat́ıstica bayesiana, mcmc e R.
Inexplicável o quanto você me incentivou... Obrigada por toda sua ”bestice”! Aos demais
amigos do LPGE, principalmente Joãozinho, Larisson, Kelly Dance, Sheila, Patylene e
iii
Mari que ajudaram com contas, disciplinas, provas e etc. Também proporcionaram mo-
mentos de risadas e muita descontração, tornando a vida mais alegre em dias de Fundão.
Ao Vini, por ter me ensinado a rodar o WinBugs no R, deixando a parte da programação
da dissertação muito mais prática!!!
Agradeço ao Migon pela orientação, incentivo e paciência. Obrigada por todo conhe-
cimento passado durante o peŕıodo em que estivemos envolvidos na dissertação.
Agradeço ao Marco Rodŕıguez e a Thais Fonseca, por aceitarem fazer parte da minha
banca. A Thais agradeço também por sua disponibilidade e boa vontade ao me passar
seus conhecimentos e sugestões referentes a elaboração desta dissertação.
Agradeço a todos aqueles que de alguma forma torceram por mim e contribúıram
para que eu conclúısse esse curso de mestrado.
Finalmente, agradeço ao CNPQ pelo financiamento dos meus estudos durante este
peŕıodo.
iv
Resumo
O estudo de técnicas que selecionam os preditores de um modelo estimado de forma
criteriosa, é parte fundamental do processo de construção do modelo estat́ıstico. Nesta
dissertação, a proposta é fazer a comparação de métodos de estimação de modelos que
utilizam técnicas para a seleção de preditores. A comparação será feita por meio de
critérios de seleção de modelos já conhecidos na literatura.
A primeira técnica a ser utilizada para a estimação do modelo e seleção de predi-
tores, se baseia na imersão do modelo de regressão em uma estrutura hierárquica de
mistura de normais, onde uma variável latente irá sinalizar quais preditores devem ser
inclúıdos no modelo ou não. Dessa forma, esta técnica não só estima o modelo, como
também tem a capacidade de selecionar os preditores mais relevantes para o mesmo. A
segunda técnica para a estimação de modelos consiste no uso de distribuições de con-
tração para o vetor paramétrico. As distribuições de contração são obtidas via mistura
de funções de distribuições cont́ınuas. Estamos interessados em duas formas particula-
res de obtenção de funções de distribuição de contração: a primeira delas consiste na
mistura do parâmetro de escala da distribuição normal com uma função de distribuição
que seja exponencialmente distribúıda. Também estamos interessados em outra forma de
obtenção de distribuições de contração, em que é feita a mistura do parâmetro de escala
da distribuição normal com uma função de distribuição Cauchy, truncada nos valores
reais positivos.
Verificaremos as vantagens e desvantagens associadas a estas propostas para a es-
timação de modelos, que também tem o objetivo de fazer seleção ou contração dos pre-
ditores. Todo o procedimento de inferência será feito sob o enfoque bayesiano, isto é:
atribúıremos uma distribuição a priori para os parâmetros de interesse do modelo, a fim
de obtermos a distribuição a posteriori que, em nosso caso, não é conhecida. Métodos
v
de Monte Carlo via Cadeias de Markov (MCMC, sigla em inglês) serão utilizados para
obter amostras dessa distribuição.
As técnicas para a estimação do modelo serão aplicadas a um conjunto de dados
gerados de maneira artificial. Para esse conjunto de dados, a quantidade de variáveis
preditoras, a correlação entre elas e o tamanho da amostra, serão variados. Dessa ma-
neira, iremos avaliar qual técnica de estimação de modelos foi a mais eficiente. Um ńıvel
de esparsidade será atribúıdo ao vetor paramétrico, fazendo com que muitos de seus
elementos sejam nulos. Exerćıcios de simulação nos permitem avaliar qual dos métodos
capta melhor a estrutura de esparsidade associada ao vetor paramétrico e calibrar de ma-
neira adequada a implementação das propostas para estimação de modelos. Finalmente,
as técnicas de estimação propostas e avaliadas serão aplicadas a exemplos que utilizam
dados reais.
Palavras-Chaves: Estimação de modelos, seleção de preditores, misturas cont́ınuas,
distribuição de contração.
vi
Abstract
In statistics, a crucial problem in building a multiple regression model is the selection
of predictors to include. In this work, we will compare methods for model estimation
that use techniques that select the predictors. The comparison will be made using known
criteria for model selection.
The first technique to be used for model estimation and selection of predictors, entails
embedding the regression setup in a hierarchical normal mixture model where latent
variables are used to identify which predictors should be included in the model. This
technique can estimate and select the most relevants predictors for this. The second
technique for model estimation, is based on shrinkage priors obtained by normal scale
mixtures. We are interested in two particular ways of obtaining shrinkage distributions:
the first one is obtained by normal scale mixtures with exponential distributions. Also
we are interested in another way of obtaining shrinkage distributions, by normal scale
mixtures with a standard half-Cauchy distribution on the positive reals.
We examine the proposal’s advantages and disadvantages. These proposals for model
estimation also objectively select or shrink predictors. All the inference procedure follows
the Bayesian approach, that is, we attribute a priordistribution for the parameters of
interest of each model to obtain the posterior distribution which, in our case, is not
known. Markov chain Monte Carlo methods (MCMC) are used to obtain samples of this
distribution
The proposed techniques for model estimation will be applied to data sets having
different numbers of predictors, correlation among predictors and sample size. We analyze
which technique for model estimation is more efficient. The parametric vector has a
sparsity level, such that many of its elements are null. A simulation exercise allows
us to evaluate which method better captures the sparsity level and standardizes the
vii
implementation of proposals for model estimation. Finally, the proposed estimation
techniques will be applied in a example based on a real data set.
Keywords: Model estimation, predictor selection, continous mixtures, shrinkage dis-
tributions.
viii
Sumário
1 Introdução 1
2 Modelos Bayesianos e Métodos de Estimação 6
2.1 Inferência Bayesiana e Métodos de Estimação . . . . . . . . . . . . . . . 6
2.1.1 Estimação Pontual . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.2 Estimação por Intervalo . . . . . . . . . . . . . . . . . . . . . . . 8
2.2 Inferência Via Simulação Estocástica . . . . . . . . . . . . . . . . . . . . 8
2.2.1 Inferência Via MCMC . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2.2 WinBugs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3 Seleção de Variáveis 14
3.1 Seleção de Variáveis via Busca Estocástica . . . . . . . . . . . . . . . . . 16
3.2 Operador de Seleção e Contração com Penalidade em Valor Absoluto . . 20
3.2.1 Formulação Hierárquica do Modelo Lasso Bayesiano . . . . . . . . 22
3.2.2 Função de Contração . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2.3 Função de Influência . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3 Mistura de normais na Escala Usando Distribuições de Cauchy . . . . . . 31
3.3.1 Formulação Hierárquica do Modelo . . . . . . . . . . . . . . . . . 31
3.3.2 Função de Contração . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.3.3 Função de Influência . . . . . . . . . . . . . . . . . . . . . . . . . 36
4 Critérios de Seleção de Modelos 39
4.1 Critérios Baseados na Função de Verossimilhança Marginal . . . . . . . . 40
ix
4.1.1 Fator de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.1.2 Escores Logaŕıtmicos . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.2 Critério de Informação Baseado no Desvio - DIC . . . . . . . . . . . . . . 43
4.3 Critério Baseado na Função de Perda Canônica . . . . . . . . . . . . . . 44
4.4 Critérios Baseados em Função de Perda Quadrática e Valor Absoluto . . 46
5 Métodos de Estimação de Modelos Aplicados em Modelos de Regressão
Linear 48
5.1 Aplicação a Dados Simulados . . . . . . . . . . . . . . . . . . . . . . . . 48
5.2 Estimação de Modelos - Aplicação a Dados Reais . . . . . . . . . . . . . 63
6 Conclusão 73
Cálculo da Distribuição de Contração 77
Cálculo dos Estimadores da Média Harmônica 79
Análises Referentes a Aplicação dos Dados sobre Câncer de Próstata 81
x
Caṕıtulo 1
Introdução
Um dos grandes objetivos na estat́ıstica, é o desenvolvimento e a estimação de um
modelo estocástico, descrevendo as variáveis de interesse para certo estudo. Modelos
estocásticos podem ser usados em diversas áreas do conhecimento. Com efeito, em eco-
nomia podemos fazer uso de um modelo estátistico para estimar o lucro de uma empresa,
sujeito a determinadas caracateŕısticas. Na demografia, um modelo pode ser elaborado
para estimar qual será a população do páıs daqui a 10 anos. Já na área da saúde, um
modelo estat́ıstico pode ser capaz de associar fatores relativos ao estilo de vida de um
paciente (prática de atividades f́ısicas, boa alimentação, ingestão de cálcio) com a chance
dele adquirir uma doença, como a osteoporose, daqui a alguns anos. Assim, com poucos
exemplos, já foi posśıvel perceber o quão importante e abrangente um modelo estat́ıstico
pode ser.
A inferência em modelos estat́ısticos pode não ser uma tarefa simples, mas é um
conceito amplamente difundido. Além disso, a grande maioria dos softwares estat́ısticos
possuem pacotes que são capazes de estimar modelos sem maiores dificuldades. Os pro-
blemas podem começar a surgir quando a quantidade de vaŕıaveis candidatas a predizer
uma determinada caracteŕıstica for muito elevada, uma vez que modelos com muitas
variáveis explicativas tendem a ser complicados para interpretar.
É cada vez mais frequentente na estat́ıstica moderna, estudos aplicados em que surge a
necessidade de lidar com bases de dados muito grandes. Para a manipulação de tais bases,
sem lançar mão de nenhuma informação, é necessário o conhecimento de ferramentas que
1
tenham a capacidade de lidar com problemas de dimensão muito elevadas.
Um estudo apresentado em Chandulaka et al. (2010), que será denominado como o
problema de marketing, lida com a estimação de um modelo cuja variável de interesse é
a intenção dos consumidores na compra de um determinado produto. Nesse problema a
intenção de compra de um produto, pode ser influenciada por variáveis relacionadas às
atitudes dos consumidores, suas crenças e a publicidade do produto. É importante notar
que, estamos lidando com um número elevado de variáveis explicativas, uma vez que
temos distintas quantidades de variáveis associadas às atitudes dos consumidores, tais
como: recomendação do produto a amigos, ”test-drive”do produto, estudo do produto
antes da compra, entre outras. Algumas variáveis associadas às crenças dos consumidores
são: durabilidade, segurança, qualidade do produto e outras. Por fim, variáveis associ-
adas a publicidade do produto são: publicidade na internet, publicidade na televisão e
outras diversas formas de publicidade de um produto ou marca.
Visando o manuseio de tantas variáveis explicativas e a estimação de um modelo que
explique o problema de maketing, Chandulaka et al. (2010) desenvolvem um modelo de
efeitos hierárquicos nas variáveis. Eles caracterizam os denominados modelo de efeitos
hierárquicos nas variáveis, isto é, a relação entre certas variáveis aleatórias são media-
das por outras variáveis. Assim, modelos de efeitos hierárquicos nas variáveis podem
ser analisados fatorando-se a distribuição conjunta das variáveis como um produto de
distribuições condicionais e marginais.
Para a melhor compreensão do conceito de efeitos hierárquicos nas variáveis e do
modelo proposto, suponha o grupo das três variáveis aleatórias associadas ao problema de
marketing: (x, b, z), onde x corresponde a um grupo de variáveis aleatórias relacionadas a
atitudes dos consumidores mediante um determinado produto, b é um grupo de variáveis
relacionadas às crenças dos consumidores a respeito do produto em questão e z são
variáveis relacionadas a publicidade do produto. O objetivo é analisar a influência desse
grupo de variáveis (x, b, z) na quantidade aleatória y, que é a intenção do consumidor na
compra do produto, e que deve ser entendida como a variável de interesse. Obviamente a
distribuição conjunta dessas variáveis (y, x, b, z) admite distintas fatorações. No contexto
de efeitos hierárquicos nas variáveis, cada uma dessas distintas fatorações descreverá um
2
modelo a ser analisado.
Uma posśıvel fatoração da distribuição conjunta das variáveis em questão, indica que
as atitudes e as crenças dos consumidores, x e b respectivamente, influenciam diretamente
a intenção de compra do produto. A Figura a seguir ilustra os efeitos hierárquico nas
variáveis para esta particular fatoração:
Para este caso particular, o modelo a ser estudado é dado por [y|x, b], [x] e [b], onde os
colchetes representamdistribuições condicionais e marginais. Assim, a intenção de com-
pra do produto pode ser explicada pelas atitudes e crenças dos consumidores a respeito
do mesmo.
Uma fatoração distinta, indica que z e x, as variáveis relacionadas a publicidade
do produto e atitudes dos consumidores, influenciam diretamente a intenção de compra
do produto. Adicionalmente, temos as variáveis associadas a publicidade do produto
afetando diretamente as variáveis relacionadas as atitudes dos consumidores, x. A Figura
a seguir representa os efeitos hierárquicos nas variáveis para esta distinta fatoração:
A ilustração acima exibe a representação do efeito indireto da publicidade na intenção
de compra do produto, uma vez que a publicidade está afetando diretamente as atitudes
dos consumidores. Posteriormente, as atitudes dos consumidores x irão ter um efeito
direto na intenção de compra do produto. Portanto, nesse contexto, variáveis associadas
3
a publicidade afetam a intenção de compra de maneira direta e indireta, o que pode
ser melhor verificado na Figura acima. Para esta particular fatoração, o modelo a ser
analisado é dado por [y|x, z], [x|z] e [z], onde os colchetes representam distribuições
condicionais e marginais.
Exitem outras fatorações posśıveis, porém, a descrição de cada uma destas fatorações
não é relevante para o contexto. O importante é notar que que cada uma dessas distintas
fatorações, descreverá diferentes modelos a serem analisados. Além disso, podemos ter
muitas variáveis explicativas associadas a variável de interesse, o que dificultará a es-
timação e interpretação dos modelos. Ainda podemos lidar com o caso em que algumas
variáveis explicativas tem pouca influência na intenção de compra do produto, ou uma
influência não significativa. Nesse contexto, o uso de técnicas que façam o procedimento
de seleção das variáveis relevantes pode auxiliar muito, fazendo com que tenhamos um
modelo mais parcimonioso e de fácil interpretação. Foi diante deste contexto, que surgiu
pela primeira vez, a necessidade da implementação de um método que selecione preditores
relevantes para o modelo de maneira eficiente.
Nesta dissertação, iremos revisar e discutir a aplicação de algumas técnicas de seleção
de variáveis em modelos lineares de regressão. Todo o procedimento de inferência será
feito sob o enfoque bayesiano, isto é, atribuiremos uma distribuição a priori para os
parâmetros de interesse de cada modelo a fim de obter a distribuição a posteriori, e a
partir dela, realizar todo o processo de estimação. Obteremos amostras desta distribuição
a posteriori por meio de métodos de simulação estocástica, particularmente utilizaremos
os métodos de Monte Carlo via cadeias de Markov (MCMC na sigla em inglês).
Procuraremos verificar as vantagens e desvantagens entre cada uma das técnicas pro-
postas para a seleção de preditores. Avaliaremos tais vantagens e desvantagens sob o
contexto teórico e aplicado associado a cada uma das técnicas, e também utilizaremos
critérios de seleção de modelos conhecidos na literatura, como o fator de bayes e o DIC,
visando a comparação dos modelos estimados por cada uma das diferentes técnicas.
A relevância deste tema pode ser notada quando analisamos o contexto da modela-
gem estat́ıstica moderna, onde é cada vez mais frequente nos depararmos com situações
em que uma grande quantidade de variáveis regressoras estão associadas a uma determi-
4
nada variável de interesse. Este problema acaba por trazer dificuldades na estimação do
modelo. Por exemplo, preditores relacionados de forma exata ou aproximada geram di-
ficuldades de estimação. Também podemos citar o problema de obtenção de estimativas
imprecisas ou até mesmo não significativas para o modelo. Técnicas de seleção de predi-
tores são necessárias, pois dão a possibilidade de estimar um modelo mais parcimonioso,
com menos variáveis preditoras, facilitando assim, o processo de estimação do modelo e
a sua interpretação.
Esta dissertação está organizada em 6 Caṕıtulos e 3 Apêndices. No Caṕıtulo 2,
faremos uma breve revisão sobre estimação e sobre procedimentos de inferência sob o
enfoque bayesiano. Discutiremos também métodos de simulação estocástica, particu-
larmente métodos MCMC. Também apresentaremos alguns pontos relevantes sobre o
pacote estat́ıstico WinBUGS, utilizado para a estimação dos modelos presentes nesta
dissertação. No Caṕıtulo 3, revisaremos técnicas de interesse para a estimação de mode-
los com seleção de preditores. Aqui serão feitas comparações teóricas entre as diferentes
técnicas propostas, procurando avaliar as vantagens e desvantagens associadas a cada
um dos métodos. No Caṕıtulo 4, apresentaremos as técnicas de comparação de modelos,
que serão utilizadas para a avaliar os métodos de estimação de modelos em um contexto
aplicado. Tal contexto aplicado, será apresentado no Caṕıtulo 5, onde faremos um estudo
simulado para avaliar em quais aspectos as técnicas de estimação de modelo com seleção
de preditores possuem um melhor desempenho. Finalmente, um exemplo com dados será
trabalhado na Seção 5.2, onde as técnicas de estimação de modelos propostas serão apli-
cadas. Por fim, no Caṕıtulo 6, apresentaremos as conclusões e posśıveis extensões desta
dissertação.
5
Caṕıtulo 2
Modelos Bayesianos e Métodos de
Estimação
2.1 Inferência Bayesiana e Métodos de Estimação
Este caṕıtulo tem por objetivo revisar os principais conceitos do procedimento de
inferência sob o enfoque bayesiano. Considere y, uma variável aleatória ou vetor aleatório
com função de probabilidade ou função de densidade de probabilidade p(y|θ) em que θ
é um parâmetro ou vetor paramétrico que caracteriza a distribuição de probabilidade de
y. O valor de θ é desconhecido e queremos estimá-lo. Sob o ponto de vista da inferência
bayesiana, podemos incorporar nossa própria incerteza na estimação de θ, assumindo
uma distribuição de probabilidade para este parâmetro, p(θ), a distribuição a priori.
Esta distribuição é atribúıda antes da observação dos dados e mede a nossa incerteza a
priori a respeito de θ. Uma vez que os dados são observados, os quais denotaremos por y,
podemos encontrar a distribuição a posteriori de θ, p(θ|y), obtida a partir da combinação
da função de verossimilhança p(y|θ) com a distribuição a priori de θ, p(θ), via teorema
de Bayes, da forma:
p(θ|y) = p(y|θ)p(θ)
p(y)
. (2.1)
A quantidade p(y) =
∫
Θ
p(y, θ)dθ =
∫
Θ
p(y|θ)p(θ)dθ, em que Θ é o espaço paramétrico
6
de θ. Note que p(y) não depende de θ, logo o denominador da equação acima pode ser
considerado constante com relação a θ. Portanto, podemos rescrever a equação 2.1 como:
p(θ|y) ∝ p(y|θ)p(θ) (2.2)
O procedimento de inferência bayesiano é baseado fundamentalmente na distribuição
a posteriori de θ. Esta distribuição contém toda informação probabiĺıstica a respeito do
parâmetro de interesse. No entanto, em algumas situações torna-se necessário resumir
a informação contida na distribuição a posteriori. O caso mais simples é a estimação
pontual, descrita na próxima subseção:
2.1.1 Estimação Pontual
Na estimação pontual, nosso objetivo é a minimização de uma função perda L(δ(Y ), θ)
para algum estimador δ(Y ) de θ. Observe que o valor de θ é estimado a partir de
elementos da amostra. Para cada valor de θ e cada posśıvel estimativa d pertencente ao
espaço paramétrico Θ, associamos uma função de perda L(d, θ). Neste caso, podemos
calcular a perda esperada a posteriori ou risco a posteriori, da forma:
r(d, θ) = E(L(d, θ)|y) =
∫
Θ
L(d, θ)p(θ|y)dθ (2.3)
A regra de Bayes consiste em escolher o valor de d ótimo, ou seja, o valor de d que
minimiza a perda esperada E(L(d, θ)|y). Os estimadoresd(Y), obtidos minimizando esta
perda esperada, serão chamados estimadores de Bayes. As funções perda mais utilizadas
na literatura e seus respectivos estimadores são:
• Perda Quadrática: L(δ, θ) = (δ− θ)2. Neste caso, o estimador resultante é a média
a posteriori de θ, isto é, δ = θ̂ = Eθ|y(θ);
• Perda Absoluta: L(δ, θ) = |δ − θ|. O estimador associado a perda quadrática
absoluta é a mediana a posteriori de θ, δ = med(θ);
• Perda 0-1: L(δ, θ) = lim�→0 I|θ−δ|([�,∞)), onde Ix(A) = 1 se x ∈ A e 0 caso
contrário. O estimador de θ é a moda da distribuição a posteriori de θ.
7
2.1.2 Estimação por Intervalo
Resumir a informação contida na distribuição a posteriori através de um único valor,
θ̂, resulta numa sumarização extrema da informação dispońıvel. É interessante obter pelo
menos uma medida sobre quão precisa é a estimativa de θ̂. Uma maneira de fazer isso é
fornercer uma região de valores θ ∈ Θ, que têm associados a eles uma grande massa de
probabilidade a posteriori. Idealmente, gostaŕıamos de descrever uma região de valores
de θ que é tão pequena quanto posśıvel, mas contém o máximo de probabilidade a
posteriori. Assim define-se o intervalo de credibilidade a posteriori de θ, uma quantidade
desconhecida definida em Θ, como sendo:
uma região C ∈ Θ é uma região de 100(1 − α)% de credibilidade para θ se P (θ ∈
C) ≥ 1 − α. Neste caso, 1 − α é chamado ńıvel de credibilidade. No caso escalar, C é
usualmente dado por um intervalo, por exemplo, [c1, c2].
2.2 Inferência Via Simulação Estocástica
No contexto da inferência estat́ıstica, a simulação estocástica tem o objetivo de esti-
mar caracteŕısticas probabiĺısticas de modelos ou distribuições de interesse, as quais não
poderiam ser obtidas analiticamente.
Métodos de simulação estocástica são comumente utilizados ao fazer inferência sob
a abordagem bayesiana. Eles são uma alternativa razoável para, por exemplo, simular
pontos de forma indireta da distribuição a posteriori, quando esta não possui forma
anaĺıtica fechada ou quando a avaliação por métodos numéricos é inviável, devido a
grandes dimensões paramétricas.
Em geral utilizam-se métodos de Monte Carlo via Cadeias de Markov (MCMC) para
realizar-se o processo inferencial.
2.2.1 Inferência Via MCMC
A inferência sob o paradigma bayesiano parte do pressuposto que a incerteza sobre
uma quantidade desconhecida, digamos θ, pode ser representada por modelos proba-
8
biĺısticos.
Por vezes, o denominador da equação 2.2 não possui forma anaĺıtica fechada e a
avaliação por métodos numéricos quando a dimensão é grande é inviável. Dáı surge
a necessidade de métodos de simulação estocástica, tais como os de Monte Carlo via
Cadeias de Markov (MCMC).
Se uma cadeia de Markov homogênea é irredut́ıvel, recorrente positiva e aperiódica,
então possui distribuição limite, a qual depende apenas da matriz de transição da ca-
deia. Além disso, uma vez que a cadeia atinja a distribuição limite, todos os estados
subsequentes seguirão tal distribuição.
Os métodos MCMC consistem na construção de uma cadeia de Markov que, por meio
de escolhas adequadas de núcleos de transição, tenha como distribuição estacionária a
distribuição de interesse. No contexto de estimação bayesiana, a distribuição a posteriori.
Uma vez que a convergência da cadeia tenha sido atingida, as amostras estarão sendo
geradas da distribuição estacionária. Para aproximar a distribuição a posteriori, utilizam-
se amostras suficientemente grandes dessa distribuição.
Os algoritmos MCMC mais utilizados no contexto de inferência bayesiana são o amos-
trador de Gibbs e o algoritmo de Metropolis-Hastings, que serão descritos a seguir.
(i) Amostrador de Gibbs
O amostrador de Gibbs é um método de MCMC em que o núcleo de transição é
formado pelas distribuições condicionais completas do vetor paramétrico. Assuma
que a distribuição de interesse é π(θ) em que θ = (θ1, . . . , θd)
′. Considere também
que as distribuições condicionais completas πi(θi) = π(θi|θ−i), i = 1, . . . , d são
conhecidas e dispońıveis para a amostragem.
Quando há necessidade de amostrar de π, mas a sua geração direta é complicada,
custosa, ou simplesmente inviável, o amostrador de Gibbs permite um processo de
geração alternativo baseada em gerações sucessivas das distribuições condicionais
completas.
Para construção de uma cadeia de Markov cujas transições sejam definidas pelas
9
condicionais completas, o amostrador de Gibbs procede da seguinte forma:
• Inicialize o contador da cadeia em j = 1 e assuma valores iniciais θ(0) =
(θ
(0)
1 , . . . , θ
(0)
d )
′
• Obtenha o novo valor θ(j) = (θ(j)1 , . . . , θ
(j)
d )
′ de θ(j−1) a partir de gerações
sucessivas:
θ
(j)
1 ∼ π(θ1|θ
(j−1)
2 , . . . , θ
(j−1)
d ) (2.4)
θ
(j)
2 ∼ π(θ2|θ
(j−1)
1 , θ
(j−1)
3 , . . . , θ
(j−1)
d )
...
θ
(j)
d ∼ π(θd|θ
(j−1)
1 , . . . , θ
(j−1)
d−1 )
• Faça j = j + 1 e volte ao passo anterior até obter convergência.
À medida que o número de iterações cresce, a cadeia de Markov simulada aproxima-
se de sua distribuição de equiĺıbrio. Sendo assim, θ(i) = (θ
(i)
1 , . . . , θ
(i)
d )
′ pode ser
considerado um ponto amostrado de π(θ).
(ii) Metropolis-Hastings
Assuma que a distribuição de interesse é π(θ) em que θ = (θ1, . . . , θd)
′. O algoritmo
Metropolis-Hastings é útil para a geração de valores de parâmetros cujas distri-
buições condicionais completas não tenham forma anaĺıtica fechada e, portanto,
não estejam dispońıveis para amostragem, diferentemente do caso do amostrador
de Gibbs.
Neste caso, gera-se valores do parâmetro a partir de uma distribuição proposta
arbitrária e este é aceito ou não com uma certa probabilidade de aceitação, que
depende da qualidade do movimento proposto, avaliado com base na distribuição
proposta e da distribuição de interesse π(θ).
O algoritmo de Metropolis-Hastings procede da seguinte forma:
• Inicialize o contador da cadeia em j = 1 e assuma valores iniciais θ(0) =
(θ
(0)
1 , . . . , θ
(0)
d )
′
10
• Obtenha um valor proposto θ∗ da distribuição proposta q(θ∗|θ(j−1))
• Aceite o valor proposto com probabilidade α(θ∗|θ(j−1)) = min
[
1, π(θ
∗)q(θ(j−1)|θ∗)
π(θ(j−1))q(θ∗|θ(j−1))
]
,
ou seja, θ(j) = θ∗. Caso o valor proposto não seja aceito, faça θ(j) = θ(j−1).
• Faça j = j + 1 e volte ao passo segundo passo até obter convergência.
A escolha da distribuição proposta é uma questão importante ao se utilizar métodos
MCMC com base no algoritmo de Metropolis-Hastings. Sob o ponto de vista
prático, tal escolha é crucial para a sua convergência para a distribuição a pos-
teriori.
Uma das propostas mais comuns são chamadas de cadeias simétricas, quando a dis-
tribuição proposta é simétrica em torno da iteração anterior, isto é, q(θ(j)|θ(j−1)) =
q(θ(j−1)|θ(j)). Neste caso, a probabilidade de aceitação se reduz à razão da distri-
buição de interesse, ou seja, α(θ∗|θ(j−1)) = min
[
1, π(θ
∗)
π(θ(j−1))
]
.
É importante ressaltar que a eficiência do método está diretamente ligada à escala
da distribuição proposta. Caso a variância da distribuição proposta seja muito pe-
quena, a cadeia de Markov irá convergir lentamente, uma vez que seus incrementos
serão pequenos. Se a variância for grande, a taxa de rejeição dos valores propostos
será alta e a cadeia tenderá a não se mover. Muitos autores sugerem que a taxa de
aceitação do algoritmo deve estar entre 20% e 50%, ver Gamerman e Lopes (2006).
Estando decidido o método a ser utilizado, e obtida uma simulação da cadeia, deve-se
verificar se a convergência foi obtida, para assim poder formar a amostra da distribuição
a posteriori das quantidades desconhecidas do modelo.
Existem várias formas de se realizar uma análise a respeito da convergência da cadeia.
Uma das abordagensmais informais é a inspeção gráfica, onde analisa-se a trajetória de
uma ou mais cadeias, com valores iniciais distintos e considera-se que a convergência é
alcançada quando todas as cadeias monitoradas permanecem em torno de um mesmo
ponto. Outros critérios, mais formais, também podem ser utilizados, como os métodos
propostos por Gelman (1992) e Geweke (1992). Neste estudo será utilizado este último
11
critério mencionado. Geweke (1992) sugere um procedimento para teste de convergência
a partir da avaliação de médias ergódicas de uma única cadeia gerada, com base na
idéia de que, após convergência, diferentes intervalos da cadeia gerada devam apresentar
comportamentos semelhantes. Seja uma cadeia gerada com um número de iterações n
suficientemente grande. A idéia é testar a igualdade das médias x̄1 e x̄2, calculadas,
respectivamente, a partir da fração 0.1n inicial e 0.5n final da amostra. Considerando os
respectivos estimadores das variâncias assintóticas de x̄1 e x̄2, dados por V (x̄1) e V (x̄2),
tem-se que, quando n→∞,
Gk =
x̄1 − x̄2√
V (x̄1)/0.1n+ V (x̄2)/0.5n
→ N(0, 1). (2.5)
Desta maneira, valores extremos de Gk indicam falta de convergência. A técnica de
Geweke está implementada no pacote CODA (Best et al. (1995)), executável no software
R (R Development Core Team (2006)).
Após a obtenção da amostra, deve-se analisar a autocorrelação existente entre θ(j)
e θ(j−1). A amostra obtida a partir de uma cadeia de Markov é aleatória, mas não é
independente. Isso não afeta as estimativas dos parâmetros, mas tem influência sobre as
variâncias das estimativas resultantes desse procedimento de amostragem Gamerman e
Lopes (2006). Assim, nos casos em que for constatada uma forte correlação serial na ca-
deia, após verificada a convergência, recomenda-se a retirada de uma amostra sistemática
de seus valores para compor uma nova amostra. A forma como a amostragem sistemática
será realizada pode ser baseada em um gráfico contendo a função de autocorrelação da
cadeia.
2.2.2 WinBugs
O pacote estat́ıstico WinBUGS é uma versão em ambiente Windows do pacote BUGS
(Bayesian Inference Using Gibbs Sampling). É utilizado para análise bayesiana de mo-
delos estat́ısticos simples ou complexos, tendo a capacidade de estimar seus parâmetros
via MCMC. O WinBUGS consiste em um conjunto de funções que permitem a especi-
ficação do modelo e das distribuições de probabilidade para todos os seus componentes
12
aleatórios. Foi implementado por Thomas et al. (1992) e amplamente discutido em Lunn
et al. (2000).
O WinBUGS possui a capacidade de reconhecer formas de distribuições conjuga-
das, distribuições log-côncavas, distribuições com amplitudes restritas e etc. Com base
nesta informação, o algoritmo de amostragem mais eficiente é selecionado para simulação.
Quando nenhuma destas propriedades é identificada, uma mensagem avisa a incapacidade
na escolha do método de atualização.
Dentro do WinBugs existe uma ordenação dos métodos de amostragem dispońıveis
para serem utilizados, que depende da forma da distribuição de interesse. Primeiramente,
métodos de amostragem utilizando algoritmos padrões serão utilizados caso a distribuição
condicional seja conjugada. Caso essa condição não seja satisfeita, o amostrador de
Gibbs passa a ser utilizado: a ARS (Adaptive Rejection Sampling) é usada para amostrar
eficientemente qualquer distribuição condicional com função densidade log-côncava e a
ARMS (Adaptive Rejection Metropolis Sampling) generaliza a rotina ARS para o caso de
funções que não são log-côncavas, mas que possuem amplitudes restritas. Para o caso de
funções que não são log-côncavas e que não possuem amplitudes restritas, são utilizados
passos de Metropolis.
Para o algoritmo Metropolis-Hastings, o pacote usa como densidade de transição
q(θ(j), .) uma distribuição gaussiana centrada no valor atual do parâmetro θ(j).
Todo o processo inferencial utilizado neste trabalho foi implementado no software
WinBUGS versão 1.4.
13
Caṕıtulo 3
Seleção de Variáveis
Com frequência, em estudos aplicados, a modelagem estat́ıstica envolve um grande
número de regressores. Este problema acaba por trazer dificuldades na estimação do
modelo. Por exemplo, preditores relacionados de forma exata ou aproximada geram
dificuldades de estimação. Também pode-se citar o problema de obtenção de estimativas
imprecisas ou até mesmo não significativas para o modelo.
Eventualmente, também pode-se lidar com aplicações em que a quantidade de regres-
sores p é maior que n, número de observações. Um exemplo deste tipo, apresentado em
West (1993), consiste em prever o teor de gordura da massa de um determinado biscoito.
As caracteŕısticas desta massa são medidas por uma técnica chamada NIR (near infrared
spectroscopy). Os preditores são p = 300 ńıveis de reflectância mensurados, obtidos pela
técnica NIR, com uma amostra de 39 massas de biscoito.
Para esse exemplo, o método de mı́nimos quadrados não tem a capacidade de fazer a
estimação eficiente do modelo. Devido ao grande número de variáveis independentes, são
grandes as chances delas possúırem relações lineares exatas ou aproximadamente exatas
entre si, gerando o problema de multicolinearidade. Além disso, com tantas variáveis
regressoras, a variância associada aos parâmetros regressores pode ser muito alta e a
matriz X’X−1 intratável. Uma solução para a estimação de modelos em que p > n, seria
a obtenção de um pequeno número de combinações lineares do conjunto de variáveis
independentes, que retenham o máximo da informação contida nessas variáveis. Essa
técnica é conhecida como componentes principais, e frequentemente usada para cuidar
14
de multicolinearidade. Em geral, esses procedimentos são feitos em duas etapas: primeiro
obtem-se as componentes principais e depois a regressão estimada. Em West (1993), um
método integrado é apresentado sob a ótica bayesiana.
Em contextos onde p é uma quantidade muito grande, com o objetivo de evitar a
estimação de modelos complexos, alguma forma de redução de dimensionalidade, no que
diz respeito a quantidade de regressores p, é necessária. Com efeito, suponha o seguinte
modelo de regressão:
y = Xβ + �, (3.1)
onde β = (β1, . . . , βp)
T é o vetor paramétrico, y é um vetor n × 1 da variável resposta,
X é a matriz n× p dos regressores, e � é o vetor de erros de dimensão n× 1; as hipóteses
do modelo de regressão estabelecem que esses erros seguem uma distribuição normal, são
independentes e identicamente distribúıdos, com média 0 e variância desconhecida σ2.
Buscar soluções esparsas para o modelo de regressão em questão, é o mesmo que
identificar de maneira eficiente os coeficientes βp que são iguais a zero ou muito próximos
de zero. Logo, o regressor correspondente ao parâmetro βp = 0 ficará fora do modelo de
regressão, levando a redução da dimensão de p.
A partir de uma perspectiva bayesiana, existem duas principais abordagens para
a estimação da esparsidade associada aos regressores: misturas discretas e prioris de
contração (shrinkage). A primeira abordagem associa a cada βp uma distribuição a
priori que possui um ponto de massa no valor βp = 0 e uma alternativa absolutamente
cont́ınua; a segunda abordagem, que será utilizada nesta dissertação, modela cada βp
com distribuições a priori de contração, centradas em zero. Essas prioris são obtidas a
partir de misturas cont́ınuas.
Na seção 3.1, será apresentada uma técnica que introduz uma variável latente do tipo
Bernoulli na distribuição a priori de β, tal variável sinalizará os preditores que deverão
ser inclúıdos ou não no modelo. Enquanto que nas seções 3.2 e 3.3, serão apresentadas
técnicas para a estimação do modelo que utilizam distribuições de contração,obtidas
via misturas cont́ınuas, para o vetor paramétrico β. Todo procedimento de inferência
necessário nas técnicas a serem apresentadas será feito sob o enfoque bayesiano, isto é,
serão atribúıdas distribuições a priori para os parâmetros de interesse a fim de obter
15
a distribuição a posteriori, que em nosso caso não é conhecida. Técnicas de simulação
estocástica (MCMC) serão utilizadas para a obtenção de amostras desta distribuição.
3.1 Seleção de Variáveis via Busca Estocástica
O SSVS (Seleção de Variáveis via Busca Estocástica em inglês), é a técnica de seleção
de variáveis proposta por George e Robert (1993), a qual baseia-se na incorporação da
regressão em um modelo hierárquico de mistura de normais, onde um vetor de variáveis
latentes é capaz de sinalizar quais os melhores subconjuntos deX1, . . . , Xp. Cabe ressaltar
que os p regressores associados a y, fazem com que tenhamos 2p posśıveis modelos a serem
estimados.
Um fato interessante associado a este método de seleção de variáveis é que ele ”vi-
sita”mais vezes os modelos mais relevantes, no sentido de possúırem os regressores mais
apropriados para explicar a quantidade y. A estimação do modelo é posśıvel a partir da
seguinte estrutura hierárquica a priori para os parâmetros da regressão:
y|X,β, σ2 ∼ Nn(Xβ, σ2In)
βp|γp ∼ (1− γp)N(0, τ 2p ) + γpN(0, c2pτ 2p ) (3.2)
γp ∼ Bern(πp)
σ2 ∼ IG (ν, λ) ,
onde 0 ≤ πp ≤ 1, τp > 0, cp ∈ <, ν > 0 e λ > 0 são quantidades de ”sintonia”, isto é,
quantidades que precisam ser determinadas pelo pesquisador.
A quantidade πp pode ser interpretada como a probabilidade a priori de inclusão do
regressor Xp no modelo. Logo, πp = 0 indica que, a priori, o pesquisador assume que o
regressor Xp deve ser exclúıdo no modelo; de maneira análoga, quando πp = 1 assume-se
que o respectivo regressor deve ser inclúıdo no modelo estimado.
Um dos recursos da técnica Ssvs é que cada componente do vetor β é modelada
como mistura de distribuições normais com diferentes variâncias, conforme apresentado
na equação 3.2. Quando γp = 0, βp ∼ N(0, τ 2p ), indicando que esta componente βp deve
16
ser exclúıda do modelo. Logo a quantidade τp, que é o desvio-padrão da componente
βp neste caso particular onde γp = 0, deve ser determinada de tal maneira que o valor
estimado para esse parâmetro βp possa ser substitúıdo por 0. Desta maneira, o regressor
Xp correspondente estará exclúıdo do modelo. Analogamente, se βp ∼ N(0, c2pτ 2p ), então
a respectiva componente γp = 1. Nesse caso, estamos interessados na escolha de valor
para cpτp que nos leve a uma estimativa não nula para βp, fazendo com que o regressor
Xp seja inclúıdo no modelo estimado.
Portanto, pode ser observado que o ajuste dos parâmetros de sintonia τ e c não é
tarefa fácil. Diferentes escolhas para essas quantidades devem ser testadas. A Figura
3.1 ilustra como que distintas escolhas para τp e cp afetam a distribuição a priori de βp
quando γp = 0 e 1, respectivamente. De acordo com a Figura 3.1(a), podemos observar
que a distribuição de βp quando γp = 1 concentra uma grande massa de probabilidade
em torno do valor zero. Isso não é o desejável, uma vez que valores de γp = 1 sugerem
que a estimativa para o parâmetro βp seja não nula. A análise da distribuição de βp
quando γp = 0, representada pela linha cheia, concentra menos massa de probabilidade
em torno do valor zero, quando comparada com a linha tracejada, que é a distribuição do
parâmetro quando γp = 1. Neste caso, o ideal é a estimativa do parâmetro ser zero, mas
o ajuste do valor τp tal que a distribuição fique muito concentrada em torno do valor zero
deve ser evitado, afim de evitar que o parâmetro tenha uma distribuição muito restritiva.
Na Figura 3.1(b), ilustramos o comportamento para a distribuição de βp quando
γp = 0 e a estimativa para βp deve ser zero. Observamos que a função densidade da
distribuição a priori concentra uma grande massa de probabilidade em torno do valor
zero. Analogamente, quando γp = 1 e a estimativa para o parâmetro deve ser não
nula, observamos que a função de distribuição para βp é mais vaga e atribúı massa de
probablidade a valores mais distantes de zero.
A terceira combinação que apresentamos para a distribuição a priori para βp é ilus-
trada na Figura 3.1(c), onde observamos que quando γp = 0 e a estimativa para β deve
ser zero, vemos que a função densidade da distribuição a priori concentra uma massa
de probabilidade elevada em torno do valor zero. Em contrapartida, a linha tracejada
mostra que, quando γp = 1 e e a estimativa para βp deve ser não nula, a função de den-
17
sidade do parâmetro atribúı massa de probabilidade a valores mais afastados de zero. A
situação ilustrada por esta Figura consiste em um caso similar ao apresentado na Figura
3.1(b), a diferença está em prioris para βp quando γp = 0 ou 1 que atribuem massa de
probabilidade em intervalos com maiores amplitudes, ou seja, têm um comportamento
mais vago.
18
β
D
en
si
da
de
γ = 0
γ = 1
−10 −5 0 5 10
0.
0
0.
1
0.
2
0.
3
0.
4
0.
5
(a) τ = 2, c = 0.5
β
D
en
si
da
de
γ = 0
γ = 1
−10 −5 0 5 10
0.
0
0.
1
0.
2
0.
3
0.
4
0.
5
(b) τ = 2, c = 5
β
D
en
si
da
de
γ = 0
γ = 1
−10 −5 0 5 10
0.
0
0.
1
0.
2
0.
3
0.
4
0.
5
(c) τ = 10, c = 5
Figura 3.1: Diferentes configurações da distribuição a priori para β.
Como veremos nas aplicações referentes a esta dissertação, utilizamos a distribuição
a priori para o parâmetro βp que possui o comportamento mais vago em torno do valor
zero, quando a respectiva componente γp = 1. Esta configuração para o parâmetro βp foi
utilizada afim de evitar a concentração da alta massa de probabilidade em torno do valor
zero, quando a estimativa para a componente βp deverá ser não-nula. Especificamente,
as configurações apresentadas na Figura 3.1(b) e 3.1(c) foram utilizadas em distintas
aplicações.
Por fim, para as quantidades ν e λ, George e Robert (1993) ressaltam que a escolha de
ν próximos de 0 e qualquer valor de λ podem ser utilizadas para representar ignorância
a respeito do parâmetro σ2. Usaremos a configuração em que os parâmetros ν e λ são
iguais a 0.001. Note que, utilizando tais valores, consideramos a distribuição a priori
vaga, permitindo que os dados tenham maior influência na distribuição a posteriori.
Dentre as vantagens do Ssvs, podemos citar a possibilidade do usuário determinar
a importância prática de alguma variável regressora. Com efeito, suponha que estudos
teóricos mostrem que Xp é extremamente relevante para explicar y. Com o Ssvs, o usuário
pode levar em conta tal relevância, ao determinar que o elemento γp é Bernoulli com seu
parâmetro πp próximo a 1.
Uma das desvantagens do método está associada a grande quantidade de parâmetros
de ”sintonia”presentes na equação 3.2. O ajuste adequado dos parâmetros πp, τp, cp, ν
e λ dificulta o processo de estimação, uma vez que diferentes valores fixados podem
19
alterar drasticamente as estimativas obtidas. Nesta dissertação, o processo de ajuste dos
parâmetros foi simplificado quando fixamos que πp = π, τp = τ e cp = c, para todos p
regressores do modelo.
Quando a quantidade de regressores p > n, o Ssvs não é capaz de estimar o mo-
delo. Tal limitação é provavelmente decorrente, devido a um passo dentro do amostrador
de Gibbs, onde são necessárias as estimativas para β obtidas via mı́nimos quadrados.
Essa limitação é uma grande desvantagem comparativa aos métodos mais modernos de
estimação de modelos com uso de técnicas de seleção de preditores, que se baseiam na
obtenção de distribuições de contração para o vetor paramétrico β, e que serão apresen-
tados nas próximas seções. Tais métodos produzem estimativas coerentes até mesmo nos
casos multidimensionais.
Finalmente, muitasvezes a interpretação dos resultados obtidos pelo Ssvs é restringida
somente ao conhecimento dos melhores subconjuntos de X1, . . . , Xp, analisando-se apenas
a contagem dos modelos mais frequentementes visitados, e não as estimativas de β obtidas
pelo método. Neste trabalho não estaremos interessados em avaliar qual o modelo foi mais
frequentemente ”visitado”, e sim, nas estimativas para β, permitindo assim a comparação
do Ssvs com os demais métodos que serão apresentados. Além disso, pode ser observado
que o Ssvs indica e seleciona os modelos mais frequentes, enquanto que os métodos que
serão apresentados a seguir, naturalmente fazem uma mistura de modelos.
3.2 Operador de Seleção e Contração com Penali-
dade em Valor Absoluto
Dentre os métodos que fazem tanto a contração cont́ınua quanto a seleção de variáveis,
uma técnica promissora que utiliza o operador de seleção e contração com penalidade em
valor absoluto, foi proposta por Tibshirani (1996). Essa técnica será denominada como
Lasso, que sintetiza least absolute shrinkage and selection operator, isto é, operador de
seleção e contração mı́nimo absoluto, em português.
O Lasso é um penalizador do procedimento de mı́nimos quadrados, que minimiza a
20
soma dos quadrados dos reśıduos com uma restrição na norma L1 dos coeficientes β’s.
Assim, a estimativa de β sob o método do Lasso é dada por:
β̂ = arg min
β
(ỹ −Xβ)′(ỹ −Xβ) + λ
p∑
j=1
|βj|. (3.3)
Observe que X é a matriz dos regressores padronizados, a quantidade ỹ = y − ȳ1n e
λ é um parâmetro de ”sintonia”.
Uma maneira de ilustrar o funcionamento do estimador Lasso, é no caso onde temos
somente dois preditores. O losângulo da figura 3.2 caracteriza a restrição imposta pelo
método Lasso na estimação de β, enquanto que as elipses são as curvas de ńıveis das
estimativas de verossimilhança de βp. As curvas de ńıvel poderão interceptar o losângulo
em um de seus quatro vértices. A solução para o estimador Lasso corresponde a inter-
ceptação de uma dessas elipses com o losângulo. Se isto ocorrer no vértice (como na
Figura 3.2) a estimativa de um dos parâmetros será nula, caso contrário representará um
contração dessa estimativa em torno do valor zero.
21
ββi
ββ k
 0.
02
 
 0.
04
 
 0
.0
6 
 0.08 
 0.
1 
 0
.1
2 
 0.14 
 0.1
6 
 0.
18
 
 0.2 
 0.
22
 
0.24
 
−2 −1 0 1 2 3 4 5
−
2
0
2
4
6
Figura 3.2: Restrição na estimação dos β’s imposta pelo Lasso bayesiano.
Com a presença do termo penalizador λ
∑p
j=1 |βj| na equação 3.3, Tibshirani (1996)
nota que a estimativa do Lasso pode ser interpretada como a moda a posteriori es-
timada quando os parâmetros β’s da regressão possuem distribuição a priori Laplace
(exponencial dupla) independentes. Uma vantagem desta distribuição é que ela pode
ser expressada como uma mistura na escala de distribuições normais com variâncias que
seguem distribuições exponenciais independentes.
3.2.1 Formulação Hierárquica do Modelo Lasso Bayesiano
Recentemente, Park e Casella (2008) propuseram o amostrador de Gibbs para o Lasso,
a partir da seguinte estrutura hierárquica para o modelo:
22
y|X,β, σ2 ∼ Nn(Xβ, σ2In)
p(β|σ2, τ 21 , . . . , τ 2p ) ∼ N(0p, σ2Dτ ) (3.4)
Dτ = diag(τ
2
1 , . . . , τ
2
p )
σ2, τ 21 , . . . , τ
2
p ∼ π(σ2)dσ2
p∏
j=1
λ2
2
e−λ
2τ2j /2dτ 2j
Especificamente, foi considerada uma análise bayesiana completa a partir do uso da
distribuição a priori Laplace, condicionada a σ2, no modelo hierárquico. Com efeito, tal
distribuição é da seguinte forma:
π(β|σ2) =
p∏
j=1
λ
2
√
σ2
e−λ|βj |/
√
σ2 (3.5)
Esta especificação condicional a σ2 é particularmente importante, uma vez que garante
que a distribuição conjunta π(β, σ2|ỹ) seja unimodal, segundo Park e Casella (2008). Uma
consequência da não unimodalidade é a dificuldade de convergência do amostrador de
Gibbs.
Como dito anteriormente, esta distribuição Laplace pode ser expressada como uma
mistura na escala de distribuições normais com variâncias que seguem distribuições ex-
ponenciais independentes, isto é:
a
2
e−a|z| =
∫ ∞
0
1√
2πs
e−z
2/(2s)a
2
2
e−a
2s/2ds, a > 0, (3.6)
onde temos a variável aleatória Z|s ∼ N(0, s) combinada com S ∼ Exp(a2/2). Essa
representação foi exemplificada em Andrews e Mallows (1974) e é exatamente a mistura de
normais na escala obtida a partir do Lasso bayesiano. Desta maneira, o Lasso bayesiano é
uma metodologia de estimação que utiliza distribuições de contração, obtidas via misturas
cont́ınuas, conforme pode ser constatado na equação 3.6.
Note que a representação da distribuição Laplace como uma mistura de normais na
escala exibida na equação 3.6 é facilmente obtida:
23
f(βp|σ2) =
∫ ∞
0
f(βp|σ2, τ 2p )f(τ 2p )dτ 2p
f(βp|σ2) =
∫ ∞
0
1√
2πσ2τ 2p
e
−1
2σ2τ2
i
β2p λ2
2
e
−λ2τ2p
2 dτ 2p (3.7)
f(βp|σ2) =
λ
2
√
σ2
e
−λ|βp|√
σ2
Como os βp’s e τp’s são independentes, a distribuição de β|σ2 é obtida pelo produtório
de cada uma das f(βp|σ2), chegando ao resultado descrito em (3.5).
Para a especificação do modelo hierárquico associado ao Lasso bayesiano, é necessária
a especificação das distribuições a priori associadas aos parâmetros σ2 e λ, presentes na
equação 3.4. Nesta dissertação, utilizaremos a distribuição a priori Inversa Gama para
o parâmetro σ2, como recomendado em Park e Casella (2008).
Sob a perspectiva bayesiana, o parâmetro λ pode ser estimado através do procedi-
mento bayesiano emṕırico ou pelo uso de uma distribuição a priori apropriada. Nesta
dissertação o parâmetro será estimado a partir da especificação de uma distribuição a
priori, embora o procedimento bayesiano emṕırico tenha sido utilizado em trabalhos
anteriores. Park e Casella (2008) consideram o uso de uma distribuição gamma a pri-
ori para λ2, uma vez que a conjugação resultante permite que o amostrador de Gibbs
seja mais facilmente especificado. Deve-se evitar a especificação de prioris vagas, como
(p(λ2) ∝ 1/λ2), uma vez que a distribuição a posteriori resultante será imprópria. O
ideal é que p(λ2) se aproxime de 0 suficientemente rápido quando λ2 → ∞, sendo ao
mesmo tempo relativamente vaga.
Nas aplicações, recomenda-se a padronização da matriz de covariáveis X.
3.2.2 Função de Contração
Para uma melhor compreensão a respeito do método do Lasso, podemos definir uma
quantidade, função dos parâmetros, denomida parâmetro de contração. Este parâmetro,
será representado pela quantidade κi = 1/(1 + τ
2
i ).
Com efeito, suponha que o nosso objetivo seja estimação do seguinte modelo:
24
yi|βi, σ2 ∼ N(βi, σ2) (3.8)
βi|τ 2i , σ2 ∼ N(0, τ 2i σ2)
Quando fixamos a quantidade σ2 = 1, o valor esperado a posteriori do parâmetro βi
fica definido por:
E(βi|yi, τ 2i ) =
1
1 + τ 2i
0 +
τ 2i
1 + τ 2i
yi = (1− κi)yi (3.9)
É importante ressaltar que no modelo proposto em (3.8), para cada observação yi
temos uma estimativa βi associada ao valor. Assim, a quantidade de parâmetros β’s a
serem estimados é exatamente igual ao tamanho da amostra n. Esse caso é diferente do
modelo apresentado na equação 3.4, onde existem variáveis independentes associadas aos
p preditores β’s.
Voltando a Equação 3.9, observamos que o parâmetro de contração κi pode ser inter-
pretado como a quantidade de peso que a média a posteriori de β concentra no ponto 0.
Note que, valores de κi próximos a zero fazem com que a média a posteriori de β seja
o próprio valor observado yi, indicando que não houve contração do parâmetro β. Por
outro lado, valores de κi próximos a um, fazem com que a média a posteriori de β seja
o valor zero, representando a contração total do parâmetro estimado.
Uma vez que a quantidade κi ∈ [0, 1], podemos eliminar a condicionalidade associada
ao parâmetro τ 2i da seguinte forma:
E(βi|y) =
∫ 1
0
(1− κi)yip(κi|y)dκi = [1− E(κi|yi)]y. (3.10)O núcleo da função de densidade do parâmetro κi, associado ao Lasso bayesiano é
apresentada a seguir:
p(κ) ∝ exp
(
−1
2κ
)
κ−2 (3.11)
O cálculo desta função densidade está apresentado no Anexo desta dissertação. O
gráfico desta função de densidade associada ao Lasso bayesinao é apresentado na Figura
3.3:
25
κi
D
en
si
da
de
 a
 m
en
os
 d
e 
co
ns
ta
nt
es
0.0 0.2 0.4 0.6 0.8 1.0
0.
0
0.
5
1.
0
1.
5
2.
0
2.
5
Figura 3.3: Densidade de κi ∈ [0, 1] associado ao método de estimação Lasso bayesiano.
Com a inspeção da função de distribuição a priori do parâmetro de contração κi, é
posśıvel analisar de maneira mais clara como o método faz o discernimento entre as ob-
servações associadas aos rúıdos e aquelas que são associadas a valores espúrios. A Figura
3.3 ilustra a função de densidade do parâmetro de contração para o Lasso bayesiano; é
posśıvel notar que a massa de probabilidade concentrada em torno do valor zero é pe-
quena, isso indica que a probabilidade desse parâmetro de contração ser igual a zero é
pequena. Como vimos anteriormente que a esperança a posteriori de β é igual a (1−κi)yi,
é posśıvel concluir que raramente o Lasso associa ao valor de β o próprio valor observado
yi.
Analisando o comportamento da função de distribuição do parâmetro de contração
onde κi é próximo ao valor um, é posśıvel notar que a distribuição é limitada. Em outras
palavras, a probabilidade do parâmetro κi ser igual a um não é tão alta. Ressaltando
que altas probabilidades de κi = 1 indicam a capacidade de contração do parâmetro β.
Conclúımos que o Lasso possui uma capacidade limitada de contração da estimativa do
parâmetro β.
26
3.2.3 Função de Influência
Outro instrumento que permite um melhor entendimento sobre o comportamento do
Lasso bayesiano como método de estimação de modelos e seleção de preditores, é a função
de influência. Como seu próprio nome sugere, o estudo desta função permite a análise da
maneira como os dados serão tratados pelo método de estimação. Nesta análise, temos
o particular interesse em analisar o comportamento dessa função em valores associados
as observações espúrias.
Um resultado básico e necessário para o cálculo da função de influência foi apresentado
em Pericchi e Smith (1992) e merece ser revisitado:
Suponha que x1, . . . , xn seja uma amostra aleatória de uma distribuição normal com
média β e variância σ2. Logo y =
∑
xi/n ∼ N(β, σ2/n) tem distribuição de densidade
p(y|β). Defina a quantidade m(y), dada por:
m(y) =
∫
p(y − β)π(β)dβ. (3.12)
Este resultado é aplicável para qualquer função de distribuição a priori para o vetor β
que obedeça a condição π(β) ≥ 0 em valores de β pertencentes ao conjunto dos números
reais. Também defina as seguintes quantidades:
s(y) = −∂{log(m(y)}
∂y
e S(y) = −∂{log(s(y)}
∂y
(3.13)
A função de influência é dada pela quantidade s(y). Como dito anteriormente, o
estudo desta função irá auxiliar a compreender a maneira como os dados são tratados
pelo método de estimação.
Com efeito, suponha que y ∼ N(β, 1), com β = 0. Neste caso, é fácil observar que
a função de influência associada a este modelo é dada por s(y) = y. A Figura 3.4, que
será apresentada mais adiante, possui o gráfico relativo a esta função. Sua análise mostra
que valores pequenos, tem uma pequena influência no modelo, ao contrário de valores
grandes, que associam uma grande influência ao modelo, indicando que este modelo não
é robusto com relação as observações espúrias.
27
Pericchi e Smith (1992) mostram que tanto a esperança quanto a variância a posteriori
de β podem ser escritas como função das quantidades apresentadas na equação 3.13,
portanto:
E(β|y) = y + σ
2
n
s(y) e V ar(β|y) = σ
2
n
+
σ2
n2
S(y). (3.14)
Ainda neste estudo, Pericchi e Smith (1992) apresentam os valores das quantidades de
interesse: s(y), a função de influência, e E(β|y), a esperança a posteriori do parâmetro,
quando a distribuição a priori de β é exponencial dupla. Este é exatamente o caso do
método de estimação do Lasso bayesiano, que associa ao parâmetro β a distribuição
exponencial dupla, da seguinte forma:
p(β) =
1√
2σ2
exp
[
− |β|√
σ2
]
.
Essa é a função de distribuição exponencial dupla associada ao Lasso bayesiano quando
λ = 1. Neste contexto, os valores das quantidade de interesse são dados por:
s(y) = − a
σ2
[F (y)−G(y)] onde,
F (y) = exp[c(y)]Φ
[√
(n)
σ
(−y − b)
]
, (3.15)
G(y) = exp[−c(y)]Φ
[
−
√
(n)
σ
(−y + b)
]
,
a = exp[
1
n
] , b =
√
2
n
, c(y) =
√
2y
σ2
Em que Φ(.) denota a função de distribuição acumulada normal padrão. A média a
posteriori de β pode ser obtida a partir da seguinte expressão
E(β|y) = w(y)(y + b) + [1− w(y)](y − b) , onde (3.16)
w(y) =
F (y)
F (y) +G(y)
(3.17)
28
Na Figura 3.4 é posśıvel observar o comportamento da função de influência associada
ao Lasso bayesiano. Tal função tem a caracteŕıstica de truncagem da influência determi-
nadas observações, assim, observações associadas as observações espúrias possuem uma
influência constante na estimação do modelo nesta metodologia. Observe que a com-
paração da função de influência do Lasso bayesiano com a função associada ao modelo
normal, exalta a diferença dos modelos no que diz respeito ao tratamento das observações
espúrias.
29
Y
F
un
çã
o 
de
 In
flu
ên
ci
a
−10 −5 0 5 10
−
2
−
1
0
1
2
Figura 3.4: Funções de influência associadas ao modelo normal e Lasso, linha tracejada
e cheia, respectivamente.
Dentre as vantagens da utilização deste método na estimação de um modelo, citamos
a presença do termo penalizador λ. A restrição imposta por esse termo se mostra como
uma qualidade interessante na proposta de contração das estimativas de β. Tal proce-
dimento só é posśıvel a partir da idéia do Lasso. Comparado com o Ssvs, notamos que
o tempo computacional para a estimação de um mesmo modelo é bem menor. Ainda
verificamos a presença de menos termos de sintonia. Em contrapartida, o ajuste de uma
distribuição a priori adequada para λ2 pode ser uma tarefa delicada, uma vez que é ideal
que essa distribuição não seja muito vaga, para não haver o risco do amostrador de Gibbs
fornecer estimativas imprecisas. Uma desvantagem do método é a sensibilidade associada
a distribuição de λ2.
30
3.3 Mistura de normais na Escala Usando Distri-
buições de Cauchy
A estimação de modelos via mistura na escala de distribuições normais com a distri-
buição de Cauchy é umas das técnicas mais recentemente apresentadas no contexto do
uso de distribuições de contração, obtidas via misturas cont́ınuas. Ressaltando que, mis-
turas cont́ınuas para a obtenção de distribuições de contração também foram utilizadas
para a estimação do modelo pelo Lasso bayesiano.
3.3.1 Formulação Hierárquica do Modelo
O estimador de modelos via mistura na escala de normais com distribuições Cauchy,
será definido daqui em diante como estimador Horseshoe. A estimação do modelo via
Horseshoe é um método eficiente não só de estimação, mas também de seleção de predi-
tores no modelo proposto. Sua metodologia foi proposta em Carvalho et al. (2010). O
método de estimação via Horseshoe assume que cada um dos parâmetros βp’s possuem
distribuições condicionalmente independentes dado λ, o parâmetro de contração global.
Dessa maneira, o modelo de estimação é definido com a seguinte mistura na escala de
normais:
y|X,β, τ, λ, σ2 ∼ Nn(Xβ, σ2In)
βp|τp ∼ N(0, τ 2p ) (3.18)
τp|λ ∼ C+(0, λ)
λ|σ ∼ C+(0, σ)
onde C+(0, a) é uma distribuição Cauchy padrão truncada nos reais positivos, com
parâmetro de escala a.
As quantidades τp’s podem ser interpretadas como parâmetros de contração local,
no sentido de estarem associadas a cada βp.Observe que na estrutura hierárquica im-
posta pelo método de estimação via Horseshoe, só precisamos fixar os valores dos hi-
31
perparâmetros associados a variância do modelo, σ2. Os demais parâmetros são devida-
mente estimados a partir da estrutura hierárquica imposta. A distribuição a priori para
o parâmetro de variância σ2 será a priori de Jeffrey’s. Assim p(σ2) ∝ 1/σ2, tendo sua
distribuição relativamente vaga e permitindo que os dados tenham maior influência na
distribuição a posteriori do parâmetro de variância.
O estimador Horseshoe tem a liberdade de fazer a contração dos elementos de βp de
maneira global, através do parâmetro λ, e de maneira local através das quantidades τp.
O parâmetro λ estima o ńıvel de esparsidade associado ao vetor paramétrico, enquanto
que os parâmetros de contração locais são capazes de reduzir os valores associados ao
vetor paramátrico β. Essa caracteŕıstica é uma vantagem do método Horseshoe quando
comparado aos demais métodos de seleção de preditores, já que nenhum outro tem essa
mesma capacidade.
A Figura 3.5 ilustra o comportamento da distribuição a priori para o parâmetro β.
Tal distribuição é obtida a partir da mistura no parâmetro de escala da distribuição
normal associada a β|τ , com a distribuição Cauchy truncada nos valores reais positivos.
A função de distribuição para o parâmetro β é limitada da seguinte maneira:
(2π2)−1/2
2
log
(
1 +
4
β2
)
< p(β) < (2π2)(−1/2)log
(
1 +
2
β2
)
,
conforme demonstrado em Carvalho et al. (2010).
32
β
D
en
si
da
de
−3 −2 −1 0 1 2 3
0.
0
0.
1
0.
2
0.
3
0.
4
0.
5
(a)
β
D
en
si
da
de
3 4 5 6 7
0.
00
0.
01
0.
02
0.
03
0.
04
(b)
Figura 3.5: Comparação entre as distribuição a priori para β. As linhas tracejada e cheia
representam a distribuição associada ao método Lasso e Horseshoe, respectivamente.
A Figura 3.5 ilustra o comportamento das distribuições a priori associadas aos métodos
de estimação de modelo Horseshoe e Lasso. Podemos observar no gráfico 3.5(a) que a
distribuição Horseshoe possui um alongamento nos valores onde β é próximo de zero. Tal
comportamento é a chave para a boa performance do método de estimação com relação
aos rúıdos associados ao vetor paramétrico β. Este comportamento é menos percebido
quando estamos analisando a distribuição exponencial dupla, associada ao método de
estimação via Lasso bayesiano. Na Figura 3.5(b) podemos observar que a distribuição
Horseshoe apresenta sua cauda mais pesada, quando comparada com a cauda da distri-
buição exponencial dupla. É exatamente essa caracteŕıstica das caudas pesadas, que faz
com que o método de estimação através do Horseshoe lide melhor com os valores espúrios
associados ao modelo.
3.3.2 Função de Contração
Na seção 3.2.2 foi apresentado o parâmetro de contração, definido pela quantidade
κi = 1/(1 + τ
2
i ). A função deste parâmetro associa uma regra de contração local ao
33
método de estimação de modelo em análise, uma vez que o parâmetro τi está diretamente
relacionado com a variabilidade a priori do vetor paramétrico β.
Assim como feito no Lasso bayesiano, para o método de estimação pelo Horseshoe
também calculamos a função de densidade do parâmetro de contração. O cálculo desta
função é apresentado no Anexo deste trabalho. A função de distribuição do parâmetro
κ é dada pela seguinte expressão:
p(κ) ∝ (κ)−0.5(1− κ)−0.5 (3.19)
A Figura a seguir ilustra o comportamento da função de distribuição do parâmetro
de contração associado ao método de estimação de modelo via Horseshoe:
34
κ
D
en
si
da
de
0.0 0.2 0.4 0.6 0.8 1.0
0
0.
5
1
1.
5
2
2.
5
Figura 3.6: Densidade de κi ∈ [0, 1] associado ao método horseshoe para a estimação.
Diferentemente da função de contração associada ao método de estimação pelo Lasso
bayesiano, neste caso observamos que a densidade da função p(κi) é ilimitada em valores
de κi próximos a 0 e 1, indicando que probabilidades elevadas são associadas a κi ≈ 0 e
1.
Devemos relembrar que o parâmetro de contração pode ser interpretado como a quan-
tidade de peso que a média a posteriori de β concentra no ponto 0. Além disso, como
vimos anteriormente que E(β|y) = (1−κi)yi, então, valores de κi próximos a zero, fazem
com que esta média a posteriori seja igual ao próprio valor observado yi, indicando que
não houve a contração do parâmetro β. Enquanto que valores de κi próximos a um,
fazem com que a média a posteriori do parâmetro β seja o valor zero, indicando a total
contração do parâmetro estimado.
A fato da função de contração associada ao método de estimação via Horseshoe ser
ilimitada em valores de κi ≈ 0, indica a alta probabilidade do parâmetro κi ser igual a
zero. Isso sugere que na estimação do modelo pelo método Horseshoe, a capacidade que o
modelo tem de avaliar a importância da observação, sem fazer a contração do parâmetro
relacionado a esta observação, é elevada. Assim, o método Horseshoe de estimação capta
35
bem as observações importantes do modelo, e não contráı desnecessariamente o parâmetro
associado a esta observação.
A análise do comportamento da função de contração em valores de κi próximos a
um, indica que há uma probabilidade alta associada a chance do parâmetro κi = 1.
Relembrando que, quando o parâmetro de contração é igual a um, então a esperança a
posteriori de β será igual a zero. Portanto, o fato da função de contração ser ilimitada
em valores próximos a um, indica que o método de estimação via Horseshoe possui uma
grande capacidade de contrair a estimativa do parâmetro β.
3.3.3 Função de Influência
Também podemos analisar o comportamento da função de influência. A função de
influência foi um conceito introduzido anteriormente e seu estudo permite compreen-
der melhor como o método de estimação irá tratar os dados. O estudo dessa função é
particularmente interessante para o dados associados a rúıdos e valores espúrios.
A média a posteriori do parâmetro β é dada por:
E(β|y) = y
[
1− 2Φ(1/2, 1, 3/2, y
2/2, 1− 1/τ 2)
3Φ(1/2, 1, 5/2, y2/2, 1− 1/τ 2)
]
, (3.20)
onde Φ(α, β, γ, x, y) é a função hipergeométrica degenerada de duas variáveis. A
obtenção do valor da média a posteriori do parâmetrico β é apresentada de maneira
detalhada em Carvalho et al. (2010).
A função de influência para o modelo Horseshoe foi calculada a partir da média a
posteriori apresentada anteriormente, e seu gráfico é exibido na Figura a seguir:
36
Figura 3.7: Função de Influência para o modelo Horseshoe.
O comportamento da função de influência associada ao método de estimação pelo
Horseshoe é apresentada na Figura 3.7. Podemos observar que esta função de influência
rendescende para o valor zero. Este comportamento indica que este método de estimação
tem a capacidade de diminuir a influência dos valores espúrios associados ao modelo.
Ainda na Figura 3.7, a linha tracejada apresenta a função de influência associada ao
modelo normal. É posśıvel notar que a influência da observação no modelo é seu próprio
valor observado. Enquanto que a função de influência associada ao método de estimação
do Lasso bayesiano, tende a fixar o valores da influência a partir de um determinado valor
constante observado. Carvalho et al. (2010) ressaltam que nenhum método de estimação
conhecido, tem a capacidade de reduzir a influência de observações associadas a valores
espúrios no modelo, assim como o Horseshoe faz. Portanto, essa caracteŕıstica é uma
grande vantagem deste método de estimação.
Dentre as principais vantagens associadas a este método, podemos citar que a im-
plementação do método Horseshoe para a estimação de um modelo, não exige que hi-
37
perparâmetros sejam ajustados.Diferentemente do Lasso e do método Ssvs, que podem
ter suas estimativas severamente comprometidas caso seus hiperparâmetros sejam mal
ajustados, o Horseshoe não corre esse risco.
Além disso, o método Horseshoe apresenta grandes vantagens teóricas quando compa-
rado diretamente com o Lasso. A distribuição a priori de β possui caudas bem pesadas,
que permitem um tratamento mais apropriado as posśıveis observações espúrias associa-
das ao modelo.
Uma análise com foco no contexto de seleção de preditores nos mostra que este método
também possui propriedades mais desejáveis, visto que ele possui uma capacidade mais
apurada de encolher os valores estimados de β. A contração total de valores associados
ao rúıdo é a palavra-chave no contexto de seleção de preditores, já que esta caracteŕıstica
é a que permite a redução da dimensão do vetor paramétrico β.
38
Caṕıtulo 4
Critérios de Seleção de Modelos
No caṕıtulo 3 foram apresentados métodos distintos que estimam e selecionam de
maneira eficiente os parâmetros para um modelo linear. Porém, a utilização de distintas
técnicas para a estimação de um mesmo modelo, acaba por gerar dúvidas sobre qual
deles obteve o melhor desempenho, e consequentemente, qual a técnica de estimação é a
mais adequada para a estimação. Neste contexto, insere-se a aplicação de critérios para
seleção de modelos, baseados em medidas que tentam quantificar sua qualidade de ajuste
e aplicam alguma penalidade a modelos complexos, com muitos parâmetros, apontando
para a escolha daqueles que sejam mais parcimoniosos.
Apresentaremos a seguir critérios para a seleção de modelos baseados no cálculo da
verossimilhança marginal, como o fator de Bayes. Também utilizaremos o critério de
informação baseado no desvio; adicionalmente, apresentaremos uma proposta baseada na
função de perda canônica. Finalmente, apresentaremos os critérios baseados em função
de perda quadrática e valor absoluto.
39
4.1 Critérios Baseados na Função de Verossimilhança
Marginal
4.1.1 Fator de Bayes
O fator de bayes é um critério que se baseia na comparação de modelos via função
de verossimilhança marginal. Seguindo a definição de Kass e Raftery (1995), os dados
y são melhores representados sob determinadas especificações, que aqui serão represen-
tadas pelas hipóteses H0 e H1, desta maneira, a função de verossimilhança marginal é
representada pela densidade p(y|H0) ou p(y|H1). Sabemos pelo teorema de bayes, que:
p(Hk|y) =
p(y|Hk)p(Hk)
p(y|H0)p(H0) + p(y|H1)p(H1)
, k = 0, 1. (4.1)
As densidades p(H0) e p(H1) são as distribuições a priori de cada uma das hipóteses.
A partir da equação 4.1, as seguintes relações são obtidas:
(i) FB(H1, H0) =
p(y|H1)
p(y|H0)
.
(ii)
p(H1|y)
p(H0|y)
=
p(y|H1)p(H1)
p(y|H0)p(H0)
, isto é, a razão de chances a posteriori é igual a razão de
chances a priori versus o fator de Bayes.
Analisando a igualdade apresentada em (i), é posśıvel concluir que, quando as hipóteses
H0 e H1 são igualmente prováveis a priori, teremos p(H0) = p(H1) = 0.5. Desta maneira,
o fator de bayes será igual a razão de chances a posteriori contra a hipótese H0. Além
disso, sabemos que p(H0|y) = 1− p(H1|y), então, uma nova relação, baseada no fator de
bayes, é obtida:
p(H1|y) =
FB(H1, H0)
1 + FB(H1, H0)
(4.2)
Portanto, a partir da equação 4.2, é posśıvel obter a probabilidade da hipótese H1 ser
a especificação adequada para os dados y.
40
Nos casos em que θ é um vetor paramétrico, o fator de bayes ainda será a razão das
verossimilhanças, porém, a função p(y|H) será obtida através da integração no espaço
paramétrico, desta maneira:
p(y|Hk) =
∫
p(y|θk, Hk)π(θk|Hk)dθk, (4.3)
onde θk é o vetor que contempla todos os parâmetros envolvidos na hipótese Hk.
Quando utilizamos métodos MCMC para a estimação dos parâmetros, algumas alter-
nativas podem ser utilizadas para estimar a equação 4.3. Algumas delas são a média
harmônica e a verossimilhança ponderada calculada via Bootstrap, ambas porpostas por
Newton e Raftery (1994), além da média harmônica generalizada apresentada por Gel-
fand e Dey (1993). Nesta dissertação utilizaremos as médias harmônicas para a estimação
dessa equação. Tais métodos serão apresentados mais a frente.
Com base na proposta de Jeffreys (1961), Kass e Raftery (1995) sugerem a seguinte
interpretação para o fator de bayes:
Tabela 4.1: Interpretação do fator de Bayes
FB(H1, H0) p(H1|y) Evidência contra H0
1 a 3 0.5 a 0.75 Nenhuma Evidência
3 a 20 0.75 a 0.95 Postiva
20 a 150 0.95 a 0.99 Forte
> 150 > 0.99 Muito Forte
A seguir, discutiremos alternativas para a obtenção da equação 4.3.
Média Harmônica
O estimador da média harmônica foi apresentado por Newton e Raftery (1994) e é
obtido através da seguinte expressão:
41
p̂mh(y) =
[
1
G
G∑
g=1
1
f(y|θ(g))
]−1
, (4.4)
onde θ(g) é o vetor paramétrico simulado da distribuição a posteriori, obtido na g-
ésima iteração do método MCMC.
Uma das vantagens do estimador da média harmônica é a facilidade com a qual ele
pode ser obtido: só precisamos conhecer a função verossimilhança associada ao modelo e
obter os valores simulados pelas G iterações do MCMC. Por outro lado, uma desvanta-
gem associada ao estimador é sua instabilidade, uma vez que é senśıvel a valores muito
pequenos da função de verossimilhança.
Média Harmônica Generalizada
O estimador da média harmônica generalizada foi proposto por Gelfand e Dey (1993)
e é uma extensão do estimador da média harmônica. Seu valor é obtido por:
p̂mhg(y) ==
[
1
G
G∑
g=1
g(θ(g))
f(y|θ(g))f(θ(g))
]−1
, (4.5)
onde g(θ(g)) é uma função de importância que deve ser escolhida cuidadosamente. Nt-
zoufras (2009) pondera que uma uma distribuição normal p-variada ou uma distribuição
t-student p-variada, com média e variância iguais as médias e variâncias a posteriori
estimadas pelo MCMC usualmente fornecem um bom estimador da média harmônica
generalizada.
Para esta dissertação, a função de importância g(θ(g)) é distribuição t-student p-
variada com poucos graus de liberdade, com média e variância iguais as médias e variâncias
estimadas a posteriori.
4.1.2 Escores Logaŕıtmicos
O escore logaŕıtmico é um critério de seleção de modelo que é facilmente obtido através
das sáıdas do MCMC. Seu valor é calculado a partir de regras de escore estritamente
42
próprias, como descrito em Gneiting e Raftery (2004). Eles consideram regras escore para
obter bondades de ajuste que num contexto bayesiano estão relacionadas com particulares
funções de utilidades.
Assuma que o escore médio seja dado por:
Sn(θ) =
1
n
n∑
i=1
S(p(y|θ)), (4.6)
onde S(.) é uma regra escore própria, assim, o maior escore será obtido para o
verdadeiro modelo. Gneiting e Raftery (2004) apresentam o escore logaŕıtmico, que é
dado por:
S(p(y|θ)) = log[p(yrep = yi|y)],
onde p(yrep = yi|y) denota a função de densidade preditiva a posteriori no ponto yrep = yi
para o modelo que está sendo avaliado. Quando a amostra das iterações obtidas via
MCMC para o vetor paramétrico θ está dispońıvel, uma aproximação para a quantidade
log[p(yrep = yi|y)] para a i-ésima observação pode ser obtida:
ˆlog[p(yrep = yi|y)] =
1
G
G∑
g=1
log[p(yi|θ̂
(g)
)], (4.7)
no qual θ(g) é a g-ésima sáıda do MCMC para o vetor paramétrico.
Maiores valores de escores logaŕıtmicos indicam um melhor ajuste do modelo.
4.2 Critério de Informação Baseado no Desvio - DIC
O critério DIC (Deviance Information Criterion) foi apresentado por Spiegelhalter
et al. (2002) como uma medida de adequalibilidade e comparação de modelos. O DIC é
dado pela seguinte expressão:
DIC = D̄ + pD, (4.8)
43
onde D̄ é a deviance, que é dada por: D̄ = 1
G
∑G
g=1−2logL(θ(g)), sendo que G é a
quantidade de amostras

Continue navegando