Buscar

Markov Chain 3

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 12 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 12 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 12 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Caṕıtulo 3
Modelos Ocultos de Markov
As ráızes da teoria dos Modelos Ocultos de Markov pode ser rastreada até a década de 1950, quando
os estat́ısticos estavam estudando o problema de caracterizar processos aleatórios para os quais somente
observações incompletas estavam dispońıveis. Isto levou à descoberta do algoritmo EM, que é um
algoritmo de finalidade geral para encontrar o estimador de máxima verossimilhança em uma ampla
variedade de situações, conhecidos como problemas de dados incompletos.
No final dos anos 1960 e ińıcio dos anos 1970, Leonard Esau Baum e seus colegas trabalharam com
um tipo especial de funções probabiĺısticas de Cadeias de Markov, mais tarde conhecidos como Modelos
Ocultos de Markov. Como um resultado disso, o algoritmo Baum-Welch de estimação de parâmetros
dos Modelos Ocultos de Markov foi revelado em uma série de artigos. Este algoritmo pode ser visto
como uma versão inicial do algoritmo EM e ainda é a base de algoritmos de estimação utilizados nas
aplicações destes modelos.
Um Modelo Oculto de Markov é um processo duplamente estocástico com um processo estocástico
subjacente que não é diretamente observável, ou seja, é escondido o qual somente pode ser observado
através de outro processo estocástico que produz a sequência de observações.
O leitor encontrará aqui um material no qual os temas abordados são bastante convencionais, dis-
cussões e tópicos especiais não são inclúıdos. O objetivo aqui é fornecer alguma motivação e saber geral
dos problemas nesta área, uma vez que para um tratamento rigoroso seria necessário um ńıvel muito
mais elevado de formação matemática do que a exigida.
O auxilio computacional é baseado na linguagem de programação R Core Team (2014). Pacotes
de funções como HiddenMarkov (version 1.8-4), depmixS4 (version 1.3-3), hmm.discnp (version 0.2-4),
hsmm (version 0.4) e mhsmm (version 0.4.14) serão utilizados na solução de problemas; ainda contamos
com o apoio parcial de Modelos Copulas sendo esta uma área em desenvolvimento.
3.1 Introdução
Cadeias de Markov são modelos nos quais a cada estado corresponde um evento observável. Estes
modelos são demasiado restritivos para serem aplicáveis a muitos problemas de interesse. Nesta seção
vamos estender este conceito para incluir o caso em que a observação é uma função probabiĺıstica dos
estados, ou seja, o modelo resultante, chamado de Modelo Oculto de Markov, é um processo estocástico
duplo incorporando um processo estocástico subjacente que não é observável, o qual somente pode ser
observado através de um outro processo estocástico que produz a sequência de observações.
No sentido mais amplo da palavra, um Modelo Oculto de Markov é um processo de Markov que é
dividido em dois componentes: um componente observável e um componente não observável ou escon-
dido. Ou seja, um Modelo Oculto de Markov é um processo de Markov {Ct, Xt}t∈N no espaço de estados
E × F , onde supomos que temos um meio de observar Xt mas não Ct.
123
124 CAPÍTULO 3. MODELOS OCULTOS DE MARKOV
Estes modelos aparecem numa grande variedade de aplicações. Podemos distinguir duas classes
principais de aplicações. Por um lado, estes modelos descrevem um ambiente onde um sistema estocástico
é observado através de medições ruidosos. Por exemplo, na teoria de comunicações, pode-se pensar em
Ct como um sinal aleatório para ser transmitido através de um canal de comunicações. Como o canal
é barulhento, o receptor observa uma versão corrompida Xt do sinal original e queremos reconstruir o
sinal original a partir das observações ruidosos.
Por outro lado, pode ser que o processo Xt seja de interesse, enquanto que o Ct representa a influência
sobre Xt de determinados fatores externos não observáveis. Por exemplo, pode-se pensar em Xt como
o preço de mercado de ações, onde Xt é um processo contendo fatores econômicos não observados que
influenciam as flutuações do preço das ações. Estamos interessados em última análise, na modelagem
das flutuações observadas dos preços de ações e não no processo não observável, mas ao incluir este
último pode-se muito bem ser capaz de construir um modelo que reflete mais fielmente as propriedades
estat́ısticas dos preços das ações observadas. Deve notar-se que, mesmo que {Ct, Xt}t∈N seja tipicamente
Markoviano, a componente observadaXt não o será. Modelos Ocultos de Markov podem assim ser usados
para modelar o comportamento não-Markov (por exemplo, do preço das ações), mantendo muitas das
vantagens matemáticas e computacionais dos processos de Markov.
Exemplo 3.1
Modelo para o lançamento de moedas: Assuma o seguinte cenário. Você está em um quarto com
uma barreira (por exemplo, uma cortina) através da qual você não pode ver o que está acontecendo.
Por outro lado da barreira há uma outra pessoa que está a efetuando o experimento de arremesso de
uma moeda (ou diversas moedas). A outra pessoa não lhe disse nada sobre o que ela está fazendo
exatamente; ela só irá dizer-lhe o resultado de cada lançamento da moeda.
Assim, uma vez realizada uma sequência do experimento, a observação consiste em uma série de
resultados cara e coroa; por exemplo, uma sequência de observações t́ıpicas seria
X1, X2, · · · , XT ,
onde cada Xt = cara ou Xt = coroa segundo o resultado do experimento, t = 1, 2, · · · , T .
Dado o cenário acima, o problema de interesse é saber como vamos construir um Modelo Oculto de
Markov para explicar a sequência observada de caras e coroas. O primeiro problema a ser enfrentado
é decidir o que significam os estados no modelo e, em seguida, decidir quantos estados deve ter o
modelo.
Uma posśıvel opção seria a de assumir que apenas uma única moeda viciada estava sendo jogada.
Esta seria a situação de um modelo com 2 estados onde cada estado corresponde a um lado da
moeda, ou seja, cara ou coroa. Neste caso, o modelo de Markov é observável e o único problema
para a especificação completa do modelo seria o de decidir sobre o melhor valor para o viés, ou
seja, a probabilidade de obtermos, digamos, coroas. Curiosamente, um Modelo Oculto de Markov
equivalente seria um modelo de 1 estado onde o estado corresponde à única moeda tendenciosa e o
parâmetro desconhecido é o viés da moeda.
Uma segunda forma de Modelo Oculto de Markov para explicar a sequência observada dos resul-
tados do sorteio da moeda seria o caso de assumirmos existirem 2 estados no modelo e cada estado
corresponde a uma diferente e tendenciosa moeda atiradas. Cada estado é caracterizado por uma
distribuição de probabilidade de caras e coroas e as transições entre estados são caracterizadas por
uma matriz de transição de estados. O mecanismo f́ısico que representa como as transições de esta-
dos são selecionadas poderia ser ele próprio um conjunto de lançamentos de moeda independentes
ou algum outro evento probabiĺıstico. Uma terceira forma para explicar a sequência observada dos
resultados sorteio seria um modelo supondo a utilização de 3 moedas tendenciosas e escolher de entre
as três, com base em algum evento probabiĺıstico.
Uma pergunta natural seria: qual o modelo que melhor corresponde às observações reais? Deve
3.2. DEFINIÇÃO E EXEMPLOS 125
ficar claro que o modelo com uma moeda é simples e tem apenas um parâmetro desconhecido,
o modelo com duas moedas tem 4 parâmetros desconhecidos e o modelo com 3 moedas tem 9
parâmetros desconhecidos. Assim, com os maiores graus de liberdade, as maiores HMM do que
parece ser inerentemente mais capazes de modelar uma série de experimentos moeda lançando do que
modelos equivalentemente menores. Embora este seja teoricamente verdade, veremos mais adiante
neste artigo que considerações práticas impor algumas limitações fortes sobre o tamanho dos modelos
que podemos considerar. Além disso, ela só poderia ser nesse caso que somente uma única moeda
está sendojogada. Em seguida, usando o modelo 3-coin seria inadequada, uma vez que o evento
f́ısico real não corresponderia ao bein modelo utilizado, ou seja, nós estaŕıamos usando uma sub
sistema especificado.
Este livro é uma introdução a alguns dos métodos matemáticos, estat́ısticos e computacionais básicos
para Modelos Ocultos de Markov. Para definir o cenário para o resto do livro, vamos descrever nas
próximas duas seções uma série de exemplos representativos destes modelos em aplicações tomadas a
partir de uma variedade de campos e vamos apresentar questões básicas que serão abordadas no restante
do livro. Antes de fazer isso, porém, temos de dar uma definição precisa da classe de modelos que iremos
considerar.
3.2 Definição e exemplos
Modelos de Markov sõ uma abstração poderosa para determinados dados mas não conseguem captar
um cenário muito comum. Como podemos raciocinar sobre uma série de dados nos quais não possamos
observar os próprios estados, mas apenas alguma função probabiĺıstica desses estados?
Exemplo 3.2
Imagine que você seja um climatologista no ano de 2799 estudando a história do aquecimento global.
Acontece que você não consegue encontrar registros do clima em Curitiba, mas encontra um diário no
qual assiduamente foi registrado quanto sorvete o autor comeu cada dia. O que você pode descobrir
a partir desta observação sobre o tempo no verão?
Modelos Ocultos de Markov podem ser utilizados para explorar este cenário. Observe que neste
exemplo nós não comçamos a observar a sequência real dos estados (o tempo em cada dia). Em vez
disso, somente podemos observar algum resultado gerado por cada estado (quantos sorvetes foram
consumidos em cada data registrada).
Aqui e em grande parte da literatura, o termo Modelo Oculto de Markov é utilizado para designar
um processo de Markov {Ct, Xt}t∈N com duas restriçõs essenciais:
(a) O processo {Ct}t∈N é uma Cadeia de Markov;
(b) A observação Xt é somente uma função rúıdo que depende de Ct, t ∈ N.
Como veremos nesta seção, há uma grande variedade de aplicações que cabem dentro deste quadro.
126 CAPÍTULO 3. MODELOS OCULTOS DE MARKOV
Definição 3.1
Um Modelo Oculto de Markov é uma tŕıplice paramétrica {P,Ct, Xt}t∈N com a carcateŕıstica de ser
um tipo particular de mistura dependente. Com {Ct} e {Xt} representando as histórias nos tempos
desde 0 (tempo inicial) a T . Pode-se resumir o modelo como:
P (Ct|C1, · · · , Ct−1) = P (Ct|Ct−1), para t = 1, 2, 3, · · ·
e
P (Xt|X1, · · · , Xt−1, C1, · · · , Ct) = P (Xt|Ct), t ∈ N·
O modelo consiste em duas partes: primeiro um processo paramétrico não observado {Ct}t=0,1,2,·
satisfazendo a propriedade de Markov e, em segundo lugar, um processo {Xt}t=0,1,2,··· dependente do
estado de tal forma que, quando Ct é conhecido, a distribuição de Xt, depende apenas do estado atual
Ct e não dos estados ou observações anteriores.
Esta estrutura é representada pela Figura 3.1. Se a Cadeia de Markov Ct tiver m estados, chamamos
{Ct, Xt} um Modelo Oculto de Markov com m estados. Embora esta seja a terminologia habitual em
diversas aplicações, o nome de Modelo Oculto de Markov não foi o único utilizado para tais modelos,
outros foram modelos Markov dependentes mistos, modelos mistos de Markov, etc.
Figura 3.1: Grafo de um Modelo Oculto de Markov.
Segundo este modelo, o processo gerador das observações é demonstrado na Figura 3.2, retirada
do livro de Zucchini & MacDonald (2009). Neste exemplo a distribuição estacionária da Cadeia de
Markov Ct é δ = (0.75, 0.25), as funções de probabilidade ou densidade p1 e p2 dependentes do estado
apresentam-se com o subt́ıtulo ”state-dependent distribution”e a matriz de transição de probabilidades
é
P =
( state 1 state 2
state 1 0.9 0.1
state 2 0.3 0.7
)
· (3.1)
Aqui a distribuição de Ct, o estado no instante de tempo t, depende de Ct−1. Há para cada estado
uma distribuição diferente, discreta ou cont́ınua.
A Figura 3.2 representa o processo gerador das observações de um Modelo Oculto de Markov com
dois estados. Observemos, a esquerda, que a Cadeia de Markov assume os valores 2, 1, 1, 1, 2, 1.
As distribuições de estado dependentes são mostradas no meio da figura e, a direita, mostramos as
observações geradas das correspondentes distribuições.
3.3. PROPRIEDADES BÁSICAS 127
Vamos introduzir uma notação suficiente para as duas situações: o caso discreto e o cont́ınuo. No
caso de observaçẽs discretas, definimos para i = 1, 2, · · · ,m
pi(x) = P (Xt = x|Ct = i)·
Isto é, pi é a função de probabilidade de Xt se a Cadeia de Markov está no estado i no instante de
tempo t. O caso cont́ınuo é tratado de maneira similar, pi representa a função de densidade de Xt se a
Cadeia de Markov estiver no estado i no instante de tempo t.
Figura 3.2: Ilustração do processo gerador de um Modelo Oculto de Markov com dois estados. A Cadeia
de Markov Ct seguiu o caminho 2, 1, 1, 1, 2, 1 como indicado à esquerda. No meio, as distribuições
dependentes do estado correspondentes e as observações geradas, a partir destas distribuições, mostradas
à direita.
Nos referiremos às m funções de probabilidade ou de densidade pi como as distribuições estado-
dependentes do modelo (state-dependent distributions).
3.3 Propriedades básicas
Esta seção dedica-se ao estudo de três caracteŕısticas importantes das Cadeias de Markov: a função de
transição, a distribuição inicial e a matriz de transição. Toda vez que lidemos com situações que possam
ser modeladas desta maneira, estaremos interessados em identificar estas caracteŕısticas. Mais ainda,
estas caracteŕısticas serão importantes para encontrar propriedades das Cadeias de Markov.
128 CAPÍTULO 3. MODELOS OCULTOS DE MARKOV
Os exemplos acima nos dão uma boa idéia do que como Modelo Oculto de Markov é e como ele pode
ser aplicado a alguns cenários simples. Vamos agora definir formalmente os elementos deste modelos.
Exemplo 3.3 (Continuação do Exemplo 3.2)
Um Modelo Oculto de Markov pode ser utilizado para explorar este cenário. A sequência real dos
estados, o tempo em cada dia, não pode ser observada. Em vez disso, somente podemos observar
algum resultado gerado por cada estado, por exemplo, quantos sorvetes foram consumidos naqueles
dias.
Imagine que você tem registrado o consumo de sorvetes ao longo de um peŕıodo de quatro dias:
X1 = s3, X2 = s2, X3 = s1, X4 = s2
onde nosso alfabeto apenas codifica o número de sorvetes consumidos, isto é,
s1 = 1 sorvete, s2 = 2 sorvetes, s3 = 3 sorvetes·
Quais perguntas pode um Modelo Oculto de Markov responder?
3.3.1 Três perguntas num Modelo Oculto de Markov
Há três questões fundamentais que podeŕıamos perguntar num Modelo Oculto de Markov. Qual é a
probabilidade de observar uma determinada sequência? no Exemplo 3.3 qual seria a probabilidade
de obtermos 3, 2, 1, 2 sorvetes consumidos? Qual é a série mais provável de estados para gerar as
observações, no exemplo seria perguntar qual era o tempo nesses quatro dias? e, por último, como
podemos estimar os parâmetros do Modelo Oculto de Markov com alguns dados?
Problema No.1
Qual é a probabilidade de observar uma determinada sequência? Podemos formular em termos ma-
temáticos a pergunta da seguinte maneira: dada uma sequência X1, X2, · · · , XT observada e um mo-
delo, como é que vamos calcular de forma eficiente a probabilidade de observarmos a sequência dado o
modelo?
Este é o problema de avaliação, ou seja, dado um modelo e uma sequência de observações, como
podemos calcular a probabilidade de que a sequência observada foi produzida pelo modelo? Podemos
também ver este problema como uma avaliação de um determinado modelo, isto é, quão bem um
determinado modelo corresponde a uma determinada sequência de observações? O ponto de vista, mais
tarde, é extremamente útil. Por exemplo, se considerarmos o caso em que estamos a tentar escolher entre
váriosmodelos concorrentes, a solução para o Problema 1 nos permite escolher o modelo que melhor
corresponda às observações.
Problema No.2
Dada a sequência da observações e o modelo, como é que vamos escolher uma sequência correspondente de
estado que seja ótima em um determinado sentido significativo, isto é, que melhor explica as observações?
Este problema é aquele no qual tentamos descobrir a parte oculta do modelo, ou seja, queremos
encontrar a sequência de estados correta. Deve ficar claro que para todos, a menos o caso de modelos
degeneradas, não há nenhuma sequência de estados correta para ser encontrada. Dáı para situações
práticas, geralmente usamos um critério de otimização para resolver este problema da melhor forma
posśıvel.
3.3. PROPRIEDADES BÁSICAS 129
Infelizmente, como veremos, há vários critérios de optimização razoáveis que podem ser impostos e,
portanto, a escolha do critério depende muito do uso pretendido para a sequência de estados descoberta.
Os usos t́ıpicos podem ser: aprender sobre a estrutura do modelo, para encontrar sequências de estados
ideais, para o reconhecimento de fala cont́ınua ou para obter estat́ıstica de estados individuais, etc.
Problema No.3
Como vamos estimar os parâmetros do modelo escolhido?
3.3.2 Distribuições marginais
Muitas vezes vamos precisar da distribuição de Xt e também de distribuições marginais de ordem alto,
como a de (Xt, Xt+k). Vamos obter o resultado para o caso em que a Cadeia de Markov é homogênea,
mas não necessariamente estacionária e, em seguida, o caso especial em que a Cadeia de Markov é
estacionária. Por conveniência os resultados são apresentados apenas para distribuições discretas; o
caso cont́ınuo pode ser desenvolvido de forma análoga.
Distribuições univariadas
Para o caso de variáveis discretas Xt, definamos ui(t) = P (Ct = i), para t = 1, · · · , T temos que
P (Xt = x) =
m∑
i=1
P (Ct = i)P (Xt = x|Ct = i)
=
m∑
i=1
ui(t)pi(x)·
Esta expressção pode ser convenientemente reescrita, em notação matricial como
P (Xy = x) =
(
u1(t), · · · , um(t)
)p1(x) · · · 0· · · . . . · · ·
0 · · · pm(x)

 1. . .
1

= uuu(t)P(x)111⊤,
onde P(x) é definida como uma matriz diagonal com i-ésimo elemento diagonal pi(x). Segue que
uuu(t) = uuu(1)Γt−1 e, portanto, que
P (Xt = x) = uuu(1)Γ
t−1P(x)111⊤·
Esta equação é válida se a Cadeia de Markov é homogênea mas não necessariamente estacionária. Se,
como veremos muitas vezes assumir, a Cadeia de Markov é estacionária, com distribuição estacionária
δ, então o resultado é mais simples: neste caso δΓt−1 = δ para todo t ∈ N e então
P (Xt = x) = δP(x)111⊤·
Distribuições bivariadas
O cálculo de muitas das distribuições relativas a um Modelo Oculto de Markov é mais facilmente reali-
zado, a prinćıpio, observando que a distribuição conjunta de um conjunto de variáveis aleatórias Vi, em
qualquer modelo gráfico, é dada por
P (V1, V2, · · · , Vn) =
n∏
i=1
P (Vi|pa(Vi)),
130 CAPÍTULO 3. MODELOS OCULTOS DE MARKOV
onde pa(Vi) denota todos os parentes de Vi no conjunto V1, V2, · · · , Vn.
Examinado o gráfico das quatro variáveis aleatórias Xt, Xt+k, Ct, Ct+k para k um inteiro positivo,
vemos que pa(Ct) é vazio, pa(Xt) = {Ct}, pa(Ct+k) = {Ct} e que pa(Xt+k) = {Ct+k}. Resulta, portanto,
que
P (Xt, Xt+k, Ct, Ct+k) = P (Ct)P (Xt|Ct)P (Ct+k|Ct)P (Xt+k|Ct+k),
e, como consequência,
P (Xt = v,Xt+k = w) =
m∑
i=1
m∑
j=1
P (Xt = v,Xt+k = w|Ct = i, Ct+k = j)
=
m∑
i=1
m∑
j=1
P (Ct = i)︸ ︷︷ ︸
ui(t)
pi(v)P (Ct+k = j|Ct = i)︸ ︷︷ ︸
γij(k)
pj(w)
=
m∑
i=1
m∑
j=1
ui(t)pi(v)γij(k)pj(w)·
Escrevendo o casal de somas acima, como um produto de matrizes, produz o resultado
P (Xt = v,Xt+k = w) = uuu(t)P(v)ΓkP(w)111⊤·
Caso a Cadeia de Markov seja estacionária, isto se reduz a
P (Xt = v,Xt+k = w) = δP(v)ΓkP(w)111⊤·
Da mesma forma pode-se obter expressões para as distribuições marginais de ordem superior, no
caso estacionário, a fórmula para uma distribuição trivariada é para inteiros positivos k e l
P (Xt = v,Xt+k = w,Xt+k+l = z) = δP(v)ΓkP(w)ΓlP(z)111⊤·
3.3.3 Momentos
Observemos primeiramente que
E(Xt) =
m∑
i=1
E(Xt|Ct = i)P (Ct = i) =
m∑
i=1
ui(t) E(Xt|Ct = i),
a qual, no caso estacionário, se reduz a
E(Xt) =
m∑
i=1
δ E(Xt|Ct = i)·
De modo mais geral, resultados análogos valem para E[g(Xt)] e E[g(Xt, Xt+k)], qualquer seja a
função g. No caso estacionário
E[g(Xt)] =
m∑
i=1
δ E[g(Xt)|Ct = i]
e
E[g(Xt, Xt+k)] =
m∑
i=1
m∑
j=1
E[g(Xt, Xt+k)|Ct = i, Ct+k = j]δiγij(k),
3.4. VEROSSIMILHANÇA 131
onde γij(k) = (Γ
K)ij, para k ∈ N. Em muitas situações interessa-nos uma função g a qual fatoriza como
g(Xt, Xt+k) = g1(Xt)g2(Xt+k), caso em que a expressão anterior se torna
E[g(Xt, Xt+k)] =
m∑
i=1
m∑
j=1
E[g1(Xt)|Ct = i] E[g2(Xt+k)|Ct+k = j]δiγij(k)·
Estas expressões nos permitem, por exemplo, encontrar covariâncias e correlações sem muita dificul-
dade; existindo expressões expĺıcitas convenientes em muitos casos. Por exemplo, as seguintes conclusões
resultam no caso do Modelo Oculto Poisson estacionário com dois estados:
• E(Xt) = δ1λ1 + δ2λ2,
• Var(Xt) = E(Xt) + δ1δ2(λ2 − λ1)2) ≥ E(Xt),
• Cov(Xt, Xt+k) = δ1δ2(λ2 − λ1)2(1− γ12 − γ21)k, para k ∈ N.
Note-se que a expressão resultante para a correlação de Xt e Xt+k é da forma ρ(k) = A(1−γ12−γ21)k,
com A ∈ [0, 1) e A = 0 se λ1 = λ2.
3.4 Verossimilhança
Exemplo 3.4
Exemplo simulado de um Modelo Oculto de Markov com dois estados. Nesta situação as distribuições
estado-dependentes são Beta(2, 6) e Beta(6, 2), respectivamente. Ainda escolhemos por matriz de
transição
P =
(Estado 1 Estado 2
Estado 1 0.8 0.2
Estado 2 0.3 0.7
)
e por distribuição marginal dos estados, no instante inicial, ‘a função δ = (0, 1). Com os comandos
R seguintes simulamos um processo estocástico seguindo um Modelo Oculto de Markov com os
parâmetros especificados.
library(HiddenMarkov)
Pi = matrix(c(0.8, 0.2, 0.3, 0.7), byrow=TRUE, nrow=2)
n = 200
x = dthmm(NULL, Pi, c(0,1), "beta", list(shape1 = c(2, 6),
shape2 = c(6, 2)))
x = simulate(x, nsim=n, seed=5)
#
par(mar=c(4,5,1,1))
plot(seq(1,n), x$y, ylab="Estados", xlab="Indices", ylim=c(1,2),
main="Modelo Oculto de Markov Beta", type="p", cex=0.6, pch=19)
lines(seq(1,n), 1+x$x)
points(seq(1,n), x$y, col="red", type="p", cex=0.6, pch=19)
Como resposta temos no objeto x os valores das observações assim como também os valores
atribúıdos aos estados da cadeia Ct. Na Figura 3.3 mostramos o gráfico com as observações simuladas
e os estados.
132 CAPÍTULO 3. MODELOS OCULTOS DE MARKOV
0 50 100 150 200
1.
0
1.
2
1.
4
1.
6
1.
8
2.
0
Modelo Oculto de Markov Beta
Índices
E
st
ad
os
Figura 3.3: .
3.5 Exemplos
Nesta seção, mostraremos situações diversas onde o Modelo Oculto de Markov é proposto.
3.5. EXEMPLOS 133
Exemplo 3.5 (Aplicação para a classificação de clientes)
Uma empresa de serviços de informática oferece quatro tipos de serviços de chamadas distantes I,
II, III e IV (quatro peŕıodos diferentes de um dia). A partir do banco de dados de clientes, obtém-se
a informação da distribuição de gastos de 71 clientes escolhidos aleatoriamente. Um estudo longitu-
dinal foi realizado durante ano e maio para investigar os clientes. O comportamento e as respostas
dos clientes são capturados e monitorados durante o peŕıodo de investigação. Por simplicidade de
discussão, os clientes são classificados em dois grupos. Entre eles, 22 clientes são conhecidos como
clientes fiéis (Grupo A) e os outros 49 clientes não são clientes fiéis (Grupo B). Essa classificação é
útil para gerentes de marketing quando planejam qualquer promoção. Para os clientes do Grupo A,
serão oferecidas promoções em novos serviços e produtos. Enquanto para os clientes do Grupo B,
descontos nos servio̧s atuais serão oferecidos a eles para evitar que eles mudem ou se movimentem
para as empresas concorrentes.
Dois terços dos dadossão usados para construir o HMM e os dados restantes são usados para
validar o modelo. Portanto, 16 candidatos são escolhidos aleatoriamente (esses clientes são rotulados
nos primeiros 16 clientes na Tabela 3.1) do Grupo A e 37 candidatos do grupo B Os 6 candidatos
restantes (os 6 primeiros clientes na Tabela 3.1) do Grupo A e 12 candidatos do Grupo B são usados
para validar o HMM constrúıdo. Um HMM com quatro estados observáveis (I, II, III e IV) e dois
estados ocultos (Grupo A e Grupo B) é então constrúıdo.
Um problema interessante é o seguinte. Dada a distribuição de gastos de um cliente, como
classificar corretamente o cliente (Grupo A ou Grupo B) com base nas informações da Tabela 3.3?
Para resolver esse problema, pode-se aplicar o método discutido neste Caṕıtulo para calcular o
probabilidade de transição α nos estados ocultos. Esse valor de α pode ser usado para classificar
um cliente. Se o α estiver próximo de 1, o cliente provavelmente será um cliente fiel. Se o α estiver
próximo de 0, o cliente provavelmente será um cliente não fiel.
Os valores de α para todos os 53 clientes estão listados na Tabela. É interessante notar que o
valor de α de todos os outros clientes (Grupo B) está no intervalo [0.00,0.69]. Com base no valor
de α obtido, os dois grupos de clientes podem ser claramente separados, definindo o valor de corte
beta como 0.75. Uma posśıvel regra de decisão pode, portanto, ser definida da seguinte maneira:
Classifique um cliente para o Grupo A se α ≥ β, caso contrário, classifique o cliente para o Grupo
B.
A regra de decisão é aplicada aos 22 clientes capturados restantes. Entre eles, 6 clientes (os seis
primeiros clientes da Tabela 3.3 pertencem ao Grupo A e 12 clientes pertencem ao Grupo B. Seus
valores α sã computados e listados na Tabela 3.3. claro que o valor do beta está definido para 0.75,
todos os clientes serão classificados corretamente.
Dois terços dos dados são usados para construir o HMM.
Os comando a seguir nos permitem a leitura dos dados na Tabela 3.1.
library(HiddenMarkov)
Pi = matrix(c(0.8, 0.2, 0.3, 0.7), byrow=TRUE, nrow=2)
n = 200
x = dthmm(NULL, Pi, c(0,1), "beta", list(shape1 = c(2, 6),
shape2 = c(6, 2)))
x = simulate(x, nsim=n, seed=5)
#
par(mar=c(4,5,1,1))
plot(seq(1,n), x$y, ylab="Estados", xlab="Indices", ylim=c(1,2),
main="Modelo Oculto de Markov Beta", type="p", cex=0.6, pch=19)
lines(seq(1,n), 1+x$x)
points(seq(1,n), x$y, col="red", type="p", cex=0.6, pch=19)
A partir das informações dos clientes do Grupo A e do Grupo B na Tabela 3.1, as médias das
134 CAPÍTULO 3. MODELOS OCULTOS DE MARKOV
distribuições de gastos para ambos os grupos são computadas na Tabela 3.2. Isso significa que um
cliente no Grupo A (Grupo B) é caracterizado pela distribuição de despesas na primeira (segunda) linha
da Tabela 3.2.
Cliente I II III IV α Cliente I II III IV α
1 1.00 0.00 0.00 0.00 1.00 2 1.00 0.00 0.00 0.00 1.00
3 0.99 0.01 0.00 0.00 1.00 4 0.97 0.03 0.00 0.00 1.00
5 0.87 0.06 0.04 0.03 0.98 6 0.85 0.15 0.00 0.00 0.92
7 0.79 0.18 0.02 0.01 0.86 8 0.77 0.00 0.23 0.00 0.91
9 0.96 0.01 0.00 0.03 1.00 10 0.95 0.00 0.02 0.03 1.00
11 0.92 0.08 0.00 0.00 1.00 12 0.91 0.09 0.00 0.00 1.00
13 0.83 0.00 0.17 0.00 0.97 14 0.82 0.18 0.00 0.00 0.88
15 0.76 0.04 0.00 0.20 0.87 16 0.70 0.00 0.00 0.30 0.83
17 0.62 0.15 0.15 0.08 0.69 18 0.57 0.14 0.00 0.29 0.62
19 0.56 0.00 0.39 0.05 0.68 20 0.55 0.36 0.01 0.08 0.52
21 0.47 0.52 0.00 0.01 0.63 22 0.46 0.54 0.00 0.00 0.36
23 0.25 0.75 0.00 0.00 0.04 24 0.22 0.78 0.00 0.00 0.00
53 0.00 0.82 0.15 0.03 0.00
Tabela 3.1: Dados reproduzidos de Ching et al. (2013). Exemplo 3.5 acerca da classificação de clientes.
Grupo I II III IV
A 0.8806 0.0514 0.0303 0.0377
B 0.1311 0.5277 0.1497 0.1915
Tabela 3.2: A despesa média dos Grupos A e B do Exemplo 2.5.
Para
0 1 2 3 4 5 6
0 520 134 327 111 36 7 0
1 270 128 222 97 36 7 0
2 284 101 368 193 61 9 5
De
3 94 33 119 131 42 3 1
4 16 14 42 50 17 7 0
5 7 3 4 4 3 0 1
6 1 1 0 3 1 0 0
Tabela 3.3: Contagem de transições do Exemplo 2.5.

Continue navegando