Markov Chain 3

•

UFPR

Maike Willian Martins Santos

20/11/2020

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 12 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 12 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 12 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Processos Estocasticos I

44 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Caṕıtulo 3
Modelos Ocultos de Markov
As ráızes da teoria dos Modelos Ocultos de Markov pode ser rastreada até a década de 1950, quando
os estat́ısticos estavam estudando o problema de caracterizar processos aleatórios para os quais somente
observações incompletas estavam dispońıveis. Isto levou à descoberta do algoritmo EM, que é um
algoritmo de finalidade geral para encontrar o estimador de máxima verossimilhança em uma ampla
variedade de situações, conhecidos como problemas de dados incompletos.
No final dos anos 1960 e ińıcio dos anos 1970, Leonard Esau Baum e seus colegas trabalharam com
um tipo especial de funções probabiĺısticas de Cadeias de Markov, mais tarde conhecidos como Modelos
Ocultos de Markov. Como um resultado disso, o algoritmo Baum-Welch de estimação de parâmetros
dos Modelos Ocultos de Markov foi revelado em uma série de artigos. Este algoritmo pode ser visto
como uma versão inicial do algoritmo EM e ainda é a base de algoritmos de estimação utilizados nas
aplicações destes modelos.
Um Modelo Oculto de Markov é um processo duplamente estocástico com um processo estocástico
subjacente que não é diretamente observável, ou seja, é escondido o qual somente pode ser observado
através de outro processo estocástico que produz a sequência de observações.
O leitor encontrará aqui um material no qual os temas abordados são bastante convencionais, dis-
cussões e tópicos especiais não são inclúıdos. O objetivo aqui é fornecer alguma motivação e saber geral
dos problemas nesta área, uma vez que para um tratamento rigoroso seria necessário um ńıvel muito
mais elevado de formação matemática do que a exigida.
O auxilio computacional é baseado na linguagem de programação R Core Team (2014). Pacotes
de funções como HiddenMarkov (version 1.8-4), depmixS4 (version 1.3-3), hmm.discnp (version 0.2-4),
hsmm (version 0.4) e mhsmm (version 0.4.14) serão utilizados na solução de problemas; ainda contamos
com o apoio parcial de Modelos Copulas sendo esta uma área em desenvolvimento.
3.1 Introdução
Cadeias de Markov são modelos nos quais a cada estado corresponde um evento observável. Estes
modelos são demasiado restritivos para serem aplicáveis a muitos problemas de interesse. Nesta seção
vamos estender este conceito para incluir o caso em que a observação é uma função probabiĺıstica dos
estados, ou seja, o modelo resultante, chamado de Modelo Oculto de Markov, é um processo estocástico
duplo incorporando um processo estocástico subjacente que não é observável, o qual somente pode ser
observado através de um outro processo estocástico que produz a sequência de observações.
No sentido mais amplo da palavra, um Modelo Oculto de Markov é um processo de Markov que é
dividido em dois componentes: um componente observável e um componente não observável ou escon-
dido. Ou seja, um Modelo Oculto de Markov é um processo de Markov {Ct, Xt}t∈N no espaço de estados
E × F , onde supomos que temos um meio de observar Xt mas não Ct.
123
124 CAPÍTULO 3. MODELOS OCULTOS DE MARKOV
Estes modelos aparecem numa grande variedade de aplicações. Podemos distinguir duas classes
principais de aplicações. Por um lado, estes modelos descrevem um ambiente onde um sistema estocástico
é observado através de medições ruidosos. Por exemplo, na teoria de comunicações, pode-se pensar em
Ct como um sinal aleatório para ser transmitido através de um canal de comunicações. Como o canal
é barulhento, o receptor observa uma versão corrompida Xt do sinal original e queremos reconstruir o
sinal original a partir das observações ruidosos.
Por outro lado, pode ser que o processo Xt seja de interesse, enquanto que o Ct representa a influência
sobre Xt de determinados fatores externos não observáveis. Por exemplo, pode-se pensar em Xt como
o preço de mercado de ações, onde Xt é um processo contendo fatores econômicos não observados que
influenciam as flutuações do preço das ações. Estamos interessados em última análise, na modelagem
das flutuações observadas dos preços de ações e não no processo não observável, mas ao incluir este
último pode-se muito bem ser capaz de construir um modelo que reflete mais fielmente as propriedades
estat́ısticas dos preços das ações observadas. Deve notar-se que, mesmo que {Ct, Xt}t∈N seja tipicamente
Markoviano, a componente observadaXt não o será. Modelos Ocultos de Markov podem assim ser usados
para modelar o comportamento não-Markov (por exemplo, do preço das ações), mantendo muitas das
vantagens matemáticas e computacionais dos processos de Markov.
Exemplo 3.1
Modelo para o lançamento de moedas: Assuma o seguinte cenário. Você está em um quarto com
uma barreira (por exemplo, uma cortina) através da qual você não pode ver o que está acontecendo.
Por outro lado da barreira há uma outra pessoa que está a efetuando o experimento de arremesso de
uma moeda (ou diversas moedas). A outra pessoa não lhe disse nada sobre o que ela está fazendo
exatamente; ela só irá dizer-lhe o resultado de cada lançamento da moeda.
Assim, uma vez realizada uma sequência do experimento, a observação consiste em uma série de
resultados cara e coroa; por exemplo, uma sequência de observações t́ıpicas seria
X1, X2, · · · , XT ,
onde cada Xt = cara ou Xt = coroa segundo o resultado do experimento, t = 1, 2, · · · , T .
Dado o cenário acima, o problema de interesse é saber como vamos construir um Modelo Oculto de
Markov para explicar a sequência observada de caras e coroas. O primeiro problema a ser enfrentado
é decidir o que significam os estados no modelo e, em seguida, decidir quantos estados deve ter o
modelo.
Uma posśıvel opção seria a de assumir que apenas uma única moeda viciada estava sendo jogada.
Esta seria a situação de um modelo com 2 estados onde cada estado corresponde a um lado da
moeda, ou seja, cara ou coroa. Neste caso, o modelo de Markov é observável e o único problema
para a especificação completa do modelo seria o de decidir sobre o melhor valor para o viés, ou
seja, a probabilidade de obtermos, digamos, coroas. Curiosamente, um Modelo Oculto de Markov
equivalente seria um modelo de 1 estado onde o estado corresponde à única moeda tendenciosa e o
parâmetro desconhecido é o viés da moeda.
Uma segunda forma de Modelo Oculto de Markov para explicar a sequência observada dos resul-
tados do sorteio da moeda seria o caso de assumirmos existirem 2 estados no modelo e cada estado
corresponde a uma diferente e tendenciosa moeda atiradas. Cada estado é caracterizado por uma
distribuição de probabilidade de caras e coroas e as transições entre estados são caracterizadas por
uma matriz de transição de estados. O mecanismo f́ısico que representa como as transições de esta-
dos são selecionadas poderia ser ele próprio um conjunto de lançamentos de moeda independentes
ou algum outro evento probabiĺıstico. Uma terceira forma para explicar a sequência observada dos
resultados sorteio seria um modelo supondo a utilização de 3 moedas tendenciosas e escolher de entre
as três, com base em algum evento probabiĺıstico.
Uma pergunta natural seria: qual o modelo que melhor corresponde às observações reais? Deve
3.2. DEFINIÇÃO E EXEMPLOS 125
ficar claro que o modelo com uma moeda é simples e tem apenas um parâmetro desconhecido,
o modelo com duas moedas tem 4 parâmetros desconhecidos e o modelo com 3 moedas tem 9
parâmetros desconhecidos. Assim, com os maiores graus de liberdade, as maiores HMM do que
parece ser inerentemente mais capazes de modelar uma série de experimentos moeda lançando do que
modelos equivalentemente menores. Embora este seja teoricamente verdade, veremos mais adiante
neste artigo que considerações práticas impor algumas limitações fortes sobre o tamanho dos modelos
que podemos considerar. Além disso, ela só poderia ser nesse caso que somente uma única moeda
está sendojogada. Em seguida, usando o modelo 3-coin seria inadequada, uma vez que o evento
f́ısico real não corresponderia ao bein modelo utilizado, ou seja, nós estaŕıamos usando uma sub
sistema especificado.
Este livro é uma introdução a alguns dos métodos matemáticos, estat́ısticos e computacionais básicos
para Modelos Ocultos de Markov. Para definir o cenário para o resto do livro, vamos descrever nas
próximas duas seções uma série de exemplos representativos destes modelos em aplicações tomadas a
partir de uma variedade de campos e vamos apresentar questões básicas que serão abordadas no restante
do livro. Antes de fazer isso, porém, temos de dar uma definição precisa da classe de modelos que iremos
considerar.
3.2 Definição e exemplos
Modelos de Markov sõ uma abstração poderosa para determinados dados mas não conseguem captar
um cenário muito comum. Como podemos raciocinar sobre uma série de dados nos quais não possamos
observar os próprios estados, mas apenas alguma função probabiĺıstica desses estados?
Exemplo 3.2
Imagine que você seja um climatologista no ano de 2799 estudando a história do aquecimento global.
Acontece que você não consegue encontrar registros do clima em Curitiba, mas encontra um diário no
qual assiduamente foi registrado quanto sorvete o autor comeu cada dia. O que você pode descobrir
a partir desta observação sobre o tempo no verão?
Modelos Ocultos de Markov podem ser utilizados para explorar este cenário. Observe que neste
exemplo nós não comçamos a observar a sequência real dos estados (o tempo em cada dia). Em vez
disso, somente podemos observar algum resultado gerado por cada estado (quantos sorvetes foram
consumidos em cada data registrada).
Aqui e em grande parte da literatura, o termo Modelo Oculto de Markov é utilizado para designar
um processo de Markov {Ct, Xt}t∈N com duas restriçõs essenciais:
(a) O processo {Ct}t∈N é uma Cadeia de Markov;
(b) A observação Xt é somente uma função rúıdo que depende de Ct, t ∈ N.
Como veremos nesta seção, há uma grande variedade de aplicações que cabem dentro deste quadro.
126 CAPÍTULO 3. MODELOS OCULTOS DE MARKOV
Definição 3.1
Um Modelo Oculto de Markov é uma tŕıplice paramétrica {P,Ct, Xt}t∈N com a carcateŕıstica de ser
um tipo particular de mistura dependente. Com {Ct} e {Xt} representando as histórias nos tempos
desde 0 (tempo inicial) a T . Pode-se resumir o modelo como:
P (Ct|C1, · · · , Ct−1) = P (Ct|Ct−1), para t = 1, 2, 3, · · ·
e
P (Xt|X1, · · · , Xt−1, C1, · · · , Ct) = P (Xt|Ct), t ∈ N·
O modelo consiste em duas partes: primeiro um processo paramétrico não observado {Ct}t=0,1,2,·
satisfazendo a propriedade de Markov e, em segundo lugar, um processo {Xt}t=0,1,2,··· dependente do
estado de tal forma que, quando Ct é conhecido, a distribuição de Xt, depende apenas do estado atual
Ct e não dos estados ou observações anteriores.
Esta estrutura é representada pela Figura 3.1. Se a Cadeia de Markov Ct tiver m estados, chamamos
{Ct, Xt} um Modelo Oculto de Markov com m estados. Embora esta seja a terminologia habitual em
diversas aplicações, o nome de Modelo Oculto de Markov não foi o único utilizado para tais modelos,
outros foram modelos Markov dependentes mistos, modelos mistos de Markov, etc.
Figura 3.1: Grafo de um Modelo Oculto de Markov.
Segundo este modelo, o processo gerador das observações é demonstrado na Figura 3.2, retirada
do livro de Zucchini & MacDonald (2009). Neste exemplo a distribuição estacionária da Cadeia de
Markov Ct é δ = (0.75, 0.25), as funções de probabilidade ou densidade p1 e p2 dependentes do estado
apresentam-se com o subt́ıtulo ”state-dependent distribution”e a matriz de transição de probabilidades
é
P =
( state 1 state 2
state 1 0.9 0.1
state 2 0.3 0.7
)
· (3.1)
Aqui a distribuição de Ct, o estado no instante de tempo t, depende de Ct−1. Há para cada estado
uma distribuição diferente, discreta ou cont́ınua.
A Figura 3.2 representa o processo gerador das observações de um Modelo Oculto de Markov com
dois estados. Observemos, a esquerda, que a Cadeia de Markov assume os valores 2, 1, 1, 1, 2, 1.
As distribuições de estado dependentes são mostradas no meio da figura e, a direita, mostramos as
observações geradas das correspondentes distribuições.
3.3. PROPRIEDADES BÁSICAS 127
Vamos introduzir uma notação suficiente para as duas situações: o caso discreto e o cont́ınuo. No
caso de observaçẽs discretas, definimos para i = 1, 2, · · · ,m
pi(x) = P (Xt = x|Ct = i)·
Isto é, pi é a função de probabilidade de Xt se a Cadeia de Markov está no estado i no instante de
tempo t. O caso cont́ınuo é tratado de maneira similar, pi representa a função de densidade de Xt se a
Cadeia de Markov estiver no estado i no instante de tempo t.
Figura 3.2: Ilustração do processo gerador de um Modelo Oculto de Markov com dois estados. A Cadeia
de Markov Ct seguiu o caminho 2, 1, 1, 1, 2, 1 como indicado à esquerda. No meio, as distribuições
dependentes do estado correspondentes e as observações geradas, a partir destas distribuições, mostradas
à direita.
Nos referiremos às m funções de probabilidade ou de densidade pi como as distribuições estado-
dependentes do modelo (state-dependent distributions).
3.3 Propriedades básicas
Esta seção dedica-se ao estudo de três caracteŕısticas importantes das Cadeias de Markov: a função de
transição, a distribuição inicial e a matriz de transição. Toda vez que lidemos com situações que possam
ser modeladas desta maneira, estaremos interessados em identificar estas caracteŕısticas. Mais ainda,
estas caracteŕısticas serão importantes para encontrar propriedades das Cadeias de Markov.
128 CAPÍTULO 3. MODELOS OCULTOS DE MARKOV
Os exemplos acima nos dão uma boa idéia do que como Modelo Oculto de Markov é e como ele pode
ser aplicado a alguns cenários simples. Vamos agora definir formalmente os elementos deste modelos.
Exemplo 3.3 (Continuação do Exemplo 3.2)
Um Modelo Oculto de Markov pode ser utilizado para explorar este cenário. A sequência real dos
estados, o tempo em cada dia, não pode ser observada. Em vez disso, somente podemos observar
algum resultado gerado por cada estado, por exemplo, quantos sorvetes foram consumidos naqueles
dias.
Imagine que você tem registrado o consumo de sorvetes ao longo de um peŕıodo de quatro dias:
X1 = s3, X2 = s2, X3 = s1, X4 = s2
onde nosso alfabeto apenas codifica o número de sorvetes consumidos, isto é,
s1 = 1 sorvete, s2 = 2 sorvetes, s3 = 3 sorvetes·
Quais perguntas pode um Modelo Oculto de Markov responder?
3.3.1 Três perguntas num Modelo Oculto de Markov
Há três questões fundamentais que podeŕıamos perguntar num Modelo Oculto de Markov. Qual é a
probabilidade de observar uma determinada sequência? no Exemplo 3.3 qual seria a probabilidade
de obtermos 3, 2, 1, 2 sorvetes consumidos? Qual é a série mais provável de estados para gerar as
observações, no exemplo seria perguntar qual era o tempo nesses quatro dias? e, por último, como
podemos estimar os parâmetros do Modelo Oculto de Markov com alguns dados?
Problema No.1
Qual é a probabilidade de observar uma determinada sequência? Podemos formular em termos ma-
temáticos a pergunta da seguinte maneira: dada uma sequência X1, X2, · · · , XT observada e um mo-
delo, como é que vamos calcular de forma eficiente a probabilidade de observarmos a sequência dado o
modelo?
Este é o problema de avaliação, ou seja, dado um modelo e uma sequência de observações, como
podemos calcular a probabilidade de que a sequência observada foi produzida pelo modelo? Podemos
também ver este problema como uma avaliação de um determinado modelo, isto é, quão bem um
determinado modelo corresponde a uma determinada sequência de observações? O ponto de vista, mais
tarde, é extremamente útil. Por exemplo, se considerarmos o caso em que estamos a tentar escolher entre
váriosmodelos concorrentes, a solução para o Problema 1 nos permite escolher o modelo que melhor
corresponda às observações.
Problema No.2
Dada a sequência da observações e o modelo, como é que vamos escolher uma sequência correspondente de
estado que seja ótima em um determinado sentido significativo, isto é, que melhor explica as observações?
Este problema é aquele no qual tentamos descobrir a parte oculta do modelo, ou seja, queremos
encontrar a sequência de estados correta. Deve ficar claro que para todos, a menos o caso de modelos
degeneradas, não há nenhuma sequência de estados correta para ser encontrada. Dáı para situações
práticas, geralmente usamos um critério de otimização para resolver este problema da melhor forma
posśıvel.
3.3. PROPRIEDADES BÁSICAS 129
Infelizmente, como veremos, há vários critérios de optimização razoáveis que podem ser impostos e,
portanto, a escolha do critério depende muito do uso pretendido para a sequência de estados descoberta.
Os usos t́ıpicos podem ser: aprender sobre a estrutura do modelo, para encontrar sequências de estados
ideais, para o reconhecimento de fala cont́ınua ou para obter estat́ıstica de estados individuais, etc.
Problema No.3
Como vamos estimar os parâmetros do modelo escolhido?
3.3.2 Distribuições marginais
Muitas vezes vamos precisar da distribuição de Xt e também de distribuições marginais de ordem alto,
como a de (Xt, Xt+k). Vamos obter o resultado para o caso em que a Cadeia de Markov é homogênea,
mas não necessariamente estacionária e, em seguida, o caso especial em que a Cadeia de Markov é
estacionária. Por conveniência os resultados são apresentados apenas para distribuições discretas; o
caso cont́ınuo pode ser desenvolvido de forma análoga.
Distribuições univariadas
Para o caso de variáveis discretas Xt, definamos ui(t) = P (Ct = i), para t = 1, · · · , T temos que
P (Xt = x) =
m∑
i=1
P (Ct = i)P (Xt = x|Ct = i)
=
m∑
i=1
ui(t)pi(x)·
Esta expressção pode ser convenientemente reescrita, em notação matricial como
P (Xy = x) =
(
u1(t), · · · , um(t)
)p1(x) · · · 0· · · . . . · · ·
0 · · · pm(x)

 1. . .
1

= uuu(t)P(x)111⊤,
onde P(x) é definida como uma matriz diagonal com i-ésimo elemento diagonal pi(x). Segue que
uuu(t) = uuu(1)Γt−1 e, portanto, que
P (Xt = x) = uuu(1)Γ
t−1P(x)111⊤·
Esta equação é válida se a Cadeia de Markov é homogênea mas não necessariamente estacionária. Se,
como veremos muitas vezes assumir, a Cadeia de Markov é estacionária, com distribuição estacionária
δ, então o resultado é mais simples: neste caso δΓt−1 = δ para todo t ∈ N e então
P (Xt = x) = δP(x)111⊤·
Distribuições bivariadas
O cálculo de muitas das distribuições relativas a um Modelo Oculto de Markov é mais facilmente reali-
zado, a prinćıpio, observando que a distribuição conjunta de um conjunto de variáveis aleatórias Vi, em
qualquer modelo gráfico, é dada por
P (V1, V2, · · · , Vn) =
n∏
i=1
P (Vi|pa(Vi)),
130 CAPÍTULO 3. MODELOS OCULTOS DE MARKOV
onde pa(Vi) denota todos os parentes de Vi no conjunto V1, V2, · · · , Vn.
Examinado o gráfico das quatro variáveis aleatórias Xt, Xt+k, Ct, Ct+k para k um inteiro positivo,
vemos que pa(Ct) é vazio, pa(Xt) = {Ct}, pa(Ct+k) = {Ct} e que pa(Xt+k) = {Ct+k}. Resulta, portanto,
que
P (Xt, Xt+k, Ct, Ct+k) = P (Ct)P (Xt|Ct)P (Ct+k|Ct)P (Xt+k|Ct+k),
e, como consequência,
P (Xt = v,Xt+k = w) =
m∑
i=1
m∑
j=1
P (Xt = v,Xt+k = w|Ct = i, Ct+k = j)
=
m∑
i=1
m∑
j=1
P (Ct = i)︸ ︷︷ ︸
ui(t)
pi(v)P (Ct+k = j|Ct = i)︸ ︷︷ ︸
γij(k)
pj(w)
=
m∑
i=1
m∑
j=1
ui(t)pi(v)γij(k)pj(w)·
Escrevendo o casal de somas acima, como um produto de matrizes, produz o resultado
P (Xt = v,Xt+k = w) = uuu(t)P(v)ΓkP(w)111⊤·
Caso a Cadeia de Markov seja estacionária, isto se reduz a
P (Xt = v,Xt+k = w) = δP(v)ΓkP(w)111⊤·
Da mesma forma pode-se obter expressões para as distribuições marginais de ordem superior, no
caso estacionário, a fórmula para uma distribuição trivariada é para inteiros positivos k e l
P (Xt = v,Xt+k = w,Xt+k+l = z) = δP(v)ΓkP(w)ΓlP(z)111⊤·
3.3.3 Momentos
Observemos primeiramente que
E(Xt) =
m∑
i=1
E(Xt|Ct = i)P (Ct = i) =
m∑
i=1
ui(t) E(Xt|Ct = i),
a qual, no caso estacionário, se reduz a
E(Xt) =
m∑
i=1
δ E(Xt|Ct = i)·
De modo mais geral, resultados análogos valem para E[g(Xt)] e E[g(Xt, Xt+k)], qualquer seja a
função g. No caso estacionário
E[g(Xt)] =
m∑
i=1
δ E[g(Xt)|Ct = i]
e
E[g(Xt, Xt+k)] =
m∑
i=1
m∑
j=1
E[g(Xt, Xt+k)|Ct = i, Ct+k = j]δiγij(k),
3.4. VEROSSIMILHANÇA 131
onde γij(k) = (Γ
K)ij, para k ∈ N. Em muitas situações interessa-nos uma função g a qual fatoriza como
g(Xt, Xt+k) = g1(Xt)g2(Xt+k), caso em que a expressão anterior se torna
E[g(Xt, Xt+k)] =
m∑
i=1
m∑
j=1
E[g1(Xt)|Ct = i] E[g2(Xt+k)|Ct+k = j]δiγij(k)·
Estas expressões nos permitem, por exemplo, encontrar covariâncias e correlações sem muita dificul-
dade; existindo expressões expĺıcitas convenientes em muitos casos. Por exemplo, as seguintes conclusões
resultam no caso do Modelo Oculto Poisson estacionário com dois estados:
• E(Xt) = δ1λ1 + δ2λ2,
• Var(Xt) = E(Xt) + δ1δ2(λ2 − λ1)2) ≥ E(Xt),
• Cov(Xt, Xt+k) = δ1δ2(λ2 − λ1)2(1− γ12 − γ21)k, para k ∈ N.
Note-se que a expressão resultante para a correlação de Xt e Xt+k é da forma ρ(k) = A(1−γ12−γ21)k,
com A ∈ [0, 1) e A = 0 se λ1 = λ2.
3.4 Verossimilhança
Exemplo 3.4
Exemplo simulado de um Modelo Oculto de Markov com dois estados. Nesta situação as distribuições
estado-dependentes são Beta(2, 6) e Beta(6, 2), respectivamente. Ainda escolhemos por matriz de
transição
P =
(Estado 1 Estado 2
Estado 1 0.8 0.2
Estado 2 0.3 0.7
)
e por distribuição marginal dos estados, no instante inicial, ‘a função δ = (0, 1). Com os comandos
R seguintes simulamos um processo estocástico seguindo um Modelo Oculto de Markov com os
parâmetros especificados.
library(HiddenMarkov)
Pi = matrix(c(0.8, 0.2, 0.3, 0.7), byrow=TRUE, nrow=2)
n = 200
x = dthmm(NULL, Pi, c(0,1), "beta", list(shape1 = c(2, 6),
shape2 = c(6, 2)))
x = simulate(x, nsim=n, seed=5)
#
par(mar=c(4,5,1,1))
plot(seq(1,n), x$y, ylab="Estados", xlab="Indices", ylim=c(1,2),
main="Modelo Oculto de Markov Beta", type="p", cex=0.6, pch=19)
lines(seq(1,n), 1+x$x)
points(seq(1,n), x$y, col="red", type="p", cex=0.6, pch=19)
Como resposta temos no objeto x os valores das observações assim como também os valores
atribúıdos aos estados da cadeia Ct. Na Figura 3.3 mostramos o gráfico com as observações simuladas
e os estados.
132 CAPÍTULO 3. MODELOS OCULTOS DE MARKOV
0 50 100 150 200
1.
0
1.
2
1.
4
1.
6
1.
8
2.
0
Modelo Oculto de Markov Beta
Índices
E
st
ad
os
Figura 3.3: .
3.5 Exemplos
Nesta seção, mostraremos situações diversas onde o Modelo Oculto de Markov é proposto.
3.5. EXEMPLOS 133
Exemplo 3.5 (Aplicação para a classificação de clientes)
Uma empresa de serviços de informática oferece quatro tipos de serviços de chamadas distantes I,
II, III e IV (quatro peŕıodos diferentes de um dia). A partir do banco de dados de clientes, obtém-se
a informação da distribuição de gastos de 71 clientes escolhidos aleatoriamente. Um estudo longitu-
dinal foi realizado durante ano e maio para investigar os clientes. O comportamento e as respostas
dos clientes são capturados e monitorados durante o peŕıodo de investigação. Por simplicidade de
discussão, os clientes são classificados em dois grupos. Entre eles, 22 clientes são conhecidos como
clientes fiéis (Grupo A) e os outros 49 clientes não são clientes fiéis (Grupo B). Essa classificação é
útil para gerentes de marketing quando planejam qualquer promoção. Para os clientes do Grupo A,
serão oferecidas promoções em novos serviços e produtos. Enquanto para os clientes do Grupo B,
descontos nos servio̧s atuais serão oferecidos a eles para evitar que eles mudem ou se movimentem
para as empresas concorrentes.
Dois terços dos dadossão usados para construir o HMM e os dados restantes são usados para
validar o modelo. Portanto, 16 candidatos são escolhidos aleatoriamente (esses clientes são rotulados
nos primeiros 16 clientes na Tabela 3.1) do Grupo A e 37 candidatos do grupo B Os 6 candidatos
restantes (os 6 primeiros clientes na Tabela 3.1) do Grupo A e 12 candidatos do Grupo B são usados
para validar o HMM constrúıdo. Um HMM com quatro estados observáveis (I, II, III e IV) e dois
estados ocultos (Grupo A e Grupo B) é então constrúıdo.
Um problema interessante é o seguinte. Dada a distribuição de gastos de um cliente, como
classificar corretamente o cliente (Grupo A ou Grupo B) com base nas informações da Tabela 3.3?
Para resolver esse problema, pode-se aplicar o método discutido neste Caṕıtulo para calcular o
probabilidade de transição α nos estados ocultos. Esse valor de α pode ser usado para classificar
um cliente. Se o α estiver próximo de 1, o cliente provavelmente será um cliente fiel. Se o α estiver
próximo de 0, o cliente provavelmente será um cliente não fiel.
Os valores de α para todos os 53 clientes estão listados na Tabela. É interessante notar que o
valor de α de todos os outros clientes (Grupo B) está no intervalo [0.00,0.69]. Com base no valor
de α obtido, os dois grupos de clientes podem ser claramente separados, definindo o valor de corte
beta como 0.75. Uma posśıvel regra de decisão pode, portanto, ser definida da seguinte maneira:
Classifique um cliente para o Grupo A se α ≥ β, caso contrário, classifique o cliente para o Grupo
B.
A regra de decisão é aplicada aos 22 clientes capturados restantes. Entre eles, 6 clientes (os seis
primeiros clientes da Tabela 3.3 pertencem ao Grupo A e 12 clientes pertencem ao Grupo B. Seus
valores α sã computados e listados na Tabela 3.3. claro que o valor do beta está definido para 0.75,
todos os clientes serão classificados corretamente.
Dois terços dos dados são usados para construir o HMM.
Os comando a seguir nos permitem a leitura dos dados na Tabela 3.1.
library(HiddenMarkov)
Pi = matrix(c(0.8, 0.2, 0.3, 0.7), byrow=TRUE, nrow=2)
n = 200
x = dthmm(NULL, Pi, c(0,1), "beta", list(shape1 = c(2, 6),
shape2 = c(6, 2)))
x = simulate(x, nsim=n, seed=5)
#
par(mar=c(4,5,1,1))
plot(seq(1,n), x$y, ylab="Estados", xlab="Indices", ylim=c(1,2),
main="Modelo Oculto de Markov Beta", type="p", cex=0.6, pch=19)
lines(seq(1,n), 1+x$x)
points(seq(1,n), x$y, col="red", type="p", cex=0.6, pch=19)
A partir das informações dos clientes do Grupo A e do Grupo B na Tabela 3.1, as médias das
134 CAPÍTULO 3. MODELOS OCULTOS DE MARKOV
distribuições de gastos para ambos os grupos são computadas na Tabela 3.2. Isso significa que um
cliente no Grupo A (Grupo B) é caracterizado pela distribuição de despesas na primeira (segunda) linha
da Tabela 3.2.
Cliente I II III IV α Cliente I II III IV α
1 1.00 0.00 0.00 0.00 1.00 2 1.00 0.00 0.00 0.00 1.00
3 0.99 0.01 0.00 0.00 1.00 4 0.97 0.03 0.00 0.00 1.00
5 0.87 0.06 0.04 0.03 0.98 6 0.85 0.15 0.00 0.00 0.92
7 0.79 0.18 0.02 0.01 0.86 8 0.77 0.00 0.23 0.00 0.91
9 0.96 0.01 0.00 0.03 1.00 10 0.95 0.00 0.02 0.03 1.00
11 0.92 0.08 0.00 0.00 1.00 12 0.91 0.09 0.00 0.00 1.00
13 0.83 0.00 0.17 0.00 0.97 14 0.82 0.18 0.00 0.00 0.88
15 0.76 0.04 0.00 0.20 0.87 16 0.70 0.00 0.00 0.30 0.83
17 0.62 0.15 0.15 0.08 0.69 18 0.57 0.14 0.00 0.29 0.62
19 0.56 0.00 0.39 0.05 0.68 20 0.55 0.36 0.01 0.08 0.52
21 0.47 0.52 0.00 0.01 0.63 22 0.46 0.54 0.00 0.00 0.36
23 0.25 0.75 0.00 0.00 0.04 24 0.22 0.78 0.00 0.00 0.00
53 0.00 0.82 0.15 0.03 0.00
Tabela 3.1: Dados reproduzidos de Ching et al. (2013). Exemplo 3.5 acerca da classificação de clientes.
Grupo I II III IV
A 0.8806 0.0514 0.0303 0.0377
B 0.1311 0.5277 0.1497 0.1915
Tabela 3.2: A despesa média dos Grupos A e B do Exemplo 2.5.
Para
0 1 2 3 4 5 6
0 520 134 327 111 36 7 0
1 270 128 222 97 36 7 0
2 284 101 368 193 61 9 5
De
3 94 33 119 131 42 3 1
4 16 14 42 50 17 7 0
5 7 3 4 4 3 0 1
6 1 1 0 3 1 0 0
Tabela 3.3: Contagem de transições do Exemplo 2.5.