Baixe o app para aproveitar ainda mais
Prévia do material em texto
Caṕıtulo 3 Modelos Ocultos de Markov As ráızes da teoria dos Modelos Ocultos de Markov pode ser rastreada até a década de 1950, quando os estat́ısticos estavam estudando o problema de caracterizar processos aleatórios para os quais somente observações incompletas estavam dispońıveis. Isto levou à descoberta do algoritmo EM, que é um algoritmo de finalidade geral para encontrar o estimador de máxima verossimilhança em uma ampla variedade de situações, conhecidos como problemas de dados incompletos. No final dos anos 1960 e ińıcio dos anos 1970, Leonard Esau Baum e seus colegas trabalharam com um tipo especial de funções probabiĺısticas de Cadeias de Markov, mais tarde conhecidos como Modelos Ocultos de Markov. Como um resultado disso, o algoritmo Baum-Welch de estimação de parâmetros dos Modelos Ocultos de Markov foi revelado em uma série de artigos. Este algoritmo pode ser visto como uma versão inicial do algoritmo EM e ainda é a base de algoritmos de estimação utilizados nas aplicações destes modelos. Um Modelo Oculto de Markov é um processo duplamente estocástico com um processo estocástico subjacente que não é diretamente observável, ou seja, é escondido o qual somente pode ser observado através de outro processo estocástico que produz a sequência de observações. O leitor encontrará aqui um material no qual os temas abordados são bastante convencionais, dis- cussões e tópicos especiais não são inclúıdos. O objetivo aqui é fornecer alguma motivação e saber geral dos problemas nesta área, uma vez que para um tratamento rigoroso seria necessário um ńıvel muito mais elevado de formação matemática do que a exigida. O auxilio computacional é baseado na linguagem de programação R Core Team (2014). Pacotes de funções como HiddenMarkov (version 1.8-4), depmixS4 (version 1.3-3), hmm.discnp (version 0.2-4), hsmm (version 0.4) e mhsmm (version 0.4.14) serão utilizados na solução de problemas; ainda contamos com o apoio parcial de Modelos Copulas sendo esta uma área em desenvolvimento. 3.1 Introdução Cadeias de Markov são modelos nos quais a cada estado corresponde um evento observável. Estes modelos são demasiado restritivos para serem aplicáveis a muitos problemas de interesse. Nesta seção vamos estender este conceito para incluir o caso em que a observação é uma função probabiĺıstica dos estados, ou seja, o modelo resultante, chamado de Modelo Oculto de Markov, é um processo estocástico duplo incorporando um processo estocástico subjacente que não é observável, o qual somente pode ser observado através de um outro processo estocástico que produz a sequência de observações. No sentido mais amplo da palavra, um Modelo Oculto de Markov é um processo de Markov que é dividido em dois componentes: um componente observável e um componente não observável ou escon- dido. Ou seja, um Modelo Oculto de Markov é um processo de Markov {Ct, Xt}t∈N no espaço de estados E × F , onde supomos que temos um meio de observar Xt mas não Ct. 123 124 CAPÍTULO 3. MODELOS OCULTOS DE MARKOV Estes modelos aparecem numa grande variedade de aplicações. Podemos distinguir duas classes principais de aplicações. Por um lado, estes modelos descrevem um ambiente onde um sistema estocástico é observado através de medições ruidosos. Por exemplo, na teoria de comunicações, pode-se pensar em Ct como um sinal aleatório para ser transmitido através de um canal de comunicações. Como o canal é barulhento, o receptor observa uma versão corrompida Xt do sinal original e queremos reconstruir o sinal original a partir das observações ruidosos. Por outro lado, pode ser que o processo Xt seja de interesse, enquanto que o Ct representa a influência sobre Xt de determinados fatores externos não observáveis. Por exemplo, pode-se pensar em Xt como o preço de mercado de ações, onde Xt é um processo contendo fatores econômicos não observados que influenciam as flutuações do preço das ações. Estamos interessados em última análise, na modelagem das flutuações observadas dos preços de ações e não no processo não observável, mas ao incluir este último pode-se muito bem ser capaz de construir um modelo que reflete mais fielmente as propriedades estat́ısticas dos preços das ações observadas. Deve notar-se que, mesmo que {Ct, Xt}t∈N seja tipicamente Markoviano, a componente observadaXt não o será. Modelos Ocultos de Markov podem assim ser usados para modelar o comportamento não-Markov (por exemplo, do preço das ações), mantendo muitas das vantagens matemáticas e computacionais dos processos de Markov. Exemplo 3.1 Modelo para o lançamento de moedas: Assuma o seguinte cenário. Você está em um quarto com uma barreira (por exemplo, uma cortina) através da qual você não pode ver o que está acontecendo. Por outro lado da barreira há uma outra pessoa que está a efetuando o experimento de arremesso de uma moeda (ou diversas moedas). A outra pessoa não lhe disse nada sobre o que ela está fazendo exatamente; ela só irá dizer-lhe o resultado de cada lançamento da moeda. Assim, uma vez realizada uma sequência do experimento, a observação consiste em uma série de resultados cara e coroa; por exemplo, uma sequência de observações t́ıpicas seria X1, X2, · · · , XT , onde cada Xt = cara ou Xt = coroa segundo o resultado do experimento, t = 1, 2, · · · , T . Dado o cenário acima, o problema de interesse é saber como vamos construir um Modelo Oculto de Markov para explicar a sequência observada de caras e coroas. O primeiro problema a ser enfrentado é decidir o que significam os estados no modelo e, em seguida, decidir quantos estados deve ter o modelo. Uma posśıvel opção seria a de assumir que apenas uma única moeda viciada estava sendo jogada. Esta seria a situação de um modelo com 2 estados onde cada estado corresponde a um lado da moeda, ou seja, cara ou coroa. Neste caso, o modelo de Markov é observável e o único problema para a especificação completa do modelo seria o de decidir sobre o melhor valor para o viés, ou seja, a probabilidade de obtermos, digamos, coroas. Curiosamente, um Modelo Oculto de Markov equivalente seria um modelo de 1 estado onde o estado corresponde à única moeda tendenciosa e o parâmetro desconhecido é o viés da moeda. Uma segunda forma de Modelo Oculto de Markov para explicar a sequência observada dos resul- tados do sorteio da moeda seria o caso de assumirmos existirem 2 estados no modelo e cada estado corresponde a uma diferente e tendenciosa moeda atiradas. Cada estado é caracterizado por uma distribuição de probabilidade de caras e coroas e as transições entre estados são caracterizadas por uma matriz de transição de estados. O mecanismo f́ısico que representa como as transições de esta- dos são selecionadas poderia ser ele próprio um conjunto de lançamentos de moeda independentes ou algum outro evento probabiĺıstico. Uma terceira forma para explicar a sequência observada dos resultados sorteio seria um modelo supondo a utilização de 3 moedas tendenciosas e escolher de entre as três, com base em algum evento probabiĺıstico. Uma pergunta natural seria: qual o modelo que melhor corresponde às observações reais? Deve 3.2. DEFINIÇÃO E EXEMPLOS 125 ficar claro que o modelo com uma moeda é simples e tem apenas um parâmetro desconhecido, o modelo com duas moedas tem 4 parâmetros desconhecidos e o modelo com 3 moedas tem 9 parâmetros desconhecidos. Assim, com os maiores graus de liberdade, as maiores HMM do que parece ser inerentemente mais capazes de modelar uma série de experimentos moeda lançando do que modelos equivalentemente menores. Embora este seja teoricamente verdade, veremos mais adiante neste artigo que considerações práticas impor algumas limitações fortes sobre o tamanho dos modelos que podemos considerar. Além disso, ela só poderia ser nesse caso que somente uma única moeda está sendojogada. Em seguida, usando o modelo 3-coin seria inadequada, uma vez que o evento f́ısico real não corresponderia ao bein modelo utilizado, ou seja, nós estaŕıamos usando uma sub sistema especificado. Este livro é uma introdução a alguns dos métodos matemáticos, estat́ısticos e computacionais básicos para Modelos Ocultos de Markov. Para definir o cenário para o resto do livro, vamos descrever nas próximas duas seções uma série de exemplos representativos destes modelos em aplicações tomadas a partir de uma variedade de campos e vamos apresentar questões básicas que serão abordadas no restante do livro. Antes de fazer isso, porém, temos de dar uma definição precisa da classe de modelos que iremos considerar. 3.2 Definição e exemplos Modelos de Markov sõ uma abstração poderosa para determinados dados mas não conseguem captar um cenário muito comum. Como podemos raciocinar sobre uma série de dados nos quais não possamos observar os próprios estados, mas apenas alguma função probabiĺıstica desses estados? Exemplo 3.2 Imagine que você seja um climatologista no ano de 2799 estudando a história do aquecimento global. Acontece que você não consegue encontrar registros do clima em Curitiba, mas encontra um diário no qual assiduamente foi registrado quanto sorvete o autor comeu cada dia. O que você pode descobrir a partir desta observação sobre o tempo no verão? Modelos Ocultos de Markov podem ser utilizados para explorar este cenário. Observe que neste exemplo nós não comçamos a observar a sequência real dos estados (o tempo em cada dia). Em vez disso, somente podemos observar algum resultado gerado por cada estado (quantos sorvetes foram consumidos em cada data registrada). Aqui e em grande parte da literatura, o termo Modelo Oculto de Markov é utilizado para designar um processo de Markov {Ct, Xt}t∈N com duas restriçõs essenciais: (a) O processo {Ct}t∈N é uma Cadeia de Markov; (b) A observação Xt é somente uma função rúıdo que depende de Ct, t ∈ N. Como veremos nesta seção, há uma grande variedade de aplicações que cabem dentro deste quadro. 126 CAPÍTULO 3. MODELOS OCULTOS DE MARKOV Definição 3.1 Um Modelo Oculto de Markov é uma tŕıplice paramétrica {P,Ct, Xt}t∈N com a carcateŕıstica de ser um tipo particular de mistura dependente. Com {Ct} e {Xt} representando as histórias nos tempos desde 0 (tempo inicial) a T . Pode-se resumir o modelo como: P (Ct|C1, · · · , Ct−1) = P (Ct|Ct−1), para t = 1, 2, 3, · · · e P (Xt|X1, · · · , Xt−1, C1, · · · , Ct) = P (Xt|Ct), t ∈ N· O modelo consiste em duas partes: primeiro um processo paramétrico não observado {Ct}t=0,1,2,· satisfazendo a propriedade de Markov e, em segundo lugar, um processo {Xt}t=0,1,2,··· dependente do estado de tal forma que, quando Ct é conhecido, a distribuição de Xt, depende apenas do estado atual Ct e não dos estados ou observações anteriores. Esta estrutura é representada pela Figura 3.1. Se a Cadeia de Markov Ct tiver m estados, chamamos {Ct, Xt} um Modelo Oculto de Markov com m estados. Embora esta seja a terminologia habitual em diversas aplicações, o nome de Modelo Oculto de Markov não foi o único utilizado para tais modelos, outros foram modelos Markov dependentes mistos, modelos mistos de Markov, etc. Figura 3.1: Grafo de um Modelo Oculto de Markov. Segundo este modelo, o processo gerador das observações é demonstrado na Figura 3.2, retirada do livro de Zucchini & MacDonald (2009). Neste exemplo a distribuição estacionária da Cadeia de Markov Ct é δ = (0.75, 0.25), as funções de probabilidade ou densidade p1 e p2 dependentes do estado apresentam-se com o subt́ıtulo ”state-dependent distribution”e a matriz de transição de probabilidades é P = ( state 1 state 2 state 1 0.9 0.1 state 2 0.3 0.7 ) · (3.1) Aqui a distribuição de Ct, o estado no instante de tempo t, depende de Ct−1. Há para cada estado uma distribuição diferente, discreta ou cont́ınua. A Figura 3.2 representa o processo gerador das observações de um Modelo Oculto de Markov com dois estados. Observemos, a esquerda, que a Cadeia de Markov assume os valores 2, 1, 1, 1, 2, 1. As distribuições de estado dependentes são mostradas no meio da figura e, a direita, mostramos as observações geradas das correspondentes distribuições. 3.3. PROPRIEDADES BÁSICAS 127 Vamos introduzir uma notação suficiente para as duas situações: o caso discreto e o cont́ınuo. No caso de observaçẽs discretas, definimos para i = 1, 2, · · · ,m pi(x) = P (Xt = x|Ct = i)· Isto é, pi é a função de probabilidade de Xt se a Cadeia de Markov está no estado i no instante de tempo t. O caso cont́ınuo é tratado de maneira similar, pi representa a função de densidade de Xt se a Cadeia de Markov estiver no estado i no instante de tempo t. Figura 3.2: Ilustração do processo gerador de um Modelo Oculto de Markov com dois estados. A Cadeia de Markov Ct seguiu o caminho 2, 1, 1, 1, 2, 1 como indicado à esquerda. No meio, as distribuições dependentes do estado correspondentes e as observações geradas, a partir destas distribuições, mostradas à direita. Nos referiremos às m funções de probabilidade ou de densidade pi como as distribuições estado- dependentes do modelo (state-dependent distributions). 3.3 Propriedades básicas Esta seção dedica-se ao estudo de três caracteŕısticas importantes das Cadeias de Markov: a função de transição, a distribuição inicial e a matriz de transição. Toda vez que lidemos com situações que possam ser modeladas desta maneira, estaremos interessados em identificar estas caracteŕısticas. Mais ainda, estas caracteŕısticas serão importantes para encontrar propriedades das Cadeias de Markov. 128 CAPÍTULO 3. MODELOS OCULTOS DE MARKOV Os exemplos acima nos dão uma boa idéia do que como Modelo Oculto de Markov é e como ele pode ser aplicado a alguns cenários simples. Vamos agora definir formalmente os elementos deste modelos. Exemplo 3.3 (Continuação do Exemplo 3.2) Um Modelo Oculto de Markov pode ser utilizado para explorar este cenário. A sequência real dos estados, o tempo em cada dia, não pode ser observada. Em vez disso, somente podemos observar algum resultado gerado por cada estado, por exemplo, quantos sorvetes foram consumidos naqueles dias. Imagine que você tem registrado o consumo de sorvetes ao longo de um peŕıodo de quatro dias: X1 = s3, X2 = s2, X3 = s1, X4 = s2 onde nosso alfabeto apenas codifica o número de sorvetes consumidos, isto é, s1 = 1 sorvete, s2 = 2 sorvetes, s3 = 3 sorvetes· Quais perguntas pode um Modelo Oculto de Markov responder? 3.3.1 Três perguntas num Modelo Oculto de Markov Há três questões fundamentais que podeŕıamos perguntar num Modelo Oculto de Markov. Qual é a probabilidade de observar uma determinada sequência? no Exemplo 3.3 qual seria a probabilidade de obtermos 3, 2, 1, 2 sorvetes consumidos? Qual é a série mais provável de estados para gerar as observações, no exemplo seria perguntar qual era o tempo nesses quatro dias? e, por último, como podemos estimar os parâmetros do Modelo Oculto de Markov com alguns dados? Problema No.1 Qual é a probabilidade de observar uma determinada sequência? Podemos formular em termos ma- temáticos a pergunta da seguinte maneira: dada uma sequência X1, X2, · · · , XT observada e um mo- delo, como é que vamos calcular de forma eficiente a probabilidade de observarmos a sequência dado o modelo? Este é o problema de avaliação, ou seja, dado um modelo e uma sequência de observações, como podemos calcular a probabilidade de que a sequência observada foi produzida pelo modelo? Podemos também ver este problema como uma avaliação de um determinado modelo, isto é, quão bem um determinado modelo corresponde a uma determinada sequência de observações? O ponto de vista, mais tarde, é extremamente útil. Por exemplo, se considerarmos o caso em que estamos a tentar escolher entre váriosmodelos concorrentes, a solução para o Problema 1 nos permite escolher o modelo que melhor corresponda às observações. Problema No.2 Dada a sequência da observações e o modelo, como é que vamos escolher uma sequência correspondente de estado que seja ótima em um determinado sentido significativo, isto é, que melhor explica as observações? Este problema é aquele no qual tentamos descobrir a parte oculta do modelo, ou seja, queremos encontrar a sequência de estados correta. Deve ficar claro que para todos, a menos o caso de modelos degeneradas, não há nenhuma sequência de estados correta para ser encontrada. Dáı para situações práticas, geralmente usamos um critério de otimização para resolver este problema da melhor forma posśıvel. 3.3. PROPRIEDADES BÁSICAS 129 Infelizmente, como veremos, há vários critérios de optimização razoáveis que podem ser impostos e, portanto, a escolha do critério depende muito do uso pretendido para a sequência de estados descoberta. Os usos t́ıpicos podem ser: aprender sobre a estrutura do modelo, para encontrar sequências de estados ideais, para o reconhecimento de fala cont́ınua ou para obter estat́ıstica de estados individuais, etc. Problema No.3 Como vamos estimar os parâmetros do modelo escolhido? 3.3.2 Distribuições marginais Muitas vezes vamos precisar da distribuição de Xt e também de distribuições marginais de ordem alto, como a de (Xt, Xt+k). Vamos obter o resultado para o caso em que a Cadeia de Markov é homogênea, mas não necessariamente estacionária e, em seguida, o caso especial em que a Cadeia de Markov é estacionária. Por conveniência os resultados são apresentados apenas para distribuições discretas; o caso cont́ınuo pode ser desenvolvido de forma análoga. Distribuições univariadas Para o caso de variáveis discretas Xt, definamos ui(t) = P (Ct = i), para t = 1, · · · , T temos que P (Xt = x) = m∑ i=1 P (Ct = i)P (Xt = x|Ct = i) = m∑ i=1 ui(t)pi(x)· Esta expressção pode ser convenientemente reescrita, em notação matricial como P (Xy = x) = ( u1(t), · · · , um(t) )p1(x) · · · 0· · · . . . · · · 0 · · · pm(x) 1. . . 1 = uuu(t)P(x)111⊤, onde P(x) é definida como uma matriz diagonal com i-ésimo elemento diagonal pi(x). Segue que uuu(t) = uuu(1)Γt−1 e, portanto, que P (Xt = x) = uuu(1)Γ t−1P(x)111⊤· Esta equação é válida se a Cadeia de Markov é homogênea mas não necessariamente estacionária. Se, como veremos muitas vezes assumir, a Cadeia de Markov é estacionária, com distribuição estacionária δ, então o resultado é mais simples: neste caso δΓt−1 = δ para todo t ∈ N e então P (Xt = x) = δP(x)111⊤· Distribuições bivariadas O cálculo de muitas das distribuições relativas a um Modelo Oculto de Markov é mais facilmente reali- zado, a prinćıpio, observando que a distribuição conjunta de um conjunto de variáveis aleatórias Vi, em qualquer modelo gráfico, é dada por P (V1, V2, · · · , Vn) = n∏ i=1 P (Vi|pa(Vi)), 130 CAPÍTULO 3. MODELOS OCULTOS DE MARKOV onde pa(Vi) denota todos os parentes de Vi no conjunto V1, V2, · · · , Vn. Examinado o gráfico das quatro variáveis aleatórias Xt, Xt+k, Ct, Ct+k para k um inteiro positivo, vemos que pa(Ct) é vazio, pa(Xt) = {Ct}, pa(Ct+k) = {Ct} e que pa(Xt+k) = {Ct+k}. Resulta, portanto, que P (Xt, Xt+k, Ct, Ct+k) = P (Ct)P (Xt|Ct)P (Ct+k|Ct)P (Xt+k|Ct+k), e, como consequência, P (Xt = v,Xt+k = w) = m∑ i=1 m∑ j=1 P (Xt = v,Xt+k = w|Ct = i, Ct+k = j) = m∑ i=1 m∑ j=1 P (Ct = i)︸ ︷︷ ︸ ui(t) pi(v)P (Ct+k = j|Ct = i)︸ ︷︷ ︸ γij(k) pj(w) = m∑ i=1 m∑ j=1 ui(t)pi(v)γij(k)pj(w)· Escrevendo o casal de somas acima, como um produto de matrizes, produz o resultado P (Xt = v,Xt+k = w) = uuu(t)P(v)ΓkP(w)111⊤· Caso a Cadeia de Markov seja estacionária, isto se reduz a P (Xt = v,Xt+k = w) = δP(v)ΓkP(w)111⊤· Da mesma forma pode-se obter expressões para as distribuições marginais de ordem superior, no caso estacionário, a fórmula para uma distribuição trivariada é para inteiros positivos k e l P (Xt = v,Xt+k = w,Xt+k+l = z) = δP(v)ΓkP(w)ΓlP(z)111⊤· 3.3.3 Momentos Observemos primeiramente que E(Xt) = m∑ i=1 E(Xt|Ct = i)P (Ct = i) = m∑ i=1 ui(t) E(Xt|Ct = i), a qual, no caso estacionário, se reduz a E(Xt) = m∑ i=1 δ E(Xt|Ct = i)· De modo mais geral, resultados análogos valem para E[g(Xt)] e E[g(Xt, Xt+k)], qualquer seja a função g. No caso estacionário E[g(Xt)] = m∑ i=1 δ E[g(Xt)|Ct = i] e E[g(Xt, Xt+k)] = m∑ i=1 m∑ j=1 E[g(Xt, Xt+k)|Ct = i, Ct+k = j]δiγij(k), 3.4. VEROSSIMILHANÇA 131 onde γij(k) = (Γ K)ij, para k ∈ N. Em muitas situações interessa-nos uma função g a qual fatoriza como g(Xt, Xt+k) = g1(Xt)g2(Xt+k), caso em que a expressão anterior se torna E[g(Xt, Xt+k)] = m∑ i=1 m∑ j=1 E[g1(Xt)|Ct = i] E[g2(Xt+k)|Ct+k = j]δiγij(k)· Estas expressões nos permitem, por exemplo, encontrar covariâncias e correlações sem muita dificul- dade; existindo expressões expĺıcitas convenientes em muitos casos. Por exemplo, as seguintes conclusões resultam no caso do Modelo Oculto Poisson estacionário com dois estados: • E(Xt) = δ1λ1 + δ2λ2, • Var(Xt) = E(Xt) + δ1δ2(λ2 − λ1)2) ≥ E(Xt), • Cov(Xt, Xt+k) = δ1δ2(λ2 − λ1)2(1− γ12 − γ21)k, para k ∈ N. Note-se que a expressão resultante para a correlação de Xt e Xt+k é da forma ρ(k) = A(1−γ12−γ21)k, com A ∈ [0, 1) e A = 0 se λ1 = λ2. 3.4 Verossimilhança Exemplo 3.4 Exemplo simulado de um Modelo Oculto de Markov com dois estados. Nesta situação as distribuições estado-dependentes são Beta(2, 6) e Beta(6, 2), respectivamente. Ainda escolhemos por matriz de transição P = (Estado 1 Estado 2 Estado 1 0.8 0.2 Estado 2 0.3 0.7 ) e por distribuição marginal dos estados, no instante inicial, ‘a função δ = (0, 1). Com os comandos R seguintes simulamos um processo estocástico seguindo um Modelo Oculto de Markov com os parâmetros especificados. library(HiddenMarkov) Pi = matrix(c(0.8, 0.2, 0.3, 0.7), byrow=TRUE, nrow=2) n = 200 x = dthmm(NULL, Pi, c(0,1), "beta", list(shape1 = c(2, 6), shape2 = c(6, 2))) x = simulate(x, nsim=n, seed=5) # par(mar=c(4,5,1,1)) plot(seq(1,n), x$y, ylab="Estados", xlab="Indices", ylim=c(1,2), main="Modelo Oculto de Markov Beta", type="p", cex=0.6, pch=19) lines(seq(1,n), 1+x$x) points(seq(1,n), x$y, col="red", type="p", cex=0.6, pch=19) Como resposta temos no objeto x os valores das observações assim como também os valores atribúıdos aos estados da cadeia Ct. Na Figura 3.3 mostramos o gráfico com as observações simuladas e os estados. 132 CAPÍTULO 3. MODELOS OCULTOS DE MARKOV 0 50 100 150 200 1. 0 1. 2 1. 4 1. 6 1. 8 2. 0 Modelo Oculto de Markov Beta Índices E st ad os Figura 3.3: . 3.5 Exemplos Nesta seção, mostraremos situações diversas onde o Modelo Oculto de Markov é proposto. 3.5. EXEMPLOS 133 Exemplo 3.5 (Aplicação para a classificação de clientes) Uma empresa de serviços de informática oferece quatro tipos de serviços de chamadas distantes I, II, III e IV (quatro peŕıodos diferentes de um dia). A partir do banco de dados de clientes, obtém-se a informação da distribuição de gastos de 71 clientes escolhidos aleatoriamente. Um estudo longitu- dinal foi realizado durante ano e maio para investigar os clientes. O comportamento e as respostas dos clientes são capturados e monitorados durante o peŕıodo de investigação. Por simplicidade de discussão, os clientes são classificados em dois grupos. Entre eles, 22 clientes são conhecidos como clientes fiéis (Grupo A) e os outros 49 clientes não são clientes fiéis (Grupo B). Essa classificação é útil para gerentes de marketing quando planejam qualquer promoção. Para os clientes do Grupo A, serão oferecidas promoções em novos serviços e produtos. Enquanto para os clientes do Grupo B, descontos nos servio̧s atuais serão oferecidos a eles para evitar que eles mudem ou se movimentem para as empresas concorrentes. Dois terços dos dadossão usados para construir o HMM e os dados restantes são usados para validar o modelo. Portanto, 16 candidatos são escolhidos aleatoriamente (esses clientes são rotulados nos primeiros 16 clientes na Tabela 3.1) do Grupo A e 37 candidatos do grupo B Os 6 candidatos restantes (os 6 primeiros clientes na Tabela 3.1) do Grupo A e 12 candidatos do Grupo B são usados para validar o HMM constrúıdo. Um HMM com quatro estados observáveis (I, II, III e IV) e dois estados ocultos (Grupo A e Grupo B) é então constrúıdo. Um problema interessante é o seguinte. Dada a distribuição de gastos de um cliente, como classificar corretamente o cliente (Grupo A ou Grupo B) com base nas informações da Tabela 3.3? Para resolver esse problema, pode-se aplicar o método discutido neste Caṕıtulo para calcular o probabilidade de transição α nos estados ocultos. Esse valor de α pode ser usado para classificar um cliente. Se o α estiver próximo de 1, o cliente provavelmente será um cliente fiel. Se o α estiver próximo de 0, o cliente provavelmente será um cliente não fiel. Os valores de α para todos os 53 clientes estão listados na Tabela. É interessante notar que o valor de α de todos os outros clientes (Grupo B) está no intervalo [0.00,0.69]. Com base no valor de α obtido, os dois grupos de clientes podem ser claramente separados, definindo o valor de corte beta como 0.75. Uma posśıvel regra de decisão pode, portanto, ser definida da seguinte maneira: Classifique um cliente para o Grupo A se α ≥ β, caso contrário, classifique o cliente para o Grupo B. A regra de decisão é aplicada aos 22 clientes capturados restantes. Entre eles, 6 clientes (os seis primeiros clientes da Tabela 3.3 pertencem ao Grupo A e 12 clientes pertencem ao Grupo B. Seus valores α sã computados e listados na Tabela 3.3. claro que o valor do beta está definido para 0.75, todos os clientes serão classificados corretamente. Dois terços dos dados são usados para construir o HMM. Os comando a seguir nos permitem a leitura dos dados na Tabela 3.1. library(HiddenMarkov) Pi = matrix(c(0.8, 0.2, 0.3, 0.7), byrow=TRUE, nrow=2) n = 200 x = dthmm(NULL, Pi, c(0,1), "beta", list(shape1 = c(2, 6), shape2 = c(6, 2))) x = simulate(x, nsim=n, seed=5) # par(mar=c(4,5,1,1)) plot(seq(1,n), x$y, ylab="Estados", xlab="Indices", ylim=c(1,2), main="Modelo Oculto de Markov Beta", type="p", cex=0.6, pch=19) lines(seq(1,n), 1+x$x) points(seq(1,n), x$y, col="red", type="p", cex=0.6, pch=19) A partir das informações dos clientes do Grupo A e do Grupo B na Tabela 3.1, as médias das 134 CAPÍTULO 3. MODELOS OCULTOS DE MARKOV distribuições de gastos para ambos os grupos são computadas na Tabela 3.2. Isso significa que um cliente no Grupo A (Grupo B) é caracterizado pela distribuição de despesas na primeira (segunda) linha da Tabela 3.2. Cliente I II III IV α Cliente I II III IV α 1 1.00 0.00 0.00 0.00 1.00 2 1.00 0.00 0.00 0.00 1.00 3 0.99 0.01 0.00 0.00 1.00 4 0.97 0.03 0.00 0.00 1.00 5 0.87 0.06 0.04 0.03 0.98 6 0.85 0.15 0.00 0.00 0.92 7 0.79 0.18 0.02 0.01 0.86 8 0.77 0.00 0.23 0.00 0.91 9 0.96 0.01 0.00 0.03 1.00 10 0.95 0.00 0.02 0.03 1.00 11 0.92 0.08 0.00 0.00 1.00 12 0.91 0.09 0.00 0.00 1.00 13 0.83 0.00 0.17 0.00 0.97 14 0.82 0.18 0.00 0.00 0.88 15 0.76 0.04 0.00 0.20 0.87 16 0.70 0.00 0.00 0.30 0.83 17 0.62 0.15 0.15 0.08 0.69 18 0.57 0.14 0.00 0.29 0.62 19 0.56 0.00 0.39 0.05 0.68 20 0.55 0.36 0.01 0.08 0.52 21 0.47 0.52 0.00 0.01 0.63 22 0.46 0.54 0.00 0.00 0.36 23 0.25 0.75 0.00 0.00 0.04 24 0.22 0.78 0.00 0.00 0.00 53 0.00 0.82 0.15 0.03 0.00 Tabela 3.1: Dados reproduzidos de Ching et al. (2013). Exemplo 3.5 acerca da classificação de clientes. Grupo I II III IV A 0.8806 0.0514 0.0303 0.0377 B 0.1311 0.5277 0.1497 0.1915 Tabela 3.2: A despesa média dos Grupos A e B do Exemplo 2.5. Para 0 1 2 3 4 5 6 0 520 134 327 111 36 7 0 1 270 128 222 97 36 7 0 2 284 101 368 193 61 9 5 De 3 94 33 119 131 42 3 1 4 16 14 42 50 17 7 0 5 7 3 4 4 3 0 1 6 1 1 0 3 1 0 0 Tabela 3.3: Contagem de transições do Exemplo 2.5.
Compartilhar