Baixe o app para aproveitar ainda mais
Prévia do material em texto
Caṕıtulo 2 Inferência em Cadeias de Markov Uma Cadeia de Markov é por vezes um modelo probabiĺıstico adequado para determinada série temporal em que a observação em um determinado momento é uma categoria à qual um indiv́ıduo corresponde. A mais simples Cadeia de Markov é aquela na qual existe um número finito de estados ou categorias, um número finito de pontos no tempo equidistantes em que são feitas as observações, a cadeia é de primeira ordem e as probabilidades de transição são as mesmas para cada intervalo de tempo. Estas foram as cadeias que estudamos no Caṕıtulo 1. Vamos considerar aqui vários métodos para obter estimadores da matriz de probabilidades transição em três situações: quando o comprimento do intervalo entre os pontos de tempo do modelo coincide com o intervalo de observação, quando a duração do deste comprimento do intervalo entre os pontos de tempo não coincide com o intervalo de observação e quando os intervalos de observação são desiguais em comprimento. Além disso, discutimos o uso da técnica de bootstraps como um método para avaliar a incerteza nas estimações e para a construção de intervalos de confiança da matriz de transição. Também estudaremos como verificar a ordem de uma Cadeia de Markov. Depois apresentamos testes para verificar a ordem da cadeia. Diferentes livros e artigos foram consul- tados para escrever este texto, alguns importantes são Jacobsen (1982), Billingsley (1961a), Billingsley (1961b) e Basawa & Prakasa Rao (1980). Outras referências serão também mencionados no texto. 2.1 Estimação da matriz de transição Seja {X1, X2, · · · } um processo estocástico ou um asequência de variáveis aleatórias assumindo valores em algum conjunto finito chamado aqui de espaço de estados S. A variável Xn deve ser considerada como estado no tempo n de um sistema cuja evolução é regida por um conjunto de leis de probabilidade. A t́ıpica Cadeia de Markov a tempo discreto limita a descrição do histórico de cada sujeito a pontos de tempo com igualdade espaçdos. Em outras palavras, em vez de modelar a possibilidade de progressão a cada instante no tempo, ou seja, dia, mês ou ano. O intervalo entre esses pontos de tempo é conhecido como o comprimento do ciclo. Nesta seção, presume-se que a matriz de transição vai ser estimada a partir de dados de coorte longitudinais, com intervalos de observação comuns a todos os sujeitos. A atenção é restrita a obtenção da estimativa de máxima verossimilhança da matriz de transição em três situações espećıficos crescentes de complexidade. O primeiro caso é quando os intervalos de observação são constantes e coincidem com a duração do ciclo. O segundo caso acontece quando os intervalos de observação são constantes, mas não coincidem com a duração do ciclo. Os métodos discutidos na presente seção somente podem ser utilizados em certas situações. Quando não puder, o método discutido para o terceiro caso é posśıvel. O terceiro caso, representa a situação mais comum, quando os intervalos de observação não são iguais em comprimento. A duração do ciclo pode ou não coincidir com um destes intervalos. 95 96 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV Vamos considerar {x0, x2, · · · , xn} uma amostra de uma Cadeia de Markov com probabilidades de transição px,y e distribuição inicial π0. Observe que {x0, x1, · · · , xn} deve ser uma sequência de n + 1 estados. Então, a probabilidade de que x0, x1, · · · , xn seja essa sequência é justamente π(x0)px0,x1 · · · pxn−1,xn · Para x, y = 1, 2, · · · , d, seja nx,y o número de transições, assim a matriz (nx,y) vai ser chamada de matriz de contagens de transições da sequência. Dado que π(x0)px0,x1 · · · pxn−1,xn = π(x0) ∏ x,y pnx,yx,y , (2.1) a contagem das transições junto com o estado inicial formam uma estat́ıstica suficiente. A distribuição dessa estat́ıstica vai ser nosso objetivo. Sabemos que a probabilidade de obtiver uma sequência em particular, que começe com com x0 e tenha matriz de transição (nx,y) é dada por (2.1) e, com o objetivo de encontrarmos a distribuição da estat́ıstica suficiente é necessário somente contar o número de tais sequências. Se nx,· = ∑ y nx,y e n·,y =∑ x nx,y então {nx,·} e {n·,y} são as frequências das contagens de {x0, x1, · · · , xn−1} e {x1, x2, · · · , xn} respectivamente. Disso seque que nx,· − n·,y = 111x(x0)− 111x(xn)∑ x,y nx,y = ∑ x nx,· = ∑ y n·,y = n· É claro a partir da primeira dessas relações que (nx,y) e o estado inicial determinam completamente o estado final. Da mesma forma, (nx,y) e o estado do final determinam o estado inicial. No entanto, (nx,y) sozinho não determina os estados inicial e final: por exemplo, as sequências {1, 2, 1} e {2, 1, 2} têm contagens de transição idênticas. A resposta a este problema combinatório é a seguinte. Teorema 2.1 (Fórmula de Whittle (Whittle, 1955)) Seja (nx,y) uma matriz d× d de inteiros não negativos satisfazendo que ∑ xy nxy = n e tais que nx,· − n·,y = 111x(u) − 111x(v), x, y = 1, · · · , d para algum par u, v. Se N (n)u,v (nx,y) é o número de sequências {x0, x1, · · · , xn} tendo contagens de transição (nx,y) e satisfazendo x0 = u e xn = v, então N (n)u,v (nx,y) = ∏ x nx·!∏ x,y nx,y! Cv,u, (2.2) onde Cv,u é o cofator (v, u) da matriz (nx,y) ∗ de componentes n∗x,y = 111x(y)− nx,y nx,· se nx,· > 0 111x(y) se nx,· = 0 · (2.3) 2.1. ESTIMAÇÃO DA MATRIZ DE TRANSIÇÃO 97 Demonstração : Billingsley (1961b). A demonstração é por indução. O resultado é fácil de estabelecer se n = 1, caso em que ambos os lados de (2.2) são 1. Se (nu,v) é (nx,y) com a (u, v) entrada diminúıda em 1, temos que N (n)u,v (nx,y) = ∑ w N (n−1)w,v (nu,w), onde a soma se estende sobre aqueles w para so quais nu,w > 0. Por isso, basta mostrar que o lado direito de (2.2) satisfaz esta mesma relação ou que (nx,y) ∗ = ∑ w nu,wn −1 u,· (nv,w) ∗(u,w)· (2.4) Desde que (nv,w) ∗ e (nx,y) ∗ concordem fora da w-ésima coluna, (nv,w) ∗(u,w) = (nv,w) ∗. Com este fato, juntamente com a definição (2.3), segue que (2.4) é equivalente a ∑ w n ∗ u,w(nv,w) ∗ = 0 onde a soma se estende sobre todos os w. Dado que ∑ w n ∗ u,w(nv,w) ∗ = 111u(v)|(nx,y)∗|, a expressão em (2.4) vale para o caso no qual u ̸= v e é necessário somente mostrar que |(nx,y)∗| = 0 caso u = v. Suponhamos convenientemente que nx,· = n·,x é positivo para x ≤ r e zero para x > r. Então (nx,y) tem a forma (nx,y) = ( A 0 0 0 ) , onde A é uma matriz r × r. Pela definição (2.3), (nx,y) ∗ = ( A∗ 0 0 I ) , onde as linhas de A∗ somam zero. Por isso, |(nx,y)∗| = |A∗| = 0. Exemplo 2.1 Seja, por exemplo, a sequência de 12 valores observados {0, 1, 1, 0, 1, 0, 1, 1, 1, 0, 0, 1}. Esta sequência tem u = 0 e v = 1 e matriz de contagens de transição (nx,y) = ( 1 4 3 3 ) · (2.5) Podemos utilizar a seguinte função R para encontrarmos a matriz de contagens de transição > x = c(0,1,1,0,1,0,1,1,1,0,0,1) > library(markovchain); library(matlab); library(matlib) > Matriz = createSequenceMatrix(x, sanitize=FALSE) > Matriz 0 1 0 1 4 1 3 3 Vemos, da expressão em (2.3) que n∗x,y = 4 5 −4 5 −1 2 1 2 (2.6) e C0,1 = 4/5. Substituindo em (2.2) temos que N (12) 0,1 (nx,y) = 5! · 6! 1! · 3! · 3! · 4! · 4 5 = 80· (2.7) 98 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV Logo, 80 é o número de sequências {0, x1, · · · , x10, 1} tendo contagens de transição (nx,y), dada em (2.5). Desenvolvemos uma função R para encontrarmos o número de sequências {x0, x1, · · · , xn} tendo contagens de transição (nx,y) e satisfazendo x0 = u e xn = v: > Whittle = function(M, u, v){ n = length(rowSums(M)) Prod1 = 1; for(i in 1:n) Prod1 = Prod1*gamma(rowSums(M)[[i]]+1) Prod2 = 1; for(i in 1:dim(M)[1]){ for(k in 1:dim(M)[2]) Prod2 = Prod2*gamma(M[i,k]+1) } u = which(row.names(M) == u) v = which(row.names(M) == v) C = cofactor(eye(n)-M/rowSums(M),v, u) return((Prod1/Prod2)*C) } > Whittle(Matriz, 0, 1) [1] 80 2.1.1 Intervalos de observação coincidentes Suponhamos que nos seja dado a realização de uma Cadeia de Markov e que se deseja estimar a matriz de probabilidades de transição. Uma abordagem é encontrar as contagens de transição e estimar as probabilidades de transição de uma forma óbvia. Exemplo 2.2 (Cadeia com três estados) Este é uma situação hipotética. Consideremos uma Cadeia de Markov com três estados da qual é observada a sequência: 2332111112213132332122223232332222213132332212213232132232 3132332223213232331232223232331222123232132123233132332121 Por simples contagem, segue-se que, a matriz do número de transição entre os estados é (nx,y) = 4 8 1013 17 22 6 26 9 , onde nx,y denota o número de transições observadas desde o estado x ao estado y. Uma vez que o número de transições do estado 2 para o estado 3 é 22 e o número total de transições do estado 2 é 13 + 17 + 22, uma estimativa emṕırica de p̂2,3 é 22/52. Uma estimativa emṕırica para a matriz de transição seria então P̂ = 4 22 8 22 10 22 13 52 17 52 22 52 6 41 26 41 9 41 · 2.1. ESTIMAÇÃO DA MATRIZ DE TRANSIÇÃO 99 Vamos agora mostrar que este é, de fato, a estimativa de máxima verossimilhança condicional de P , condicionada à primeira observação. Suponhamos, então, que nós queremos estimar os d2−d parâmetros de uma Cadeia de Markov {Xn} com d estados a partir uma realização x0, x1, · · · , xT . A função de verossimilhança condicional à primeira observação é L = d∏ x=1 d∏ y=1 pnx,yx,y · (2.8) Desta expressão obtemos que o logaritmo da função de verossimilhança é ℓ = d∑ x=1 ( d∑ y=1 nx,y log px,y ) = d∑ x=1 ℓx, a qual podemos maximizar maximizando cada somando separadamente. Substituindo 1 − ∑ z ̸=x px,z por px,x, diferenciando cada ℓx com relaa̧ão à todas as probabilidades de transição não diagonais px,y e igualando as derivadas a zero obtemos 0 = −nx,x 1− ∑ z ̸=x px,z + nx,y px,y = −nx,x px,x + nx,y px,y · Assim, a menos que um denominador seja zero na equação acima nx,ypx,x = nx,xpx,y, e por isso px,x d∑ y=1 nx,y = nxx. Isto implica que o ponto de máximo local da função de verossimilhança das probabilidades de transição é p̂x,x = nx,x d∑ y=1 nx,y , e p̂x,y = nx,y d∑ y=1 nx,y · (2.9) e p̂x,y = nx,y d∑ y=1 nx,y · (2.10) Também podeŕıamos utilizar multiplicadores de Lagrange para expressar as restrições ∑d y=1 px,y = 1, sob as quais buscamos maximizar os termos ℓx e, portanto, a função de verossimilhança. Mas isso, não é necessário em geral. Exemplo 2.3 (Continuação do Exemplo 2.2) Fazendo uso do pacote de funções markovchain, constrúımos a matriz de contagens de transição utilizando o comando createSequenceMatrix, como mostrado a seguir: > x = c(2,3,3,2,1,1,1,1,1,2,2,1,3,1,3,2,3,3,2,1,2,2,2,2,3,2,3,2,3,3,2,2,2,2,2,1,3,1,3,2,3,3, 2,2,1,2,2,1,3,2,3,2,1,3,2,2,3,2,3,1,3,2,3,3,2,2,2,3,2,1,3,2,3,2,3,3,1,2,3,2,2,2,3,2, 3,2,3,3,1,2,2,2,1,2,3,2,3,2,1,3,2,1,2,3,2,3,3,1,3,2,3,3,2,1,2,1) > Matriz = createSequenceMatrix(x, sanitize=FALSE) 100 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV > Matriz 1 2 3 1 4 8 10 2 13 17 22 3 6 26 9 Às vezes o número de Whittle é impraticável, como nesta situação. Utilizando a função anterior obtemos que: > Whittle(Matriz, u = 2, v = 1) [1] 8.462769e+44 A questão agora é transformar as frequências observadas em probabilidades, para isso utilizamos o comando markovchainFit do qual temos por resposta uma lista com diversas informações. A primeira resposta é a matriz de probabilidades de transição estimada, a qual pode ser obtida também digitando mcFitMLE[[1]]. > mcFitMLE[[1]] MLE Fit A 3 - dimensional discrete Markov Chain defined by the following states: 1, 2, 3 The transition matrix (by rows) is defined as follows: 1 2 3 1 0.1818182 0.3636364 0.4545455 2 0.2500000 0.3269231 0.4230769 3 0.1463415 0.6341463 0.2195122 Teorema 2.2 Seja {Xn} uma Cadeia de Markov ergódica. Então independentemente da distribuição inicial √ nx,y(p̂x,y − px,y) D−→ Z, (2.11) onde Z ∼ N(0,Σ), Σ = (σx,y), x, y ∈ S e σx,y = px,y(1− px,y) caso {x, y} ̸= {z, w} −px,ypx,z caso x = z, y ̸= w 0 caso contrário Demonstração : Consequência do Teorema Central do Limite (Anderson & Goodman, 1957). O resultado deste teorema implica que a covariância assintótica tem uma estrutura multinomial dentro das linhas e independência entre as linhas. Como resposta temos também o desvio padrão da estimação, calculado segundo a expressão em (2.11), como p̂x,y/ √ nx,y, assim como um intervalo de confiança de 95%, os limites inferior e superior deste intervalo e o valor da funçõ de log-verossimilhança. Exemplo 2.4 (Continuação do Exemplo 2.2) Mostramos agora a forma de obtermos os resultados apresentados no Teorema 2.2. Todos os resul- tados estão guardados no objeto mcFitMLE e para sabermos o valor do desvio padrão, por exemplo, 2.1. ESTIMAÇÃO DA MATRIZ DE TRANSIÇÃO 101 digitamos: > mcFitMLE$standardError 1 2 3 1 0.09090909 0.12856487 0.14373989 2 0.06933752 0.07929049 0.09020030 3 0.05974365 0.12436633 0.07317073 O intervalos confidencial é de 95%, o qual verificamos digitando: > mcFitMLE$confidenceInterval$confidenceLevel [1] 0.95 Então, por final, obtemos os limites inferior e superior do intervalos confidenciais como mostrado abaixo. Ainda mostramos o valor da função ℓ, o logaritmo da função de verosimilhança. > mcFitMLE$confidenceInterval$lowerEndpointMatrix 1 2 3 1 0.03228603 0.1521660 0.21811437 2 0.13594992 0.1965018 0.27471063 3 0.04807190 0.4295819 0.09915705 > mcFitMLE$confidenceInterval$upperEndpointMatrix 1 2 3 1 0.3313503 0.5751068 0.6909765 2 0.3640501 0.4573443 0.5714432 3 0.2446110 0.8387107 0.3398673 > mcFitMLE$logLikelihood [1] -115.7695 O nosso próximo exemplo é uma aplicação de Cadeia de Markov em engenharia, tem a ver com pontes e baseia-se no trabalho de Skuriat-Olechnowska (2005). A maioria das pontes na Holanda é constrúıda em concreto e mais de metade delas tem mais de 30 anos. À medida que as pontes se deterioram a uma velocidade acelerada devido à corrosão, à degradação do concreto e ao dano do véıculo a Divisão de Engenharia Civil de Rijkswaterstaat1, que faz parte do Ministério dos Transportes, das Obras Públicas e da Gestão da Àgua deve repará-las e, sempre que posśıvel, impedem uma maior deterioração. O referido ministério é o principal encarregado por de cerca de 3500 pontes na Holanda por isso o ministério gosta de conhecer a vida útil restante de suas estruturas já que é sabido que durante a vida útil, as estruturas precisarão ser reparadas. Neste momento, uma estratégia de reparo baseada em inspeções é usada para determinar quando o reparo será feito. Esta estratégia de reparo para pontes de concreto na Holanda resulta em reparação de pontes a cada 25 até 35 anos. O reparo será normalmente de 0.5% até 155% da área da estrutura (van Beek et al., 2003). Estes dados contém informações sobre os estados em que a estrutura de pontes encontraram-se durante as inspeções, ou seja, contém um histórico de inspeção e no ano de construção. Estado Perfeito Muito bom Bom Razoável Med́ıocre Mau Muito mal Classificação 0 1 2 3 4 5 6 Tabela 2.1: Esquema de classificação da condição das pontes. Para o gerenciamento das informaçõs utilizam-se diversos sistemas, dois deles: PONTIS e BRIDGIT são dois dos Sistemas de Gerenciamento de Ponte mais comuns atualmente dispońıveis (Golabi e Shepard, 1A Rijkswaterstaat é responsável pela concepção, construção, gestão e manutenção das principais infra-estruturas da Holanda. Isso inclui a rede rodoviária principal, a rede de hidrovia principal e os sistemas de águas. 102 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV 1997; Thompson et al., 1998). Ambos têmsuas origens no Arizona Pavement Management System desenvolvido no final da década de 1970 e são quase exclusivamente utilizados nos Estados Unidos. Todos esses modelos usam Cadeias de Markov para modelar a deterioração incerta das pontes ao longo do tempo. Nos Páıses Baixos, os resultados das inspeções de ponte são registrados em um banco de dados, que é usado principalmente para manutenção de registros. Esta base de dados é uma fonte muito rica de informações, contém dados coletados ao longo de quase 20 anos, e a finalidade da pesquisa atual é usar esses dados para estimar a taxa de deterioração. Para 0 1 2 3 4 5 6 0 520 134 327 111 36 7 0 1 270 128 222 97 36 7 0 2 284 101 368 193 61 9 5 De 3 94 33 119 131 42 3 1 4 16 14 42 50 17 7 0 5 7 3 4 4 3 0 1 6 1 1 0 3 1 0 0 Tabela 2.2: Contagem original de transições do Exemplo 2.5. Reconhecendo que as Cadeias de Markov são uma ferramenta adequada para modelagem de deteri- oração de pontes propomos técnicas adequadas que levem em consideração o tipo especial de censura envolvendo inspeções de pontes. Além disso, gostaŕıamos de ter testes estat́ısticos à nossa disposição para avaliar a validade e o desempenho relativo de diferentes tipos de Cadeias de Markov. Essenci- almente, estamos interessados em obter a funcionalidade de um sistema de gerenciamento de ponte como PONTIS, ao mesmo tempo em que cuidamos especialmente a validade de nossos pressupostos e os modelos resultantes em relação à situação nos Páıses Baixos. Definida a codificação dos estados que vamos utilizar na Tabela 2.1, classificando o estado de con- servação das pontes inspecionadas procedemos à estimação da matriz de probabilidades de transição desta cadeia. A Tabela 2.2 mostra a contagem das transições de cada estado para qualquer outro estado. Para 0 1 2 3 4 5 0 520 134 327 111 36 7 1 270 128 222 97 36 7 2 284 101 368 193 61 14 De 3 94 33 119 131 42 4 4 16 14 42 50 17 7 5 8 4 4 7 4 1 Tabela 2.3: Contagem de transições do Exemplo 2.5, combinando os dois últimos estados da Tabela 2.2. Nós vemos que a informação, que vem de dados de deterioração, é bastante subjetiva. Vemos a classificação da condição que varia de um perfeito (estado 0) para um muito ruim (estado 6) através da definição de estados. Interessante observar que pontes em estados mau e muito mal raramente acontecem, por causa disso procedeu-se à junção destes estados e codificou-se como 5. O resultado apresenta-se na Tabela 2.3. Os dados provêm da Divisão de Engenharia Civil do Ministério dos Transportes, Obras Públicas e Gestão da Àgua na Holanda. 2.1. ESTIMAÇÃO DA MATRIZ DE TRANSIÇÃO 103 Exemplo 2.5 (Inspeção de pontes) O banco de dados inclui um total de 5986 eventos de inspeção registrados para 2473 superestruturas individuais. Ignorando o tempo entre a construção da ponte e uma primeira inspeção, há 3513 transições registradas entre estados de condição. Pela Tabela 2.2 podemos observar que os estados 5 e 6 raramente ocorrem no banco de dados. Para determinar uma matriz de probabilidade de transição, esses estados são combinados no estado 5 para representar uma condição ”ruim”e ”muito ruim”, caso contrário, algumas probabilidades de transição podem ser zero. Obtemos como resposta a matriz de probabilidades de transição estimada a seguir: P̂ = 0 1 2 3 4 5 0 0.4581 0.1181 0.2881 0.0978 0.0317 0.0062 1 0.3553 0.1684 0.2921 0.1276 0.0474 0.0092 2 0.2782 0.0989 0.3604 0.1890 0.0597 0.0138 3 0.2222 0.0780 0.2813 0.3097 0.0993 0.0095 4 0.1096 0.0959 0.2877 0.3425 0.1164 0.0479 5 0.2857 0.1429 0.1429 0.2500 0.1429 0.0356 · Foi realizada uma análise sobre modelagem de deterioração de pontes mas os dados foram coleta- dos, no banco de dados denominado DISK e fornecidos pelo Divisão de Engenharia do Rijkswaters- taat, continham um número limitado de estados de condição das pontes, decidimos usar Cadeia de Markov para modelar a deterioração. O modelo de deterioração de Markov é baseado em condições. Por isso, é flex́ıvel na adaptação aos dados de inspeção (visual). Infelizmente, não pudemos observar o tempo exato das transições. Assim, adaptamos uma Cadeia de Markov com censura de intervalo. Censura de intervalo significa que não sabemos a hora exata de um evento. Em nosso contexto, isso significa que não sabemos a hora em que a ponte se move de um estado para outro. Uma probabili- dade de transição foi definida como a probabilidade de uma ponte passar de um estado para outro (igual ou pior). Assumimos que nenhuma manutenção foi realizada entre as inspeções. Com o auxilio dos seguintes comandos investigamos o comportamento futuro desta cadeia: > Estados = c("0", "1", "2", "3", "4", "5") > Pontes = matrix(c(520, 134, 327, 111, 36, 7, 270, 128, 222, 97, 36, 7, 284, 101, 368, 193, 61, 14, 94, 33, 119, 131, 42, 4, 16, 14, 42, 50, 17, 7, 8, 4, 4, 7, 4, 1), nrow = 6, ncol = 6, byrow = TRUE, dimnames = list(Estados, Estados)) > Pontes = as(as.table(Pontes), "markovchain") > Pontes Unnamed Markov chain A 6 - dimensional discrete Markov Chain defined by the following states: 0, 1, 2, 3, 4, 5 The transition matrix (by rows) is defined as follows: 0 1 2 3 4 5 0 0.4581498 0.11806167 0.2881057 0.09779736 0.03171806 0.006167401 1 0.3552632 0.16842105 0.2921053 0.12763158 0.04736842 0.009210526 2 0.2781587 0.09892262 0.3604310 0.18903036 0.05974535 0.013712047 3 0.2222222 0.07801418 0.2813239 0.30969267 0.09929078 0.009456265 4 0.1095890 0.09589041 0.2876712 0.34246575 0.11643836 0.047945205 5 0.2857143 0.14285714 0.1428571 0.25000000 0.14285714 0.035714286 > steadyStates(Pontes) 0 1 2 3 4 5 [1,] 0.3243988 0.1092058 0.3077224 0.1852073 0.06111703 0.01234871 104 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV Temos por resposta que 32,4% das pontes inspecionadas corresponderão a pontes em perfeito estado, 10,9% corresponderá a pontes em estado muito bom, 30,8% permanecerá em estado bom, 18,6% das pontes corresponderão á pontes em estado de conservação razoável, 6,1% estarão em estado med́ıocre na próxima avaliação enquanto 1,2% delas estarão em estado mau ou muito mal. 2.1.2 Intervalos de observação não coincidentes Consideremos a situação na qual L0 seja o intervalo de observação, porém o desejado é que seja Ld a duração do ciclo desejado. O estimador de máxima verossimilhança da matriz de transição de probabili- dades é P̂0, associada com o comprimento do ciclo de observação L0, a qual é obtida usando os métodos apresentados na Seção 2.1.1. Pela propriedade de invariância, o estimador de máxima verossimilhança da matriz de transição associado com a duração do ciclo Ld é P̂d = P̂ t, (2.12) onde t = Ld/L0. No exemplo anterior, se em vez de observarmos por um peŕıodo de um ano tivesse sido o peŕıodo de observaa̧ão de dois anos: L0 = 2 e Ld = 1. Então, pode-se encontrar a raiz quadrada da matriz de transição estimada, devido a que t = 1/2. O cálculo da matriz em (2.12) é simples a partir da decomposição de P̂0 em seus valores e vectores próprios, chamada de decomposição espectral. Com base nesta decomposição, esta matriz pode ser escrita como P̂0 = V ΛV −1, onde Λ = λ1 0 · · · 0 0 λ2 · · · 0 ... ... ... ... 0 0 · · · λN é a matriz de auto-valores e V a matriz de auto-vetores correspondentes. Segue então que P̂ t0 = V ΛtV −1, onde Λt = λt1 0 · · · 0 0 λt2 · · · 0 ... ... ... ... 0 0 · · · λtN · Os autovalores são transformados segundo o valor da potência t, mas os autovetores não mudam. Temos diversas opções dispońıveis de funções de decomposição de matrizes, de forma que estes cálculos podem ser feitos muito rapidamente, por exemplo, no R a função básica eigen permite realizar estes cálculos. Um modelo a tempo discreto não é necessariamente Markov em todos os ciclos. Isto é comparável a dizer que alguns dos valores próprios da matrizde transição podem ser negativos. Desde que a matriz de transição estimada P̂ seja semidefinida positiva, todos os valores próprios serão não-negativos, este método permitirá calcular o estimador de máxima verossimilhança diretamente. O procedimento apresentado aqui não é único na literatura especializada, porém o consideramos de fácil implementação. Um outro procedimento pode ser consultado em Miller & Homan (1994). 2.1. ESTIMAÇÃO DA MATRIZ DE TRANSIÇÃO 105 Vejamos o exemplo a seguir o qual é um estudo de coorte sobre o HIV2. Os pesquisadores constrúıram uma Cadeia de Markov estacionária para descrever a progressão mensal de indiv́ıduos infectados por HIV em maior risco de desenvolver infecção por Complexo Mycobacterium avium3. Esta progressão inclúıa a possibilidade de movimento entre três faixas de contagem de células CD4 distintas, com e sem AIDS. Seis meses de contagem Contagem inicial de células CD4 de células CD4 0 - 49 50 - 74 75+ 0 - 49 682 33 25 50 - 74 154 64 47 75+ 19 19 43 Tabela 2.4: Transições observadas em seis meses na contagem de células CD4 (1993-1995). Estudo realizado na Suiça com pacientes infectados pelo HIV. Exemplo 2.6 (Estudo de coorte HIV ) Dados coletados num estudo multicêntrico onde os pacientes infectados pelo HIV têm visitas de acompanhamento bastante regulares, a cada seis meses. Os dados estão dispońıveis no arquivo de dados craigsendi, pacote markovchain, e mostrados na Tabela 2.4. > data(craigsendi) > csMc = as(craigsendi, "markovchain") > csMc Unnamed Markov chain A 3 - dimensional discrete Markov Chain defined by the following states: 0-49, 50-74, 75-UP The transition matrix (by rows) is defined as follows: 0-49 50-74 75-UP 0-49 0.9216216 0.04459459 0.03378378 50-74 0.5811321 0.24150943 0.17735849 75-UP 0.2345679 0.23456790 0.53086420 Estes resultados significam que a matriz de probabilidades de transição estimada em seis meses é P̂6 = 0− 49 50− 74 75+ 0− 49 0.9216 0.0446 0.0338 50− 74 0.5811 0.2415 0.1774 75+ 0.2346 0.2346 0.5309 · Devemos mencionar que os dados apresentados na Tabela 2.4 constituem a contagem das transições observadas mas, uma vez convertidos em Cadeia de Markov temos as probabilidades estimadas de transição, como foi realizado no Exemplo 2.5. A apresentação do Exemplo 2.6 permite-nos a leitura dos dados na referência mencionada antes e guardados no arquivo craigsendi. Esclarecemos novamente que os dados originais foram observados num peŕıodo de seis meses, o qual nõ é o desejado no estudo, queremos o comportamento mensal. Mostramos 2Sendi, P.P., Craig, B.A., Pfluger, D., Gafni, A. and Bucher, H.C.. Systematic validation of disease models for pharmacoeconomic evaluations. Journal of Evaluation in Clinical Practice. 1999; Volume 5; pp. 283-295. 3O Complexo Mycobacterium avium é um grupo de bactérias que pode ser encontrado normalmente na rede hidráulica das cidades e em pessoas com imunossupressão, como portadores do HIV/AIDS. 106 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV a continuação nossa implementação no R do procedimento para encontrarmos a matriz de transição no ciclo desejado. Observe que, em nossa implementação no seguinte exemplo, todos oa auto-valores foram positivos. Exemplo 2.7 (Continuação do Exemplo 2.6) Para esta análise, a duração do ciclo desejado é de um mês. Para estimar a matriz de transição para esse intervalo, vamos decompor P̂6. Utilizando a função R eigen obtemos > L = eigen(csMc@transitionMatrix) > L eigen() decomposition $values [1] 1.0000000 0.5701572 0.1238380 $vectors [,1] [,2] [,3] [1,] -0.5773503 -0.1276431 0.02818224 [2,] -0.5773503 0.2866930 -0.87301666 [3,] -0.5773503 0.9494811 0.48687542 Agora vamos transformar esta matriz à situação procurada, ou seja, numa transição mensal. > csMc1 = L$vectors%*%diag((L$values)^(1/6))%*%solve(L$vectors) > csMc1 = new("markovchain", byrow=T, transitionMatrix=csMc1) resultado apresentado em (2.13). Traduzindo estes resultados: a matriz de auto-valores é Λ = 1.000000 0 00 0.5701572 0 0 0 0.123838 e a matriz de auto-vetores correspondente é V = −0.5773503 −0.1276876 0.02817213−0.5773503 0.2867671 −0.87297660 −0.5773503 0.9494527 0.48694783 . Como mencionado o ciclo observado foi de 6 meses, mas o ciclo desejado é de um mês. Para isso tomamos a raiz sexta de Λ e fazendo os cálculos sugeridos (2.12) obtemos que a matriz de transição estimada de um mês é P̂ = 0.9819 0.0122 0.00590.1766 0.7517 0.0717 0.0177 0.0933 0.8830 · (2.13) Se esta matriz fosse multiplicada seis vezes o resultado será a matriz P̂6 como esperado. Observe que este processo é muito rápido e simples. Neste exemplo, a matriz sugere que haverá demasiados pacientes no estado 0-49 após seis ciclos. Podemos agora, inclusive, identificarmos a distribuição estacionária, para isso fazemos: > steadyStates(csMc1) 1 2 3 [1,] 0.8343668 0.07659214 0.08904103 Significa que, a longo prazo, 83,4% indiv́ıduos infectados por HIV mantem-se na faixa 0-49 de contagem de células CD4, 7,7% apresentam contagem na faixa 50-74 em 8,9% dos casos a contagem é 75 ou mais. 2.2. TESTES PARA VERIFICAR A ORDEM DA CADEIA 107 2.2 Testes para verificar a ordem da cadeia Muitas vezes acontece que é útil descrever um processo estocástico como um conjunto de estados discretos com transições probabiĺısticas e exemplos abundam em vários campos, como o estudo de processos qúımicos, sequências de DNA, finanças dentre outros. Se a probabilidade de transição para o próximo estado é condicionada apenas no estado atual, chamamos este modelo de uma Cadeia de Markov, e quando as probabilidades condicionais não são dadas de outra forma, elas são estimadas a partir de uma série temporal de observações. Mas, e caso a probabilidade de transição para o próximo estado seja condicionada não somente no estado atual? em tais situações surgem novos questionamentos. Se a ordem da Cadeia de Markov estiver em questão o primeiro é respondermos: o que é ordem de uma Cadeia de Markov? Definição 2.1 Uma sequência de observações {Xn}n≥1 formam uma Cadeia de Markov de ordem k se a probabilidade condicional satisfaz P (Xn+1|Xn, Xn−1, · · · ) = P (Xn+1|Xn, · · · , Xn−k+1), ∀k < n· (2.14) As cadeias de Markov consideradas no Caṕıtulo 1 são cadeias de ordem um, ou seja, k = 1. Isso significa, como sabemos, que as probabilidades de transição para um estado futuro dependem apenas do estado atual e não de estados anteriores. Um processo de ordem k pode sempre ser lançado como de primeira ordem agrupando estados. Um processo que não tenha dependência do passado ou presente, como variáveis aleatórias independentes, é dito ser uma Cadeia de Markov de ordem zero. Por outro lado, como deve ser facilmente percebido cadeias de ordens superiores, ou seja, cadeias de segunda ordem ou superiores implicam numa representação mais complicada. Considere primeiro uma Cadeia de Markov de segunda ordem. Dado que um indiv́ıduo está no estado z no instante n − 2 e em y no instante n − 1, seja pzyx a probabilidade de estar o indiv́ıduo no estado x no instante n. Uma cadeia estacionária de primeiro ordem é uma cadeia especial de segunda ordem, na qual pzyz não depende de z. Para vermos isso, considere o par de estados sucessivos z e y definir um estado composto (z, y). A probabilidade do estado composto (y, x) no instante n dado o estado composto (z, y) no instante n− 1 é pzyx. Vejamos isso. Sabemos que P (Xn = x|Xn−1 = y,Xn−2 = z) = pzyx e queremos verificar se P ( Xn = (y, x)|Xn−1 = (z, y) ) = pzyx. Logo P ( Xn = (y, x)|Xn−1 = (z, y) ) = pzyx P ( Xn = (y, x)|Xn−1 = y,Xn−2 = z ) = P ( Xn = x,Xn−1 = y|Xn−1 = y,Xn−2 = z ) = pzyx· (2.15) Claro que, a probabilidade do estado (w, x), w ̸= y, dado (x, y), é zero. Os estados compostos podem ser encontrados para formar uma cadeia com d2 estados (d é o número de estados) e com certas probabilidadesde transição 0. Esta repressentação nos ajudará na descrição dos testes de verificação da ordem de uma cadeia a serem descritos aqui. Verificarmos a ordem de uma Cadeia de Markov poderá ser realizado de diversas maneiras, mas aqui consideraremos duas delas. O primeiro teste, conhecido como teste aproximado, descrito na Subseção 2.2.1 é baseado na estat́ıstica χ2 por outro lado, um segundo teste descrito na Subseção 2.2.2 é conhecido como teste exato. Devemos mencionar novamente que muitos dos resultados apresentados aqui foram resumidos no artigo de Anderson & Goodman (1957). 108 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV Exemplificaremos a teoria a ser apresentada neste seção com o seguinte exemplo, inspirado no tra- balho de Doubleday & Esunge (2011). A ideia é usar Cadeias de Markov para prever o comportamento dos preços das ações utilizando o ı́ndice Dow Jones Industrial Average (DJIA)4. Exemplo 2.8 (Tendência de mercado financeiro) A modelagem do ı́ndice Dow Jones Industrial Average ou DJIA é frequentemente utilizada para de- terminar estratégias de negociação com o máximo de recompensa. As mudanças no comportamento do DJIA são importantes, pois os movimentos podem afetar profundamente as escolhas dos investi- dores, sejam estes indiv́ıduos ou corporações. O objetivo neste exemplo é mostrar como analisar o DJIA usando um modelo estocástico de tempo discreto, ou seja, uma Cadeia de Markov. Dois mo- delos foram destacados, onde o DJIA foi considerado como sendo em (1) ganho ou perda e (2) ganho ou perda pequeno, moderado ou grande. Esses modelos foram usados para obter probabilidades de transição e a distribuição estacionária. Os preços de fechamento do mercado são considerados para que a análise possa ser feita de forma discreta e as probabilidades de transição são utilizadas como partes de Cadeias de Markov para modelar o mercado. Dada esta formulação de uma matriz de transição e seu estado estacionário, podemos configurar um sistema de classificação do Dow Jones Industrial Average (DJIA). A idéia de usar Cadeias de Markov para prever o comportamento dos preços das ações é popular, pois os investidores potenciais estão interessados nas tendências do mercado, o que pode levar a uma estratégia de investimento ideal. Para este estudo, serão analisadas duas estratégias, a saber: • Probabilidades do DJIA movendo-se para cima ou para baixo. • Probabilidades do DJIA movendo-se entre as partições de os posśıveis ganhos e perdas. Os valores de fechamento do DJIA foram reunidos para os 252 dias de negociação entre 27 de dezembro de 2016 e 26 de dezembro de 2017. Os dados, apresentados na Figura 2.1, foram obtidos de Yahoo! Finance em https://finance.yahoo.com/quote/%5EDJI/history. Questões em aberto: como vamos construir uma Cadeia de Markov a partir dos dados relatados? Qual a ordem desta cadeia? 2.2.1 Testes aproximado Para realizar um teste e verificar, como hipótese nula, se a cadeia é de k-ésima ordem é necessário calcular a distribuição de uma estat́ıstica de ordem superior adequada. Se a estat́ıstica de ordem superior observada for suficientemente improvável, a hipóteses nula é rejeitada. A probabilidade, dada a hipóteses nula, da estat́ıstica de teste alcançando o valor observado ou um mais extremo é referida como p-valor. Tipicamente, um p-valor menor ou igual a 0.05 é tomado como motivo para rejeitar a hipótese nula. Em diversos trabalhos como, por exemplo, em Anderson & Goodman (1957) os autores descrevem o teste aproximado amplamente utilizado com este objetivo. Vamos começar com a suposição de que {Xn} é uma sequência observada de uma Cadeia de Markov de primeira ordem (k = 1) e calculamos o p-valor de uma estat́ıstica de segunda ordem usando a distribuição χ2. A distribuição nula é P (Xn+1 = x|Xn = y,Xn−1 = z) = P (Xn+1 = x|Xn = y) 4Dow Jones Industrial Average é um ı́ndice criado em 1896 por Charles Dow, editor do The Wall Street Journal e fundador do Dow Jones & Company. O DJIA é ao lado do Nasdaq Composite e do Standard & Poorś 500 um dos principais indicadores dos movimentos do mercado americano. Dos três indicadores, DJIA é o mais largamente publicado e discutido. O cálculo deste ı́ndice é bastante simples e baseia-se na cotação das ações de 30 das maiores e mais importantes empresas dos Estados Unidos. Como o ı́ndice não é calculado pela Bolsa de Valores de Nova Iorque, seus componentes são escolhidos pelos editores do jornal financeiro norte-americano The Wall Street Journal. Não existindo nenhum critério pré-determinado a não ser que os componentes sejam companhias norte-americanas ĺıderes em seus segmentos de mercado. 2.2. TESTES PARA VERIFICAR A ORDEM DA CADEIA 109 20000 21000 22000 23000 24000 25000 jan 2017 abr 2017 jul 2017 out 2017 jan 2018 D ow J on es In du st ria l A ve ra ge e m U S D Figura 2.1: Índice Dow Jones Industrial Average, valor no fechamento diário. ou pela fórmula de Bayes P (Xn+1 = x,Xn = y,Xn−1 = z) = P (Xn+1 = x,Xn = y)P (Xn = y,Xn−1 = z) P (Xn = y) · (2.16) A expressão a esquerda em (2.16) multiplicada por N − 2, sendo N a quantidade de observações na série temporal observada, é o número esperado de vezes que a sequência (Xn+1 = x,Xn = y,Xn−1 = z) aparece nos dados, dada a hipótese nula. As quantidades no lado direito não são valores esperados. Eles são retirados da sequência observada. Seja Eω a contagem esperada de sequências onde ∑ ω Eω = N − 2 e ω indexa o conjunto de todas as sequências para as quais a contagem esperada é maior do que zero. Do mesmo modo, seja Oω ≥ 0 a contagem correspondente dos dados observados. Agora podemos definir a estat́ıstica de teste χ2 observada como χ2obs = ∑ ω ( Eω −Oω )2 Eω , (2.17) a qual é uma medida do desvio da contagem observada do esperado. A vantagem da estat́ıstica χ2 é que, atendendo aos graus de liberdade m, a distribuição da estat́ıstica é conhecida no limite N → ∞. O p-valor é então obtido como P (χ2(m) ≥ χ2obs). Um problema que exige alguma discussão é como calcular os graus de liberdade necessários para determinar a distribuição χ2(m). Para testar a hipótese da k-ésima ordem, contamos as sequências de comprimento m = k + 1 observadas e calculamos as sequências de comprimento m + 1 esperadas. Supondo que todas as dm sequências de comprimento m estejam presentes nos dados, seja F a matriz dm×dm das contagens de transição. O (i, j)-ésimo elemento de F é o número de vezes que as transições de i para j acontecem. Como as sequências consecutivas se sobrepõem e diferem por apenas um śımbolo, existem no máximo d entradas não-zero em cada linha e coluna de F . É útil reorganizar F na forma bloco diagonal com m blocos d × d. Em cada bloco tanto as linhas como as colunas devem somar o 110 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV comprimento correspondente às m contagens de sequências. Levando em consideração as dependências entre linhas e colunas nos deixa com dm−1(d− 1)2 graus de liberdade para m > 0 e (d− 1)2 para m = 0. No caso de que nem todas as sequências de comprimento m estejam presentes nos dados observados, F será menor do que dm × dm e os blocos ao longo da diagonal podem ser de tamanho diferente. Se o tamanho do i-ésimo bloco for ri × ci, então o número total de graus de liberdade é ∑ i(ri − 1)(ci − 1). No caso especial onde m = 1, a hipótese nula do teste é que as observações em pontos de tempo sucessivos são estat́ısticamente independentes contra a hipótese alternativa de que as observações formam uma cadeia de primeira ordem. Exemplo 2.9 (Continuação do Exemplo 2.8) Para a aplicação da estratégia (1), cada dia foi classificado como tendo fechado maior ou menor que o dia anterior, assim permitindo a classificação de dois estados, a saber: Estado 1: O valor de fechamento é inferior ao valor de fechamento do dia anterior. Estado 2: O valor de fechamentoé maior ou igual ao valor de fechamento do dia anterior. Com as linhas de comando R seguintes fizemos a leitura dos dados, geramos o gráfico e constrúımos a cadeia: > dados=read.csv(’DJIA.csv’,sep=’,’,h=T) > attach(dados) > library(ggplot2); library(psych); library(car) > Datas = as.Date(dados$Date) > par(mar=c(5,4,1,1),pch=19,cex.axis=0.4) > qplot(Datas, Close, xlab=’ ’, ylab=’Dow Jones Industrial Average em USD’) > Estados = seq(1, length(Close)-1) > for(i in 1:length(Estados)){Estados[i] = ifelse(Close[i]>Close[i+1], 1, 2)} Como resposta a matriz de probabilidades de transição estimada é P̂ = ( 0.4722222 0.5277778 0.4014085 0.5985915 ) , isto obtido da seguinte lista de comandos R: > library(markovchain) > createSequenceMatrix(Estados, sanitize=FALSE) > mcFitMLE = markovchainFit(data=Estados) > mcFitMLE$estimate^100 MLE Fit^100 A 2 - dimensional discrete Markov Chain defined by the following states: 1, 2 The transition matrix (by rows) is defined as follows: 1 2 1 0.432 0.568 2 0.432 0.568 Ainda temos também que a distribuição estacionária é π = (0.432, 0.568). Significa que temos 43% de probabilidade de perda na nossa carteira de ações com o ı́ndice DJAI e 57% de probabilidade de ganho. Aplicamos agora os conhecimentos desenvolvidos nesta seção para verificar a ordem da Cadeia de Markov. Para isso devemos verificar se a cadeia em questão é de ordem um ou não e, como vimos, podemos utilizar a estat́ıstica de teste χ2. Para isto, ou seja, para aplicarmos o teste aproximado descrito nesta subseção fazemos: 2.2. TESTES PARA VERIFICAR A ORDEM DA CADEIA 111 > assessOrder(Estados) The assessOrder test statistic is: 3.964894 the Chi-Square d.f. are: 2 The p-value is: 0.1377318 com o qual conclúımos que aceitamos a hipóteses nula da cadeia com dois estados ser de ordem um. 2.2.2 Teste exato Podemos usar a fó rmula de Whittle em (2.2) para gerar um subconjunto de amostras de N (n) u,v para que a amostra seja uniforme, ou seja, para que todas as sequências em N (n) u,v tenham a mesma probabilidade de serem inclúıdas na amostra. Uma estratégia seria crescer sucessivamente uma sequência substituta, começando com uma sequência inicial, até que todas as transições sejam usadas. Em cada etapa são realizadas duas operações: (1) a próxima sequência é escolhida com base no número de sequências restantes calculadas usando a fórmula de Whittle, e (2) nx,y é atualizado para refletir a contagem de transição reduzida resultante da seleção. As sequências são escolhidas probabilisticamente ponderadas pelo número de sequências que estão dispońıveis para completar o substituto. As sequências que levam a zero sequências válidas nunca são escolhidas, portanto, o algoritmo é garantido para resultar em um substituto válido. Este método de produção de substitutos produz uma amostragem uniforme de N (n) u,v uma vez que a cada passo as palavras que levam a poucas sequências remanescentes são selecionadas proporcionalmente com menos frequência. O teste de hipótese conforme descrito na subseção 2.2.1 não é exato, depende da distribuição χ2 válida no limite assintótico de dados infinitos. Para descobrir a distribuição exata para dados finitos é necessário avaliar a estat́ıstica χ2obs para todas as sequências posśıveis que satisfaçam a hipótese nula. Para a hipótese de primeira ordem, essas sequências têm exatamente a mesma probabilidade conjunta mostradas no lado direito de (2.16). Referencias importantes são os artigos de Besag & Mondal (2013); Pethel & Hahs (2014). Seja nxy o número de transições na cadeia observada entre os estados x e y. Também definimos Γ como o conjunto de sequências com o mesmo número de transições observado (nxy) mas com os mesmos estado inicial e final observados na cadeia {Xn}. O número de sequências com a mesma contagem de transições (nxy) e que começa no estado u e termina no estado v é dado pela fórmula de Whittle (Teorema 2.1): Nuv = ∏ x nx·!∏ xy nxy! Cuv, (2.18) onde nx· representa a soma da linha x e Cuv é o (u, v)-ésimo cofator da matriz n∗xy = { δxy − nxy nx· caso nx· > 0, δxy caso nx· = 0· (2.19) . Para encontrar o p-valor precisamos conhecer todas as sequências em (nxy) que possuem valores da estat́ıstica χ2 maiores ou iguais a χ2obs. Exemplo 2.10 (Continuação do Exemplo 2.8) Continuando neste exemplo, sabemos que a matriz de contagens é da forma > createSequenceMatrix(Estados, sanitize=FALSE) 1 2 1 51 57 2 57 85 112 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV > Estados [1] 1 1 1 2 2 1 2 1 1 2 1 1 1 1 1 2 1 2 2 2 1 1 1 2 1 2 1 2 1 2 2 2 2 2 2 2 2 2 2 2 [41] 2 1 2 1 2 1 1 1 2 2 1 1 2 1 1 1 1 1 1 1 1 2 1 2 1 1 2 1 2 1 2 1 1 1 2 1 1 2 1 2 [81] 2 1 2 1 1 2 2 1 2 2 1 1 1 1 2 1 1 2 2 2 2 2 2 1 1 1 2 2 1 1 2 2 2 1 2 2 1 2 2 1 [121] 1 1 1 2 1 2 1 2 2 1 1 2 1 2 2 2 2 1 1 2 1 1 1 2 2 2 2 2 2 2 2 2 2 1 1 1 2 2 2 2 [161] 1 1 2 2 1 1 2 1 2 2 2 2 1 2 1 2 2 2 2 2 2 2 2 2 1 1 1 1 2 2 2 2 2 2 2 1 1 2 2 1 [201] 2 2 2 2 2 2 1 2 1 2 2 1 2 2 2 2 2 2 2 1 1 2 1 1 2 1 2 2 1 2 2 2 2 2 1 2 1 1 2 2 [241] 2 2 2 1 2 2 1 1 2 1 1 Com isso temos que n1· = 51+57 = 108, n2· = 57+85 = 142 e C11 = 0.4722222, do qual conclúımos que a quantidade de diferentes sequências começandp em 1 e terminado em 1 quando o tamanho da série é N = 251 resulta em N11 = 108!142! 51!57!57!85! × 0.472222· Este número é extremamente grande. Situações como estas nas quais a cardinalidade de (nxy) é muito grande para enumerar todas as sequências, o p-valor pode ser estimado para qualquer precisão desejada desde que se tenha um método de produção de amostras aleatórias uniformes do conjunto (nxy). É acerca de um desses procedimentos que trata o teste exato a seguir. A ideia é usar a fórmula de Whittle para gerar um subconjunto de amostras de (nxy) de modo que a amostra seja uniforme, isto é, todas as sequências em (nxy) sãoo igualmente provavelmente inclúıdas na amostra. A estratégia sugerida é sucessivamente acrescentar à sequência elementos começando com alguns elementos inicias até que todas as transições sejam usadas. Em cada etapa duas operações são executados: (1) a próxima sequência é escolhida com base no número de sequências restantes calculadas usando a fórmula de Whittle e (2) Nxy é atualizado para refletir a contagem de transições reduzida resultante de seleção. As sequências são escolhidas probabilisticamente ponderadas pelo número daquelas sequências que estão dispońıveis para completar o substituto. As palavras que levam a zero sequn̂cias válidas nunca são escolhidas, portanto, o algoritmo é garantido resultando em um substituto válido. Lembremos que nesta seção conhecemos duas estratégias para verificarmos se a cadeia considerada é de uma ordem espećıfica. Exemplo 2.11 Para a estratégia (2) devemos considerar 6 categorias, para isso utilizamos o seguinte comando > quantis = quantile(diff(Close), probs = seq(0, 1, 0.20)) > quantis 0% 20% 40% 60% 80% 100% -372.820312 -40.759765 -5.820313 33.759766 85.240235 331.669921 a partir do qual temos como definir as seguintes categorias: Estado 1: Salto grande para cima, ganho maior do que 85.24. Estado 2: Salto moderado para cima, ganho entre 33.75 e 85.24. Estado 3: Salto pequeno para cima, ganho menor do que 33.75. Estado 4: Salto pequeno para baixo, perda até -5.82. Estado 5: Salto moderado para baixo, perda entre -5.82 e -40.75. 2.2. TESTES PARA VERIFICAR A ORDEM DA CADEIA 113 Estado 6: Salto alto para baixo, perda maior que -40.75. Vejamos então como fazer para construir a nova cadeia, estimar a matriz de transição e obtermos a distribuição estacionária: > NEstados = ifelse(diff(Close)>=quantis[[5]], 1, 0) > NEstados = ifelse(diff(Close)>=quantis[[4]] & diff(Close)<quantis[[5]], 2, NEstados) > NEstados = ifelse(diff(Close)>=0 & diff(Close)<quantis[[4]], 3, NEstados) > NEstados = ifelse(diff(Close)>=quantis[[3]] & diff(Close)<0,4, NEstados) > NEstados = ifelse(diff(Close)>=quantis[[2]] & diff(Close)<quantis[[3]], 5, NEstados) > NEstados = ifelse(diff(Close)<quantis[[2]], 6, NEstados) > NEstados [1] 6 5 6 1 2 6 2 6 5 1 6 4 6 5 6 1 5 1 1 3 5 6 6 3 5 1 5 2 5 1 1 1 1 1 3 3 1 3 2 3 [41] 3 5 1 6 3 6 5 6 3 2 5 6 1 5 5 5 6 5 4 6 6 1 6 2 6 5 2 6 3 5 3 5 6 6 1 6 6 1 5 1 [81] 1 5 3 6 5 2 3 5 2 3 5 5 5 5 1 4 6 2 1 1 2 2 2 4 6 5 1 2 5 6 2 3 1 5 1 2 5 3 1 6 [121] 6 5 4 3 6 1 6 2 1 4 6 1 4 3 1 3 2 5 6 2 5 5 6 1 1 1 3 2 2 2 3 2 3 5 5 6 3 1 3 3 [161] 6 6 3 1 6 5 3 4 2 3 2 2 6 2 5 3 1 2 2 2 2 2 2 2 6 5 6 5 2 2 3 1 2 3 1 4 5 2 2 5 [201] 3 1 2 1 3 1 6 1 6 2 3 6 3 2 2 3 3 3 3 6 5 3 5 6 1 6 2 1 6 3 3 1 1 1 5 2 6 5 2 1 [241] 2 1 2 6 1 1 5 5 2 5 5 > createSequenceMatrix(NEstados, sanitize=FALSE) 1 2 3 4 5 6 1 12 9 7 4 8 11 2 6 14 11 1 9 8 3 12 7 7 1 9 6 4 0 1 2 0 1 5 5 9 9 7 2 9 13 6 12 9 8 1 14 6 > NmcFitMLE = markovchainFit(data=NEstados) > NmcFitMLE$estimate MLE Fit A 6 - dimensional discrete Markov Chain defined by the following states: 1, 2, 3, 4, 5, 6 The transition matrix (by rows) is defined as follows: 1 2 3 4 5 6 1 0.2352941 0.1764706 0.1372549 0.07843137 0.1568627 0.2156863 2 0.1224490 0.2857143 0.2244898 0.02040816 0.1836735 0.1632653 3 0.2857143 0.1666667 0.1666667 0.02380952 0.2142857 0.1428571 4 0.0000000 0.1111111 0.2222222 0.00000000 0.1111111 0.5555556 5 0.1836735 0.1836735 0.1428571 0.04081633 0.1836735 0.2653061 6 0.2400000 0.1800000 0.1600000 0.02000000 0.2800000 0.1200000 > steadyStates(NmcFitMLE$estimate) 1 2 3 4 5 6 [1,] 0.2037759 0.196012 0.1679465 0.03606179 0.1996664 0.1965375 Observemos que, nesta última situação, não temos uma conclusão clara. Temos quase a mesma probabilidade de que aconteçam os Estados 1, 2, 5 e 6. Assim, o mais raro seriam as situações onde o salto é pequeno para cima ou para baixo. Como podemos decidir quanto ao tipo de cadeia mais adequado? lembremos temos constrúıdas duas cadeias, uma com dois estados e uma outra com seis estados, qual delas é a mais adequada nesta situação? Para respondermos esta pergunta recorremos ao critério de escolha de modelos conhecido como AIC ou Critério de Informação de Akaike. Calcula-se como −2ℓ(θ̂) + 2 dim(θ), onde dim(θ) representa o número de parámetros do modelo. Fazendo uso da linguagem de pro- gramação R o cálculo deste critério é como segue: 114 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV > -2*mcFitMLE$logLikelihood+2*((2-1)*2) [1] 344.6826 > -2*NmcFitMLE$logLikelihood+2*((6-1)*6) [1] 886.7953 correspondendo primeiro ao modelo com dois estados e, no segundo caso, ao modelo com seis estados. Conclúımos então que o modelo mais adequado é àquele com dois estados, é onde o valor do AIC é menor. Exemplo 2.12 Tendo validado o teste exato usando dados sintéticos, vamos olhar para uma aplicação no mundo real envolvendo dados de precipitação de Tel Aviv. Este é um conjunto de dados bem conhecidos cujas propriedades de Markov foram estudadas pela primeira por Gabriel & Neumann (1962). Os dados originalmente preparados consistiram em 27 peŕıodos de inverno (dezembro-janeiro-fevereiro) com cada dia classificado como úmido ou seco. Com base nas estat́ısticas de peŕıodos úmidos e secos, os autores conclúıram que uma cadeia de Markov de primeira ordem modela adequadamente os dados. Análises posteriores usando AIC indicam que uma cadeia de segunda ordem deve ser usada, enquanto a BIC estima a ordem em um. Aplicar nosso teste de significância de ordem de Markov a esses dados apresenta dois desafios. A primeira barreira é que os dados só existem como uma tabela de contagens de transição. Para o teste de hipóteses, precisamos da série temporal original, que neste caso é a sequência de dias úmidos e secos para cada um dos 27 invernos entre 1923 e 1950. Incapaz de encontrar esses dados em outro lugar, optamos por usar os dados de precipitação de Tel Aviv entre os anos 1950 e 1977, que estão dispońıveis em bases de dados online (www.weatherspark.com.). Classificamos um dia como molhado se houvesse alguma precipitação registrada naquele dia. O segundo problema é que os dados não são uma única série temporal, mas 27 não cont́ıguos. Para simplificar esta análise, concatenamos os conjuntos de dados e aceitamos a pequena imprecisão devido a transições que abrangem diferentes conjuntos. Assim preparadas, as contagens de dias úmidos e secos são apresentadas na Tabela 2.5 no mesmo formato dos dados originais. Para 0 1 2 3 4 5 6 0 520 134 327 111 36 7 0 1 270 128 222 97 36 7 0 2 284 101 368 193 61 9 5 De 3 94 33 119 131 42 3 1 4 16 14 42 50 17 7 0 5 7 3 4 4 3 0 1 6 1 1 0 3 1 0 0 Tabela 2.5: Contagem de transições do Exemplo 2.5. 2.3. TESTE DE HIPÓTESES SOBRE PROBABILIDADES ESPECÍFICAS 115 2.3 Teste de hipóteses sobre probabilidades espećıficas Com base na teoria da distribuição assintótica na seção anterior, podemos derivar certos métodos de inferência estat́ıstica. Aqui vamos supor que cada px,y > 0. Primeiro, vamos consideramos testar a hipótese de que certas probabilidades de transição px,y assu- mem valores espećıficos p0x,y. Utilizaremos o fato de que, sob a hipótese nula, temos uma distribuição normal limite de n1/2(p̂x,y − p0x,y) com média zero e matriz de variâncias e covariâncias dependendo de p0x,y da mesma maneira que as obtidas para estimativas de multinomial, este resultado foi resumido pelo Teorema 2.2. Podemos usar a teoria assintótica padrão para distribuições multinomiais ou normais para testar uma hipótese sobre um ou mais px,y ou determinar uma região de confiança para um ou mais px,y. Especificamente, podemos estar interessados em verificar se H0 : px,y = p 0 x,y, y = 1, 2, · · · , d, para um valor de x espećıfico. Sob a hipótesis nula, d∑ y=1 nx,y (p̂x,y − p0x,y)2 p0x,y (2.20) tem uma distribuição assintótica χ2 com d − 1 graus de liberdade, de acordo com a teoria assintótica usual de variáveis multinomiais. Assim, a região cŕıtica do teste dessa hipótese no ńıvel de significância α consiste no conjunto p̂x,y para o qual (2.20) é maior que o ponto de significância α da distribuição χ2 com d − 1 graus de liberdade. Uma região de confiança do coeficiente de confiança α consiste no conjunto de p0x,y para os quais (2.20) é menor que o ponto de significância α. O p 0 x,y no denominador pode ser substitúıdo por p̂x,y. Como as variáveis nx,y(p̂x,y−p0x,y)2 para diferentes x são assintoticamente independentes, a expressão em (2.20) para diferentes x são assintoticamente independentes e, portanto, podem ser adicionadas para obter outras variáveis χ2. Por exemplo, um teste para todos os px,y, x, y = 1, 2, · · · , d pode ser obtido adicionando (2.20) sobre todo x, resultando em uma variável χ2 com d(d− 1) graus de liberdade. O uso do teste χ2 de bondade de ajuste é discutido em Cochran (1952). Acreditamos que há uma boa razão para adotar estes testes, que são análogos aos testes de qualidade de ajuste, descritos nesta seção. Exemplo 2.13 (Continuação do Exemplo 2.5) No referido exemplo uma das suspeitas era que a matriz de probabilidades de transição tivesse uma forma espećıfica. Para estimar uma matriz de probabilidade de transição de um ano, precisamos fazer algumas suposições. Vamos supor que em um ano, a ponte só pode fazer a transição para o próximo estado, o que significa que não há conserto. É claro que, quando entrar no estado número 5, ele permanecerá lá. Assim, a Cadeia de Markov tem cinco estados transientes e um estado absorvente o estado número 5. Com essas premissas e sob o prinćıpio de que uma transição para o próximo estado não depende do estado em que a cadeia está, a matriz de probabilidade de transição é semelhante à apresentada abaixo: P̂6 = 1 2 3 4 5 1 1− p1 p1 0 0 0 2 0 1− p2 p2 0 0 3 0 0 1− p3 p3 0 4 0 0 0 1− p4 p4 5 0 0 0 0 1 · Como vemos, a matriz esta reflete todas as nossas suposições. Claro queno resto desta análise, o A suposição sobre probabilidades de transição estacionárias ainda é válida. 116 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV 2.4 Cadeias de Markov multivariadas Nesta seção, apresentamos modelos para Cadeias de Markov multivariadas possivelmente de ordem superior. O objetivo é modelar múltiplas sequências categóricas com base nos modelos anteriormente estudados. Assumimos que existem s sequências categóricas e cada uma tem d estados posśıveis, significa que vamos considerar que as s sequências têm o mesmo espaço de estados S. Estes modelos foram propostos por Raftery (1985), posteriormente estudados e implementados por Ching, Ng & Fung (2008). 2.4.1 Cadeias de Markov de ordem superior Vamos considerar sequências {Xt} com espaço de estados S. No modelo proposto, assumimos que a distribuição de probabilidade da sequência no tempo t depende da distribuição de probabilidade da sequência no tempo t− 1, · · · , t−m. Definição 2.2 Seja {Xn} uma sequência de variáveis aleatórias categóricas dependentes. Diz-se que a seqência satisfaz a propriedade de Markov de ordem m se P (Xn+1 = xn+1|X0 = x0, X1 = x1, · · · , Xn = xn) = = P (Xn+1 = xn+1|Xn−m = xx−m,Xn−m+1 = xn−m+1, · · · , Xn = xn)· Novamente consideramos somente sequência estacionárias, isto é, Cadeias de Markov nas quais a probabilidade de transição não muda conforme o instante de tempo. Dito isto, definamos Cadeias de Markov de ordem superior. Definição 2.3 (Cadeias de Markov de ordem superior) Seja {Xt} uma sequência de variáveis categóricas satisfazendo a propriedade de Markov de ordem m. Dizemos que {Xt} é uma Cadeia de Markov de ordem m se satisfaz que P (Xt = y|Xt−1 = x1, · · · , Xt−m = xm) = m∑ h=1 λhpxh,y, (2.21) com estados inciais x0, x1, · · · , xm−1. Aqui, os pesos λh são números reais não negativos tais que∑m h=1 λh = 1 e px,y as probabilidades de transição. Resulta que a probabilidade condicional de observarmos Xt = y dado o passado é uma combinação linear das contribuições de cada Xt−1, · · · , Xt−m. Uma outra forma de escrever a probabilidade condi- cional em (2.21) é como x̂t = m∑ h=1 λ̂h P̂x̂t−1, onde a variável aleatória x̂t é uma função de valores passados e é percebida como a probabilidade condicional e P̂ matriz de probabilidades de transição da cadeia de primeira ordem. A propriedade 2.4. CADEIAS DE MARKOV MULTIVARIADAS 117 básica que deva satisfazer o modelo em (2.21) é a convergência à distribuição estacionária, resultado este estabelecido no teorema a seguir. Teorema 2.3 Suponhamos {Xt} seja uma Cadeia de Markov de ordem superior. Então lim t→∞ P (Xt = y|Xt−1 = x1, · · · , Xt−m = xm) = πy, y = 1, · · · , d· Demonstração : Distribuição estacionária. Uma vez compreendido o modelo procedemos à descrição do procedimento estat́ıstico utilizado na es- timação. As estimativas de máxima verossimilhança dos parâmetros de (2.21) são obtidos maximizando- se numericamente o logaritmo da verossimilhança, ou seja, fazendo uso de um programa de otimização não-linear com restrições maximizamos a função ℓ ≈ d∑ x,y1,y2,··· ,ym=1 nx,y1,··· ,ym log ( m∑ h=1 λhpyh,x ) , onde d é o número de estados e nx,y1,··· ,ym é a contagem das transições. Para comparar modelos usamos um critério de informação, em vez de um procedimento de teste de hipóteses múltiplas, porque os modelos não são aninhados. Alguns pesquisadores recomendam escolher o modelo como aquele que minimize o AIC = −2ℓ+2k, onde k é o número de parâmetros independentes. Entretanto, outros pesquisadores referem a alternativa de escolher o modelo que minimiza o BIC = −2ℓ + k log(n) sendo n o tamanho da sequência porque (i) é um estimador consistente da ordem de Cadeia de Markov, diferentemente do método AIC, (ii) é aproximadamente o como escolher o modelo com maior probabilidade posterior, (iii) escolher modelos mais simples, e (iv) ter um bom desempenho em um experimento de simulação. Exemplo 2.14 Dados diários de precipitação na Ilha do Alofi (Avery & Henderson, 1999) foram registrados de 1ro. de janeiro de 1987 até 31 de dezembro de 1989 e classificados em três estados: 0 (sem chuva), 1-5 (de zero a 5 mm) e 6+ (mais de 5mm). Alofi forma parte da Ilha Niue no Oceano Paćıfico. O conjunto de dados correspondente é fornecido dentro do pacote markovchain: > data(rain) > fitHigherOrder(rain@rain, 2) $lambda [1] 0.5 0.5 $Q $Q[[1]] 0 1-5 6+ 0 0.6605839 0.4625850 0.1976285 1-5 0.2299270 0.3061224 0.3122530 6+ 0.1094891 0.2312925 0.4901186 $Q[[2]] 0 1-5 6+ 0 0.6021898 0.4489796 0.3412698 118 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV 1-5 0.2445255 0.2687075 0.3214286 6+ 0.1532847 0.2823129 0.3373016 $X 0 1-5 6+ 0.5000000 0.2691606 0.2308394 No Exemplo 2.14 devemos indicar que no vetor λ̂ = (0.5, 0.5) temos por resposta as corresponden- tes estimativas de máxima verossimilhança do vetor λ em (2.21). Nas matrizes Q[[1]] e Q[[2]] temos as estimativas das probabilidades de transição de primeira e segunda ordem, respetivamente. Estas matrizes, por questões de implementação computacional são diferentes àquelas estudas até o momen- tos, estas matrizes são definidas por colunas e não por linhas. Dessa forma, nelas temos somas 1 somente por colunas assim, a probabilidade de passarmos num passo do estado 1-5 ao estado 6+ é P (Xt = 6 + |Xt−1 = 1 − 5, Xt−2 = y) = 0.2312925 e a probabilidade de passarmos do estado 6+ ao estado 1-5 em dois passos é P (Xt = 1 − 5|Xt−1 = y,Xt−2 = 6+) = 0.3214286. O vetor X fornece a distribuição estacionária e assim, condlúımos que em 50% das observações a cadeia está no estado 0, em 27% no estado 1-5 e em 23% dos casos está no estado 6+. 2.4.2 Cadeias de Markov de ordem superior multivariadas As principais referências sã o artigo de Ching et al. (2008) e o livro Ching, Huang, Ng & Siu (2013). Suponha que existam sequências categóricas e cada uma possua estados em S. A n-ésima ordem da distribuição multivariada do estado da sequência de tempo j-ésima no tempo t = r + 1 depende da distribuição de probabilidade do estado de todas as sequências, incluindo a si mesma, nos tempos t = r, r − 1, ..., r − n+ 1, segundo a relação x (j) r+1 = s∑ k=1 n∑ h=1 λ (h) jk P jk h x (k) r−h+1, para j = 11, 2, · · · , s e r = n− 1, n, · · · . Temos por restrição que ∑s k=1 ∑n h=1 λ (h) jk = 1. Exemplo 2.15 (Previsões de demanda de vendas) Demonstraremos a eficácia do modelo de Cadeia de Markov multivariada de ordem superior aplicando- o à sequência de demanda de vendas. Uma empresa de refrigerantes em Hong Kong (Ching, Fung & Ng, 2002) enfrenta um problema interno de planejamento de produção e controle de estoque. Uma questão urgente é o espaço de armazenamento de seu armazém central, que muitas vezes se encontra no estado de transbordamento ou capacidade máxima próxima. A empresa está, portanto, em neces- sidades urgentes para estudar a interação entre o requisito de espaço de armazenamento e a crescente demanda de vendas. O produto pode ser classificado em seis estados posśıveis S = {1, 2, 3, 4, 5, 6} de acordo com seus volumes de vendas. Todos os produtos são rotulados como 1 = nenhum volume de vendas, 2 = muito lento (volume de vendas muito baixo), 3 = lento, 4 = padrão, 5 = rápido ou 6 = muito rápido (volume de vendas muito alto). Esses rótulos são úteis tanto do ponto de vista do planejamento de produção quanto de marketing. A empresa também gostaria de prever a demanda de vendas de um cliente importante, a fim de minimizar a acumulação de estoque. Mais importante ainda, a empresa pode entender o padrão de vendas desse cliente e depois desenvolver uma estratégia de marketing para lidar com esse cliente. Mostramos a demanda de vendas de clientes de cinco produtos importantes da empresa por um ano. Esperamos que as sequências de demanda de vendas geradas pelo mesmo cliente sejam correlacionadasentre si. Portanto, explorando essas relações, pode-se obter um modelo de Markov multivariável 2.4. CADEIAS DE MARKOV MULTIVARIADAS 119 de ordem superior melhor para essas sequências de demanda, portanto, obter melhores regras de predição. Dados de séries temporais ocorrem com frequência em muitas aplicações do mundo real. Uma das principais etapas importantes na análise de dados de séries temporais á seleção do modelo estat́ıstico apropriado para os dados, porque ajuda na previsão, no teste de hipa’oteses e na descoberta de regras. O modelo de Cadeias de Markov é desenvolvido para modelar sequências de dados categóricos. Nesta ilustração, nós escolhemos a ordem da cadeia arbitrariamente para ser oito, ou seja, k = 8. Primeiro estimamos todas as matrizes de probabilidade de transição P usando o método proposto nesta Seção e também temos as estimativas da distribuição estacionária dos cinco produtos, cujos valores observados mostramos a seguir: Producto A: 6 6 6 6 2 6 2 6 2 2 6 2 6 6 2 6 2 4 4 4 5 6 6 1 2 2 6 6 6 2 6 2 6 6 2 6 2 2 6 2 1 2 2 6 6 6 2 1 2 6 2 6 6 2 2 6 2 2 2 6 2 6 2 2 2 2 2 6 2 2 6 6 6 6 1 2 2 6 2 2 2 2 6 2 2 2 2 3 3 2 3 2 6 6 6 6 2 6 2 6 6 2 6 2 6 6 2 6 6 2 2 3 4 3 3 1 3 1 2 1 6 1 6 6 1 6 6 2 6 2 6 2 2 2 6 6 1 6 2 6 1 2 1 6 2 6 2 2 2 2 6 6 1 6 6 2 2 6 2 2 2 3 4 4 4 6 4 6 1 6 6 1 6 6 6 6 1 6 2 2 2 6 6 6 6 2 6 6 2 2 6 2 6 2 2 2 6 2 2 2 6 6 6 6 3 2 2 6 2 2 2 2 2 2 6 2 6 2 2 2 6 2 2 6 6 2 6 6 6 2 2 2 3 3 3 4 1 6 6 1 6 6 1 6 1 6 6 6 6 1 6 6 6 2 1 2 2 2 2 2 2 3 6 6 6 6 6 2 6 Producto B: 1 6 6 1 6 1 1 1 1 1 1 6 6 6 1 2 1 6 6 1 1 1 6 6 2 1 6 6 1 1 1 6 1 2 1 6 2 2 2 2 2 6 1 6 6 1 2 1 6 6 6 1 1 1 6 6 1 1 1 1 6 1 1 2 1 6 1 6 1 1 6 2 6 2 6 6 6 3 6 6 1 6 6 2 2 2 3 2 2 6 6 6 1 1 6 2 6 6 2 6 2 6 6 1 3 6 6 1 1 1 2 2 3 2 2 6 2 2 2 1 6 1 6 1 1 6 2 1 1 1 2 2 1 6 1 1 1 1 2 6 1 1 1 1 6 1 6 1 2 1 6 1 6 6 1 6 1 2 2 2 2 3 3 2 2 2 6 6 6 6 2 1 1 6 1 1 1 6 1 6 1 6 1 6 1 1 6 6 2 1 1 6 6 1 1 2 6 2 6 6 6 1 2 6 1 6 1 1 1 1 6 1 6 1 1 6 6 1 6 6 1 6 1 6 6 1 1 6 6 2 2 2 2 2 2 2 2 2 6 6 6 6 1 6 6 6 1 6 6 1 6 6 1 1 6 1 3 3 3 5 1 6 6 6 6 6 6 6 6 Producto C: 6 6 6 6 6 6 6 2 6 6 6 6 6 6 6 2 6 6 6 6 2 6 6 6 2 2 6 6 6 6 6 6 6 1 6 2 6 6 6 6 6 6 6 6 2 6 6 1 2 6 1 6 6 1 6 2 6 6 6 6 6 6 6 2 6 6 6 2 6 6 1 6 6 6 6 6 6 6 3 3 6 3 2 1 2 2 1 6 6 1 6 1 6 6 6 6 6 6 1 6 6 6 1 6 6 6 6 6 6 6 6 6 6 6 2 6 6 6 6 6 6 6 6 2 2 6 6 2 6 1 2 6 6 6 2 6 6 2 6 6 2 6 1 6 2 6 2 1 2 6 6 2 2 6 2 6 2 2 6 2 6 6 6 2 2 2 6 6 2 6 6 2 2 6 1 2 1 2 6 6 2 2 6 6 1 2 2 1 6 2 6 2 2 1 1 5 6 3 6 1 6 6 1 2 2 6 1 6 2 6 6 1 6 2 6 2 6 6 6 1 6 1 6 6 2 2 2 1 2 3 6 1 6 1 6 1 6 1 6 6 6 1 1 6 6 6 6 6 1 6 6 6 1 6 1 1 6 6 6 6 6 6 6 6 1 6 6 1 6 Producto D: 6 2 2 2 2 3 3 4 4 4 5 4 3 3 6 2 6 6 6 3 4 4 3 3 3 3 3 2 6 6 3 4 4 4 4 3 4 2 6 2 2 6 2 2 6 6 3 4 5 4 4 6 3 6 6 6 2 6 2 6 6 2 2 6 4 4 5 4 3 4 3 4 4 6 2 6 6 2 2 6 2 6 6 2 6 6 2 6 6 2 6 2 6 3 5 5 5 4 4 4 3 6 2 6 6 2 6 2 6 2 2 6 2 6 6 2 6 4 4 4 4 4 4 6 3 6 6 2 6 2 6 2 6 2 6 6 2 2 2 2 2 2 2 2 2 3 3 3 5 5 4 5 3 3 3 6 2 6 6 2 2 6 2 2 2 2 6 2 3 2 2 3 6 3 2 2 3 4 4 4 4 5 5 4 4 6 6 2 6 2 6 2 2 2 2 2 2 2 5 5 4 4 5 5 2 6 2 6 6 2 6 2 6 2 2 3 3 4 4 5 4 4 4 3 4 3 6 2 6 2 2 2 2 2 2 2 2 2 2 2 3 4 4 4 4 5 4 4 4 3 2 2 2 6 2 2 2 6 2 6 2 6 2 2 2 2 2 3 2 Producto E: 6 2 2 2 2 3 3 4 4 4 5 4 3 3 6 2 6 6 2 3 4 4 3 4 4 3 3 2 2 6 3 4 4 4 4 3 4 2 3 2 2 6 3 3 6 6 3 4 5 4 5 3 3 2 6 6 2 6 2 6 6 2 2 6 4 4 4 4 4 4 5 4 4 6 2 6 6 2 2 6 2 6 6 2 6 6 2 6 6 2 6 2 6 3 4 4 4 4 4 4 4 6 2 6 6 2 6 2 6 6 6 6 2 6 2 2 6 4 4 4 4 4 4 6 3 3 6 2 2 2 6 2 6 2 2 2 2 2 2 2 2 2 2 2 2 3 6 4 5 5 5 5 2 4 6 6 2 6 6 2 2 6 2 2 2 2 6 2 3 2 2 3 6 3 2 2 3 4 4 4 4 5 5 4 3 3 6 2 6 2 2 2 6 3 2 2 2 2 5 5 4 4 4 4 3 6 2 6 6 2 6 2 6 2 2 3 3 4 4 5 4 4 4 4 4 3 6 2 6 2 2 2 6 2 2 2 2 2 2 2 3 4 4 4 4 5 4 4 4 3 2 2 2 6 6 6 2 6 2 6 2 6 2 2 2 2 2 2 2 De acordo com o modelo de Markov multivariado constrúıdo da 8va. ordem, os produtos A e B estão intimamente relacionados. Em particular, a demanda de vendas do Produto A depende fortemente do Produto B. O principal motivo é que a natureza qúımica dos Produtos A e B é a mesma, mas eles têm embalagens diferentes para fins de marketing. Além disso, os Produtos B, C, D e E estão intimamente relacionados. Da mesma forma, os produtos C e E têm o mesmo sabor do produto, mas diferentes embalagens. Neste modelo, é interessante notar que tanto o Produto D quanto o E dependem do Produto B na ordem de 8, esta relação dificilmente pode ser obtida no modelo convencional de Markov devido a uma grande quantidade de parâmetros. Os resultados mostram que o modelo de Markov multivariado de ordem superior é bastante significativo para analisar a relação de demanda de vendas. 120 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV > data(rain) > modelo1 = markovchainFit(data=rain$rain) > modelo1 $estimate 0 1-5 6+ 0 0.6605839 0.2299270 0.1094891 1-5 0.4625850 0.3061224 0.2312925 6+ 0.1976285 0.3122530 0.4901186 $standardError 0 1-5 6+ 0 0.03471952 0.02048353 0.01413498 1-5 0.03966634 0.03226814 0.02804834 6+ 0.02794888 0.03513120 0.04401395 $confidenceLevel [1] 0.95 $lowerEndpointMatrix 0 1-5 6+ 0 0.6034754 0.1962346 0.08623909 1-5 0.3973397 0.2530461 0.18515711 6+ 0.1516566 0.2544673 0.41772208 $upperEndpointMatrix 0 1-5 6+ 0 0.7176925 0.2636194 0.1327390 1-5 0.5278304 0.3591988 0.2774279 6+ 0.2436003 0.3700387 0.5625151 $logLikelihood [1] -1040.419 > modelo2 = fitHigherOrder(rain$rain, 2) > modelo2 $lambda [1] 0.5 0.5 $Q $Q[[1]] 0 1-5 6+ 0 0.6605839 0.4625850 0.1976285 1-5 0.2299270 0.3061224 0.3122530 6+ 0.1094891 0.2312925 0.4901186 $Q[[2]] 0 1-5 6+ 0 0.6021898 0.4489796 0.3412698 1-5 0.2445255 0.2687075 0.3214286 6+ 0.1532847 0.2823129 0.3373016 $X 0 1-5 6+ 0.5000000 0.2691606 0.2308394 A Cadeia de Markov é uma ferramenta essencial para a modelagem de muitos sistemas práticos, 2.4. CADEIAS DE MARKOV MULTIVARIADAS 121 como sistemas de filas, sistemas de manufatura e sequências de dados categóricos. Múltiplas sequências de dados categóricos ocorrem em muitas aplicações, tais como controle de estoque, mineração de dados e mercado financeiro. Em muitas situaçõs práticas, gostaŕıamos de considerar várias sequências de dados categóricos no mesmo peŕıodo de tempo. A razão é que as sequências de dados podem ser correlacionadas e, portanto, explorando seus relacionamentos podemos desenvolver modelos melhores. 122 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV
Compartilhar