Buscar

Markov Chain 2

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 28 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 28 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 28 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Caṕıtulo 2
Inferência em Cadeias de Markov
Uma Cadeia de Markov é por vezes um modelo probabiĺıstico adequado para determinada série temporal
em que a observação em um determinado momento é uma categoria à qual um indiv́ıduo corresponde.
A mais simples Cadeia de Markov é aquela na qual existe um número finito de estados ou categorias, um
número finito de pontos no tempo equidistantes em que são feitas as observações, a cadeia é de primeira
ordem e as probabilidades de transição são as mesmas para cada intervalo de tempo. Estas foram as
cadeias que estudamos no Caṕıtulo 1.
Vamos considerar aqui vários métodos para obter estimadores da matriz de probabilidades transição
em três situações: quando o comprimento do intervalo entre os pontos de tempo do modelo coincide
com o intervalo de observação, quando a duração do deste comprimento do intervalo entre os pontos de
tempo não coincide com o intervalo de observação e quando os intervalos de observação são desiguais em
comprimento. Além disso, discutimos o uso da técnica de bootstraps como um método para avaliar a
incerteza nas estimações e para a construção de intervalos de confiança da matriz de transição. Também
estudaremos como verificar a ordem de uma Cadeia de Markov.
Depois apresentamos testes para verificar a ordem da cadeia. Diferentes livros e artigos foram consul-
tados para escrever este texto, alguns importantes são Jacobsen (1982), Billingsley (1961a), Billingsley
(1961b) e Basawa & Prakasa Rao (1980). Outras referências serão também mencionados no texto.
2.1 Estimação da matriz de transição
Seja {X1, X2, · · · } um processo estocástico ou um asequência de variáveis aleatórias assumindo valores
em algum conjunto finito chamado aqui de espaço de estados S. A variável Xn deve ser considerada
como estado no tempo n de um sistema cuja evolução é regida por um conjunto de leis de probabilidade.
A t́ıpica Cadeia de Markov a tempo discreto limita a descrição do histórico de cada sujeito a pontos
de tempo com igualdade espaçdos. Em outras palavras, em vez de modelar a possibilidade de progressão
a cada instante no tempo, ou seja, dia, mês ou ano. O intervalo entre esses pontos de tempo é conhecido
como o comprimento do ciclo.
Nesta seção, presume-se que a matriz de transição vai ser estimada a partir de dados de coorte
longitudinais, com intervalos de observação comuns a todos os sujeitos. A atenção é restrita a obtenção
da estimativa de máxima verossimilhança da matriz de transição em três situações espećıficos crescentes
de complexidade. O primeiro caso é quando os intervalos de observação são constantes e coincidem com
a duração do ciclo. O segundo caso acontece quando os intervalos de observação são constantes, mas
não coincidem com a duração do ciclo. Os métodos discutidos na presente seção somente podem ser
utilizados em certas situações. Quando não puder, o método discutido para o terceiro caso é posśıvel.
O terceiro caso, representa a situação mais comum, quando os intervalos de observação não são iguais
em comprimento. A duração do ciclo pode ou não coincidir com um destes intervalos.
95
96 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV
Vamos considerar {x0, x2, · · · , xn} uma amostra de uma Cadeia de Markov com probabilidades de
transição px,y e distribuição inicial π0. Observe que {x0, x1, · · · , xn} deve ser uma sequência de n + 1
estados. Então, a probabilidade de que x0, x1, · · · , xn seja essa sequência é justamente
π(x0)px0,x1 · · · pxn−1,xn ·
Para x, y = 1, 2, · · · , d, seja nx,y o número de transições, assim a matriz (nx,y) vai ser chamada de
matriz de contagens de transições da sequência. Dado que
π(x0)px0,x1 · · · pxn−1,xn = π(x0)
∏
x,y
pnx,yx,y , (2.1)
a contagem das transições junto com o estado inicial formam uma estat́ıstica suficiente. A distribuição
dessa estat́ıstica vai ser nosso objetivo.
Sabemos que a probabilidade de obtiver uma sequência em particular, que começe com com x0 e
tenha matriz de transição (nx,y) é dada por (2.1) e, com o objetivo de encontrarmos a distribuição da
estat́ıstica suficiente é necessário somente contar o número de tais sequências. Se nx,· =
∑
y nx,y e n·,y =∑
x nx,y então {nx,·} e {n·,y} são as frequências das contagens de {x0, x1, · · · , xn−1} e {x1, x2, · · · , xn}
respectivamente. Disso seque que
nx,· − n·,y = 111x(x0)− 111x(xn)∑
x,y
nx,y =
∑
x
nx,· =
∑
y
n·,y = n·
É claro a partir da primeira dessas relações que (nx,y) e o estado inicial determinam completamente
o estado final. Da mesma forma, (nx,y) e o estado do final determinam o estado inicial. No entanto,
(nx,y) sozinho não determina os estados inicial e final: por exemplo, as sequências {1, 2, 1} e {2, 1, 2}
têm contagens de transição idênticas. A resposta a este problema combinatório é a seguinte.
Teorema 2.1 (Fórmula de Whittle (Whittle, 1955))
Seja (nx,y) uma matriz d× d de inteiros não negativos satisfazendo que
∑
xy nxy = n e tais que
nx,· − n·,y = 111x(u) − 111x(v),
x, y = 1, · · · , d para algum par u, v. Se N (n)u,v (nx,y) é o número de sequências {x0, x1, · · · , xn} tendo
contagens de transição (nx,y) e satisfazendo x0 = u e xn = v, então
N (n)u,v (nx,y) =
∏
x
nx·!∏
x,y
nx,y!
Cv,u, (2.2)
onde Cv,u é o cofator (v, u) da matriz (nx,y)
∗ de componentes
n∗x,y =
 111x(y)−
nx,y
nx,·
se nx,· > 0
111x(y) se nx,· = 0
· (2.3)
2.1. ESTIMAÇÃO DA MATRIZ DE TRANSIÇÃO 97
Demonstração : Billingsley (1961b). A demonstração é por indução. O resultado é fácil de estabelecer se
n = 1, caso em que ambos os lados de (2.2) são 1. Se (nu,v) é (nx,y) com a (u, v) entrada diminúıda em
1, temos que
N (n)u,v (nx,y) =
∑
w
N (n−1)w,v (nu,w),
onde a soma se estende sobre aqueles w para so quais nu,w > 0. Por isso, basta mostrar que o lado
direito de (2.2) satisfaz esta mesma relação ou que
(nx,y)
∗ =
∑
w
nu,wn
−1
u,· (nv,w)
∗(u,w)· (2.4)
Desde que (nv,w)
∗ e (nx,y)
∗ concordem fora da w-ésima coluna, (nv,w)
∗(u,w) = (nv,w)
∗. Com este fato,
juntamente com a definição (2.3), segue que (2.4) é equivalente a
∑
w n
∗
u,w(nv,w)
∗ = 0 onde a soma
se estende sobre todos os w. Dado que
∑
w n
∗
u,w(nv,w)
∗ = 111u(v)|(nx,y)∗|, a expressão em (2.4) vale
para o caso no qual u ̸= v e é necessário somente mostrar que |(nx,y)∗| = 0 caso u = v. Suponhamos
convenientemente que nx,· = n·,x é positivo para x ≤ r e zero para x > r. Então (nx,y) tem a forma
(nx,y) =
(
A 0
0 0
)
,
onde A é uma matriz r × r. Pela definição (2.3),
(nx,y)
∗ =
(
A∗ 0
0 I
)
,
onde as linhas de A∗ somam zero. Por isso, |(nx,y)∗| = |A∗| = 0.
Exemplo 2.1
Seja, por exemplo, a sequência de 12 valores observados {0, 1, 1, 0, 1, 0, 1, 1, 1, 0, 0, 1}. Esta sequência
tem u = 0 e v = 1 e matriz de contagens de transição
(nx,y) =
(
1 4
3 3
)
· (2.5)
Podemos utilizar a seguinte função R para encontrarmos a matriz de contagens de transição
> x = c(0,1,1,0,1,0,1,1,1,0,0,1)
> library(markovchain); library(matlab); library(matlib)
> Matriz = createSequenceMatrix(x, sanitize=FALSE)
> Matriz
0 1
0 1 4
1 3 3
Vemos, da expressão em (2.3) que
n∗x,y =

4
5
−4
5
−1
2
1
2
 (2.6)
e C0,1 = 4/5. Substituindo em (2.2) temos que
N
(12)
0,1 (nx,y) =
5! · 6!
1! · 3! · 3! · 4!
· 4
5
= 80· (2.7)
98 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV
Logo, 80 é o número de sequências {0, x1, · · · , x10, 1} tendo contagens de transição (nx,y), dada em
(2.5). Desenvolvemos uma função R para encontrarmos o número de sequências {x0, x1, · · · , xn}
tendo contagens de transição (nx,y) e satisfazendo x0 = u e xn = v:
> Whittle = function(M, u, v){
n = length(rowSums(M))
Prod1 = 1;
for(i in 1:n) Prod1 = Prod1*gamma(rowSums(M)[[i]]+1)
Prod2 = 1;
for(i in 1:dim(M)[1]){
for(k in 1:dim(M)[2]) Prod2 = Prod2*gamma(M[i,k]+1)
}
u = which(row.names(M) == u)
v = which(row.names(M) == v)
C = cofactor(eye(n)-M/rowSums(M),v, u)
return((Prod1/Prod2)*C)
}
> Whittle(Matriz, 0, 1)
[1] 80
2.1.1 Intervalos de observação coincidentes
Suponhamos que nos seja dado a realização de uma Cadeia de Markov e que se deseja estimar a matriz
de probabilidades de transição. Uma abordagem é encontrar as contagens de transição e estimar as
probabilidades de transição de uma forma óbvia.
Exemplo 2.2 (Cadeia com três estados)
Este é uma situação hipotética. Consideremos uma Cadeia de Markov com três estados da qual é
observada a sequência:
2332111112213132332122223232332222213132332212213232132232
3132332223213232331232223232331222123232132123233132332121
Por simples contagem, segue-se que, a matriz do número de transição entre os estados é
(nx,y) =
 4 8 1013 17 22
6 26 9
 ,
onde nx,y denota o número de transições observadas desde o estado x ao estado y.
Uma vez que o número de transições do estado 2 para o estado 3 é 22 e o número total de
transições do estado 2 é 13 + 17 + 22, uma estimativa emṕırica de p̂2,3 é 22/52. Uma estimativa
emṕırica para a matriz de transição seria então
P̂ =

4
22
8
22
10
22
13
52
17
52
22
52
6
41
26
41
9
41
 ·
2.1. ESTIMAÇÃO DA MATRIZ DE TRANSIÇÃO 99
Vamos agora mostrar que este é, de fato, a estimativa de máxima verossimilhança condicional de P ,
condicionada à primeira observação. Suponhamos, então, que nós queremos estimar os d2−d parâmetros
de uma Cadeia de Markov {Xn} com d estados a partir uma realização x0, x1, · · · , xT . A função de
verossimilhança condicional à primeira observação é
L =
d∏
x=1
d∏
y=1
pnx,yx,y · (2.8)
Desta expressão obtemos que o logaritmo da função de verossimilhança é
ℓ =
d∑
x=1
(
d∑
y=1
nx,y log px,y
)
=
d∑
x=1
ℓx,
a qual podemos maximizar maximizando cada somando separadamente.
Substituindo 1 −
∑
z ̸=x
px,z por px,x, diferenciando cada ℓx com relaa̧ão à todas as probabilidades de
transição não diagonais px,y e igualando as derivadas a zero obtemos
0 =
−nx,x
1−
∑
z ̸=x
px,z
+
nx,y
px,y
= −nx,x
px,x
+
nx,y
px,y
·
Assim, a menos que um denominador seja zero na equação acima
nx,ypx,x = nx,xpx,y,
e por isso px,x
d∑
y=1
nx,y = nxx. Isto implica que o ponto de máximo local da função de verossimilhança
das probabilidades de transição é
p̂x,x =
nx,x
d∑
y=1
nx,y
, e p̂x,y =
nx,y
d∑
y=1
nx,y
· (2.9)
e
p̂x,y =
nx,y
d∑
y=1
nx,y
· (2.10)
Também podeŕıamos utilizar multiplicadores de Lagrange para expressar as restrições
∑d
y=1 px,y = 1,
sob as quais buscamos maximizar os termos ℓx e, portanto, a função de verossimilhança. Mas isso, não
é necessário em geral.
Exemplo 2.3 (Continuação do Exemplo 2.2)
Fazendo uso do pacote de funções markovchain, constrúımos a matriz de contagens de transição
utilizando o comando createSequenceMatrix, como mostrado a seguir:
> x = c(2,3,3,2,1,1,1,1,1,2,2,1,3,1,3,2,3,3,2,1,2,2,2,2,3,2,3,2,3,3,2,2,2,2,2,1,3,1,3,2,3,3,
2,2,1,2,2,1,3,2,3,2,1,3,2,2,3,2,3,1,3,2,3,3,2,2,2,3,2,1,3,2,3,2,3,3,1,2,3,2,2,2,3,2,
3,2,3,3,1,2,2,2,1,2,3,2,3,2,1,3,2,1,2,3,2,3,3,1,3,2,3,3,2,1,2,1)
> Matriz = createSequenceMatrix(x, sanitize=FALSE)
100 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV
> Matriz
1 2 3
1 4 8 10
2 13 17 22
3 6 26 9
Às vezes o número de Whittle é impraticável, como nesta situação. Utilizando a função anterior
obtemos que:
> Whittle(Matriz, u = 2, v = 1)
[1] 8.462769e+44
A questão agora é transformar as frequências observadas em probabilidades, para isso utilizamos o
comando markovchainFit do qual temos por resposta uma lista com diversas informações. A primeira
resposta é a matriz de probabilidades de transição estimada, a qual pode ser obtida também digitando
mcFitMLE[[1]].
> mcFitMLE[[1]]
MLE Fit
A 3 - dimensional discrete Markov Chain defined by the following states:
1, 2, 3
The transition matrix (by rows) is defined as follows:
1 2 3
1 0.1818182 0.3636364 0.4545455
2 0.2500000 0.3269231 0.4230769
3 0.1463415 0.6341463 0.2195122
Teorema 2.2
Seja {Xn} uma Cadeia de Markov ergódica. Então independentemente da distribuição inicial
√
nx,y(p̂x,y − px,y)
D−→ Z, (2.11)
onde Z ∼ N(0,Σ), Σ = (σx,y), x, y ∈ S e
σx,y =

px,y(1− px,y) caso {x, y} ̸= {z, w}
−px,ypx,z caso x = z, y ̸= w
0 caso contrário
Demonstração : Consequência do Teorema Central do Limite (Anderson & Goodman, 1957).
O resultado deste teorema implica que a covariância assintótica tem uma estrutura multinomial
dentro das linhas e independência entre as linhas. Como resposta temos também o desvio padrão da
estimação, calculado segundo a expressão em (2.11), como p̂x,y/
√
nx,y, assim como um intervalo de
confiança de 95%, os limites inferior e superior deste intervalo e o valor da funçõ de log-verossimilhança.
Exemplo 2.4 (Continuação do Exemplo 2.2)
Mostramos agora a forma de obtermos os resultados apresentados no Teorema 2.2. Todos os resul-
tados estão guardados no objeto mcFitMLE e para sabermos o valor do desvio padrão, por exemplo,
2.1. ESTIMAÇÃO DA MATRIZ DE TRANSIÇÃO 101
digitamos:
> mcFitMLE$standardError
1 2 3
1 0.09090909 0.12856487 0.14373989
2 0.06933752 0.07929049 0.09020030
3 0.05974365 0.12436633 0.07317073
O intervalos confidencial é de 95%, o qual verificamos digitando:
> mcFitMLE$confidenceInterval$confidenceLevel
[1] 0.95
Então, por final, obtemos os limites inferior e superior do intervalos confidenciais como mostrado
abaixo. Ainda mostramos o valor da função ℓ, o logaritmo da função de verosimilhança.
> mcFitMLE$confidenceInterval$lowerEndpointMatrix
1 2 3
1 0.03228603 0.1521660 0.21811437
2 0.13594992 0.1965018 0.27471063
3 0.04807190 0.4295819 0.09915705
> mcFitMLE$confidenceInterval$upperEndpointMatrix
1 2 3
1 0.3313503 0.5751068 0.6909765
2 0.3640501 0.4573443 0.5714432
3 0.2446110 0.8387107 0.3398673
> mcFitMLE$logLikelihood
[1] -115.7695
O nosso próximo exemplo é uma aplicação de Cadeia de Markov em engenharia, tem a ver com pontes
e baseia-se no trabalho de Skuriat-Olechnowska (2005). A maioria das pontes na Holanda é constrúıda
em concreto e mais de metade delas tem mais de 30 anos. À medida que as pontes se deterioram a uma
velocidade acelerada devido à corrosão, à degradação do concreto e ao dano do véıculo a Divisão de
Engenharia Civil de Rijkswaterstaat1, que faz parte do Ministério dos Transportes, das Obras Públicas
e da Gestão da Àgua deve repará-las e, sempre que posśıvel, impedem uma maior deterioração.
O referido ministério é o principal encarregado por de cerca de 3500 pontes na Holanda por isso
o ministério gosta de conhecer a vida útil restante de suas estruturas já que é sabido que durante a
vida útil, as estruturas precisarão ser reparadas. Neste momento, uma estratégia de reparo baseada em
inspeções é usada para determinar quando o reparo será feito. Esta estratégia de reparo para pontes de
concreto na Holanda resulta em reparação de pontes a cada 25 até 35 anos. O reparo será normalmente
de 0.5% até 155% da área da estrutura (van Beek et al., 2003).
Estes dados contém informações sobre os estados em que a estrutura de pontes encontraram-se
durante as inspeções, ou seja, contém um histórico de inspeção e no ano de construção.
Estado Perfeito Muito bom Bom Razoável Med́ıocre Mau Muito mal
Classificação 0 1 2 3 4 5 6
Tabela 2.1: Esquema de classificação da condição das pontes.
Para o gerenciamento das informaçõs utilizam-se diversos sistemas, dois deles: PONTIS e BRIDGIT
são dois dos Sistemas de Gerenciamento de Ponte mais comuns atualmente dispońıveis (Golabi e Shepard,
1A Rijkswaterstaat é responsável pela concepção, construção, gestão e manutenção das principais infra-estruturas da
Holanda. Isso inclui a rede rodoviária principal, a rede de hidrovia principal e os sistemas de águas.
102 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV
1997; Thompson et al., 1998). Ambos têmsuas origens no Arizona Pavement Management System
desenvolvido no final da década de 1970 e são quase exclusivamente utilizados nos Estados Unidos.
Todos esses modelos usam Cadeias de Markov para modelar a deterioração incerta das pontes ao longo
do tempo. Nos Páıses Baixos, os resultados das inspeções de ponte são registrados em um banco de
dados, que é usado principalmente para manutenção de registros. Esta base de dados é uma fonte muito
rica de informações, contém dados coletados ao longo de quase 20 anos, e a finalidade da pesquisa atual
é usar esses dados para estimar a taxa de deterioração.
Para
0 1 2 3 4 5 6
0 520 134 327 111 36 7 0
1 270 128 222 97 36 7 0
2 284 101 368 193 61 9 5
De
3 94 33 119 131 42 3 1
4 16 14 42 50 17 7 0
5 7 3 4 4 3 0 1
6 1 1 0 3 1 0 0
Tabela 2.2: Contagem original de transições do Exemplo 2.5.
Reconhecendo que as Cadeias de Markov são uma ferramenta adequada para modelagem de deteri-
oração de pontes propomos técnicas adequadas que levem em consideração o tipo especial de censura
envolvendo inspeções de pontes. Além disso, gostaŕıamos de ter testes estat́ısticos à nossa disposição
para avaliar a validade e o desempenho relativo de diferentes tipos de Cadeias de Markov. Essenci-
almente, estamos interessados em obter a funcionalidade de um sistema de gerenciamento de ponte
como PONTIS, ao mesmo tempo em que cuidamos especialmente a validade de nossos pressupostos e
os modelos resultantes em relação à situação nos Páıses Baixos.
Definida a codificação dos estados que vamos utilizar na Tabela 2.1, classificando o estado de con-
servação das pontes inspecionadas procedemos à estimação da matriz de probabilidades de transição
desta cadeia. A Tabela 2.2 mostra a contagem das transições de cada estado para qualquer outro
estado.
Para
0 1 2 3 4 5
0 520 134 327 111 36 7
1 270 128 222 97 36 7
2 284 101 368 193 61 14
De
3 94 33 119 131 42 4
4 16 14 42 50 17 7
5 8 4 4 7 4 1
Tabela 2.3: Contagem de transições do Exemplo 2.5, combinando os dois últimos estados da Tabela 2.2.
Nós vemos que a informação, que vem de dados de deterioração, é bastante subjetiva. Vemos a
classificação da condição que varia de um perfeito (estado 0) para um muito ruim (estado 6) através da
definição de estados. Interessante observar que pontes em estados mau e muito mal raramente acontecem,
por causa disso procedeu-se à junção destes estados e codificou-se como 5. O resultado apresenta-se na
Tabela 2.3. Os dados provêm da Divisão de Engenharia Civil do Ministério dos Transportes, Obras
Públicas e Gestão da Àgua na Holanda.
2.1. ESTIMAÇÃO DA MATRIZ DE TRANSIÇÃO 103
Exemplo 2.5 (Inspeção de pontes)
O banco de dados inclui um total de 5986 eventos de inspeção registrados para 2473 superestruturas
individuais. Ignorando o tempo entre a construção da ponte e uma primeira inspeção, há 3513
transições registradas entre estados de condição. Pela Tabela 2.2 podemos observar que os estados
5 e 6 raramente ocorrem no banco de dados. Para determinar uma matriz de probabilidade de
transição, esses estados são combinados no estado 5 para representar uma condição ”ruim”e ”muito
ruim”, caso contrário, algumas probabilidades de transição podem ser zero. Obtemos como resposta
a matriz de probabilidades de transição estimada a seguir:
P̂ =

0 1 2 3 4 5
0 0.4581 0.1181 0.2881 0.0978 0.0317 0.0062
1 0.3553 0.1684 0.2921 0.1276 0.0474 0.0092
2 0.2782 0.0989 0.3604 0.1890 0.0597 0.0138
3 0.2222 0.0780 0.2813 0.3097 0.0993 0.0095
4 0.1096 0.0959 0.2877 0.3425 0.1164 0.0479
5 0.2857 0.1429 0.1429 0.2500 0.1429 0.0356
·
Foi realizada uma análise sobre modelagem de deterioração de pontes mas os dados foram coleta-
dos, no banco de dados denominado DISK e fornecidos pelo Divisão de Engenharia do Rijkswaters-
taat, continham um número limitado de estados de condição das pontes, decidimos usar Cadeia de
Markov para modelar a deterioração. O modelo de deterioração de Markov é baseado em condições.
Por isso, é flex́ıvel na adaptação aos dados de inspeção (visual). Infelizmente, não pudemos observar
o tempo exato das transições. Assim, adaptamos uma Cadeia de Markov com censura de intervalo.
Censura de intervalo significa que não sabemos a hora exata de um evento. Em nosso contexto, isso
significa que não sabemos a hora em que a ponte se move de um estado para outro. Uma probabili-
dade de transição foi definida como a probabilidade de uma ponte passar de um estado para outro
(igual ou pior). Assumimos que nenhuma manutenção foi realizada entre as inspeções.
Com o auxilio dos seguintes comandos investigamos o comportamento futuro desta cadeia:
> Estados = c("0", "1", "2", "3", "4", "5")
> Pontes = matrix(c(520, 134, 327, 111, 36, 7,
270, 128, 222, 97, 36, 7,
284, 101, 368, 193, 61, 14,
94, 33, 119, 131, 42, 4,
16, 14, 42, 50, 17, 7,
8, 4, 4, 7, 4, 1),
nrow = 6, ncol = 6, byrow = TRUE, dimnames = list(Estados, Estados))
> Pontes = as(as.table(Pontes), "markovchain")
> Pontes
Unnamed Markov chain
A 6 - dimensional discrete Markov Chain defined by the following states:
0, 1, 2, 3, 4, 5
The transition matrix (by rows) is defined as follows:
0 1 2 3 4 5
0 0.4581498 0.11806167 0.2881057 0.09779736 0.03171806 0.006167401
1 0.3552632 0.16842105 0.2921053 0.12763158 0.04736842 0.009210526
2 0.2781587 0.09892262 0.3604310 0.18903036 0.05974535 0.013712047
3 0.2222222 0.07801418 0.2813239 0.30969267 0.09929078 0.009456265
4 0.1095890 0.09589041 0.2876712 0.34246575 0.11643836 0.047945205
5 0.2857143 0.14285714 0.1428571 0.25000000 0.14285714 0.035714286
> steadyStates(Pontes)
0 1 2 3 4 5
[1,] 0.3243988 0.1092058 0.3077224 0.1852073 0.06111703 0.01234871
104 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV
Temos por resposta que 32,4% das pontes inspecionadas corresponderão a pontes em perfeito
estado, 10,9% corresponderá a pontes em estado muito bom, 30,8% permanecerá em estado bom,
18,6% das pontes corresponderão á pontes em estado de conservação razoável, 6,1% estarão em
estado med́ıocre na próxima avaliação enquanto 1,2% delas estarão em estado mau ou muito mal.
2.1.2 Intervalos de observação não coincidentes
Consideremos a situação na qual L0 seja o intervalo de observação, porém o desejado é que seja Ld a
duração do ciclo desejado. O estimador de máxima verossimilhança da matriz de transição de probabili-
dades é P̂0, associada com o comprimento do ciclo de observação L0, a qual é obtida usando os métodos
apresentados na Seção 2.1.1.
Pela propriedade de invariância, o estimador de máxima verossimilhança da matriz de transição
associado com a duração do ciclo Ld é
P̂d = P̂ t, (2.12)
onde t = Ld/L0.
No exemplo anterior, se em vez de observarmos por um peŕıodo de um ano tivesse sido o peŕıodo
de observaa̧ão de dois anos: L0 = 2 e Ld = 1. Então, pode-se encontrar a raiz quadrada da matriz de
transição estimada, devido a que t = 1/2.
O cálculo da matriz em (2.12) é simples a partir da decomposição de P̂0 em seus valores e vectores
próprios, chamada de decomposição espectral. Com base nesta decomposição, esta matriz pode ser
escrita como
P̂0 = V ΛV −1,
onde
Λ =

λ1 0 · · · 0
0 λ2 · · · 0
...
...
...
...
0 0 · · · λN

é a matriz de auto-valores e V a matriz de auto-vetores correspondentes. Segue então que
P̂ t0 = V ΛtV −1,
onde
Λt =

λt1 0 · · · 0
0 λt2 · · · 0
...
...
...
...
0 0 · · · λtN
 ·
Os autovalores são transformados segundo o valor da potência t, mas os autovetores não mudam.
Temos diversas opções dispońıveis de funções de decomposição de matrizes, de forma que estes cálculos
podem ser feitos muito rapidamente, por exemplo, no R a função básica eigen permite realizar estes
cálculos.
Um modelo a tempo discreto não é necessariamente Markov em todos os ciclos. Isto é comparável a
dizer que alguns dos valores próprios da matrizde transição podem ser negativos. Desde que a matriz
de transição estimada P̂ seja semidefinida positiva, todos os valores próprios serão não-negativos, este
método permitirá calcular o estimador de máxima verossimilhança diretamente.
O procedimento apresentado aqui não é único na literatura especializada, porém o consideramos de
fácil implementação. Um outro procedimento pode ser consultado em Miller & Homan (1994).
2.1. ESTIMAÇÃO DA MATRIZ DE TRANSIÇÃO 105
Vejamos o exemplo a seguir o qual é um estudo de coorte sobre o HIV2. Os pesquisadores constrúıram
uma Cadeia de Markov estacionária para descrever a progressão mensal de indiv́ıduos infectados por
HIV em maior risco de desenvolver infecção por Complexo Mycobacterium avium3. Esta progressão
inclúıa a possibilidade de movimento entre três faixas de contagem de células CD4 distintas, com e sem
AIDS.
Seis meses de contagem
Contagem inicial de células CD4
de células CD4 0 - 49 50 - 74 75+
0 - 49 682 33 25
50 - 74 154 64 47
75+ 19 19 43
Tabela 2.4: Transições observadas em seis meses na contagem de células CD4 (1993-1995). Estudo
realizado na Suiça com pacientes infectados pelo HIV.
Exemplo 2.6 (Estudo de coorte HIV )
Dados coletados num estudo multicêntrico onde os pacientes infectados pelo HIV têm visitas de
acompanhamento bastante regulares, a cada seis meses. Os dados estão dispońıveis no arquivo de
dados craigsendi, pacote markovchain, e mostrados na Tabela 2.4.
> data(craigsendi)
> csMc = as(craigsendi, "markovchain")
> csMc
Unnamed Markov chain
A 3 - dimensional discrete Markov Chain defined by the following states:
0-49, 50-74, 75-UP
The transition matrix (by rows) is defined as follows:
0-49 50-74 75-UP
0-49 0.9216216 0.04459459 0.03378378
50-74 0.5811321 0.24150943 0.17735849
75-UP 0.2345679 0.23456790 0.53086420
Estes resultados significam que a matriz de probabilidades de transição estimada em seis meses é
P̂6 =

0− 49 50− 74 75+
0− 49 0.9216 0.0446 0.0338
50− 74 0.5811 0.2415 0.1774
75+ 0.2346 0.2346 0.5309
·
Devemos mencionar que os dados apresentados na Tabela 2.4 constituem a contagem das transições
observadas mas, uma vez convertidos em Cadeia de Markov temos as probabilidades estimadas de
transição, como foi realizado no Exemplo 2.5.
A apresentação do Exemplo 2.6 permite-nos a leitura dos dados na referência mencionada antes e
guardados no arquivo craigsendi. Esclarecemos novamente que os dados originais foram observados num
peŕıodo de seis meses, o qual nõ é o desejado no estudo, queremos o comportamento mensal. Mostramos
2Sendi, P.P., Craig, B.A., Pfluger, D., Gafni, A. and Bucher, H.C.. Systematic validation of disease models for
pharmacoeconomic evaluations. Journal of Evaluation in Clinical Practice. 1999; Volume 5; pp. 283-295.
3O Complexo Mycobacterium avium é um grupo de bactérias que pode ser encontrado normalmente na rede hidráulica
das cidades e em pessoas com imunossupressão, como portadores do HIV/AIDS.
106 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV
a continuação nossa implementação no R do procedimento para encontrarmos a matriz de transição no
ciclo desejado. Observe que, em nossa implementação no seguinte exemplo, todos oa auto-valores foram
positivos.
Exemplo 2.7 (Continuação do Exemplo 2.6)
Para esta análise, a duração do ciclo desejado é de um mês. Para estimar a matriz de transição para
esse intervalo, vamos decompor P̂6. Utilizando a função R eigen obtemos
> L = eigen(csMc@transitionMatrix)
> L
eigen() decomposition
$values
[1] 1.0000000 0.5701572 0.1238380
$vectors
[,1] [,2] [,3]
[1,] -0.5773503 -0.1276431 0.02818224
[2,] -0.5773503 0.2866930 -0.87301666
[3,] -0.5773503 0.9494811 0.48687542
Agora vamos transformar esta matriz à situação procurada, ou seja, numa transição mensal.
> csMc1 = L$vectors%*%diag((L$values)^(1/6))%*%solve(L$vectors)
> csMc1 = new("markovchain", byrow=T, transitionMatrix=csMc1)
resultado apresentado em (2.13).
Traduzindo estes resultados: a matriz de auto-valores é
Λ =
1.000000 0 00 0.5701572 0
0 0 0.123838

e a matriz de auto-vetores correspondente é V =
−0.5773503 −0.1276876 0.02817213−0.5773503 0.2867671 −0.87297660
−0.5773503 0.9494527 0.48694783
.
Como mencionado o ciclo observado foi de 6 meses, mas o ciclo desejado é de um mês. Para isso
tomamos a raiz sexta de Λ e fazendo os cálculos sugeridos (2.12) obtemos que a matriz de transição
estimada de um mês é
P̂ =
0.9819 0.0122 0.00590.1766 0.7517 0.0717
0.0177 0.0933 0.8830
 · (2.13)
Se esta matriz fosse multiplicada seis vezes o resultado será a matriz P̂6 como esperado. Observe que
este processo é muito rápido e simples. Neste exemplo, a matriz sugere que haverá demasiados pacientes
no estado 0-49 após seis ciclos.
Podemos agora, inclusive, identificarmos a distribuição estacionária, para isso fazemos:
> steadyStates(csMc1)
1 2 3
[1,] 0.8343668 0.07659214 0.08904103
Significa que, a longo prazo, 83,4% indiv́ıduos infectados por HIV mantem-se na faixa 0-49 de
contagem de células CD4, 7,7% apresentam contagem na faixa 50-74 em 8,9% dos casos a contagem é
75 ou mais.
2.2. TESTES PARA VERIFICAR A ORDEM DA CADEIA 107
2.2 Testes para verificar a ordem da cadeia
Muitas vezes acontece que é útil descrever um processo estocástico como um conjunto de estados discretos
com transições probabiĺısticas e exemplos abundam em vários campos, como o estudo de processos
qúımicos, sequências de DNA, finanças dentre outros. Se a probabilidade de transição para o próximo
estado é condicionada apenas no estado atual, chamamos este modelo de uma Cadeia de Markov, e
quando as probabilidades condicionais não são dadas de outra forma, elas são estimadas a partir de uma
série temporal de observações. Mas, e caso a probabilidade de transição para o próximo estado seja
condicionada não somente no estado atual? em tais situações surgem novos questionamentos.
Se a ordem da Cadeia de Markov estiver em questão o primeiro é respondermos: o que é ordem de
uma Cadeia de Markov?
Definição 2.1
Uma sequência de observações {Xn}n≥1 formam uma Cadeia de Markov de ordem k se a probabilidade
condicional satisfaz
P (Xn+1|Xn, Xn−1, · · · ) = P (Xn+1|Xn, · · · , Xn−k+1), ∀k < n· (2.14)
As cadeias de Markov consideradas no Caṕıtulo 1 são cadeias de ordem um, ou seja, k = 1. Isso
significa, como sabemos, que as probabilidades de transição para um estado futuro dependem apenas
do estado atual e não de estados anteriores. Um processo de ordem k pode sempre ser lançado como de
primeira ordem agrupando estados. Um processo que não tenha dependência do passado ou presente,
como variáveis aleatórias independentes, é dito ser uma Cadeia de Markov de ordem zero. Por outro
lado, como deve ser facilmente percebido cadeias de ordens superiores, ou seja, cadeias de segunda ordem
ou superiores implicam numa representação mais complicada.
Considere primeiro uma Cadeia de Markov de segunda ordem. Dado que um indiv́ıduo está no estado
z no instante n − 2 e em y no instante n − 1, seja pzyx a probabilidade de estar o indiv́ıduo no estado
x no instante n. Uma cadeia estacionária de primeiro ordem é uma cadeia especial de segunda ordem,
na qual pzyz não depende de z. Para vermos isso, considere o par de estados sucessivos z e y definir
um estado composto (z, y). A probabilidade do estado composto (y, x) no instante n dado o estado
composto (z, y) no instante n− 1 é pzyx. Vejamos isso.
Sabemos que P (Xn = x|Xn−1 = y,Xn−2 = z) = pzyx e queremos verificar se P
(
Xn = (y, x)|Xn−1 =
(z, y)
)
= pzyx. Logo
P
(
Xn = (y, x)|Xn−1 = (z, y)
)
= pzyx
P
(
Xn = (y, x)|Xn−1 = y,Xn−2 = z
)
= P
(
Xn = x,Xn−1 = y|Xn−1 = y,Xn−2 = z
)
= pzyx·
(2.15)
Claro que, a probabilidade do estado (w, x), w ̸= y, dado (x, y), é zero. Os estados compostos
podem ser encontrados para formar uma cadeia com d2 estados (d é o número de estados) e com certas
probabilidadesde transição 0. Esta repressentação nos ajudará na descrição dos testes de verificação da
ordem de uma cadeia a serem descritos aqui.
Verificarmos a ordem de uma Cadeia de Markov poderá ser realizado de diversas maneiras, mas aqui
consideraremos duas delas. O primeiro teste, conhecido como teste aproximado, descrito na Subseção
2.2.1 é baseado na estat́ıstica χ2 por outro lado, um segundo teste descrito na Subseção 2.2.2 é conhecido
como teste exato. Devemos mencionar novamente que muitos dos resultados apresentados aqui foram
resumidos no artigo de Anderson & Goodman (1957).
108 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV
Exemplificaremos a teoria a ser apresentada neste seção com o seguinte exemplo, inspirado no tra-
balho de Doubleday & Esunge (2011). A ideia é usar Cadeias de Markov para prever o comportamento
dos preços das ações utilizando o ı́ndice Dow Jones Industrial Average (DJIA)4.
Exemplo 2.8 (Tendência de mercado financeiro)
A modelagem do ı́ndice Dow Jones Industrial Average ou DJIA é frequentemente utilizada para de-
terminar estratégias de negociação com o máximo de recompensa. As mudanças no comportamento
do DJIA são importantes, pois os movimentos podem afetar profundamente as escolhas dos investi-
dores, sejam estes indiv́ıduos ou corporações. O objetivo neste exemplo é mostrar como analisar o
DJIA usando um modelo estocástico de tempo discreto, ou seja, uma Cadeia de Markov. Dois mo-
delos foram destacados, onde o DJIA foi considerado como sendo em (1) ganho ou perda e (2) ganho
ou perda pequeno, moderado ou grande. Esses modelos foram usados para obter probabilidades de
transição e a distribuição estacionária.
Os preços de fechamento do mercado são considerados para que a análise possa ser feita de forma
discreta e as probabilidades de transição são utilizadas como partes de Cadeias de Markov para
modelar o mercado. Dada esta formulação de uma matriz de transição e seu estado estacionário,
podemos configurar um sistema de classificação do Dow Jones Industrial Average (DJIA). A idéia
de usar Cadeias de Markov para prever o comportamento dos preços das ações é popular, pois
os investidores potenciais estão interessados nas tendências do mercado, o que pode levar a uma
estratégia de investimento ideal. Para este estudo, serão analisadas duas estratégias, a saber:
• Probabilidades do DJIA movendo-se para cima ou para baixo.
• Probabilidades do DJIA movendo-se entre as partições de os posśıveis ganhos e perdas.
Os valores de fechamento do DJIA foram reunidos para os 252 dias de negociação entre 27 de
dezembro de 2016 e 26 de dezembro de 2017. Os dados, apresentados na Figura 2.1, foram obtidos de
Yahoo! Finance em https://finance.yahoo.com/quote/%5EDJI/history. Questões em aberto: como
vamos construir uma Cadeia de Markov a partir dos dados relatados? Qual a ordem desta cadeia?
2.2.1 Testes aproximado
Para realizar um teste e verificar, como hipótese nula, se a cadeia é de k-ésima ordem é necessário
calcular a distribuição de uma estat́ıstica de ordem superior adequada. Se a estat́ıstica de ordem
superior observada for suficientemente improvável, a hipóteses nula é rejeitada. A probabilidade, dada
a hipóteses nula, da estat́ıstica de teste alcançando o valor observado ou um mais extremo é referida
como p-valor. Tipicamente, um p-valor menor ou igual a 0.05 é tomado como motivo para rejeitar a
hipótese nula. Em diversos trabalhos como, por exemplo, em Anderson & Goodman (1957) os autores
descrevem o teste aproximado amplamente utilizado com este objetivo.
Vamos começar com a suposição de que {Xn} é uma sequência observada de uma Cadeia de Markov
de primeira ordem (k = 1) e calculamos o p-valor de uma estat́ıstica de segunda ordem usando a
distribuição χ2. A distribuição nula é
P (Xn+1 = x|Xn = y,Xn−1 = z) = P (Xn+1 = x|Xn = y)
4Dow Jones Industrial Average é um ı́ndice criado em 1896 por Charles Dow, editor do The Wall Street Journal e
fundador do Dow Jones & Company. O DJIA é ao lado do Nasdaq Composite e do Standard & Poorś 500 um dos
principais indicadores dos movimentos do mercado americano. Dos três indicadores, DJIA é o mais largamente publicado
e discutido. O cálculo deste ı́ndice é bastante simples e baseia-se na cotação das ações de 30 das maiores e mais importantes
empresas dos Estados Unidos. Como o ı́ndice não é calculado pela Bolsa de Valores de Nova Iorque, seus componentes
são escolhidos pelos editores do jornal financeiro norte-americano The Wall Street Journal. Não existindo nenhum critério
pré-determinado a não ser que os componentes sejam companhias norte-americanas ĺıderes em seus segmentos de mercado.
2.2. TESTES PARA VERIFICAR A ORDEM DA CADEIA 109
20000
21000
22000
23000
24000
25000
jan 2017 abr 2017 jul 2017 out 2017 jan 2018
 
D
ow
 J
on
es
 In
du
st
ria
l A
ve
ra
ge
 e
m
 U
S
D
Figura 2.1: Índice Dow Jones Industrial Average, valor no fechamento diário.
ou pela fórmula de Bayes
P (Xn+1 = x,Xn = y,Xn−1 = z) =
P (Xn+1 = x,Xn = y)P (Xn = y,Xn−1 = z)
P (Xn = y)
· (2.16)
A expressão a esquerda em (2.16) multiplicada por N − 2, sendo N a quantidade de observações na
série temporal observada, é o número esperado de vezes que a sequência (Xn+1 = x,Xn = y,Xn−1 = z)
aparece nos dados, dada a hipótese nula. As quantidades no lado direito não são valores esperados. Eles
são retirados da sequência observada. Seja Eω a contagem esperada de sequências onde
∑
ω Eω = N − 2
e ω indexa o conjunto de todas as sequências para as quais a contagem esperada é maior do que zero.
Do mesmo modo, seja Oω ≥ 0 a contagem correspondente dos dados observados.
Agora podemos definir a estat́ıstica de teste χ2 observada como
χ2obs =
∑
ω
(
Eω −Oω
)2
Eω
, (2.17)
a qual é uma medida do desvio da contagem observada do esperado. A vantagem da estat́ıstica χ2 é
que, atendendo aos graus de liberdade m, a distribuição da estat́ıstica é conhecida no limite N → ∞.
O p-valor é então obtido como P (χ2(m) ≥ χ2obs).
Um problema que exige alguma discussão é como calcular os graus de liberdade necessários para
determinar a distribuição χ2(m). Para testar a hipótese da k-ésima ordem, contamos as sequências
de comprimento m = k + 1 observadas e calculamos as sequências de comprimento m + 1 esperadas.
Supondo que todas as dm sequências de comprimento m estejam presentes nos dados, seja F a matriz
dm×dm das contagens de transição. O (i, j)-ésimo elemento de F é o número de vezes que as transições
de i para j acontecem. Como as sequências consecutivas se sobrepõem e diferem por apenas um śımbolo,
existem no máximo d entradas não-zero em cada linha e coluna de F . É útil reorganizar F na forma
bloco diagonal com m blocos d × d. Em cada bloco tanto as linhas como as colunas devem somar o
110 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV
comprimento correspondente às m contagens de sequências. Levando em consideração as dependências
entre linhas e colunas nos deixa com dm−1(d− 1)2 graus de liberdade para m > 0 e (d− 1)2 para m = 0.
No caso de que nem todas as sequências de comprimento m estejam presentes nos dados observados,
F será menor do que dm × dm e os blocos ao longo da diagonal podem ser de tamanho diferente. Se o
tamanho do i-ésimo bloco for ri × ci, então o número total de graus de liberdade é
∑
i(ri − 1)(ci − 1).
No caso especial onde m = 1, a hipótese nula do teste é que as observações em pontos de tempo
sucessivos são estat́ısticamente independentes contra a hipótese alternativa de que as observações formam
uma cadeia de primeira ordem.
Exemplo 2.9 (Continuação do Exemplo 2.8)
Para a aplicação da estratégia (1), cada dia foi classificado como tendo fechado maior ou menor que
o dia anterior, assim permitindo a classificação de dois estados, a saber:
Estado 1: O valor de fechamento é inferior ao valor de fechamento do dia anterior.
Estado 2: O valor de fechamentoé maior ou igual ao valor de fechamento do dia anterior.
Com as linhas de comando R seguintes fizemos a leitura dos dados, geramos o gráfico e constrúımos
a cadeia:
> dados=read.csv(’DJIA.csv’,sep=’,’,h=T)
> attach(dados)
> library(ggplot2); library(psych); library(car)
> Datas = as.Date(dados$Date)
> par(mar=c(5,4,1,1),pch=19,cex.axis=0.4)
> qplot(Datas, Close, xlab=’ ’, ylab=’Dow Jones Industrial Average em USD’)
> Estados = seq(1, length(Close)-1)
> for(i in 1:length(Estados)){Estados[i] = ifelse(Close[i]>Close[i+1], 1, 2)}
Como resposta a matriz de probabilidades de transição estimada é
P̂ =
(
0.4722222 0.5277778
0.4014085 0.5985915
)
,
isto obtido da seguinte lista de comandos R:
> library(markovchain)
> createSequenceMatrix(Estados, sanitize=FALSE)
> mcFitMLE = markovchainFit(data=Estados)
> mcFitMLE$estimate^100
MLE Fit^100
A 2 - dimensional discrete Markov Chain defined by the following states:
1, 2
The transition matrix (by rows) is defined as follows:
1 2
1 0.432 0.568
2 0.432 0.568
Ainda temos também que a distribuição estacionária é π = (0.432, 0.568). Significa que temos
43% de probabilidade de perda na nossa carteira de ações com o ı́ndice DJAI e 57% de probabilidade
de ganho. Aplicamos agora os conhecimentos desenvolvidos nesta seção para verificar a ordem da
Cadeia de Markov. Para isso devemos verificar se a cadeia em questão é de ordem um ou não e,
como vimos, podemos utilizar a estat́ıstica de teste χ2. Para isto, ou seja, para aplicarmos o teste
aproximado descrito nesta subseção fazemos:
2.2. TESTES PARA VERIFICAR A ORDEM DA CADEIA 111
> assessOrder(Estados)
The assessOrder test statistic is: 3.964894
the Chi-Square d.f. are: 2
The p-value is: 0.1377318
com o qual conclúımos que aceitamos a hipóteses nula da cadeia com dois estados ser de ordem um.
2.2.2 Teste exato
Podemos usar a fó rmula de Whittle em (2.2) para gerar um subconjunto de amostras de N
(n)
u,v para que
a amostra seja uniforme, ou seja, para que todas as sequências em N
(n)
u,v tenham a mesma probabilidade
de serem inclúıdas na amostra. Uma estratégia seria crescer sucessivamente uma sequência substituta,
começando com uma sequência inicial, até que todas as transições sejam usadas. Em cada etapa são
realizadas duas operações: (1) a próxima sequência é escolhida com base no número de sequências
restantes calculadas usando a fórmula de Whittle, e (2) nx,y é atualizado para refletir a contagem de
transição reduzida resultante da seleção. As sequências são escolhidas probabilisticamente ponderadas
pelo número de sequências que estão dispońıveis para completar o substituto. As sequências que levam
a zero sequências válidas nunca são escolhidas, portanto, o algoritmo é garantido para resultar em um
substituto válido. Este método de produção de substitutos produz uma amostragem uniforme de N
(n)
u,v
uma vez que a cada passo as palavras que levam a poucas sequências remanescentes são selecionadas
proporcionalmente com menos frequência.
O teste de hipótese conforme descrito na subseção 2.2.1 não é exato, depende da distribuição χ2
válida no limite assintótico de dados infinitos. Para descobrir a distribuição exata para dados finitos é
necessário avaliar a estat́ıstica χ2obs para todas as sequências posśıveis que satisfaçam a hipótese nula.
Para a hipótese de primeira ordem, essas sequências têm exatamente a mesma probabilidade conjunta
mostradas no lado direito de (2.16). Referencias importantes são os artigos de Besag & Mondal (2013);
Pethel & Hahs (2014).
Seja nxy o número de transições na cadeia observada entre os estados x e y. Também definimos Γ
como o conjunto de sequências com o mesmo número de transições observado (nxy) mas com os mesmos
estado inicial e final observados na cadeia {Xn}. O número de sequências com a mesma contagem
de transições (nxy) e que começa no estado u e termina no estado v é dado pela fórmula de Whittle
(Teorema 2.1):
Nuv =
∏
x nx·!∏
xy nxy!
Cuv, (2.18)
onde nx· representa a soma da linha x e Cuv é o (u, v)-ésimo cofator da matriz
n∗xy =
{
δxy −
nxy
nx·
caso nx· > 0,
δxy caso nx· = 0·
(2.19)
.
Para encontrar o p-valor precisamos conhecer todas as sequências em (nxy) que possuem valores da
estat́ıstica χ2 maiores ou iguais a χ2obs.
Exemplo 2.10 (Continuação do Exemplo 2.8)
Continuando neste exemplo, sabemos que a matriz de contagens é da forma
> createSequenceMatrix(Estados, sanitize=FALSE)
1 2
1 51 57
2 57 85
112 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV
> Estados
[1] 1 1 1 2 2 1 2 1 1 2 1 1 1 1 1 2 1 2 2 2 1 1 1 2 1 2 1 2 1 2 2 2 2 2 2 2 2 2 2 2
[41] 2 1 2 1 2 1 1 1 2 2 1 1 2 1 1 1 1 1 1 1 1 2 1 2 1 1 2 1 2 1 2 1 1 1 2 1 1 2 1 2
[81] 2 1 2 1 1 2 2 1 2 2 1 1 1 1 2 1 1 2 2 2 2 2 2 1 1 1 2 2 1 1 2 2 2 1 2 2 1 2 2 1
[121] 1 1 1 2 1 2 1 2 2 1 1 2 1 2 2 2 2 1 1 2 1 1 1 2 2 2 2 2 2 2 2 2 2 1 1 1 2 2 2 2
[161] 1 1 2 2 1 1 2 1 2 2 2 2 1 2 1 2 2 2 2 2 2 2 2 2 1 1 1 1 2 2 2 2 2 2 2 1 1 2 2 1
[201] 2 2 2 2 2 2 1 2 1 2 2 1 2 2 2 2 2 2 2 1 1 2 1 1 2 1 2 2 1 2 2 2 2 2 1 2 1 1 2 2
[241] 2 2 2 1 2 2 1 1 2 1 1
Com isso temos que n1· = 51+57 = 108, n2· = 57+85 = 142 e C11 = 0.4722222, do qual conclúımos
que a quantidade de diferentes sequências começandp em 1 e terminado em 1 quando o tamanho da
série é N = 251 resulta em
N11 =
108!142!
51!57!57!85!
× 0.472222·
Este número é extremamente grande. Situações como estas nas quais a cardinalidade de (nxy) é
muito grande para enumerar todas as sequências, o p-valor pode ser estimado para qualquer precisão
desejada desde que se tenha um método de produção de amostras aleatórias uniformes do conjunto
(nxy). É acerca de um desses procedimentos que trata o teste exato a seguir.
A ideia é usar a fórmula de Whittle para gerar um subconjunto de amostras de (nxy) de modo que
a amostra seja uniforme, isto é, todas as sequências em (nxy) sãoo igualmente provavelmente inclúıdas
na amostra. A estratégia sugerida é sucessivamente acrescentar à sequência elementos começando com
alguns elementos inicias até que todas as transições sejam usadas. Em cada etapa duas operações são
executados:
(1) a próxima sequência é escolhida com base no número de sequências restantes calculadas usando a
fórmula de Whittle e
(2) Nxy é atualizado para refletir a contagem de transições reduzida resultante de seleção.
As sequências são escolhidas probabilisticamente ponderadas pelo número daquelas sequências que estão
dispońıveis para completar o substituto. As palavras que levam a zero sequn̂cias válidas nunca são
escolhidas, portanto, o algoritmo é garantido resultando em um substituto válido.
Lembremos que nesta seção conhecemos duas estratégias para verificarmos se a cadeia considerada
é de uma ordem espećıfica.
Exemplo 2.11
Para a estratégia (2) devemos considerar 6 categorias, para isso utilizamos o seguinte comando
> quantis = quantile(diff(Close), probs = seq(0, 1, 0.20))
> quantis
0% 20% 40% 60% 80% 100%
-372.820312 -40.759765 -5.820313 33.759766 85.240235 331.669921
a partir do qual temos como definir as seguintes categorias:
Estado 1: Salto grande para cima, ganho maior do que 85.24.
Estado 2: Salto moderado para cima, ganho entre 33.75 e 85.24.
Estado 3: Salto pequeno para cima, ganho menor do que 33.75.
Estado 4: Salto pequeno para baixo, perda até -5.82.
Estado 5: Salto moderado para baixo, perda entre -5.82 e -40.75.
2.2. TESTES PARA VERIFICAR A ORDEM DA CADEIA 113
Estado 6: Salto alto para baixo, perda maior que -40.75.
Vejamos então como fazer para construir a nova cadeia, estimar a matriz de transição e obtermos
a distribuição estacionária:
> NEstados = ifelse(diff(Close)>=quantis[[5]], 1, 0)
> NEstados = ifelse(diff(Close)>=quantis[[4]] & diff(Close)<quantis[[5]], 2, NEstados)
> NEstados = ifelse(diff(Close)>=0 & diff(Close)<quantis[[4]], 3, NEstados)
> NEstados = ifelse(diff(Close)>=quantis[[3]] & diff(Close)<0,4, NEstados)
> NEstados = ifelse(diff(Close)>=quantis[[2]] & diff(Close)<quantis[[3]], 5, NEstados)
> NEstados = ifelse(diff(Close)<quantis[[2]], 6, NEstados)
> NEstados
[1] 6 5 6 1 2 6 2 6 5 1 6 4 6 5 6 1 5 1 1 3 5 6 6 3 5 1 5 2 5 1 1 1 1 1 3 3 1 3 2 3
[41] 3 5 1 6 3 6 5 6 3 2 5 6 1 5 5 5 6 5 4 6 6 1 6 2 6 5 2 6 3 5 3 5 6 6 1 6 6 1 5 1
[81] 1 5 3 6 5 2 3 5 2 3 5 5 5 5 1 4 6 2 1 1 2 2 2 4 6 5 1 2 5 6 2 3 1 5 1 2 5 3 1 6
[121] 6 5 4 3 6 1 6 2 1 4 6 1 4 3 1 3 2 5 6 2 5 5 6 1 1 1 3 2 2 2 3 2 3 5 5 6 3 1 3 3
[161] 6 6 3 1 6 5 3 4 2 3 2 2 6 2 5 3 1 2 2 2 2 2 2 2 6 5 6 5 2 2 3 1 2 3 1 4 5 2 2 5
[201] 3 1 2 1 3 1 6 1 6 2 3 6 3 2 2 3 3 3 3 6 5 3 5 6 1 6 2 1 6 3 3 1 1 1 5 2 6 5 2 1
[241] 2 1 2 6 1 1 5 5 2 5 5
> createSequenceMatrix(NEstados, sanitize=FALSE)
1 2 3 4 5 6
1 12 9 7 4 8 11
2 6 14 11 1 9 8
3 12 7 7 1 9 6
4 0 1 2 0 1 5
5 9 9 7 2 9 13
6 12 9 8 1 14 6
> NmcFitMLE = markovchainFit(data=NEstados)
> NmcFitMLE$estimate
MLE Fit
A 6 - dimensional discrete Markov Chain defined by the following states:
1, 2, 3, 4, 5, 6
The transition matrix (by rows) is defined as follows:
1 2 3 4 5 6
1 0.2352941 0.1764706 0.1372549 0.07843137 0.1568627 0.2156863
2 0.1224490 0.2857143 0.2244898 0.02040816 0.1836735 0.1632653
3 0.2857143 0.1666667 0.1666667 0.02380952 0.2142857 0.1428571
4 0.0000000 0.1111111 0.2222222 0.00000000 0.1111111 0.5555556
5 0.1836735 0.1836735 0.1428571 0.04081633 0.1836735 0.2653061
6 0.2400000 0.1800000 0.1600000 0.02000000 0.2800000 0.1200000
> steadyStates(NmcFitMLE$estimate)
1 2 3 4 5 6
[1,] 0.2037759 0.196012 0.1679465 0.03606179 0.1996664 0.1965375
Observemos que, nesta última situação, não temos uma conclusão clara. Temos quase a mesma
probabilidade de que aconteçam os Estados 1, 2, 5 e 6. Assim, o mais raro seriam as situações onde
o salto é pequeno para cima ou para baixo. Como podemos decidir quanto ao tipo de cadeia mais
adequado? lembremos temos constrúıdas duas cadeias, uma com dois estados e uma outra com seis
estados, qual delas é a mais adequada nesta situação?
Para respondermos esta pergunta recorremos ao critério de escolha de modelos conhecido como
AIC ou Critério de Informação de Akaike. Calcula-se como
−2ℓ(θ̂) + 2 dim(θ),
onde dim(θ) representa o número de parámetros do modelo. Fazendo uso da linguagem de pro-
gramação R o cálculo deste critério é como segue:
114 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV
> -2*mcFitMLE$logLikelihood+2*((2-1)*2)
[1] 344.6826
> -2*NmcFitMLE$logLikelihood+2*((6-1)*6)
[1] 886.7953
correspondendo primeiro ao modelo com dois estados e, no segundo caso, ao modelo com seis
estados. Conclúımos então que o modelo mais adequado é àquele com dois estados, é onde o valor
do AIC é menor.
Exemplo 2.12
Tendo validado o teste exato usando dados sintéticos, vamos olhar para uma aplicação no mundo real
envolvendo dados de precipitação de Tel Aviv. Este é um conjunto de dados bem conhecidos cujas
propriedades de Markov foram estudadas pela primeira por Gabriel & Neumann (1962). Os dados
originalmente preparados consistiram em 27 peŕıodos de inverno (dezembro-janeiro-fevereiro) com
cada dia classificado como úmido ou seco. Com base nas estat́ısticas de peŕıodos úmidos e secos, os
autores conclúıram que uma cadeia de Markov de primeira ordem modela adequadamente os dados.
Análises posteriores usando AIC indicam que uma cadeia de segunda ordem deve ser usada, enquanto
a BIC estima a ordem em um.
Aplicar nosso teste de significância de ordem de Markov a esses dados apresenta dois desafios. A
primeira barreira é que os dados só existem como uma tabela de contagens de transição. Para o teste
de hipóteses, precisamos da série temporal original, que neste caso é a sequência de dias úmidos e
secos para cada um dos 27 invernos entre 1923 e 1950. Incapaz de encontrar esses dados em outro
lugar, optamos por usar os dados de precipitação de Tel Aviv entre os anos 1950 e 1977, que estão
dispońıveis em bases de dados online (www.weatherspark.com.). Classificamos um dia como molhado
se houvesse alguma precipitação registrada naquele dia. O segundo problema é que os dados não
são uma única série temporal, mas 27 não cont́ıguos. Para simplificar esta análise, concatenamos os
conjuntos de dados e aceitamos a pequena imprecisão devido a transições que abrangem diferentes
conjuntos. Assim preparadas, as contagens de dias úmidos e secos são apresentadas na Tabela 2.5
no mesmo formato dos dados originais.
Para
0 1 2 3 4 5 6
0 520 134 327 111 36 7 0
1 270 128 222 97 36 7 0
2 284 101 368 193 61 9 5
De
3 94 33 119 131 42 3 1
4 16 14 42 50 17 7 0
5 7 3 4 4 3 0 1
6 1 1 0 3 1 0 0
Tabela 2.5: Contagem de transições do Exemplo 2.5.
2.3. TESTE DE HIPÓTESES SOBRE PROBABILIDADES ESPECÍFICAS 115
2.3 Teste de hipóteses sobre probabilidades espećıficas
Com base na teoria da distribuição assintótica na seção anterior, podemos derivar certos métodos de
inferência estat́ıstica. Aqui vamos supor que cada px,y > 0.
Primeiro, vamos consideramos testar a hipótese de que certas probabilidades de transição px,y assu-
mem valores espećıficos p0x,y. Utilizaremos o fato de que, sob a hipótese nula, temos uma distribuição
normal limite de n1/2(p̂x,y − p0x,y) com média zero e matriz de variâncias e covariâncias dependendo de
p0x,y da mesma maneira que as obtidas para estimativas de multinomial, este resultado foi resumido pelo
Teorema 2.2. Podemos usar a teoria assintótica padrão para distribuições multinomiais ou normais para
testar uma hipótese sobre um ou mais px,y ou determinar uma região de confiança para um ou mais px,y.
Especificamente, podemos estar interessados em verificar se H0 : px,y = p
0
x,y, y = 1, 2, · · · , d, para
um valor de x espećıfico. Sob a hipótesis nula,
d∑
y=1
nx,y
(p̂x,y − p0x,y)2
p0x,y
(2.20)
tem uma distribuição assintótica χ2 com d − 1 graus de liberdade, de acordo com a teoria assintótica
usual de variáveis multinomiais. Assim, a região cŕıtica do teste dessa hipótese no ńıvel de significância
α consiste no conjunto p̂x,y para o qual (2.20) é maior que o ponto de significância α da distribuição
χ2 com d − 1 graus de liberdade. Uma região de confiança do coeficiente de confiança α consiste no
conjunto de p0x,y para os quais (2.20) é menor que o ponto de significância α. O p
0
x,y no denominador
pode ser substitúıdo por p̂x,y.
Como as variáveis nx,y(p̂x,y−p0x,y)2 para diferentes x são assintoticamente independentes, a expressão
em (2.20) para diferentes x são assintoticamente independentes e, portanto, podem ser adicionadas para
obter outras variáveis χ2. Por exemplo, um teste para todos os px,y, x, y = 1, 2, · · · , d pode ser obtido
adicionando (2.20) sobre todo x, resultando em uma variável χ2 com d(d− 1) graus de liberdade.
O uso do teste χ2 de bondade de ajuste é discutido em Cochran (1952). Acreditamos que há uma
boa razão para adotar estes testes, que são análogos aos testes de qualidade de ajuste, descritos nesta
seção.
Exemplo 2.13 (Continuação do Exemplo 2.5)
No referido exemplo uma das suspeitas era que a matriz de probabilidades de transição tivesse uma
forma espećıfica. Para estimar uma matriz de probabilidade de transição de um ano, precisamos fazer
algumas suposições. Vamos supor que em um ano, a ponte só pode fazer a transição para o próximo
estado, o que significa que não há conserto. É claro que, quando entrar no estado número 5, ele
permanecerá lá. Assim, a Cadeia de Markov tem cinco estados transientes e um estado absorvente o
estado número 5. Com essas premissas e sob o prinćıpio de que uma transição para o próximo estado
não depende do estado em que a cadeia está, a matriz de probabilidade de transição é semelhante à
apresentada abaixo:
P̂6 =

1 2 3 4 5
1 1− p1 p1 0 0 0
2 0 1− p2 p2 0 0
3 0 0 1− p3 p3 0
4 0 0 0 1− p4 p4
5 0 0 0 0 1
·
Como vemos, a matriz esta reflete todas as nossas suposições. Claro queno resto desta análise,
o A suposição sobre probabilidades de transição estacionárias ainda é válida.
116 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV
2.4 Cadeias de Markov multivariadas
Nesta seção, apresentamos modelos para Cadeias de Markov multivariadas possivelmente de ordem
superior. O objetivo é modelar múltiplas sequências categóricas com base nos modelos anteriormente
estudados. Assumimos que existem s sequências categóricas e cada uma tem d estados posśıveis, significa
que vamos considerar que as s sequências têm o mesmo espaço de estados S. Estes modelos foram
propostos por Raftery (1985), posteriormente estudados e implementados por Ching, Ng & Fung (2008).
2.4.1 Cadeias de Markov de ordem superior
Vamos considerar sequências {Xt} com espaço de estados S. No modelo proposto, assumimos que a
distribuição de probabilidade da sequência no tempo t depende da distribuição de probabilidade da
sequência no tempo t− 1, · · · , t−m.
Definição 2.2
Seja {Xn} uma sequência de variáveis aleatórias categóricas dependentes. Diz-se que a seqência
satisfaz a propriedade de Markov de ordem m se
P (Xn+1 = xn+1|X0 = x0, X1 = x1, · · · , Xn = xn) =
= P (Xn+1 = xn+1|Xn−m = xx−m,Xn−m+1 = xn−m+1, · · · , Xn = xn)·
Novamente consideramos somente sequência estacionárias, isto é, Cadeias de Markov nas quais a
probabilidade de transição não muda conforme o instante de tempo. Dito isto, definamos Cadeias de
Markov de ordem superior.
Definição 2.3 (Cadeias de Markov de ordem superior)
Seja {Xt} uma sequência de variáveis categóricas satisfazendo a propriedade de Markov de ordem
m. Dizemos que {Xt} é uma Cadeia de Markov de ordem m se satisfaz que
P (Xt = y|Xt−1 = x1, · · · , Xt−m = xm) =
m∑
h=1
λhpxh,y, (2.21)
com estados inciais x0, x1, · · · , xm−1. Aqui, os pesos λh são números reais não negativos tais que∑m
h=1 λh = 1 e px,y as probabilidades de transição.
Resulta que a probabilidade condicional de observarmos Xt = y dado o passado é uma combinação
linear das contribuições de cada Xt−1, · · · , Xt−m. Uma outra forma de escrever a probabilidade condi-
cional em (2.21) é como
x̂t =
m∑
h=1
λ̂h P̂x̂t−1,
onde a variável aleatória x̂t é uma função de valores passados e é percebida como a probabilidade
condicional e P̂ matriz de probabilidades de transição da cadeia de primeira ordem. A propriedade
2.4. CADEIAS DE MARKOV MULTIVARIADAS 117
básica que deva satisfazer o modelo em (2.21) é a convergência à distribuição estacionária, resultado
este estabelecido no teorema a seguir.
Teorema 2.3
Suponhamos {Xt} seja uma Cadeia de Markov de ordem superior. Então
lim
t→∞
P (Xt = y|Xt−1 = x1, · · · , Xt−m = xm) = πy, y = 1, · · · , d·
Demonstração : Distribuição estacionária.
Uma vez compreendido o modelo procedemos à descrição do procedimento estat́ıstico utilizado na es-
timação. As estimativas de máxima verossimilhança dos parâmetros de (2.21) são obtidos maximizando-
se numericamente o logaritmo da verossimilhança, ou seja, fazendo uso de um programa de otimização
não-linear com restrições maximizamos a função
ℓ ≈
d∑
x,y1,y2,··· ,ym=1
nx,y1,··· ,ym log
( m∑
h=1
λhpyh,x
)
,
onde d é o número de estados e nx,y1,··· ,ym é a contagem das transições.
Para comparar modelos usamos um critério de informação, em vez de um procedimento de teste de
hipóteses múltiplas, porque os modelos não são aninhados. Alguns pesquisadores recomendam escolher
o modelo como aquele que minimize o AIC = −2ℓ+2k, onde k é o número de parâmetros independentes.
Entretanto, outros pesquisadores referem a alternativa de escolher o modelo que minimiza o BIC =
−2ℓ + k log(n) sendo n o tamanho da sequência porque (i) é um estimador consistente da ordem de
Cadeia de Markov, diferentemente do método AIC, (ii) é aproximadamente o como escolher o modelo
com maior probabilidade posterior, (iii) escolher modelos mais simples, e (iv) ter um bom desempenho
em um experimento de simulação.
Exemplo 2.14
Dados diários de precipitação na Ilha do Alofi (Avery & Henderson, 1999) foram registrados de 1ro.
de janeiro de 1987 até 31 de dezembro de 1989 e classificados em três estados: 0 (sem chuva), 1-5 (de
zero a 5 mm) e 6+ (mais de 5mm). Alofi forma parte da Ilha Niue no Oceano Paćıfico. O conjunto
de dados correspondente é fornecido dentro do pacote markovchain:
> data(rain)
> fitHigherOrder(rain@rain, 2)
$lambda
[1] 0.5 0.5
$Q
$Q[[1]]
0 1-5 6+
0 0.6605839 0.4625850 0.1976285
1-5 0.2299270 0.3061224 0.3122530
6+ 0.1094891 0.2312925 0.4901186
$Q[[2]]
0 1-5 6+
0 0.6021898 0.4489796 0.3412698
118 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV
1-5 0.2445255 0.2687075 0.3214286
6+ 0.1532847 0.2823129 0.3373016
$X
0 1-5 6+
0.5000000 0.2691606 0.2308394
No Exemplo 2.14 devemos indicar que no vetor λ̂ = (0.5, 0.5) temos por resposta as corresponden-
tes estimativas de máxima verossimilhança do vetor λ em (2.21). Nas matrizes Q[[1]] e Q[[2]] temos
as estimativas das probabilidades de transição de primeira e segunda ordem, respetivamente. Estas
matrizes, por questões de implementação computacional são diferentes àquelas estudas até o momen-
tos, estas matrizes são definidas por colunas e não por linhas. Dessa forma, nelas temos somas 1
somente por colunas assim, a probabilidade de passarmos num passo do estado 1-5 ao estado 6+ é
P (Xt = 6 + |Xt−1 = 1 − 5, Xt−2 = y) = 0.2312925 e a probabilidade de passarmos do estado 6+ ao
estado 1-5 em dois passos é P (Xt = 1 − 5|Xt−1 = y,Xt−2 = 6+) = 0.3214286. O vetor X fornece a
distribuição estacionária e assim, condlúımos que em 50% das observações a cadeia está no estado 0, em
27% no estado 1-5 e em 23% dos casos está no estado 6+.
2.4.2 Cadeias de Markov de ordem superior multivariadas
As principais referências sã o artigo de Ching et al. (2008) e o livro Ching, Huang, Ng & Siu (2013).
Suponha que existam sequências categóricas e cada uma possua estados em S. A n-ésima ordem
da distribuição multivariada do estado da sequência de tempo j-ésima no tempo t = r + 1 depende
da distribuição de probabilidade do estado de todas as sequências, incluindo a si mesma, nos tempos
t = r, r − 1, ..., r − n+ 1, segundo a relação
x
(j)
r+1 =
s∑
k=1
n∑
h=1
λ
(h)
jk P
jk
h x
(k)
r−h+1,
para j = 11, 2, · · · , s e r = n− 1, n, · · · . Temos por restrição que
∑s
k=1
∑n
h=1 λ
(h)
jk = 1.
Exemplo 2.15 (Previsões de demanda de vendas)
Demonstraremos a eficácia do modelo de Cadeia de Markov multivariada de ordem superior aplicando-
o à sequência de demanda de vendas. Uma empresa de refrigerantes em Hong Kong (Ching, Fung &
Ng, 2002) enfrenta um problema interno de planejamento de produção e controle de estoque. Uma
questão urgente é o espaço de armazenamento de seu armazém central, que muitas vezes se encontra
no estado de transbordamento ou capacidade máxima próxima. A empresa está, portanto, em neces-
sidades urgentes para estudar a interação entre o requisito de espaço de armazenamento e a crescente
demanda de vendas. O produto pode ser classificado em seis estados posśıveis S = {1, 2, 3, 4, 5, 6}
de acordo com seus volumes de vendas. Todos os produtos são rotulados como 1 = nenhum volume
de vendas, 2 = muito lento (volume de vendas muito baixo), 3 = lento, 4 = padrão, 5 = rápido ou
6 = muito rápido (volume de vendas muito alto). Esses rótulos são úteis tanto do ponto de vista do
planejamento de produção quanto de marketing.
A empresa também gostaria de prever a demanda de vendas de um cliente importante, a fim de
minimizar a acumulação de estoque. Mais importante ainda, a empresa pode entender o padrão de
vendas desse cliente e depois desenvolver uma estratégia de marketing para lidar com esse cliente.
Mostramos a demanda de vendas de clientes de cinco produtos importantes da empresa por um ano.
Esperamos que as sequências de demanda de vendas geradas pelo mesmo cliente sejam correlacionadasentre si. Portanto, explorando essas relações, pode-se obter um modelo de Markov multivariável
2.4. CADEIAS DE MARKOV MULTIVARIADAS 119
de ordem superior melhor para essas sequências de demanda, portanto, obter melhores regras de
predição.
Dados de séries temporais ocorrem com frequência em muitas aplicações do mundo real. Uma das
principais etapas importantes na análise de dados de séries temporais á seleção do modelo estat́ıstico
apropriado para os dados, porque ajuda na previsão, no teste de hipa’oteses e na descoberta de regras.
O modelo de Cadeias de Markov é desenvolvido para modelar sequências de dados categóricos.
Nesta ilustração, nós escolhemos a ordem da cadeia arbitrariamente para ser oito, ou seja, k = 8.
Primeiro estimamos todas as matrizes de probabilidade de transição P usando o método proposto
nesta Seção e também temos as estimativas da distribuição estacionária dos cinco produtos, cujos
valores observados mostramos a seguir:
Producto A: 6 6 6 6 2 6 2 6 2 2 6 2 6 6 2 6 2 4 4 4 5 6 6 1 2 2 6 6 6 2 6 2 6 6 2 6 2 2 6 2 1 2 2
6 6 6 2 1 2 6 2 6 6 2 2 6 2 2 2 6 2 6 2 2 2 2 2 6 2 2 6 6 6 6 1 2 2 6 2 2 2 2 6 2 2 2 2 3 3 2 3 2
6 6 6 6 2 6 2 6 6 2 6 2 6 6 2 6 6 2 2 3 4 3 3 1 3 1 2 1 6 1 6 6 1 6 6 2 6 2 6 2 2 2 6 6 1 6 2 6 1
2 1 6 2 6 2 2 2 2 6 6 1 6 6 2 2 6 2 2 2 3 4 4 4 6 4 6 1 6 6 1 6 6 6 6 1 6 2 2 2 6 6 6 6 2 6 6 2 2
6 2 6 2 2 2 6 2 2 2 6 6 6 6 3 2 2 6 2 2 2 2 2 2 6 2 6 2 2 2 6 2 2 6 6 2 6 6 6 2 2 2 3 3 3 4 1 6 6
1 6 6 1 6 1 6 6 6 6 1 6 6 6 2 1 2 2 2 2 2 2 3 6 6 6 6 6 2 6
Producto B: 1 6 6 1 6 1 1 1 1 1 1 6 6 6 1 2 1 6 6 1 1 1 6 6 2 1 6 6 1 1 1 6 1 2 1 6 2 2 2 2 2 6 1
6 6 1 2 1 6 6 6 1 1 1 6 6 1 1 1 1 6 1 1 2 1 6 1 6 1 1 6 2 6 2 6 6 6 3 6 6 1 6 6 2 2 2 3 2 2 6 6 6
1 1 6 2 6 6 2 6 2 6 6 1 3 6 6 1 1 1 2 2 3 2 2 6 2 2 2 1 6 1 6 1 1 6 2 1 1 1 2 2 1 6 1 1 1 1 2 6 1
1 1 1 6 1 6 1 2 1 6 1 6 6 1 6 1 2 2 2 2 3 3 2 2 2 6 6 6 6 2 1 1 6 1 1 1 6 1 6 1 6 1 6 1 1 6 6 2 1
1 6 6 1 1 2 6 2 6 6 6 1 2 6 1 6 1 1 1 1 6 1 6 1 1 6 6 1 6 6 1 6 1 6 6 1 1 6 6 2 2 2 2 2 2 2 2 2 6
6 6 6 1 6 6 6 1 6 6 1 6 6 1 1 6 1 3 3 3 5 1 6 6 6 6 6 6 6 6
Producto C: 6 6 6 6 6 6 6 2 6 6 6 6 6 6 6 2 6 6 6 6 2 6 6 6 2 2 6 6 6 6 6 6 6 1 6 2 6 6 6 6 6 6 6
6 2 6 6 1 2 6 1 6 6 1 6 2 6 6 6 6 6 6 6 2 6 6 6 2 6 6 1 6 6 6 6 6 6 6 3 3 6 3 2 1 2 2 1 6 6 1 6 1
6 6 6 6 6 6 1 6 6 6 1 6 6 6 6 6 6 6 6 6 6 6 2 6 6 6 6 6 6 6 6 2 2 6 6 2 6 1 2 6 6 6 2 6 6 2 6 6 2
6 1 6 2 6 2 1 2 6 6 2 2 6 2 6 2 2 6 2 6 6 6 2 2 2 6 6 2 6 6 2 2 6 1 2 1 2 6 6 2 2 6 6 1 2 2 1 6 2
6 2 2 1 1 5 6 3 6 1 6 6 1 2 2 6 1 6 2 6 6 1 6 2 6 2 6 6 6 1 6 1 6 6 2 2 2 1 2 3 6 1 6 1 6 1 6 1 6
6 6 1 1 6 6 6 6 6 1 6 6 6 1 6 1 1 6 6 6 6 6 6 6 6 1 6 6 1 6
Producto D: 6 2 2 2 2 3 3 4 4 4 5 4 3 3 6 2 6 6 6 3 4 4 3 3 3 3 3 2 6 6 3 4 4 4 4 3 4 2 6 2 2 6 2
2 6 6 3 4 5 4 4 6 3 6 6 6 2 6 2 6 6 2 2 6 4 4 5 4 3 4 3 4 4 6 2 6 6 2 2 6 2 6 6 2 6 6 2 6 6 2 6 2
6 3 5 5 5 4 4 4 3 6 2 6 6 2 6 2 6 2 2 6 2 6 6 2 6 4 4 4 4 4 4 6 3 6 6 2 6 2 6 2 6 2 6 6 2 2 2 2 2
2 2 2 2 3 3 3 5 5 4 5 3 3 3 6 2 6 6 2 2 6 2 2 2 2 6 2 3 2 2 3 6 3 2 2 3 4 4 4 4 5 5 4 4 6 6 2 6 2
6 2 2 2 2 2 2 2 5 5 4 4 5 5 2 6 2 6 6 2 6 2 6 2 2 3 3 4 4 5 4 4 4 3 4 3 6 2 6 2 2 2 2 2 2 2 2 2 2
2 3 4 4 4 4 5 4 4 4 3 2 2 2 6 2 2 2 6 2 6 2 6 2 2 2 2 2 3 2
Producto E: 6 2 2 2 2 3 3 4 4 4 5 4 3 3 6 2 6 6 2 3 4 4 3 4 4 3 3 2 2 6 3 4 4 4 4 3 4 2 3 2 2 6 3
3 6 6 3 4 5 4 5 3 3 2 6 6 2 6 2 6 6 2 2 6 4 4 4 4 4 4 5 4 4 6 2 6 6 2 2 6 2 6 6 2 6 6 2 6 6 2 6 2
6 3 4 4 4 4 4 4 4 6 2 6 6 2 6 2 6 6 6 6 2 6 2 2 6 4 4 4 4 4 4 6 3 3 6 2 2 2 6 2 6 2 2 2 2 2 2 2 2
2 2 2 2 3 6 4 5 5 5 5 2 4 6 6 2 6 6 2 2 6 2 2 2 2 6 2 3 2 2 3 6 3 2 2 3 4 4 4 4 5 5 4 3 3 6 2 6 2
2 2 6 3 2 2 2 2 5 5 4 4 4 4 3 6 2 6 6 2 6 2 6 2 2 3 3 4 4 5 4 4 4 4 4 3 6 2 6 2 2 2 6 2 2 2 2 2 2
2 3 4 4 4 4 5 4 4 4 3 2 2 2 6 6 6 2 6 2 6 2 6 2 2 2 2 2 2 2
De acordo com o modelo de Markov multivariado constrúıdo da 8va. ordem, os produtos A e
B estão intimamente relacionados. Em particular, a demanda de vendas do Produto A depende
fortemente do Produto B. O principal motivo é que a natureza qúımica dos Produtos A e B é a
mesma, mas eles têm embalagens diferentes para fins de marketing. Além disso, os Produtos B, C,
D e E estão intimamente relacionados. Da mesma forma, os produtos C e E têm o mesmo sabor
do produto, mas diferentes embalagens. Neste modelo, é interessante notar que tanto o Produto
D quanto o E dependem do Produto B na ordem de 8, esta relação dificilmente pode ser obtida
no modelo convencional de Markov devido a uma grande quantidade de parâmetros. Os resultados
mostram que o modelo de Markov multivariado de ordem superior é bastante significativo para
analisar a relação de demanda de vendas.
120 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV
> data(rain)
> modelo1 = markovchainFit(data=rain$rain)
> modelo1
$estimate
0 1-5 6+
0 0.6605839 0.2299270 0.1094891
1-5 0.4625850 0.3061224 0.2312925
6+ 0.1976285 0.3122530 0.4901186
$standardError
0 1-5 6+
0 0.03471952 0.02048353 0.01413498
1-5 0.03966634 0.03226814 0.02804834
6+ 0.02794888 0.03513120 0.04401395
$confidenceLevel
[1] 0.95
$lowerEndpointMatrix
0 1-5 6+
0 0.6034754 0.1962346 0.08623909
1-5 0.3973397 0.2530461 0.18515711
6+ 0.1516566 0.2544673 0.41772208
$upperEndpointMatrix
0 1-5 6+
0 0.7176925 0.2636194 0.1327390
1-5 0.5278304 0.3591988 0.2774279
6+ 0.2436003 0.3700387 0.5625151
$logLikelihood
[1] -1040.419
> modelo2 = fitHigherOrder(rain$rain, 2)
> modelo2
$lambda
[1] 0.5 0.5
$Q
$Q[[1]]
0 1-5 6+
0 0.6605839 0.4625850 0.1976285
1-5 0.2299270 0.3061224 0.3122530
6+ 0.1094891 0.2312925 0.4901186
$Q[[2]]
0 1-5 6+
0 0.6021898 0.4489796 0.3412698
1-5 0.2445255 0.2687075 0.3214286
6+ 0.1532847 0.2823129 0.3373016
$X
0 1-5 6+
0.5000000 0.2691606 0.2308394
A Cadeia de Markov é uma ferramenta essencial para a modelagem de muitos sistemas práticos,
2.4. CADEIAS DE MARKOV MULTIVARIADAS 121
como sistemas de filas, sistemas de manufatura e sequências de dados categóricos. Múltiplas sequências
de dados categóricos ocorrem em muitas aplicações, tais como controle de estoque, mineração de dados e
mercado financeiro. Em muitas situaçõs práticas, gostaŕıamos de considerar várias sequências de dados
categóricos no mesmo peŕıodo de tempo. A razão é que as sequências de dados podem ser correlacionadas
e, portanto, explorando seus relacionamentos podemos desenvolver modelos melhores.
122 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV

Continue navegando