Markov Chain 2

•
UFPR

Maike Willian Martins Santos
20/11/2020
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 28 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 28 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 28 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Processos Estocasticos I

44 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
Caṕıtulo 2
Inferência em Cadeias de Markov
Uma Cadeia de Markov é por vezes um modelo probabiĺıstico adequado para determinada série temporal
em que a observação em um determinado momento é uma categoria à qual um indiv́ıduo corresponde.
A mais simples Cadeia de Markov é aquela na qual existe um número finito de estados ou categorias, um
número finito de pontos no tempo equidistantes em que são feitas as observações, a cadeia é de primeira
ordem e as probabilidades de transição são as mesmas para cada intervalo de tempo. Estas foram as
cadeias que estudamos no Caṕıtulo 1.
Vamos considerar aqui vários métodos para obter estimadores da matriz de probabilidades transição
em três situações: quando o comprimento do intervalo entre os pontos de tempo do modelo coincide
com o intervalo de observação, quando a duração do deste comprimento do intervalo entre os pontos de
tempo não coincide com o intervalo de observação e quando os intervalos de observação são desiguais em
comprimento. Além disso, discutimos o uso da técnica de bootstraps como um método para avaliar a
incerteza nas estimações e para a construção de intervalos de confiança da matriz de transição. Também
estudaremos como verificar a ordem de uma Cadeia de Markov.
Depois apresentamos testes para verificar a ordem da cadeia. Diferentes livros e artigos foram consul-
tados para escrever este texto, alguns importantes são Jacobsen (1982), Billingsley (1961a), Billingsley
(1961b) e Basawa & Prakasa Rao (1980). Outras referências serão também mencionados no texto.
2.1 Estimação da matriz de transição
Seja {X1, X2, · · · } um processo estocástico ou um asequência de variáveis aleatórias assumindo valores
em algum conjunto finito chamado aqui de espaço de estados S. A variável Xn deve ser considerada
como estado no tempo n de um sistema cuja evolução é regida por um conjunto de leis de probabilidade.
A t́ıpica Cadeia de Markov a tempo discreto limita a descrição do histórico de cada sujeito a pontos
de tempo com igualdade espaçdos. Em outras palavras, em vez de modelar a possibilidade de progressão
a cada instante no tempo, ou seja, dia, mês ou ano. O intervalo entre esses pontos de tempo é conhecido
como o comprimento do ciclo.
Nesta seção, presume-se que a matriz de transição vai ser estimada a partir de dados de coorte
longitudinais, com intervalos de observação comuns a todos os sujeitos. A atenção é restrita a obtenção
da estimativa de máxima verossimilhança da matriz de transição em três situações espećıficos crescentes
de complexidade. O primeiro caso é quando os intervalos de observação são constantes e coincidem com
a duração do ciclo. O segundo caso acontece quando os intervalos de observação são constantes, mas
não coincidem com a duração do ciclo. Os métodos discutidos na presente seção somente podem ser
utilizados em certas situações. Quando não puder, o método discutido para o terceiro caso é posśıvel.
O terceiro caso, representa a situação mais comum, quando os intervalos de observação não são iguais
em comprimento. A duração do ciclo pode ou não coincidir com um destes intervalos.
95
96 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV
Vamos considerar {x0, x2, · · · , xn} uma amostra de uma Cadeia de Markov com probabilidades de
transição px,y e distribuição inicial π0. Observe que {x0, x1, · · · , xn} deve ser uma sequência de n + 1
estados. Então, a probabilidade de que x0, x1, · · · , xn seja essa sequência é justamente
π(x0)px0,x1 · · · pxn−1,xn ·
Para x, y = 1, 2, · · · , d, seja nx,y o número de transições, assim a matriz (nx,y) vai ser chamada de
matriz de contagens de transições da sequência. Dado que
π(x0)px0,x1 · · · pxn−1,xn = π(x0)
∏
x,y
pnx,yx,y , (2.1)
a contagem das transições junto com o estado inicial formam uma estat́ıstica suficiente. A distribuição
dessa estat́ıstica vai ser nosso objetivo.
Sabemos que a probabilidade de obtiver uma sequência em particular, que começe com com x0 e
tenha matriz de transição (nx,y) é dada por (2.1) e, com o objetivo de encontrarmos a distribuição da
estat́ıstica suficiente é necessário somente contar o número de tais sequências. Se nx,· =
∑
y nx,y e n·,y =∑
x nx,y então {nx,·} e {n·,y} são as frequências das contagens de {x0, x1, · · · , xn−1} e {x1, x2, · · · , xn}
respectivamente. Disso seque que
nx,· − n·,y = 111x(x0)− 111x(xn)∑
x,y
nx,y =
∑
x
nx,· =
∑
y
n·,y = n·
É claro a partir da primeira dessas relações que (nx,y) e o estado inicial determinam completamente
o estado final. Da mesma forma, (nx,y) e o estado do final determinam o estado inicial. No entanto,
(nx,y) sozinho não determina os estados inicial e final: por exemplo, as sequências {1, 2, 1} e {2, 1, 2}
têm contagens de transição idênticas. A resposta a este problema combinatório é a seguinte.
Teorema 2.1 (Fórmula de Whittle (Whittle, 1955))
Seja (nx,y) uma matriz d× d de inteiros não negativos satisfazendo que
∑
xy nxy = n e tais que
nx,· − n·,y = 111x(u) − 111x(v),
x, y = 1, · · · , d para algum par u, v. Se N (n)u,v (nx,y) é o número de sequências {x0, x1, · · · , xn} tendo
contagens de transição (nx,y) e satisfazendo x0 = u e xn = v, então
N (n)u,v (nx,y) =
∏
x
nx·!∏
x,y
nx,y!
Cv,u, (2.2)
onde Cv,u é o cofator (v, u) da matriz (nx,y)
∗ de componentes
n∗x,y =
 111x(y)−
nx,y
nx,·
se nx,· > 0
111x(y) se nx,· = 0
· (2.3)
2.1. ESTIMAÇÃO DA MATRIZ DE TRANSIÇÃO 97
Demonstração : Billingsley (1961b). A demonstração é por indução. O resultado é fácil de estabelecer se
n = 1, caso em que ambos os lados de (2.2) são 1. Se (nu,v) é (nx,y) com a (u, v) entrada diminúıda em
1, temos que
N (n)u,v (nx,y) =
∑
w
N (n−1)w,v (nu,w),
onde a soma se estende sobre aqueles w para so quais nu,w > 0. Por isso, basta mostrar que o lado
direito de (2.2) satisfaz esta mesma relação ou que
(nx,y)
∗ =
∑
w
nu,wn
−1
u,· (nv,w)
∗(u,w)· (2.4)
Desde que (nv,w)
∗ e (nx,y)
∗ concordem fora da w-ésima coluna, (nv,w)
∗(u,w) = (nv,w)
∗. Com este fato,
juntamente com a definição (2.3), segue que (2.4) é equivalente a
∑
w n
∗
u,w(nv,w)
∗ = 0 onde a soma
se estende sobre todos os w. Dado que
∑
w n
∗
u,w(nv,w)
∗ = 111u(v)|(nx,y)∗|, a expressão em (2.4) vale
para o caso no qual u ̸= v e é necessário somente mostrar que |(nx,y)∗| = 0 caso u = v. Suponhamos
convenientemente que nx,· = n·,x é positivo para x ≤ r e zero para x > r. Então (nx,y) tem a forma
(nx,y) =
(
A 0
0 0
)
,
onde A é uma matriz r × r. Pela definição (2.3),
(nx,y)
∗ =
(
A∗ 0
0 I
)
,
onde as linhas de A∗ somam zero. Por isso, |(nx,y)∗| = |A∗| = 0.
Exemplo 2.1
Seja, por exemplo, a sequência de 12 valores observados {0, 1, 1, 0, 1, 0, 1, 1, 1, 0, 0, 1}. Esta sequência
tem u = 0 e v = 1 e matriz de contagens de transição
(nx,y) =
(
1 4
3 3
)
· (2.5)
Podemos utilizar a seguinte função R para encontrarmos a matriz de contagens de transição
> x = c(0,1,1,0,1,0,1,1,1,0,0,1)
> library(markovchain); library(matlab); library(matlib)
> Matriz = createSequenceMatrix(x, sanitize=FALSE)
> Matriz
0 1
0 1 4
1 3 3
Vemos, da expressão em (2.3) que
n∗x,y =

4
5
−4
5
−1
2
1
2
 (2.6)
e C0,1 = 4/5. Substituindo em (2.2) temos que
N
(12)
0,1 (nx,y) =
5! · 6!
1! · 3! · 3! · 4!
· 4
5
= 80· (2.7)
98 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV
Logo, 80 é o número de sequências {0, x1, · · · , x10, 1} tendo contagens de transição (nx,y), dada em
(2.5). Desenvolvemos uma função R para encontrarmos o número de sequências {x0, x1, · · · , xn}
tendo contagens de transição (nx,y) e satisfazendo x0 = u e xn = v:
> Whittle = function(M, u, v){
n = length(rowSums(M))
Prod1 = 1;
for(i in 1:n) Prod1 = Prod1*gamma(rowSums(M)[[i]]+1)
Prod2 = 1;
for(i in 1:dim(M)[1]){
for(k in 1:dim(M)[2]) Prod2 = Prod2*gamma(M[i,k]+1)
}
u = which(row.names(M) == u)
v = which(row.names(M) == v)
C = cofactor(eye(n)-M/rowSums(M),v, u)
return((Prod1/Prod2)*C)
}
> Whittle(Matriz, 0, 1)
[1] 80
2.1.1 Intervalos de observação coincidentes
Suponhamos que nos seja dado a realização de uma Cadeia de Markov e que se deseja estimar a matriz
de probabilidades de transição. Uma abordagem é encontrar as contagens de transição e estimar as
probabilidades de transição de uma forma óbvia.
Exemplo 2.2 (Cadeia com três estados)
Este é uma situação hipotética. Consideremos uma Cadeia de Markov com três estados da qual é
observada a sequência:
2332111112213132332122223232332222213132332212213232132232
3132332223213232331232223232331222123232132123233132332121
Por simples contagem, segue-se que, a matriz do número de transição entre os estados é
(nx,y) =
 4 8 1013 17 22
6 26 9
 ,
onde nx,y denota o número de transições observadas desde o estado x ao estado y.
Uma vez que o número de transições do estado 2 para o estado 3 é 22 e o número total de
transições do estado 2 é 13 + 17 + 22, uma estimativa emṕırica de p̂2,3 é 22/52. Uma estimativa
emṕırica para a matriz de transição seria então
P̂ =

4
22
8
22
10
22
13
52
17
52
22
52
6
41
26
41
9
41
 ·
2.1. ESTIMAÇÃO DA MATRIZ DE TRANSIÇÃO 99
Vamos agora mostrar que este é, de fato, a estimativa de máxima verossimilhança condicional de P ,
condicionada à primeira observação. Suponhamos, então, que nós queremos estimar os d2−d parâmetros
de uma Cadeia de Markov {Xn} com d estados a partir uma realização x0, x1, · · · , xT . A função de
verossimilhança condicional à primeira observação é
L =
d∏
x=1
d∏
y=1
pnx,yx,y · (2.8)
Desta expressão obtemos que o logaritmo da função de verossimilhança é
ℓ =
d∑
x=1
(
d∑
y=1
nx,y log px,y
)
=
d∑
x=1
ℓx,
a qual podemos maximizar maximizando cada somando separadamente.
Substituindo 1 −
∑
z ̸=x
px,z por px,x, diferenciando cada ℓx com relaa̧ão à todas as probabilidades de
transição não diagonais px,y e igualando as derivadas a zero obtemos
0 =
−nx,x
1−
∑
z ̸=x
px,z
+
nx,y
px,y
= −nx,x
px,x
+
nx,y
px,y
·
Assim, a menos que um denominador seja zero na equação acima
nx,ypx,x = nx,xpx,y,
e por isso px,x
d∑
y=1
nx,y = nxx. Isto implica que o ponto de máximo local da função de verossimilhança
das probabilidades de transição é
p̂x,x =
nx,x
d∑
y=1
nx,y
, e p̂x,y =
nx,y
d∑
y=1
nx,y
· (2.9)
e
p̂x,y =
nx,y
d∑
y=1
nx,y
· (2.10)
Também podeŕıamos utilizar multiplicadores de Lagrange para expressar as restrições
∑d
y=1 px,y = 1,
sob as quais buscamos maximizar os termos ℓx e, portanto, a função de verossimilhança. Mas isso, não
é necessário em geral.
Exemplo 2.3 (Continuação do Exemplo 2.2)
Fazendo uso do pacote de funções markovchain, constrúımos a matriz de contagens de transição
utilizando o comando createSequenceMatrix, como mostrado a seguir:
> x = c(2,3,3,2,1,1,1,1,1,2,2,1,3,1,3,2,3,3,2,1,2,2,2,2,3,2,3,2,3,3,2,2,2,2,2,1,3,1,3,2,3,3,
2,2,1,2,2,1,3,2,3,2,1,3,2,2,3,2,3,1,3,2,3,3,2,2,2,3,2,1,3,2,3,2,3,3,1,2,3,2,2,2,3,2,
3,2,3,3,1,2,2,2,1,2,3,2,3,2,1,3,2,1,2,3,2,3,3,1,3,2,3,3,2,1,2,1)
> Matriz = createSequenceMatrix(x, sanitize=FALSE)
100 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV
> Matriz
1 2 3
1 4 8 10
2 13 17 22
3 6 26 9
Às vezes o número de Whittle é impraticável, como nesta situação. Utilizando a função anterior
obtemos que:
> Whittle(Matriz, u = 2, v = 1)
[1] 8.462769e+44
A questão agora é transformar as frequências observadas em probabilidades, para isso utilizamos o
comando markovchainFit do qual temos por resposta uma lista com diversas informações. A primeira
resposta é a matriz de probabilidades de transição estimada, a qual pode ser obtida também digitando
mcFitMLE[[1]].
> mcFitMLE[[1]]
MLE Fit
A 3 - dimensional discrete Markov Chain defined by the following states:
1, 2, 3
The transition matrix (by rows) is defined as follows:
1 2 3
1 0.1818182 0.3636364 0.4545455
2 0.2500000 0.3269231 0.4230769
3 0.1463415 0.6341463 0.2195122
Teorema 2.2
Seja {Xn} uma Cadeia de Markov ergódica. Então independentemente da distribuição inicial
√
nx,y(p̂x,y − px,y)
D−→ Z, (2.11)
onde Z ∼ N(0,Σ), Σ = (σx,y), x, y ∈ S e
σx,y =

px,y(1− px,y) caso {x, y} ̸= {z, w}
−px,ypx,z caso x = z, y ̸= w
0 caso contrário
Demonstração : Consequência do Teorema Central do Limite (Anderson & Goodman, 1957).
O resultado deste teorema implica que a covariância assintótica tem uma estrutura multinomial
dentro das linhas e independência entre as linhas. Como resposta temos também o desvio padrão da
estimação, calculado segundo a expressão em (2.11), como p̂x,y/
√
nx,y, assim como um intervalo de
confiança de 95%, os limites inferior e superior deste intervalo e o valor da funçõ de log-verossimilhança.
Exemplo 2.4 (Continuação do Exemplo 2.2)
Mostramos agora a forma de obtermos os resultados apresentados no Teorema 2.2. Todos os resul-
tados estão guardados no objeto mcFitMLE e para sabermos o valor do desvio padrão, por exemplo,
2.1. ESTIMAÇÃO DA MATRIZ DE TRANSIÇÃO 101
digitamos:
> mcFitMLE$standardError
1 2 3
1 0.09090909 0.12856487 0.14373989
2 0.06933752 0.07929049 0.09020030
3 0.05974365 0.12436633 0.07317073
O intervalos confidencial é de 95%, o qual verificamos digitando:
> mcFitMLE$confidenceInterval$confidenceLevel
[1] 0.95
Então, por final, obtemos os limites inferior e superior do intervalos confidenciais como mostrado
abaixo. Ainda mostramos o valor da função ℓ, o logaritmo da função de verosimilhança.
> mcFitMLE$confidenceInterval$lowerEndpointMatrix
1 2 3
1 0.03228603 0.1521660 0.21811437
2 0.13594992 0.1965018 0.27471063
3 0.04807190 0.4295819 0.09915705
> mcFitMLE$confidenceInterval$upperEndpointMatrix
1 2 3
1 0.3313503 0.5751068 0.6909765
2 0.3640501 0.4573443 0.5714432
3 0.2446110 0.8387107 0.3398673
> mcFitMLE$logLikelihood
[1] -115.7695
O nosso próximo exemplo é uma aplicação de Cadeia de Markov em engenharia, tem a ver com pontes
e baseia-se no trabalho de Skuriat-Olechnowska (2005). A maioria das pontes na Holanda é constrúıda
em concreto e mais de metade delas tem mais de 30 anos. À medida que as pontes se deterioram a uma
velocidade acelerada devido à corrosão, à degradação do concreto e ao dano do véıculo a Divisão de
Engenharia Civil de Rijkswaterstaat1, que faz parte do Ministério dos Transportes, das Obras Públicas
e da Gestão da Àgua deve repará-las e, sempre que posśıvel, impedem uma maior deterioração.
O referido ministério é o principal encarregado por de cerca de 3500 pontes na Holanda por isso
o ministério gosta de conhecer a vida útil restante de suas estruturas já que é sabido que durante a
vida útil, as estruturas precisarão ser reparadas. Neste momento, uma estratégia de reparo baseada em
inspeções é usada para determinar quando o reparo será feito. Esta estratégia de reparo para pontes de
concreto na Holanda resulta em reparação de pontes a cada 25 até 35 anos. O reparo será normalmente
de 0.5% até 155% da área da estrutura (van Beek et al., 2003).
Estes dados contém informações sobre os estados em que a estrutura de pontes encontraram-se
durante as inspeções, ou seja, contém um histórico de inspeção e no ano de construção.
Estado Perfeito Muito bom Bom Razoável Med́ıocre Mau Muito mal
Classificação 0 1 2 3 4 5 6
Tabela 2.1: Esquema de classificação da condição das pontes.
Para o gerenciamento das informaçõs utilizam-se diversos sistemas, dois deles: PONTIS e BRIDGIT
são dois dos Sistemas de Gerenciamento de Ponte mais comuns atualmente dispońıveis (Golabi e Shepard,
1A Rijkswaterstaat é responsável pela concepção, construção, gestão e manutenção das principais infra-estruturas da
Holanda. Isso inclui a rede rodoviária principal, a rede de hidrovia principal e os sistemas de águas.
102 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV
1997; Thompson et al., 1998). Ambos têmsuas origens no Arizona Pavement Management System
desenvolvido no final da década de 1970 e são quase exclusivamente utilizados nos Estados Unidos.
Todos esses modelos usam Cadeias de Markov para modelar a deterioração incerta das pontes ao longo
do tempo. Nos Páıses Baixos, os resultados das inspeções de ponte são registrados em um banco de
dados, que é usado principalmente para manutenção de registros. Esta base de dados é uma fonte muito
rica de informações, contém dados coletados ao longo de quase 20 anos, e a finalidade da pesquisa atual
é usar esses dados para estimar a taxa de deterioração.
Para
0 1 2 3 4 5 6
0 520 134 327 111 36 7 0
1 270 128 222 97 36 7 0
2 284 101 368 193 61 9 5
De
3 94 33 119 131 42 3 1
4 16 14 42 50 17 7 0
5 7 3 4 4 3 0 1
6 1 1 0 3 1 0 0
Tabela 2.2: Contagem original de transições do Exemplo 2.5.
Reconhecendo que as Cadeias de Markov são uma ferramenta adequada para modelagem de deteri-
oração de pontes propomos técnicas adequadas que levem em consideração o tipo especial de censura
envolvendo inspeções de pontes. Além disso, gostaŕıamos de ter testes estat́ısticos à nossa disposição
para avaliar a validade e o desempenho relativo de diferentes tipos de Cadeias de Markov. Essenci-
almente, estamos interessados em obter a funcionalidade de um sistema de gerenciamento de ponte
como PONTIS, ao mesmo tempo em que cuidamos especialmente a validade de nossos pressupostos e
os modelos resultantes em relação à situação nos Páıses Baixos.
Definida a codificação dos estados que vamos utilizar na Tabela 2.1, classificando o estado de con-
servação das pontes inspecionadas procedemos à estimação da matriz de probabilidades de transição
desta cadeia. A Tabela 2.2 mostra a contagem das transições de cada estado para qualquer outro
estado.
Para
0 1 2 3 4 5
0 520 134 327 111 36 7
1 270 128 222 97 36 7
2 284 101 368 193 61 14
De
3 94 33 119 131 42 4
4 16 14 42 50 17 7
5 8 4 4 7 4 1
Tabela 2.3: Contagem de transições do Exemplo 2.5, combinando os dois últimos estados da Tabela 2.2.
Nós vemos que a informação, que vem de dados de deterioração, é bastante subjetiva. Vemos a
classificação da condição que varia de um perfeito (estado 0) para um muito ruim (estado 6) através da
definição de estados. Interessante observar que pontes em estados mau e muito mal raramente acontecem,
por causa disso procedeu-se à junção destes estados e codificou-se como 5. O resultado apresenta-se na
Tabela 2.3. Os dados provêm da Divisão de Engenharia Civil do Ministério dos Transportes, Obras
Públicas e Gestão da Àgua na Holanda.
2.1. ESTIMAÇÃO DA MATRIZ DE TRANSIÇÃO 103
Exemplo 2.5 (Inspeção de pontes)
O banco de dados inclui um total de 5986 eventos de inspeção registrados para 2473 superestruturas
individuais. Ignorando o tempo entre a construção da ponte e uma primeira inspeção, há 3513
transições registradas entre estados de condição. Pela Tabela 2.2 podemos observar que os estados
5 e 6 raramente ocorrem no banco de dados. Para determinar uma matriz de probabilidade de
transição, esses estados são combinados no estado 5 para representar uma condição ”ruim”e ”muito
ruim”, caso contrário, algumas probabilidades de transição podem ser zero. Obtemos como resposta
a matriz de probabilidades de transição estimada a seguir:
P̂ =

0 1 2 3 4 5
0 0.4581 0.1181 0.2881 0.0978 0.0317 0.0062
1 0.3553 0.1684 0.2921 0.1276 0.0474 0.0092
2 0.2782 0.0989 0.3604 0.1890 0.0597 0.0138
3 0.2222 0.0780 0.2813 0.3097 0.0993 0.0095
4 0.1096 0.0959 0.2877 0.3425 0.1164 0.0479
5 0.2857 0.1429 0.1429 0.2500 0.1429 0.0356
·
Foi realizada uma análise sobre modelagem de deterioração de pontes mas os dados foram coleta-
dos, no banco de dados denominado DISK e fornecidos pelo Divisão de Engenharia do Rijkswaters-
taat, continham um número limitado de estados de condição das pontes, decidimos usar Cadeia de
Markov para modelar a deterioração. O modelo de deterioração de Markov é baseado em condições.
Por isso, é flex́ıvel na adaptação aos dados de inspeção (visual). Infelizmente, não pudemos observar
o tempo exato das transições. Assim, adaptamos uma Cadeia de Markov com censura de intervalo.
Censura de intervalo significa que não sabemos a hora exata de um evento. Em nosso contexto, isso
significa que não sabemos a hora em que a ponte se move de um estado para outro. Uma probabili-
dade de transição foi definida como a probabilidade de uma ponte passar de um estado para outro
(igual ou pior). Assumimos que nenhuma manutenção foi realizada entre as inspeções.
Com o auxilio dos seguintes comandos investigamos o comportamento futuro desta cadeia:
> Estados = c("0", "1", "2", "3", "4", "5")
> Pontes = matrix(c(520, 134, 327, 111, 36, 7,
270, 128, 222, 97, 36, 7,
284, 101, 368, 193, 61, 14,
94, 33, 119, 131, 42, 4,
16, 14, 42, 50, 17, 7,
8, 4, 4, 7, 4, 1),
nrow = 6, ncol = 6, byrow = TRUE, dimnames = list(Estados, Estados))
> Pontes = as(as.table(Pontes), "markovchain")
> Pontes
Unnamed Markov chain
A 6 - dimensional discrete Markov Chain defined by the following states:
0, 1, 2, 3, 4, 5
The transition matrix (by rows) is defined as follows:
0 1 2 3 4 5
0 0.4581498 0.11806167 0.2881057 0.09779736 0.03171806 0.006167401
1 0.3552632 0.16842105 0.2921053 0.12763158 0.04736842 0.009210526
2 0.2781587 0.09892262 0.3604310 0.18903036 0.05974535 0.013712047
3 0.2222222 0.07801418 0.2813239 0.30969267 0.09929078 0.009456265
4 0.1095890 0.09589041 0.2876712 0.34246575 0.11643836 0.047945205
5 0.2857143 0.14285714 0.1428571 0.25000000 0.14285714 0.035714286
> steadyStates(Pontes)
0 1 2 3 4 5
[1,] 0.3243988 0.1092058 0.3077224 0.1852073 0.06111703 0.01234871
104 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV
Temos por resposta que 32,4% das pontes inspecionadas corresponderão a pontes em perfeito
estado, 10,9% corresponderá a pontes em estado muito bom, 30,8% permanecerá em estado bom,
18,6% das pontes corresponderão á pontes em estado de conservação razoável, 6,1% estarão em
estado med́ıocre na próxima avaliação enquanto 1,2% delas estarão em estado mau ou muito mal.
2.1.2 Intervalos de observação não coincidentes
Consideremos a situação na qual L0 seja o intervalo de observação, porém o desejado é que seja Ld a
duração do ciclo desejado. O estimador de máxima verossimilhança da matriz de transição de probabili-
dades é P̂0, associada com o comprimento do ciclo de observação L0, a qual é obtida usando os métodos
apresentados na Seção 2.1.1.
Pela propriedade de invariância, o estimador de máxima verossimilhança da matriz de transição
associado com a duração do ciclo Ld é
P̂d = P̂ t, (2.12)
onde t = Ld/L0.
No exemplo anterior, se em vez de observarmos por um peŕıodo de um ano tivesse sido o peŕıodo
de observaa̧ão de dois anos: L0 = 2 e Ld = 1. Então, pode-se encontrar a raiz quadrada da matriz de
transição estimada, devido a que t = 1/2.
O cálculo da matriz em (2.12) é simples a partir da decomposição de P̂0 em seus valores e vectores
próprios, chamada de decomposição espectral. Com base nesta decomposição, esta matriz pode ser
escrita como
P̂0 = V ΛV −1,
onde
Λ =

λ1 0 · · · 0
0 λ2 · · · 0
...
...
...
...
0 0 · · · λN

é a matriz de auto-valores e V a matriz de auto-vetores correspondentes. Segue então que
P̂ t0 = V ΛtV −1,
onde
Λt =

λt1 0 · · · 0
0 λt2 · · · 0
...
...
...
...
0 0 · · · λtN
 ·
Os autovalores são transformados segundo o valor da potência t, mas os autovetores não mudam.
Temos diversas opções dispońıveis de funções de decomposição de matrizes, de forma que estes cálculos
podem ser feitos muito rapidamente, por exemplo, no R a função básica eigen permite realizar estes
cálculos.
Um modelo a tempo discreto não é necessariamente Markov em todos os ciclos. Isto é comparável a
dizer que alguns dos valores próprios da matrizde transição podem ser negativos. Desde que a matriz
de transição estimada P̂ seja semidefinida positiva, todos os valores próprios serão não-negativos, este
método permitirá calcular o estimador de máxima verossimilhança diretamente.
O procedimento apresentado aqui não é único na literatura especializada, porém o consideramos de
fácil implementação. Um outro procedimento pode ser consultado em Miller & Homan (1994).
2.1. ESTIMAÇÃO DA MATRIZ DE TRANSIÇÃO 105
Vejamos o exemplo a seguir o qual é um estudo de coorte sobre o HIV2. Os pesquisadores constrúıram
uma Cadeia de Markov estacionária para descrever a progressão mensal de indiv́ıduos infectados por
HIV em maior risco de desenvolver infecção por Complexo Mycobacterium avium3. Esta progressão
inclúıa a possibilidade de movimento entre três faixas de contagem de células CD4 distintas, com e sem
AIDS.
Seis meses de contagem
Contagem inicial de células CD4
de células CD4 0 - 49 50 - 74 75+
0 - 49 682 33 25
50 - 74 154 64 47
75+ 19 19 43
Tabela 2.4: Transições observadas em seis meses na contagem de células CD4 (1993-1995). Estudo
realizado na Suiça com pacientes infectados pelo HIV.
Exemplo 2.6 (Estudo de coorte HIV )
Dados coletados num estudo multicêntrico onde os pacientes infectados pelo HIV têm visitas de
acompanhamento bastante regulares, a cada seis meses. Os dados estão dispońıveis no arquivo de
dados craigsendi, pacote markovchain, e mostrados na Tabela 2.4.
> data(craigsendi)
> csMc = as(craigsendi, "markovchain")
> csMc
Unnamed Markov chain
A 3 - dimensional discrete Markov Chain defined by the following states:
0-49, 50-74, 75-UP
The transition matrix (by rows) is defined as follows:
0-49 50-74 75-UP
0-49 0.9216216 0.04459459 0.03378378
50-74 0.5811321 0.24150943 0.17735849
75-UP 0.2345679 0.23456790 0.53086420
Estes resultados significam que a matriz de probabilidades de transição estimada em seis meses é
P̂6 =

0− 49 50− 74 75+
0− 49 0.9216 0.0446 0.0338
50− 74 0.5811 0.2415 0.1774
75+ 0.2346 0.2346 0.5309
·
Devemos mencionar que os dados apresentados na Tabela 2.4 constituem a contagem das transições
observadas mas, uma vez convertidos em Cadeia de Markov temos as probabilidades estimadas de
transição, como foi realizado no Exemplo 2.5.
A apresentação do Exemplo 2.6 permite-nos a leitura dos dados na referência mencionada antes e
guardados no arquivo craigsendi. Esclarecemos novamente que os dados originais foram observados num
peŕıodo de seis meses, o qual nõ é o desejado no estudo, queremos o comportamento mensal. Mostramos
2Sendi, P.P., Craig, B.A., Pfluger, D., Gafni, A. and Bucher, H.C.. Systematic validation of disease models for
pharmacoeconomic evaluations. Journal of Evaluation in Clinical Practice. 1999; Volume 5; pp. 283-295.
3O Complexo Mycobacterium avium é um grupo de bactérias que pode ser encontrado normalmente na rede hidráulica
das cidades e em pessoas com imunossupressão, como portadores do HIV/AIDS.
106 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV
a continuação nossa implementação no R do procedimento para encontrarmos a matriz de transição no
ciclo desejado. Observe que, em nossa implementação no seguinte exemplo, todos oa auto-valores foram
positivos.
Exemplo 2.7 (Continuação do Exemplo 2.6)
Para esta análise, a duração do ciclo desejado é de um mês. Para estimar a matriz de transição para
esse intervalo, vamos decompor P̂6. Utilizando a função R eigen obtemos
> L = eigen(csMc@transitionMatrix)
> L
eigen() decomposition
$values
[1] 1.0000000 0.5701572 0.1238380
$vectors
[,1] [,2] [,3]
[1,] -0.5773503 -0.1276431 0.02818224
[2,] -0.5773503 0.2866930 -0.87301666
[3,] -0.5773503 0.9494811 0.48687542
Agora vamos transformar esta matriz à situação procurada, ou seja, numa transição mensal.
> csMc1 = L$vectors%*%diag((L$values)^(1/6))%*%solve(L$vectors)
> csMc1 = new("markovchain", byrow=T, transitionMatrix=csMc1)
resultado apresentado em (2.13).
Traduzindo estes resultados: a matriz de auto-valores é
Λ =
1.000000 0 00 0.5701572 0
0 0 0.123838

e a matriz de auto-vetores correspondente é V =
−0.5773503 −0.1276876 0.02817213−0.5773503 0.2867671 −0.87297660
−0.5773503 0.9494527 0.48694783
.
Como mencionado o ciclo observado foi de 6 meses, mas o ciclo desejado é de um mês. Para isso
tomamos a raiz sexta de Λ e fazendo os cálculos sugeridos (2.12) obtemos que a matriz de transição
estimada de um mês é
P̂ =
0.9819 0.0122 0.00590.1766 0.7517 0.0717
0.0177 0.0933 0.8830
 · (2.13)
Se esta matriz fosse multiplicada seis vezes o resultado será a matriz P̂6 como esperado. Observe que
este processo é muito rápido e simples. Neste exemplo, a matriz sugere que haverá demasiados pacientes
no estado 0-49 após seis ciclos.
Podemos agora, inclusive, identificarmos a distribuição estacionária, para isso fazemos:
> steadyStates(csMc1)
1 2 3
[1,] 0.8343668 0.07659214 0.08904103
Significa que, a longo prazo, 83,4% indiv́ıduos infectados por HIV mantem-se na faixa 0-49 de
contagem de células CD4, 7,7% apresentam contagem na faixa 50-74 em 8,9% dos casos a contagem é
75 ou mais.
2.2. TESTES PARA VERIFICAR A ORDEM DA CADEIA 107
2.2 Testes para verificar a ordem da cadeia
Muitas vezes acontece que é útil descrever um processo estocástico como um conjunto de estados discretos
com transições probabiĺısticas e exemplos abundam em vários campos, como o estudo de processos
qúımicos, sequências de DNA, finanças dentre outros. Se a probabilidade de transição para o próximo
estado é condicionada apenas no estado atual, chamamos este modelo de uma Cadeia de Markov, e
quando as probabilidades condicionais não são dadas de outra forma, elas são estimadas a partir de uma
série temporal de observações. Mas, e caso a probabilidade de transição para o próximo estado seja
condicionada não somente no estado atual? em tais situações surgem novos questionamentos.
Se a ordem da Cadeia de Markov estiver em questão o primeiro é respondermos: o que é ordem de
uma Cadeia de Markov?
Definição 2.1
Uma sequência de observações {Xn}n≥1 formam uma Cadeia de Markov de ordem k se a probabilidade
condicional satisfaz
P (Xn+1|Xn, Xn−1, · · · ) = P (Xn+1|Xn, · · · , Xn−k+1), ∀k < n· (2.14)
As cadeias de Markov consideradas no Caṕıtulo 1 são cadeias de ordem um, ou seja, k = 1. Isso
significa, como sabemos, que as probabilidades de transição para um estado futuro dependem apenas
do estado atual e não de estados anteriores. Um processo de ordem k pode sempre ser lançado como de
primeira ordem agrupando estados. Um processo que não tenha dependência do passado ou presente,
como variáveis aleatórias independentes, é dito ser uma Cadeia de Markov de ordem zero. Por outro
lado, como deve ser facilmente percebido cadeias de ordens superiores, ou seja, cadeias de segunda ordem
ou superiores implicam numa representação mais complicada.
Considere primeiro uma Cadeia de Markov de segunda ordem. Dado que um indiv́ıduo está no estado
z no instante n − 2 e em y no instante n − 1, seja pzyx a probabilidade de estar o indiv́ıduo no estado
x no instante n. Uma cadeia estacionária de primeiro ordem é uma cadeia especial de segunda ordem,
na qual pzyz não depende de z. Para vermos isso, considere o par de estados sucessivos z e y definir
um estado composto (z, y). A probabilidade do estado composto (y, x) no instante n dado o estado
composto (z, y) no instante n− 1 é pzyx. Vejamos isso.
Sabemos que P (Xn = x|Xn−1 = y,Xn−2 = z) = pzyx e queremos verificar se P
(
Xn = (y, x)|Xn−1 =
(z, y)
)
= pzyx. Logo
P
(
Xn = (y, x)|Xn−1 = (z, y)
)
= pzyx
P
(
Xn = (y, x)|Xn−1 = y,Xn−2 = z
)
= P
(
Xn = x,Xn−1 = y|Xn−1 = y,Xn−2 = z
)
= pzyx·
(2.15)
Claro que, a probabilidade do estado (w, x), w ̸= y, dado (x, y), é zero. Os estados compostos
podem ser encontrados para formar uma cadeia com d2 estados (d é o número de estados) e com certas
probabilidadesde transição 0. Esta repressentação nos ajudará na descrição dos testes de verificação da
ordem de uma cadeia a serem descritos aqui.
Verificarmos a ordem de uma Cadeia de Markov poderá ser realizado de diversas maneiras, mas aqui
consideraremos duas delas. O primeiro teste, conhecido como teste aproximado, descrito na Subseção
2.2.1 é baseado na estat́ıstica χ2 por outro lado, um segundo teste descrito na Subseção 2.2.2 é conhecido
como teste exato. Devemos mencionar novamente que muitos dos resultados apresentados aqui foram
resumidos no artigo de Anderson & Goodman (1957).
108 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV
Exemplificaremos a teoria a ser apresentada neste seção com o seguinte exemplo, inspirado no tra-
balho de Doubleday & Esunge (2011). A ideia é usar Cadeias de Markov para prever o comportamento
dos preços das ações utilizando o ı́ndice Dow Jones Industrial Average (DJIA)4.
Exemplo 2.8 (Tendência de mercado financeiro)
A modelagem do ı́ndice Dow Jones Industrial Average ou DJIA é frequentemente utilizada para de-
terminar estratégias de negociação com o máximo de recompensa. As mudanças no comportamento
do DJIA são importantes, pois os movimentos podem afetar profundamente as escolhas dos investi-
dores, sejam estes indiv́ıduos ou corporações. O objetivo neste exemplo é mostrar como analisar o
DJIA usando um modelo estocástico de tempo discreto, ou seja, uma Cadeia de Markov. Dois mo-
delos foram destacados, onde o DJIA foi considerado como sendo em (1) ganho ou perda e (2) ganho
ou perda pequeno, moderado ou grande. Esses modelos foram usados para obter probabilidades de
transição e a distribuição estacionária.
Os preços de fechamento do mercado são considerados para que a análise possa ser feita de forma
discreta e as probabilidades de transição são utilizadas como partes de Cadeias de Markov para
modelar o mercado. Dada esta formulação de uma matriz de transição e seu estado estacionário,
podemos configurar um sistema de classificação do Dow Jones Industrial Average (DJIA). A idéia
de usar Cadeias de Markov para prever o comportamento dos preços das ações é popular, pois
os investidores potenciais estão interessados nas tendências do mercado, o que pode levar a uma
estratégia de investimento ideal. Para este estudo, serão analisadas duas estratégias, a saber:
• Probabilidades do DJIA movendo-se para cima ou para baixo.
• Probabilidades do DJIA movendo-se entre as partições de os posśıveis ganhos e perdas.
Os valores de fechamento do DJIA foram reunidos para os 252 dias de negociação entre 27 de
dezembro de 2016 e 26 de dezembro de 2017. Os dados, apresentados na Figura 2.1, foram obtidos de
Yahoo! Finance em https://finance.yahoo.com/quote/%5EDJI/history. Questões em aberto: como
vamos construir uma Cadeia de Markov a partir dos dados relatados? Qual a ordem desta cadeia?
2.2.1 Testes aproximado
Para realizar um teste e verificar, como hipótese nula, se a cadeia é de k-ésima ordem é necessário
calcular a distribuição de uma estat́ıstica de ordem superior adequada. Se a estat́ıstica de ordem
superior observada for suficientemente improvável, a hipóteses nula é rejeitada. A probabilidade, dada
a hipóteses nula, da estat́ıstica de teste alcançando o valor observado ou um mais extremo é referida
como p-valor. Tipicamente, um p-valor menor ou igual a 0.05 é tomado como motivo para rejeitar a
hipótese nula. Em diversos trabalhos como, por exemplo, em Anderson & Goodman (1957) os autores
descrevem o teste aproximado amplamente utilizado com este objetivo.
Vamos começar com a suposição de que {Xn} é uma sequência observada de uma Cadeia de Markov
de primeira ordem (k = 1) e calculamos o p-valor de uma estat́ıstica de segunda ordem usando a
distribuição χ2. A distribuição nula é
P (Xn+1 = x|Xn = y,Xn−1 = z) = P (Xn+1 = x|Xn = y)
4Dow Jones Industrial Average é um ı́ndice criado em 1896 por Charles Dow, editor do The Wall Street Journal e
fundador do Dow Jones & Company. O DJIA é ao lado do Nasdaq Composite e do Standard & Poorś 500 um dos
principais indicadores dos movimentos do mercado americano. Dos três indicadores, DJIA é o mais largamente publicado
e discutido. O cálculo deste ı́ndice é bastante simples e baseia-se na cotação das ações de 30 das maiores e mais importantes
empresas dos Estados Unidos. Como o ı́ndice não é calculado pela Bolsa de Valores de Nova Iorque, seus componentes
são escolhidos pelos editores do jornal financeiro norte-americano The Wall Street Journal. Não existindo nenhum critério
pré-determinado a não ser que os componentes sejam companhias norte-americanas ĺıderes em seus segmentos de mercado.
2.2. TESTES PARA VERIFICAR A ORDEM DA CADEIA 109
20000
21000
22000
23000
24000
25000
jan 2017 abr 2017 jul 2017 out 2017 jan 2018
 
D
ow
 J
on
es
 In
du
st
ria
l A
ve
ra
ge
 e
m
 U
S
D
Figura 2.1: Índice Dow Jones Industrial Average, valor no fechamento diário.
ou pela fórmula de Bayes
P (Xn+1 = x,Xn = y,Xn−1 = z) =
P (Xn+1 = x,Xn = y)P (Xn = y,Xn−1 = z)
P (Xn = y)
· (2.16)
A expressão a esquerda em (2.16) multiplicada por N − 2, sendo N a quantidade de observações na
série temporal observada, é o número esperado de vezes que a sequência (Xn+1 = x,Xn = y,Xn−1 = z)
aparece nos dados, dada a hipótese nula. As quantidades no lado direito não são valores esperados. Eles
são retirados da sequência observada. Seja Eω a contagem esperada de sequências onde
∑
ω Eω = N − 2
e ω indexa o conjunto de todas as sequências para as quais a contagem esperada é maior do que zero.
Do mesmo modo, seja Oω ≥ 0 a contagem correspondente dos dados observados.
Agora podemos definir a estat́ıstica de teste χ2 observada como
χ2obs =
∑
ω
(
Eω −Oω
)2
Eω
, (2.17)
a qual é uma medida do desvio da contagem observada do esperado. A vantagem da estat́ıstica χ2 é
que, atendendo aos graus de liberdade m, a distribuição da estat́ıstica é conhecida no limite N → ∞.
O p-valor é então obtido como P (χ2(m) ≥ χ2obs).
Um problema que exige alguma discussão é como calcular os graus de liberdade necessários para
determinar a distribuição χ2(m). Para testar a hipótese da k-ésima ordem, contamos as sequências
de comprimento m = k + 1 observadas e calculamos as sequências de comprimento m + 1 esperadas.
Supondo que todas as dm sequências de comprimento m estejam presentes nos dados, seja F a matriz
dm×dm das contagens de transição. O (i, j)-ésimo elemento de F é o número de vezes que as transições
de i para j acontecem. Como as sequências consecutivas se sobrepõem e diferem por apenas um śımbolo,
existem no máximo d entradas não-zero em cada linha e coluna de F . É útil reorganizar F na forma
bloco diagonal com m blocos d × d. Em cada bloco tanto as linhas como as colunas devem somar o
110 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV
comprimento correspondente às m contagens de sequências. Levando em consideração as dependências
entre linhas e colunas nos deixa com dm−1(d− 1)2 graus de liberdade para m > 0 e (d− 1)2 para m = 0.
No caso de que nem todas as sequências de comprimento m estejam presentes nos dados observados,
F será menor do que dm × dm e os blocos ao longo da diagonal podem ser de tamanho diferente. Se o
tamanho do i-ésimo bloco for ri × ci, então o número total de graus de liberdade é
∑
i(ri − 1)(ci − 1).
No caso especial onde m = 1, a hipótese nula do teste é que as observações em pontos de tempo
sucessivos são estat́ısticamente independentes contra a hipótese alternativa de que as observações formam
uma cadeia de primeira ordem.
Exemplo 2.9 (Continuação do Exemplo 2.8)
Para a aplicação da estratégia (1), cada dia foi classificado como tendo fechado maior ou menor que
o dia anterior, assim permitindo a classificação de dois estados, a saber:
Estado 1: O valor de fechamento é inferior ao valor de fechamento do dia anterior.
Estado 2: O valor de fechamentoé maior ou igual ao valor de fechamento do dia anterior.
Com as linhas de comando R seguintes fizemos a leitura dos dados, geramos o gráfico e constrúımos
a cadeia:
> dados=read.csv(’DJIA.csv’,sep=’,’,h=T)
> attach(dados)
> library(ggplot2); library(psych); library(car)
> Datas = as.Date(dados$Date)
> par(mar=c(5,4,1,1),pch=19,cex.axis=0.4)
> qplot(Datas, Close, xlab=’ ’, ylab=’Dow Jones Industrial Average em USD’)
> Estados = seq(1, length(Close)-1)
> for(i in 1:length(Estados)){Estados[i] = ifelse(Close[i]>Close[i+1], 1, 2)}
Como resposta a matriz de probabilidades de transição estimada é
P̂ =
(
0.4722222 0.5277778
0.4014085 0.5985915
)
,
isto obtido da seguinte lista de comandos R:
> library(markovchain)
> createSequenceMatrix(Estados, sanitize=FALSE)
> mcFitMLE = markovchainFit(data=Estados)
> mcFitMLE$estimate^100
MLE Fit^100
A 2 - dimensional discrete Markov Chain defined by the following states:
1, 2
The transition matrix (by rows) is defined as follows:
1 2
1 0.432 0.568
2 0.432 0.568
Ainda temos também que a distribuição estacionária é π = (0.432, 0.568). Significa que temos
43% de probabilidade de perda na nossa carteira de ações com o ı́ndice DJAI e 57% de probabilidade
de ganho. Aplicamos agora os conhecimentos desenvolvidos nesta seção para verificar a ordem da
Cadeia de Markov. Para isso devemos verificar se a cadeia em questão é de ordem um ou não e,
como vimos, podemos utilizar a estat́ıstica de teste χ2. Para isto, ou seja, para aplicarmos o teste
aproximado descrito nesta subseção fazemos:
2.2. TESTES PARA VERIFICAR A ORDEM DA CADEIA 111
> assessOrder(Estados)
The assessOrder test statistic is: 3.964894
the Chi-Square d.f. are: 2
The p-value is: 0.1377318
com o qual conclúımos que aceitamos a hipóteses nula da cadeia com dois estados ser de ordem um.
2.2.2 Teste exato
Podemos usar a fó rmula de Whittle em (2.2) para gerar um subconjunto de amostras de N
(n)
u,v para que
a amostra seja uniforme, ou seja, para que todas as sequências em N
(n)
u,v tenham a mesma probabilidade
de serem inclúıdas na amostra. Uma estratégia seria crescer sucessivamente uma sequência substituta,
começando com uma sequência inicial, até que todas as transições sejam usadas. Em cada etapa são
realizadas duas operações: (1) a próxima sequência é escolhida com base no número de sequências
restantes calculadas usando a fórmula de Whittle, e (2) nx,y é atualizado para refletir a contagem de
transição reduzida resultante da seleção. As sequências são escolhidas probabilisticamente ponderadas
pelo número de sequências que estão dispońıveis para completar o substituto. As sequências que levam
a zero sequências válidas nunca são escolhidas, portanto, o algoritmo é garantido para resultar em um
substituto válido. Este método de produção de substitutos produz uma amostragem uniforme de N
(n)
u,v
uma vez que a cada passo as palavras que levam a poucas sequências remanescentes são selecionadas
proporcionalmente com menos frequência.
O teste de hipótese conforme descrito na subseção 2.2.1 não é exato, depende da distribuição χ2
válida no limite assintótico de dados infinitos. Para descobrir a distribuição exata para dados finitos é
necessário avaliar a estat́ıstica χ2obs para todas as sequências posśıveis que satisfaçam a hipótese nula.
Para a hipótese de primeira ordem, essas sequências têm exatamente a mesma probabilidade conjunta
mostradas no lado direito de (2.16). Referencias importantes são os artigos de Besag & Mondal (2013);
Pethel & Hahs (2014).
Seja nxy o número de transições na cadeia observada entre os estados x e y. Também definimos Γ
como o conjunto de sequências com o mesmo número de transições observado (nxy) mas com os mesmos
estado inicial e final observados na cadeia {Xn}. O número de sequências com a mesma contagem
de transições (nxy) e que começa no estado u e termina no estado v é dado pela fórmula de Whittle
(Teorema 2.1):
Nuv =
∏
x nx·!∏
xy nxy!
Cuv, (2.18)
onde nx· representa a soma da linha x e Cuv é o (u, v)-ésimo cofator da matriz
n∗xy =
{
δxy −
nxy
nx·
caso nx· > 0,
δxy caso nx· = 0·
(2.19)
.
Para encontrar o p-valor precisamos conhecer todas as sequências em (nxy) que possuem valores da
estat́ıstica χ2 maiores ou iguais a χ2obs.
Exemplo 2.10 (Continuação do Exemplo 2.8)
Continuando neste exemplo, sabemos que a matriz de contagens é da forma
> createSequenceMatrix(Estados, sanitize=FALSE)
1 2
1 51 57
2 57 85
112 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV
> Estados
[1] 1 1 1 2 2 1 2 1 1 2 1 1 1 1 1 2 1 2 2 2 1 1 1 2 1 2 1 2 1 2 2 2 2 2 2 2 2 2 2 2
[41] 2 1 2 1 2 1 1 1 2 2 1 1 2 1 1 1 1 1 1 1 1 2 1 2 1 1 2 1 2 1 2 1 1 1 2 1 1 2 1 2
[81] 2 1 2 1 1 2 2 1 2 2 1 1 1 1 2 1 1 2 2 2 2 2 2 1 1 1 2 2 1 1 2 2 2 1 2 2 1 2 2 1
[121] 1 1 1 2 1 2 1 2 2 1 1 2 1 2 2 2 2 1 1 2 1 1 1 2 2 2 2 2 2 2 2 2 2 1 1 1 2 2 2 2
[161] 1 1 2 2 1 1 2 1 2 2 2 2 1 2 1 2 2 2 2 2 2 2 2 2 1 1 1 1 2 2 2 2 2 2 2 1 1 2 2 1
[201] 2 2 2 2 2 2 1 2 1 2 2 1 2 2 2 2 2 2 2 1 1 2 1 1 2 1 2 2 1 2 2 2 2 2 1 2 1 1 2 2
[241] 2 2 2 1 2 2 1 1 2 1 1
Com isso temos que n1· = 51+57 = 108, n2· = 57+85 = 142 e C11 = 0.4722222, do qual conclúımos
que a quantidade de diferentes sequências começandp em 1 e terminado em 1 quando o tamanho da
série é N = 251 resulta em
N11 =
108!142!
51!57!57!85!
× 0.472222·
Este número é extremamente grande. Situações como estas nas quais a cardinalidade de (nxy) é
muito grande para enumerar todas as sequências, o p-valor pode ser estimado para qualquer precisão
desejada desde que se tenha um método de produção de amostras aleatórias uniformes do conjunto
(nxy). É acerca de um desses procedimentos que trata o teste exato a seguir.
A ideia é usar a fórmula de Whittle para gerar um subconjunto de amostras de (nxy) de modo que
a amostra seja uniforme, isto é, todas as sequências em (nxy) sãoo igualmente provavelmente inclúıdas
na amostra. A estratégia sugerida é sucessivamente acrescentar à sequência elementos começando com
alguns elementos inicias até que todas as transições sejam usadas. Em cada etapa duas operações são
executados:
(1) a próxima sequência é escolhida com base no número de sequências restantes calculadas usando a
fórmula de Whittle e
(2) Nxy é atualizado para refletir a contagem de transições reduzida resultante de seleção.
As sequências são escolhidas probabilisticamente ponderadas pelo número daquelas sequências que estão
dispońıveis para completar o substituto. As palavras que levam a zero sequn̂cias válidas nunca são
escolhidas, portanto, o algoritmo é garantido resultando em um substituto válido.
Lembremos que nesta seção conhecemos duas estratégias para verificarmos se a cadeia considerada
é de uma ordem espećıfica.
Exemplo 2.11
Para a estratégia (2) devemos considerar 6 categorias, para isso utilizamos o seguinte comando
> quantis = quantile(diff(Close), probs = seq(0, 1, 0.20))
> quantis
0% 20% 40% 60% 80% 100%
-372.820312 -40.759765 -5.820313 33.759766 85.240235 331.669921
a partir do qual temos como definir as seguintes categorias:
Estado 1: Salto grande para cima, ganho maior do que 85.24.
Estado 2: Salto moderado para cima, ganho entre 33.75 e 85.24.
Estado 3: Salto pequeno para cima, ganho menor do que 33.75.
Estado 4: Salto pequeno para baixo, perda até -5.82.
Estado 5: Salto moderado para baixo, perda entre -5.82 e -40.75.
2.2. TESTES PARA VERIFICAR A ORDEM DA CADEIA 113
Estado 6: Salto alto para baixo, perda maior que -40.75.
Vejamos então como fazer para construir a nova cadeia, estimar a matriz de transição e obtermos
a distribuição estacionária:
> NEstados = ifelse(diff(Close)>=quantis[[5]], 1, 0)
> NEstados = ifelse(diff(Close)>=quantis[[4]] & diff(Close)<quantis[[5]], 2, NEstados)
> NEstados = ifelse(diff(Close)>=0 & diff(Close)<quantis[[4]], 3, NEstados)
> NEstados = ifelse(diff(Close)>=quantis[[3]] & diff(Close)<0,4, NEstados)
> NEstados = ifelse(diff(Close)>=quantis[[2]] & diff(Close)<quantis[[3]], 5, NEstados)
> NEstados = ifelse(diff(Close)<quantis[[2]], 6, NEstados)
> NEstados
[1] 6 5 6 1 2 6 2 6 5 1 6 4 6 5 6 1 5 1 1 3 5 6 6 3 5 1 5 2 5 1 1 1 1 1 3 3 1 3 2 3
[41] 3 5 1 6 3 6 5 6 3 2 5 6 1 5 5 5 6 5 4 6 6 1 6 2 6 5 2 6 3 5 3 5 6 6 1 6 6 1 5 1
[81] 1 5 3 6 5 2 3 5 2 3 5 5 5 5 1 4 6 2 1 1 2 2 2 4 6 5 1 2 5 6 2 3 1 5 1 2 5 3 1 6
[121] 6 5 4 3 6 1 6 2 1 4 6 1 4 3 1 3 2 5 6 2 5 5 6 1 1 1 3 2 2 2 3 2 3 5 5 6 3 1 3 3
[161] 6 6 3 1 6 5 3 4 2 3 2 2 6 2 5 3 1 2 2 2 2 2 2 2 6 5 6 5 2 2 3 1 2 3 1 4 5 2 2 5
[201] 3 1 2 1 3 1 6 1 6 2 3 6 3 2 2 3 3 3 3 6 5 3 5 6 1 6 2 1 6 3 3 1 1 1 5 2 6 5 2 1
[241] 2 1 2 6 1 1 5 5 2 5 5
> createSequenceMatrix(NEstados, sanitize=FALSE)
1 2 3 4 5 6
1 12 9 7 4 8 11
2 6 14 11 1 9 8
3 12 7 7 1 9 6
4 0 1 2 0 1 5
5 9 9 7 2 9 13
6 12 9 8 1 14 6
> NmcFitMLE = markovchainFit(data=NEstados)
> NmcFitMLE$estimate
MLE Fit
A 6 - dimensional discrete Markov Chain defined by the following states:
1, 2, 3, 4, 5, 6
The transition matrix (by rows) is defined as follows:
1 2 3 4 5 6
1 0.2352941 0.1764706 0.1372549 0.07843137 0.1568627 0.2156863
2 0.1224490 0.2857143 0.2244898 0.02040816 0.1836735 0.1632653
3 0.2857143 0.1666667 0.1666667 0.02380952 0.2142857 0.1428571
4 0.0000000 0.1111111 0.2222222 0.00000000 0.1111111 0.5555556
5 0.1836735 0.1836735 0.1428571 0.04081633 0.1836735 0.2653061
6 0.2400000 0.1800000 0.1600000 0.02000000 0.2800000 0.1200000
> steadyStates(NmcFitMLE$estimate)
1 2 3 4 5 6
[1,] 0.2037759 0.196012 0.1679465 0.03606179 0.1996664 0.1965375
Observemos que, nesta última situação, não temos uma conclusão clara. Temos quase a mesma
probabilidade de que aconteçam os Estados 1, 2, 5 e 6. Assim, o mais raro seriam as situações onde
o salto é pequeno para cima ou para baixo. Como podemos decidir quanto ao tipo de cadeia mais
adequado? lembremos temos constrúıdas duas cadeias, uma com dois estados e uma outra com seis
estados, qual delas é a mais adequada nesta situação?
Para respondermos esta pergunta recorremos ao critério de escolha de modelos conhecido como
AIC ou Critério de Informação de Akaike. Calcula-se como
−2ℓ(θ̂) + 2 dim(θ),
onde dim(θ) representa o número de parámetros do modelo. Fazendo uso da linguagem de pro-
gramação R o cálculo deste critério é como segue:
114 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV
> -2*mcFitMLE$logLikelihood+2*((2-1)*2)
[1] 344.6826
> -2*NmcFitMLE$logLikelihood+2*((6-1)*6)
[1] 886.7953
correspondendo primeiro ao modelo com dois estados e, no segundo caso, ao modelo com seis
estados. Conclúımos então que o modelo mais adequado é àquele com dois estados, é onde o valor
do AIC é menor.
Exemplo 2.12
Tendo validado o teste exato usando dados sintéticos, vamos olhar para uma aplicação no mundo real
envolvendo dados de precipitação de Tel Aviv. Este é um conjunto de dados bem conhecidos cujas
propriedades de Markov foram estudadas pela primeira por Gabriel & Neumann (1962). Os dados
originalmente preparados consistiram em 27 peŕıodos de inverno (dezembro-janeiro-fevereiro) com
cada dia classificado como úmido ou seco. Com base nas estat́ısticas de peŕıodos úmidos e secos, os
autores conclúıram que uma cadeia de Markov de primeira ordem modela adequadamente os dados.
Análises posteriores usando AIC indicam que uma cadeia de segunda ordem deve ser usada, enquanto
a BIC estima a ordem em um.
Aplicar nosso teste de significância de ordem de Markov a esses dados apresenta dois desafios. A
primeira barreira é que os dados só existem como uma tabela de contagens de transição. Para o teste
de hipóteses, precisamos da série temporal original, que neste caso é a sequência de dias úmidos e
secos para cada um dos 27 invernos entre 1923 e 1950. Incapaz de encontrar esses dados em outro
lugar, optamos por usar os dados de precipitação de Tel Aviv entre os anos 1950 e 1977, que estão
dispońıveis em bases de dados online (www.weatherspark.com.). Classificamos um dia como molhado
se houvesse alguma precipitação registrada naquele dia. O segundo problema é que os dados não
são uma única série temporal, mas 27 não cont́ıguos. Para simplificar esta análise, concatenamos os
conjuntos de dados e aceitamos a pequena imprecisão devido a transições que abrangem diferentes
conjuntos. Assim preparadas, as contagens de dias úmidos e secos são apresentadas na Tabela 2.5
no mesmo formato dos dados originais.
Para
0 1 2 3 4 5 6
0 520 134 327 111 36 7 0
1 270 128 222 97 36 7 0
2 284 101 368 193 61 9 5
De
3 94 33 119 131 42 3 1
4 16 14 42 50 17 7 0
5 7 3 4 4 3 0 1
6 1 1 0 3 1 0 0
Tabela 2.5: Contagem de transições do Exemplo 2.5.
2.3. TESTE DE HIPÓTESES SOBRE PROBABILIDADES ESPECÍFICAS 115
2.3 Teste de hipóteses sobre probabilidades espećıficas
Com base na teoria da distribuição assintótica na seção anterior, podemos derivar certos métodos de
inferência estat́ıstica. Aqui vamos supor que cada px,y > 0.
Primeiro, vamos consideramos testar a hipótese de que certas probabilidades de transição px,y assu-
mem valores espećıficos p0x,y. Utilizaremos o fato de que, sob a hipótese nula, temos uma distribuição
normal limite de n1/2(p̂x,y − p0x,y) com média zero e matriz de variâncias e covariâncias dependendo de
p0x,y da mesma maneira que as obtidas para estimativas de multinomial, este resultado foi resumido pelo
Teorema 2.2. Podemos usar a teoria assintótica padrão para distribuições multinomiais ou normais para
testar uma hipótese sobre um ou mais px,y ou determinar uma região de confiança para um ou mais px,y.
Especificamente, podemos estar interessados em verificar se H0 : px,y = p
0
x,y, y = 1, 2, · · · , d, para
um valor de x espećıfico. Sob a hipótesis nula,
d∑
y=1
nx,y
(p̂x,y − p0x,y)2
p0x,y
(2.20)
tem uma distribuição assintótica χ2 com d − 1 graus de liberdade, de acordo com a teoria assintótica
usual de variáveis multinomiais. Assim, a região cŕıtica do teste dessa hipótese no ńıvel de significância
α consiste no conjunto p̂x,y para o qual (2.20) é maior que o ponto de significância α da distribuição
χ2 com d − 1 graus de liberdade. Uma região de confiança do coeficiente de confiança α consiste no
conjunto de p0x,y para os quais (2.20) é menor que o ponto de significância α. O p
0
x,y no denominador
pode ser substitúıdo por p̂x,y.
Como as variáveis nx,y(p̂x,y−p0x,y)2 para diferentes x são assintoticamente independentes, a expressão
em (2.20) para diferentes x são assintoticamente independentes e, portanto, podem ser adicionadas para
obter outras variáveis χ2. Por exemplo, um teste para todos os px,y, x, y = 1, 2, · · · , d pode ser obtido
adicionando (2.20) sobre todo x, resultando em uma variável χ2 com d(d− 1) graus de liberdade.
O uso do teste χ2 de bondade de ajuste é discutido em Cochran (1952). Acreditamos que há uma
boa razão para adotar estes testes, que são análogos aos testes de qualidade de ajuste, descritos nesta
seção.
Exemplo 2.13 (Continuação do Exemplo 2.5)
No referido exemplo uma das suspeitas era que a matriz de probabilidades de transição tivesse uma
forma espećıfica. Para estimar uma matriz de probabilidade de transição de um ano, precisamos fazer
algumas suposições. Vamos supor que em um ano, a ponte só pode fazer a transição para o próximo
estado, o que significa que não há conserto. É claro que, quando entrar no estado número 5, ele
permanecerá lá. Assim, a Cadeia de Markov tem cinco estados transientes e um estado absorvente o
estado número 5. Com essas premissas e sob o prinćıpio de que uma transição para o próximo estado
não depende do estado em que a cadeia está, a matriz de probabilidade de transição é semelhante à
apresentada abaixo:
P̂6 =

1 2 3 4 5
1 1− p1 p1 0 0 0
2 0 1− p2 p2 0 0
3 0 0 1− p3 p3 0
4 0 0 0 1− p4 p4
5 0 0 0 0 1
·
Como vemos, a matriz esta reflete todas as nossas suposições. Claro queno resto desta análise,
o A suposição sobre probabilidades de transição estacionárias ainda é válida.
116 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV
2.4 Cadeias de Markov multivariadas
Nesta seção, apresentamos modelos para Cadeias de Markov multivariadas possivelmente de ordem
superior. O objetivo é modelar múltiplas sequências categóricas com base nos modelos anteriormente
estudados. Assumimos que existem s sequências categóricas e cada uma tem d estados posśıveis, significa
que vamos considerar que as s sequências têm o mesmo espaço de estados S. Estes modelos foram
propostos por Raftery (1985), posteriormente estudados e implementados por Ching, Ng & Fung (2008).
2.4.1 Cadeias de Markov de ordem superior
Vamos considerar sequências {Xt} com espaço de estados S. No modelo proposto, assumimos que a
distribuição de probabilidade da sequência no tempo t depende da distribuição de probabilidade da
sequência no tempo t− 1, · · · , t−m.
Definição 2.2
Seja {Xn} uma sequência de variáveis aleatórias categóricas dependentes. Diz-se que a seqência
satisfaz a propriedade de Markov de ordem m se
P (Xn+1 = xn+1|X0 = x0, X1 = x1, · · · , Xn = xn) =
= P (Xn+1 = xn+1|Xn−m = xx−m,Xn−m+1 = xn−m+1, · · · , Xn = xn)·
Novamente consideramos somente sequência estacionárias, isto é, Cadeias de Markov nas quais a
probabilidade de transição não muda conforme o instante de tempo. Dito isto, definamos Cadeias de
Markov de ordem superior.
Definição 2.3 (Cadeias de Markov de ordem superior)
Seja {Xt} uma sequência de variáveis categóricas satisfazendo a propriedade de Markov de ordem
m. Dizemos que {Xt} é uma Cadeia de Markov de ordem m se satisfaz que
P (Xt = y|Xt−1 = x1, · · · , Xt−m = xm) =
m∑
h=1
λhpxh,y, (2.21)
com estados inciais x0, x1, · · · , xm−1. Aqui, os pesos λh são números reais não negativos tais que∑m
h=1 λh = 1 e px,y as probabilidades de transição.
Resulta que a probabilidade condicional de observarmos Xt = y dado o passado é uma combinação
linear das contribuições de cada Xt−1, · · · , Xt−m. Uma outra forma de escrever a probabilidade condi-
cional em (2.21) é como
x̂t =
m∑
h=1
λ̂h P̂x̂t−1,
onde a variÃ¡vel aleatória x̂t é uma função de valores passados e é percebida como a probabilidade
condicional e P̂ matriz de probabilidades de transição da cadeia de primeira ordem. A propriedade
2.4. CADEIAS DE MARKOV MULTIVARIADAS 117
básica que deva satisfazer o modelo em (2.21) é a convergência à distribuição estacionária, resultado
este estabelecido no teorema a seguir.
Teorema 2.3
Suponhamos {Xt} seja uma Cadeia de Markov de ordem superior. Então
lim
t→∞
P (Xt = y|Xt−1 = x1, · · · , Xt−m = xm) = πy, y = 1, · · · , d·
Demonstração : Distribuição estacionária.
Uma vez compreendido o modelo procedemos à descrição do procedimento estat́ıstico utilizado na es-
timação. As estimativas de máxima verossimilhança dos parâmetros de (2.21) são obtidos maximizando-
se numericamente o logaritmo da verossimilhança, ou seja, fazendo uso de um programa de otimização
não-linear com restrições maximizamos a função
ℓ ≈
d∑
x,y1,y2,··· ,ym=1
nx,y1,··· ,ym log
( m∑
h=1
λhpyh,x
)
,
onde d é o número de estados e nx,y1,··· ,ym é a contagem das transições.
Para comparar modelos usamos um critério de informação, em vez de um procedimento de teste de
hipóteses múltiplas, porque os modelos não são aninhados. Alguns pesquisadores recomendam escolher
o modelo como aquele que minimize o AIC = −2ℓ+2k, onde k é o número de parâmetros independentes.
Entretanto, outros pesquisadores referem a alternativa de escolher o modelo que minimiza o BIC =
−2ℓ + k log(n) sendo n o tamanho da sequência porque (i) é um estimador consistente da ordem de
Cadeia de Markov, diferentemente do método AIC, (ii) é aproximadamente o como escolher o modelo
com maior probabilidade posterior, (iii) escolher modelos mais simples, e (iv) ter um bom desempenho
em um experimento de simulação.
Exemplo 2.14
Dados diários de precipitação na Ilha do Alofi (Avery & Henderson, 1999) foram registrados de 1ro.
de janeiro de 1987 até 31 de dezembro de 1989 e classificados em três estados: 0 (sem chuva), 1-5 (de
zero a 5 mm) e 6+ (mais de 5mm). Alofi forma parte da Ilha Niue no Oceano Paćıfico. O conjunto
de dados correspondente é fornecido dentro do pacote markovchain:
> data(rain)
> fitHigherOrder(rain@rain, 2)
$lambda
[1] 0.5 0.5
$Q
$Q[[1]]
0 1-5 6+
0 0.6605839 0.4625850 0.1976285
1-5 0.2299270 0.3061224 0.3122530
6+ 0.1094891 0.2312925 0.4901186
$Q[[2]]
0 1-5 6+
0 0.6021898 0.4489796 0.3412698
118 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV
1-5 0.2445255 0.2687075 0.3214286
6+ 0.1532847 0.2823129 0.3373016
$X
0 1-5 6+
0.5000000 0.2691606 0.2308394
No Exemplo 2.14 devemos indicar que no vetor λ̂ = (0.5, 0.5) temos por resposta as corresponden-
tes estimativas de máxima verossimilhança do vetor λ em (2.21). Nas matrizes Q[[1]] e Q[[2]] temos
as estimativas das probabilidades de transição de primeira e segunda ordem, respetivamente. Estas
matrizes, por questões de implementação computacional são diferentes àquelas estudas até o momen-
tos, estas matrizes são definidas por colunas e não por linhas. Dessa forma, nelas temos somas 1
somente por colunas assim, a probabilidade de passarmos num passo do estado 1-5 ao estado 6+ é
P (Xt = 6 + |Xt−1 = 1 − 5, Xt−2 = y) = 0.2312925 e a probabilidade de passarmos do estado 6+ ao
estado 1-5 em dois passos é P (Xt = 1 − 5|Xt−1 = y,Xt−2 = 6+) = 0.3214286. O vetor X fornece a
distribuição estacionária e assim, condlúımos que em 50% das observações a cadeia está no estado 0, em
27% no estado 1-5 e em 23% dos casos está no estado 6+.
2.4.2 Cadeias de Markov de ordem superior multivariadas
As principais referências sã o artigo de Ching et al. (2008) e o livro Ching, Huang, Ng & Siu (2013).
Suponha que existam sequências categóricas e cada uma possua estados em S. A n-ésima ordem
da distribuição multivariada do estado da sequência de tempo j-ésima no tempo t = r + 1 depende
da distribuição de probabilidade do estado de todas as sequências, incluindo a si mesma, nos tempos
t = r, r − 1, ..., r − n+ 1, segundo a relação
x
(j)
r+1 =
s∑
k=1
n∑
h=1
λ
(h)
jk P
jk
h x
(k)
r−h+1,
para j = 11, 2, · · · , s e r = n− 1, n, · · · . Temos por restriÃ§Ã£o que
∑s
k=1
∑n
h=1 λ
(h)
jk = 1.
Exemplo 2.15 (Previsões de demanda de vendas)
Demonstraremos a eficácia do modelo de Cadeia de Markov multivariada de ordem superior aplicando-
o à sequência de demanda de vendas. Uma empresa de refrigerantes em Hong Kong (Ching, Fung &
Ng, 2002) enfrenta um problema interno de planejamento de produção e controle de estoque. Uma
questão urgente é o espaço de armazenamento de seu armazém central, que muitas vezes se encontra
no estado de transbordamento ou capacidade máxima próxima. A empresa está, portanto, em neces-
sidades urgentes para estudar a interação entre o requisito de espaço de armazenamento e a crescente
demanda de vendas. O produto pode ser classificado em seis estados posśıveis S = {1, 2, 3, 4, 5, 6}
de acordo com seus volumes de vendas. Todos os produtos são rotulados como 1 = nenhum volume
de vendas, 2 = muito lento (volume de vendas muito baixo), 3 = lento, 4 = padrão, 5 = rápido ou
6 = muito rápido (volume de vendas muito alto). Esses rótulos são úteis tanto do ponto de vista do
planejamento de produção quanto de marketing.
A empresa também gostaria de prever a demanda de vendas de um cliente importante, a fim de
minimizar a acumulação de estoque. Mais importante ainda, a empresa pode entender o padrão de
vendas desse cliente e depois desenvolver uma estratégia de marketing para lidar com esse cliente.
Mostramos a demanda de vendas de clientes de cinco produtos importantes da empresa por um ano.
Esperamos que as sequências de demanda de vendas geradas pelo mesmo cliente sejam correlacionadasentre si. Portanto, explorando essas relações, pode-se obter um modelo de Markov multivariável
2.4. CADEIAS DE MARKOV MULTIVARIADAS 119
de ordem superior melhor para essas sequências de demanda, portanto, obter melhores regras de
predição.
Dados de séries temporais ocorrem com frequência em muitas aplicações do mundo real. Uma das
principais etapas importantes na análise de dados de séries temporais á seleção do modelo estat́ıstico
apropriado para os dados, porque ajuda na previsão, no teste de hipa’oteses e na descoberta de regras.
O modelo de Cadeias de Markov é desenvolvido para modelar sequências de dados categóricos.
Nesta ilustração, nós escolhemos a ordem da cadeia arbitrariamente para ser oito, ou seja, k = 8.
Primeiro estimamos todas as matrizes de probabilidade de transição P usando o método proposto
nesta Seção e também temos as estimativas da distribuição estacionária dos cinco produtos, cujos
valores observados mostramos a seguir:
Producto A: 6 6 6 6 2 6 2 6 2 2 6 2 6 6 2 6 2 4 4 4 5 6 6 1 2 2 6 6 6 2 6 2 6 6 2 6 2 2 6 2 1 2 2
6 6 6 2 1 2 6 2 6 6 2 2 6 2 2 2 6 2 6 2 2 2 2 2 6 2 2 6 6 6 6 1 2 2 6 2 2 2 2 6 2 2 2 2 3 3 2 3 2
6 6 6 6 2 6 2 6 6 2 6 2 6 6 2 6 6 2 2 3 4 3 3 1 3 1 2 1 6 1 6 6 1 6 6 2 6 2 6 2 2 2 6 6 1 6 2 6 1
2 1 6 2 6 2 2 2 2 6 6 1 6 6 2 2 6 2 2 2 3 4 4 4 6 4 6 1 6 6 1 6 6 6 6 1 6 2 2 2 6 6 6 6 2 6 6 2 2
6 2 6 2 2 2 6 2 2 2 6 6 6 6 3 2 2 6 2 2 2 2 2 2 6 2 6 2 2 2 6 2 2 6 6 2 6 6 6 2 2 2 3 3 3 4 1 6 6
1 6 6 1 6 1 6 6 6 6 1 6 6 6 2 1 2 2 2 2 2 2 3 6 6 6 6 6 2 6
Producto B: 1 6 6 1 6 1 1 1 1 1 1 6 6 6 1 2 1 6 6 1 1 1 6 6 2 1 6 6 1 1 1 6 1 2 1 6 2 2 2 2 2 6 1
6 6 1 2 1 6 6 6 1 1 1 6 6 1 1 1 1 6 1 1 2 1 6 1 6 1 1 6 2 6 2 6 6 6 3 6 6 1 6 6 2 2 2 3 2 2 6 6 6
1 1 6 2 6 6 2 6 2 6 6 1 3 6 6 1 1 1 2 2 3 2 2 6 2 2 2 1 6 1 6 1 1 6 2 1 1 1 2 2 1 6 1 1 1 1 2 6 1
1 1 1 6 1 6 1 2 1 6 1 6 6 1 6 1 2 2 2 2 3 3 2 2 2 6 6 6 6 2 1 1 6 1 1 1 6 1 6 1 6 1 6 1 1 6 6 2 1
1 6 6 1 1 2 6 2 6 6 6 1 2 6 1 6 1 1 1 1 6 1 6 1 1 6 6 1 6 6 1 6 1 6 6 1 1 6 6 2 2 2 2 2 2 2 2 2 6
6 6 6 1 6 6 6 1 6 6 1 6 6 1 1 6 1 3 3 3 5 1 6 6 6 6 6 6 6 6
Producto C: 6 6 6 6 6 6 6 2 6 6 6 6 6 6 6 2 6 6 6 6 2 6 6 6 2 2 6 6 6 6 6 6 6 1 6 2 6 6 6 6 6 6 6
6 2 6 6 1 2 6 1 6 6 1 6 2 6 6 6 6 6 6 6 2 6 6 6 2 6 6 1 6 6 6 6 6 6 6 3 3 6 3 2 1 2 2 1 6 6 1 6 1
6 6 6 6 6 6 1 6 6 6 1 6 6 6 6 6 6 6 6 6 6 6 2 6 6 6 6 6 6 6 6 2 2 6 6 2 6 1 2 6 6 6 2 6 6 2 6 6 2
6 1 6 2 6 2 1 2 6 6 2 2 6 2 6 2 2 6 2 6 6 6 2 2 2 6 6 2 6 6 2 2 6 1 2 1 2 6 6 2 2 6 6 1 2 2 1 6 2
6 2 2 1 1 5 6 3 6 1 6 6 1 2 2 6 1 6 2 6 6 1 6 2 6 2 6 6 6 1 6 1 6 6 2 2 2 1 2 3 6 1 6 1 6 1 6 1 6
6 6 1 1 6 6 6 6 6 1 6 6 6 1 6 1 1 6 6 6 6 6 6 6 6 1 6 6 1 6
Producto D: 6 2 2 2 2 3 3 4 4 4 5 4 3 3 6 2 6 6 6 3 4 4 3 3 3 3 3 2 6 6 3 4 4 4 4 3 4 2 6 2 2 6 2
2 6 6 3 4 5 4 4 6 3 6 6 6 2 6 2 6 6 2 2 6 4 4 5 4 3 4 3 4 4 6 2 6 6 2 2 6 2 6 6 2 6 6 2 6 6 2 6 2
6 3 5 5 5 4 4 4 3 6 2 6 6 2 6 2 6 2 2 6 2 6 6 2 6 4 4 4 4 4 4 6 3 6 6 2 6 2 6 2 6 2 6 6 2 2 2 2 2
2 2 2 2 3 3 3 5 5 4 5 3 3 3 6 2 6 6 2 2 6 2 2 2 2 6 2 3 2 2 3 6 3 2 2 3 4 4 4 4 5 5 4 4 6 6 2 6 2
6 2 2 2 2 2 2 2 5 5 4 4 5 5 2 6 2 6 6 2 6 2 6 2 2 3 3 4 4 5 4 4 4 3 4 3 6 2 6 2 2 2 2 2 2 2 2 2 2
2 3 4 4 4 4 5 4 4 4 3 2 2 2 6 2 2 2 6 2 6 2 6 2 2 2 2 2 3 2
Producto E: 6 2 2 2 2 3 3 4 4 4 5 4 3 3 6 2 6 6 2 3 4 4 3 4 4 3 3 2 2 6 3 4 4 4 4 3 4 2 3 2 2 6 3
3 6 6 3 4 5 4 5 3 3 2 6 6 2 6 2 6 6 2 2 6 4 4 4 4 4 4 5 4 4 6 2 6 6 2 2 6 2 6 6 2 6 6 2 6 6 2 6 2
6 3 4 4 4 4 4 4 4 6 2 6 6 2 6 2 6 6 6 6 2 6 2 2 6 4 4 4 4 4 4 6 3 3 6 2 2 2 6 2 6 2 2 2 2 2 2 2 2
2 2 2 2 3 6 4 5 5 5 5 2 4 6 6 2 6 6 2 2 6 2 2 2 2 6 2 3 2 2 3 6 3 2 2 3 4 4 4 4 5 5 4 3 3 6 2 6 2
2 2 6 3 2 2 2 2 5 5 4 4 4 4 3 6 2 6 6 2 6 2 6 2 2 3 3 4 4 5 4 4 4 4 4 3 6 2 6 2 2 2 6 2 2 2 2 2 2
2 3 4 4 4 4 5 4 4 4 3 2 2 2 6 6 6 2 6 2 6 2 6 2 2 2 2 2 2 2
De acordo com o modelo de Markov multivariado constrúıdo da 8va. ordem, os produtos A e
B estão intimamente relacionados. Em particular, a demanda de vendas do Produto A depende
fortemente do Produto B. O principal motivo é que a natureza qúımica dos Produtos A e B é a
mesma, mas eles têm embalagens diferentes para fins de marketing. Além disso, os Produtos B, C,
D e E estão intimamente relacionados. Da mesma forma, os produtos C e E têm o mesmo sabor
do produto, mas diferentes embalagens. Neste modelo, é interessante notar que tanto o Produto
D quanto o E dependem do Produto B na ordem de 8, esta relação dificilmente pode ser obtida
no modelo convencional de Markov devido a uma grande quantidade de parâmetros. Os resultados
mostram que o modelo de Markov multivariado de ordem superior é bastante significativo para
analisar a relação de demanda de vendas.
120 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV
> data(rain)
> modelo1 = markovchainFit(data=rain$rain)
> modelo1
$estimate
0 1-5 6+
0 0.6605839 0.2299270 0.1094891
1-5 0.4625850 0.3061224 0.2312925
6+ 0.1976285 0.3122530 0.4901186
$standardError
0 1-5 6+
0 0.03471952 0.02048353 0.01413498
1-5 0.03966634 0.03226814 0.02804834
6+ 0.02794888 0.03513120 0.04401395
$confidenceLevel
[1] 0.95
$lowerEndpointMatrix
0 1-5 6+
0 0.6034754 0.1962346 0.08623909
1-5 0.3973397 0.2530461 0.18515711
6+ 0.1516566 0.2544673 0.41772208
$upperEndpointMatrix
0 1-5 6+
0 0.7176925 0.2636194 0.1327390
1-5 0.5278304 0.3591988 0.2774279
6+ 0.2436003 0.3700387 0.5625151
$logLikelihood
[1] -1040.419
> modelo2 = fitHigherOrder(rain$rain, 2)
> modelo2
$lambda
[1] 0.5 0.5
$Q
$Q[[1]]
0 1-5 6+
0 0.6605839 0.4625850 0.1976285
1-5 0.2299270 0.3061224 0.3122530
6+ 0.1094891 0.2312925 0.4901186
$Q[[2]]
0 1-5 6+
0 0.6021898 0.4489796 0.3412698
1-5 0.2445255 0.2687075 0.3214286
6+ 0.1532847 0.2823129 0.3373016
$X
0 1-5 6+
0.5000000 0.2691606 0.2308394
A Cadeia de Markov é uma ferramenta essencial para a modelagem de muitos sistemas práticos,
2.4. CADEIAS DE MARKOV MULTIVARIADAS 121
como sistemas de filas, sistemas de manufatura e sequências de dados categóricos. Múltiplas sequências
de dados categóricos ocorrem em muitas aplicações, tais como controle de estoque, mineração de dados e
mercado financeiro. Em muitas situaçõs práticas, gostaŕıamos de considerar várias sequências de dados
categóricos no mesmo peŕıodo de tempo. A razão é que as sequências de dados podem ser correlacionadas
e, portanto, explorando seus relacionamentos podemos desenvolver modelos melhores.
122 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV