Análise de dados extremos: modelos de regressão para pontos de mudança

•
UFC

Alan Assunção
01/08/2020
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 50 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 50 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 50 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Probabilidade e Estatística

29.948 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
Universidade Federal do Piaúı
Centro de Ciências da Natureza
Curso de Graduação em Estat́ıstica
Análise de dados extremos: modelos de regressão
para pontos de mudança
Alan da Silva Assunção
Teresina - 2018
Assunção, Alan da Silva.
Análise de dados extremos: modelos de regressão para pontos de mudança
Alan da Silva Assunção – Teresina: 2018.
Orientador: Prof. Dr. Fernando Ferraz do Nascimento
1. Área de Concentração
Alan da Silva Assunção
Monografia:
Análise de dados extremos: modelos de regressão para pontos
de mudança
Monografia submetida à Coordenação
do Curso de Graduação em Estat́ıstica,
da Universidade Federal do Piaúı, como
requisito parcial para obtenção do grau
de Bacharel em Estat́ıstica.
Orientador:
Prof. Dr. Fernando Ferraz do Nascimento
Teresina - 2018
Agradecimentos
A Deus, Pai Todo-Poderoso, meu Senhor e Rei, pelo seu grande amor incondicional que
se renova todos os dias em minha vida. A Ele toda a honra e toda a Glória para todo o
sempre!
Aos meus pais, por me ensinarem desde cedo a batalhar pelos meu objetivos, e por sempre
me apoiarem mesmo em meio às dificuldades, obrigado por tudo, amo vocês.
Aos meus parentes, principalmente aos meus avós paternos que sempre me ajudaram em
tudo aquilo que necessitei.
Ao meu orientador, professor Fernando, por toda a aprendizagem que obtive, pela con-
fiança em mim depositada e por me incentivar a continuar crescendo.
A minha irmã, por me ajudar na revisão gramatical deste trabalho.
Aos professores do curso de Estat́ıstica, por serem responsáveis pela construção do meu
conhecimento como estat́ıstico e me fazerem amar ainda mais esta ciência que agora tanto
me cativa.
Aos meus amigos, pastores e irmãos em Cristo da Igreja Batista Nova Aliança - Timon, a
companhia e o amor de vocês foram combust́ıveis essenciais para me fazerem chegar até
aqui.
Aos meus colegas de curso que sempre prezaram pelo companheirismo para vencermos as
nossas dificuldades de curso.
1
Resumo
A Teoria dos Valores Extremos (TVE) surgiu na tentativa de prever a frequência com
que eventos extremos ocorrem, dando uma descrição do comportamento destes fenômenos.
Muitos eventos extremos são caracterizados por apresentarem mudança brusca de com-
portamento em algum momento do tempo, situação comum em dados ambientais e finan-
ceiros. As inundações ocasionadas pelo transbordamento de rios são uma dessas muitas
situações onde encontramos, de certa forma, o padrão de comportamento da altura do
ńıvel do rio alterado por alguma influência humana, principalmente pela construção de
uma usina hidrelétrica no leito do mesmo. Assim, propomos um modelo baseado nas
técnicas da TVE que descreva o comportamento de dados extremos referentes a cotas
de rios que apresentem comportamento caracteŕıstico de mudança abrupta, tendo como
aux́ılio uma estrutura de regressão que capte a informação sazonal dos dados utilizando
a distribuição de Valores Extremos Generalizada (GEV). A estimação dos parâmetros é
baseada em abordagem bayesiana por meio de métodos de Monte Carlo via Cadeias de
Markov (MCMC). Com o modelo, calcularemos as estimativas para os pontos de mudança
dos dados, as estimativas mensais dos ńıveis de retorno, como também um panorama para
o comportamento dos parâmetros da GEV ao longo do tempo. Para as aplicações aqui
propostas, os resultados obtidos retratam com precisão os meses em que a ocorrência de
um evento extremo é maior, como também conseguem captar o momento exato em que
os dados tiveram uma mudança brusca de comportamento.
Palavras-Chave: Teoria de valores extremos; Ponto de mudança; Estrutura de re-
gressão; Abordagem bayesiana.
2
Abstract
The Extreme Values Theory (EVT) arose in an attempt to predict the frequency with
which extreme events can occur, giving a description of the behavior of these phenomena.
Many extreme events are characterized by abrupt behavior change at some point in time,
commonplace in environmental and financial data. The floods caused by the overflow
of rivers are one of those many situations where we find, in a certain way, the behavior
pattern of the height of the level of the river altered by some human influence, mainly by
the construction of a hydroelectric plant in the river bed. Thus, we propose a model based
on the EVT techniques that describe the behavior of extreme data referring to riverbanks
that present a behavior characteristic of abrupt change, with the aid of a regression struc-
ture that captures the seasonal information of the data using the distribution of Extreme
Values Generalized (EVG). The estimation of the parameters is based on Bayesian ap-
proach through methods via Markov Chains Monte Carlo (MCMC). With the model, we
will calculate the estimates for the points of change of the data, the monthly estimates of
the levels of return, as well as a panorama for the behavior of the parameters of the EVG
over time. For the applications proposed here, the results obtained accurately portray
the months in which the occurrence of an extreme event is greater, but also capture the
exact moment when the data had a sudden change of behavior.
Keywords: Extreme Values Theory; Change-Point; Regression Structure; Bayesian
Approach.
3
Lista de Figuras
2.1 Máximos mensais do rio Parnáıba. . . . . . . . . . . . . . . . . . . . . . . . 6
5.1 Série dos dados do rio Parnáıba. . . . . . . . . . . . . . . . . . . . . . . . . 20
5.2 Probabilidade dos pontos de mudança para os dados do rio Parnáıba. . . . 21
5.3 Série das estimativas dos coeficientes de regressão para o primeiro regime
dos dados do rio Parnáıba. . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5.4 Série das estimativas dos coeficientes de regressão para o segundo regime
dos dados do rio Parnáıba. . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.5 Histogramas dos coeficientes de regressão para o primeiro regime dos dados
do rio Parnáıba. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.6 Histogramas dos coeficientes de regressão para o segundo regime dos dados
do rio Parnáıba. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.7 Parâmetros µ,σ e ξ variando ao longo do tempo para os dados do rio
Parnáıba. Linha cheia: primeiro regime; linha tracejada: segundo regime. . 24
5.8 Nı́veis de retorno esperados a cada 10 e 20 anos. À esquerda: retorno
esperado a cada 10 anos; à direita: retorno esperado a cada 20 anos. Linha
cheia: primeiro regime; linha tracejada: segundo regime. . . . . . . . . . . 25
5.9 Nı́veis de retorno esperados a cada 10 e 20 anos para o primeiro e segundo
regime. À esquerda: primeiro regime; à direita: segundo regime. Linha
cheia: retorno esperado a cada 10 anos; linha tracejada: retorno esperado
a cada 20 anos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4
Lista de Figuras 5
5.10 Nı́veis de retorno esperados a cada 10 e 20 anos na série dos máximos do
rio Parnáıba. Linha tracejada: retorno esperado a cada 10 anos ; linha
pontilhada: retorno esperado a cada 20 anos. . . . . . . . . . . . . . . . . . 27
5.11 Série dos dados do rio Paraná. . . . . . . . . . . . . . . . . . . . . . . . . . 28
5.12 Probabilidade dos pontos de mudança para os dados do rio Paraná. Linhas
verticais em cor cinza: estimativas dos intervalos de confiança . . . . . . . 29
5.13 Série das estimativas dos coeficientes de regressão para o primeiro regime
do rio Paraná . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.14 Série das estimativas dos coeficientes de regressão para o segundo regime
do rio Paraná. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.15 Histogramas dos coeficientes de regressão para o primeiro regime do rio
Paraná. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305.16 Histogramas dos coeficientes de regressão para o segundo regime do rio
Paraná. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.17 Parâmetros µ,σ e ξ variando ao longo do tempo para os dados do rio
Paraná. Linha cheia: primeiro regime; linha tracejada: segundo regime. . . 32
5.18 Nı́veis de retorno esperados a cada 10, 20 e 100 anos. À esquerda: retorno
a cada 10 anos; centro: retorno a cada 20 anos; à direita: retorno a cada
100 anos. Linha cheia: primeiro regime; linha tracejada: segundo regime. . 34
5.19 Nı́veis de retorno esperados a cada 10, 20 e 100 anos para o primeiro e
segundo regime. À esquerda: primeiro regime; à direita: segundo regime.
Linha cheia: retorno a cada 10 anos; linha tracejada: retorno a cada 20
anos; linha pontilhada: retorno a cada 100 anos. . . . . . . . . . . . . . . . 34
5.20 Nı́veis de retorno esperados a cada 10 e 20 anos na série dos máximos
do rio Paraná. Linha tracejada: retorno esperado a cada 10 anos; linha
pontilhada: retorno esperado a cada 20 anos. . . . . . . . . . . . . . . . . . 35
5.21 Nı́veis de retorno esperados a cada 100 anos na série dos máximos do rio
Paraná. Linha tracejada: retorno esperado a cada 100 anos . . . . . . . . . 35
Lista de Tabelas
5.1 Estimativas e intervalos de 95% de confiança para os coeficientes de re-
gressão-rio Parnáıba. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.2 Estimativas e intervalos de 95% de confiança para os coeficientes de re-
gressão-rio Paraná. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
6
Sumário
Resumo 2
Abstract 3
1 Introdução 1
1.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2 Teoria do Ponto de Mudança e Estrutura de Regressão 3
2.1 Estrutura de Regressão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3 Teoria dos Valores Extremos 7
3.1 Modelagem Univariada de Extremos . . . . . . . . . . . . . . . . . . . . . 8
3.2 Modelos Probabiĺısticos para Máximos e Mı́nimos . . . . . . . . . . . . . . 9
3.2.1 A Distribuição de Valores Extremos Generalizada (GEV) . . . . . . 11
3.3 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4 Modelo proposto 15
4.1 Distribuições a Priori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.2 Distribuição a Posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5 Aplicações 19
5.1 Aplicação 1: rio Parnáıba . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
7
Sumário 8
5.2 Aplicação 2: rio Paraná . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
6 Conclusões 36
Referências 37
CAṔITULO 1
Introdução
Nos últimos anos, diversos fenômenos naturais têm ocorrido causando destruição e
acarretando grandes perdas para a sociedade. Entre eles podemos citar terremotos, fu-
racões, enchentes, que são eventos que causam grandes preocupações para os governos
nas mais diversas nações, principalmente para aquelas que não possuem um sistema de
prevenção eficiente.
Em 2009, no estado do Piaúı, a cidade de Teresina sofreu com a enchente provocada
pela sobre-vazão do rio Poti, que alagou casas, comércios e avenidas, ocasionando também
enorme prejúızo material e monetário, que teve de ser despendido na tentativa de reparar
os estragos provocados por essa catástrofe. Recentemente, devido às fortes chuvas do ińıcio
do ano, as cidades de Codó e Pedreiras no estado do Maranhão foram também afetadas
por enchentes provocadas pelas sobre-vazões dos rios Itapecuru e Mearim respectivamente.
Não é dif́ıcil perceber o quanto seria útil o conhecimento da frequência com que estas
eventualidades ocorrem, evitando grandes danos para a sociedade e contribuindo para o
avanço da qualidade de vida, como também da construção de um meio social mais seguro,
podendo até mesmo servir como direção na busca de medidas que possam contornar os
efeitos destes acontecimentos catastróficos.
Com isso, a Teoria de Valores Extremos tem ganhado cada vez mais espaço na área
estat́ıstica e suas técnicas têm sido de grande importância para as mais diversas áreas,
1
Caṕıtulo 1. Introdução 2
possibilitando resultados mais precisos e maior respaldo para conclusões sobre previsões de
eventos extremos, tornando proṕıcio o conhecimento sobre a dimensão de grandes ganhos
e perdas.
Os primeiros trabalhos em valores extremos são datados do ińıcio do século XX, com
aplicações iniciais na engenharia civil e, posteriormente mais formalizada, em fenômenos
meteorológicos nos EUA. Trabalhos importantes como os de Fisher-Tippet (1928) sobre
a convergência do máximo centrado e padronizado possibilitaram grandes avanços para a
TVE, servindo como um propulsor para o surgimento de modelos mais eficientes.
1.1 Objetivos
Este trabalho tem por objetivo a criação de um modelo de regressão aplicado a valores
extremos que apresentem comportamento caracteŕıstico de pontos de mudança, utilizando
a distribuição de Valores Extremos Generalizada (GEV). Calcularemos quantidades im-
portantes de dados extremos de cotas1 de rios através deste modelo, e verificaremos a
significância da precisão com a inserção da variável sazonal “mês do ano”.
Todo o processo de estimação será feito pelo enfoque bayesiano utilizando o método
de Monte Carlo via Cadeias de Markov (Markov Chain Monte Carlo - MCMC).
1.2 Organização do Trabalho
Este trabalho está organizado da seguinte forma: no Caṕıtulo 2, temos uma abordagem
a respeito da teoria do ponto de mudança, como também da estrutura de regressão e a
combinação destas duas ferramentas no modelo proposto. O Caṕıtulo 3 trata de forma
sucinta a respeito da Teoria dos Valores Extremos na qual apresentamos os primeiros
trabalhos que foram fundamentais no desenvolvimento de modelos aplicados a eventos
extremos, em especial a distribuição GEV.
No Caṕıtulo 4, temos o tratamento da base teórica do modelo proposto neste trabalho
e o enfoque bayesiano utilizado. No Caṕıtulo 5, segue as aplicações do modelo em dados
ambientais de cotas dos rios Parnáıba e Paraná.
E por fim no Caṕıtulo 6, temos as conclusões obtidas através dos resultados deste
modelo.
1Uma cota de rio é a altura da água medida (convencionalmente em cm) em determinado momento.
CAṔITULO 2
Teoria do Ponto de Mudança e Estrutura de Regressão
A Teoria do ponto de mudança é uma ferramenta estat́ıstica que avalia em uma série
de dados o ponto a partir do qual se percebe uma mudança no comportamento da mesma.
Para alguns fenômenos, a existência da mudança de comportamento da distribuição
dos dados é bem mais comum, não sendo tão inesperado em algum momento a série dos
mesmos sofrer uma variação. A exemplo disso, temos os dados ambientais e financeiros.
Analisando cotas de rios, podemos perceber em épocas de chuva um aumento na altura
máxima da água, provocando uma elevação do ńıvel normal devido ao volume adicional
das chuvas naquele determinado peŕıodo. Em dados financeiros, a volatilidade do mercado
de capitais é uma das principais explicações para o surgimento de mudanças abruptas na
série dos dados.
A teoria do ponto de mudança tem sido aplicada com as mais diversas finalidades.
Carlin et al. (1992) desenvolveram a construção de modelos hierárquicos bayesianos de
pontos de mudança para a versão de amostra do tipo não sequencial com aplicações em
estrutura de regressão e processos de Poisson. Barry e Hartigan (1993) propuseram que
para a modelagem de um processo com pontos de mudança, seria necessário, para uma
sequência de parâmetros subjacentes, a existência de blocos cont́ıguos na qual o ińıcio de
cada bloco seria considerado como um ponto de mudança.
Em análise de valoresextremos, Huerta e Sanso (2007) sugeriram um modelo para
3
Caṕıtulo 2. Teoria do Ponto de Mudança e Estrutura de Regressão 4
a predição de valores medidos no tempo e espaço em que os parâmetros da distribuição
de Valores Extremos Generalizada eram a base para o desenvolvimento de tal estrutura.
Utilizando uma ideia parecida, Lai et al. (2009) descreveram um modelo bayesiano para
pontos de mudança considerando os parâmetros variando no tempo e probabilidades a
posteriori de que um ponto de mudança ocorreu em um momento espećıfico. Nascimento
e Silva (2017) propuseram um modelo bayesiano utilizando a distribuição GEV, apli-
cado a dados que apresentam caracteŕısticas t́ıpicas de mudanças abruptas e que possam
apresentar mais de um ponto de mudança.
O modelo proposto neste trabalho estende a abordagem desenvolvida por Nascimento
e Silva (2017), em que os pontos de mudança são considerados parâmetros a serem esti-
mados, e a indicação da quantidade total de pontos de mudança ficará a cargo do modelo
apontando, de acordo com a informação dos dados, em que momento do tempo eles ocor-
rem.
Para construir tal objeção, a abordagem bayesiana é considerada para possibilitar
a estimação dos pontos de mudança. O prinćıpio bayesiano considera a incerteza do
verdadeiro valor do parâmetro através de uma quantidade em forma de distribuição de
probabilidade, denominada distribuição a priori. Esta distribuição a priori unida à quan-
tidade dada à luz dos dados, possibilita a obtenção de outra distribuição (distribuição
a posteriori), que resulta diretamente do teorema de bayes, sendo esta a distribuição de
interesse que permite a possibilidade das estimativas do verdadeiro valor do parâmetro e
de outras quantidades importantes. Ver Ehlers (2007) para mais detalhes.
Uma das grandes vantagens da estrutura bayesiana, é que ela permite uma flexibilidade
a diferentes tipos de dados sem a exigência de um conhecimento aprofundado acerca da
proveniência da distribuição dos dados. Isto será de suma importância, uma vez que este
modelo se aplica a dados que se encaixam nessa situação.
Na obtenção das estimativas dos pontos de mudança, assim como dos demais parâmetros
do modelo, estaremos utilizando técnicas computacionais MCMC. As técnicas MCMC
surgem como uma resposta satisfatória ao problema em que os métodos computacionais
simples (não iterativos1) não conseguem ser eficientes, caso em que a distribuição a poste-
riori assume uma forma bastante complexa. Para esta situação, dispomos de duas técnicas
1Os métodos não iterativos são métodos computacionais de simulação de v.a.s que não necessitam
mais de que um ”passo”para se obter os valores da distribuição de interesse
Caṕıtulo 2. Teoria do Ponto de Mudança e Estrutura de Regressão 5
MCMC muito fortes na literatura estat́ıstica, o Amostrador de Gibbs e o Algoritmo de
Metropolis-Hastings. Neste trabalho, optamos pelo Algoritmo de Metropolis-Hastings na
sua variação em blocos.
2.1 Estrutura de Regressão
Analisar o comportamento de variáveis é um trabalho desenvolvido de forma minu-
ciosa, sendo de grande importância nessas análises o surgimento de uma estrutura que
apresente as principais causas e fatores que possam melhor explicar a distribuição dos
dados da variável em estudo e assim, possibilite o surgimento de um modelo que explique
com maior exatidão as chances de ocorrência do evento de interesse.
Não é dif́ıcil perceber que muitas caracteŕısticas conseguem ser melhor explicadas
quando expostas a presença de outras variáveis. Temos como exemplo, em estudos do
tipo caso controle na área da saúde, a exposição dos grupos de indiv́ıduos (doentes e não
doentes) a um fator de interesse na tentativa de se verificar algum tipo de associação entre
as variáveis.
Em teoria dos valores extremos, podemos citar o exemplo de dados ambientais, em que
o ńıvel de chuva de uma determinada região é intrinsicamente ligado aos efeitos sazonais
das estações do ano. Em dados financeiros, a cotação da moeda esta relacionada a taxa
de juros e ı́ndice de bolsa de valores.
Alguns trabalhos desenvolvidos na análise de extremos que consideram essa relação
de dependência entre as variáveis podem ser citados: Castellanos e Cabras (2007), uti-
lizando dados de chuva, mostraram que os parâmetros da distribuição de Pareto Gene-
ralizada (GPD) se comportam de acordo com a estação do ano; Cabras et al. (2010),
posteriormente, desenvolveram uma estrutura de regresão para os parâmetros da GPD,
considerando dados que iam além de um limite pré-especificado; Nascimento et al (2011)
apresentaram um modelo para análise de valores extremos utilizando a distribuição GPD,
considerando a presença de informações auxiliares. O modelo era composto de uma abor-
dagem não paramétrica para a parte central dos dados, e para a distribuição da cauda um
enfoque bayesiano incumbido através de um modelo de regressão para explicar a variação
dos excessos.
Assim como foi abordado nos resultados de Nascimento et al. (2011), será considerado
Caṕıtulo 2. Teoria do Ponto de Mudança e Estrutura de Regressão 6
para este trabalho um modelo de regressão para a estimação dos parâmetros da GEV,
que contará com a informação do mês do ano no preditor linear. O fator sazonal é um
forte indicador da variabilidade que os dados sofrem ao longo do ano. Com isso, o modelo
captará essa variação de acordo com a sazonalidade apresentada pelo mês, possibilitando
resultados mais precisos, e consequentemente predições mais confiáveis.
Temos como exemplo, para os dados de cotas do rio Parnáıba, parte da série dos
máximos mensais apresentada na Figura 2.1. Pelo gráfico, percebemos como os dados
apresentam um comportamento cicĺıco, nos revelando a caracteŕıstica sazonal presente
nos mesmos, mostrando ainda que o comportamento dos máximos é extremamente ligado
à sazonalidade.
Com os pontos de mudança, temos a formação dos regimes. Esta informação anúıda
a estrutura de regressão, possibilitará que seja constrúıdo em cada regime, o ajuste da
distribuição GEV com os parâmetros variando ao longo do tempo, ou seja, teremos uma
estrutura que nos permitirá ter um modelo mais senśıvel a qualquer variação que os dados
possam sofrer, de acordo com a informação advinda dos meses.
O enfoque bayesiano, como mencionado na seção anterior, será abordado para es-
timação dos coeficientes de regressão, onde as distribuições a priori serão atribúıdas aos
coeficientes e não aos parâmetros do modelo propriamente ditos. A partir das estimativas
dos coeficientes, os parâmetros podem ser obtidos por imputação.
Figura 2.1: Máximos mensais do rio Parnáıba.
Tempo
D
ad
os
0 50 100 150 200 250 300 350
30
0
40
0
50
0
60
0
70
0
CAṔITULO 3
Teoria dos Valores Extremos
A teoria dos valores extremos (TVE) é um conjunto de ferramentas estat́ısticas que tem
crescido muito ultimamente e estado bem presente em muitas áreas. São técnicas baseadas
em dados históricos e que fundamentam-se em fazer estimativas daquilo que é invulgar por
meio de modelos desenvolvidos sobre propriedades assintóticas . Tecnicamente, a TVE
é um segmento da probabilidade que estuda o comportamento estocástico de extremos
ligados a um conjunto de variáveis aleatórias (ou vetores aleatórios) com distribuição
comum F (Mendes (2004)).
Tendo achados de suas primeiras utilizações no ińıcio do século XX, as aplicações
formais de extremos surgiram para a modelagem de fenômenos meteorológicos envolvendo
dados de precipitação máxima e ńıveis anuais de inundação nos Estados Unidos, sendo
estes apenas alguns dos casos nos quais se aplica as técnicas da TVE, podendo ainda citar
entre outras situações, dados pluviométricos, vazão de rios, temperaturas máximas, dados
financeirosetc.
Em análise de extremos, temos como foco principal a caracterização das caudas (infe-
rior e superior), baseada em uma abordagem probabiĺıstica que garante uma extrapolação
para estimativas de ńıveis mais altos que os já observados, sendo esta abordagem proṕıcia
ao surgimento de diversos modelos que se adequam a inúmeras situações, desde as mais
comuns até as mais extraordinárias.
7
Caṕıtulo 3. Teoria dos Valores Extremos 8
A vantagem dessa abordagem é a possibilidade de incorporação de informações im-
portantes para o evento em estudo, tornando a incerteza do modelo ainda menor. Um
exemplo disso são as utilizações de estrutura de regressão para caracterizar as caudas
extremas de FX, permitindo a construção de um modelo robusto e mais preciso como no
trabalho de Nascimento et al. (2011).
3.1 Modelagem Univariada de Extremos
Deste momento em diante serão apresentadas a modelagem probabiĺıstica e a inferência
estat́ıstica para a distribuição de extremos. Em outras palavras, estaremos expondo
técnicas que tem como finalidade a lapidação de um modelo que expresse da melhor
forma posśıvel o comportamento dos dados.
Por definição, eventos extremos são escassos, sendo necessário para esta situação muita
cautela no desenvolvimento de um modelo para descrever o comportamento destes even-
tos. De ińıcio, estes fenômenos eram modelados por distribuições paramétricas conhecidas
como Normal e Gama. Mas eventos extremos tem a caracteŕıstica de terem caudas pesa-
das, o que não é ponto forte nestas distribuições. Por conta disso, Coles (2001) apresenta
pontos importantes na implementação estat́ıstica como complemento ao desenvolvimento
de modelos adequados para extremos, tornando as estimativas mais fidedignas.
Os resultados que se seguem são fundamentos que compõe a parte clássica da Teoria
dos Valores Extremos na qual o comportamento estat́ıstico do máximo é o alicerce de toda
a teoria. E dentro dessa perspectiva, o teorema de Fisher-Tippet (1928) é sem dúvida um
dos resultados mais importantes, especificando a forma da distribuição limite do máximo
em blocos de tamanho n.
A distribuição do máximo é de suma importância para a TVE, pois é a base para poder
caracterizar a cauda da distribuição FX. Em teoria, este máximo Mn = max(X1, . . . ,Xn)
para n variáveis aleatórias i.i.d.’s1 pode ser obtido da seguinte forma
FMn = P{Mn 6 y} = P{max(X1, . . . ,Xn) 6 y} = P{X1 6 y,X2 6 y, . . . ,Xn 6 y}
=
n∏
i=1
P{Xi 6 y} = (P{X 6 y})
n = (FX(y))
n (3.1)
para x ∈ R e n ∈ N.
1i.i.d.’s - Independentes e identicamente distribúıdas
Caṕıtulo 3. Teoria dos Valores Extremos 9
E para se obter a distribuição do mı́nimo, temos um procedimento semelhante
FM1 = P(M1 < y) = P(min(X1,X2, ...,Xn) < y) = 1 − P(min(X1,X2, ...,Xn) > y)
= 1 − P(X1 > y,X2 > y, ...,Xn > y) = 1 −
n∏
i=1
P(Xi > y) (3.2)
= 1 − (1 − FX(y))
n.
Em situações práticas, podemos também multiplicar os dados por -1 e analisar os
máximos, uma vez que os resultados para o máximo se aplicam facilmente a estudos
que tenham interesse na distribuição do mı́nimo. Por exemplo, em dados financeiros
podeŕıamos estar interessados no valor mı́nimo de retorno diário de cada mês.
3.2 Modelos Probabiĺısticos para Máximos e Mı́nimos
Para podermos especificar de forma exata a distribuição do máximo, o conhecimento
da distribuição FX é imprescind́ıvel. O problema é que nem sempre dispomos de tal
conhecimento, sendo necessário meios alternativos de técnicas estat́ısticas que nos levem
a uma estimação de FX que possa ser substitúıda no resultado da expressão 3.1.
Mas mesmo dispondo de técnicas na literatura estat́ıstica que nos dêem tal estimação
para FX, tal procedimento não é muito adequado, devido ao fato de que pequenas dis-
crepâncias na estimação de FX podem levar a resultados distorcidos do máximo FMn ,
prejudicando a credibilidade de toda a inferência feita nos dados.
Para contornar esta debilidade de estimação da distribuição FMn , Fisher e Tippett
(1928) desenvolveram um resultado que possibilitou um grande avanço para a teoria de
valores extremos. Com este resultado temos que, independente da distribuição de Fx,
há famı́lias aproximadas para FMn que podem ser estimadas apenas com base em uma
renormalização linear do máximo Mn, semelhante à prática usual de convergência de
somas de variáveis aleatórias para a distribuição Normal, garantida pelo Teorema Central
do Limite (TCL).
Para entendermos melhor o que está sendo aplanado, é necessário a apresentação da
seguinte definição, conhecida como limite superior do suporte da distribuição FX, aqui
denotado por xFX
xFX = sup{x ∈ R : FX(x) < 1}.
Esta definição implica que os valores de máximo são aqueles que estão próximos do
Caṕıtulo 3. Teoria dos Valores Extremos 10
limite superior da distribuição FX. Então temos para x < xFx que (F(x))
n −→ 0 quando
n −→ ∞, e xFx < ∞ e x > xFx temos (FX(x))n = 1, apontando para a convergência
do máximo Mn em probabilidade para xFx . O lema de Chow e Teicher (1988) pode ser
utilizado como prova deste resultado.
Com isso, temos que, para conhecer FMn é também necessário o conhecimento de FX,
que muitas vezes é desconhecido. E mesmo conhecendo FX, quando n −→∞, (FX(x))n é
degenerado, não sendo muito útil. Então, para superar esta dificuldade, temos a seguir a
renormalização linear de Mn que proporcionou o desenvolvimento de distribuições limites
para FMn
M∗n =
Mn − dn
cn
.
A padronização de Mn, centrado e normalizado, elimina o obstáculo de degeneração
anteriormente explanado, sendo apenas necessária a seleção apropriada das constantes
cn > 0 e dn tal que haja uma estabilização em M
∗
n a medida que n aumenta. Restando
somente a escolha de uma distribuição limite para M∗n.
A vantagem é que na TVE estas distribuições limites, também conhecidas como distri-
buições de valores extremos, são as únicas formas resultantes para M∗n e independem da
distribuição subjacente FX. O teorema a seguir atribúıdo a Fisher e Tippett dá a noção
desta ideia, envolvendo toda a gama posśıvel de distribuições para M∗n
Teorema 1 (Fisher-Tippett (1928)). Seja (Xn) uma sequência de v.a.s
2 i.i.d’s Se existi-
rem uma sequência de constantes normalizadoras cn > 0 e dn, e uma função não dege-
nerada H, onde dn ∈ R e
Mn − dn
cn
d−→ H,
converge em distribuição para H. Então H é do tipo de uma destas três distribuições f.d.:
Gumbel : HI(x) = exp{exp(−x)}, x ∈ R (3.3)
Fréchet : HII(x) = 0, x > 0, ξ > 0 (3.4)
exp(−x−ξ), x > 0, ξ > 0
Weibull : HIII(x) = exp{−(−x
−ξ)}, x 6 0, ξ 6 0, (3.5)
1, x > 0, ξ < 0.
A prova deste teorema pode ser encontrada em Embrechts et al. (1997).
2v.a. - variáveis aleatórias
Caṕıtulo 3. Teoria dos Valores Extremos 11
3.2.1 A Distribuição de Valores Extremos Generalizada (GEV)
Anteriormente vimos no resultado de Fisher-Tippet (1928) que as três distribuições de
valores extremos são as únicas formas de distribuições limite para os máximos em blocos
de tamanho n.
Estas distribuições no entanto apresentam formas bem distintas de comportamento
para dados extremos. Coles (2001) aponta fraquezas atreladas ao método inicial adotado
nas primeiras aplicações de dados extremos, entre elas a escolha individual por uma das
três distribuições, realçando a necessidade de uma distribuição que as unificasse em uma
única famı́lia de distribuições.
As três distribuições de valores extremos descritas em (3.3), (3.4) e (3.5) são apre-
sentadas como partes de uma única famı́lia de distribuições: a distribuição de Valores
Extremos Generalizada (GEV). Ela engloba as três distribuições de valores extremos an-
teriormente apresentadas no teorema de Fisher-Tippet. Proposta por Von Mises (1954)
e Jenkinson (1955), esta função tem a seguinte expressão:
H(y|ξ,σ,µ) =
exp
{
−
(
1 + ξ
(
(y−µ)
σ
))− 1ξ}
se ξ 6= 0
exp
{
−exp
{
−
(
(y−µ)
σ
)}}
se ξ = 0
(3.6)
definida em {y : 1 − ξ(y − µ)/σ > 0}. A distribuição GEV é definida pela presença
de três parâmetros satisfazendo as seguintes condições: um parâmetro de localização
−∞ < µ <∞, um de escala σ > 0 e um de forma −∞ < ξ <∞.
O parâmetro de forma ξ pode ser usado para modelar diversas formas de comporta-
mento. Quando ξ ≈ 0 a distribuição GEV assume a forma da distribuição Gumbel. Os
casos de ξ > 0 ou ξ < 0 correspondem às distribuições Weibull ou Fréchet respectiva-
mente.
A adoção de uma única distribuição de valor extremo ajuda na implementação es-
tat́ıstica de extremos, pois os próprios dados determinam que tipo de comportamento a
cauda necessita, não sendo necessário nenhum tipo de julgamento a priori para a escolha
de uma distribuição espećıfica.
Em situações práticas, os dados originais x1, x2, . . . , xr são organizados em sequências
de tamanho n suficientemente grande, e para cada sequência é obtido o máximo, gerando
uma amostra k de máximos Mn1,Mn2, . . . ,Mnk, que é modelada de acordo com a dis-
tribuição GEV. O agrupamento dos dados, por exemplo, pode ser feito em meses ou anos
Caṕıtulo 3. Teoria dos Valores Extremos 12
sendo os dados originais diários, modelando assim máximos mensais ou anuais segundo a
distribuição GEV. A escolha de n contudo, deve ser feita com cuidado, pois há situações
em que este detalhe pode ser um problema, como mostra Coles (2001), Seção 3.3.
Outra quantidade bastante utilizada é a obtenção de estimativas de quant́ıs extremos.
Esta quantidade está na mesma escala dos dados, e sua interpretação dependerá de como
foram definidos os blocos de tamanho n. Para se obter estimativa de quant́ıs extremos,
invertemos a equação (3.6), fazendo zp = H
−1(1 − p), obtendo a seguinte expressão
zp =
 µ− σξ [1 − (−log(1 − p))−ξ], se ξ 6= 0µ− σlog(−log(1 − p)), se ξ = 0
onde H(zp) = 1 − p. O quant́ıl zp é conhecido na análise de extremos como ńıvel de
retorno relacionado ao peŕıodo 1/p, sendo interpretado como o valor esperado que os
dados originais ultrapassem a quantidade zp pelo menos uma vez a cada 1/p peŕıodos de
tempo. Com a quantidade zp podemos também construir gráficos de ńıveis de retorno,
que por sua fácil interpretação e forte relação com os parâmetros do modelo, são bem
adequados para a apresentação e validação do mesmo.
3.3 Estimação
O surgimento da distribuição GEV possibilitou um grande avanço na modelagem de
eventos extremos. Sua adequação pressupõe que os dados da amostra, coletados e agru-
pados em blocos de tamanho n, sejam i.i.d’s seguindo uma distribuição GEV. A definição
do tamanho do bloco é uma questão a ser decidida com bastante cautela, mediante um
conhecimento aprofundado dos dados em estudo e dos objetivos do pesquisador.
A questão da independência dos dados, suposição necessária para aplicação da dis-
tribuição GEV, poderia ser um problema cŕıtico, uma vez que muitos processos f́ısicos
originam variáveis dependentes entre si. Mas mesmo havendo dependência, pelas propri-
edades de estacionariedade, há garantia que as caracteŕısticas estocásticas do processo
permaneçam as mesmas ao longo do tempo. Para mais detalhes veja Coles (2001).
Após todas essas definições, para que a distribuição GEV possa ser ajustada aos dados,
a estimação dos parâmetros (µ,σ, ξ) é requisito necessário para obtenção de estimativas e
de quantidades de interesse. Devido a isso, muitos métodos surgiram ao longo do tempo.
Mendes (2004) apresenta as seguintes sugestões de estimação: método dos Momentos
Caṕıtulo 3. Teoria dos Valores Extremos 13
(Reiss e Thomas [1997]), método da Máxima Verossimilhança (Embrechts et al. [1997]),
método da Regressão (Reiss e Thomas [1997]) e o método dos L-momentos (Hosking e
Wallis [1997]), além de procedimentos gráficos e métodos emṕıricos.
Apesar de termos dispońıveis tantas opções, abordaremos a estimação via método da
máxima verossimilhança por apresentar ótimas propriedades assintóticas e boa adaptação
a modelos complexos. Vale ressaltar que para aplicar a estimação por máxima verossi-
milhança - EMV, algumas condições de regularidade devem ser satisfeitas para que as
propriedades assintóticas sejam adequadas.
Smith (1984) estudou os casos em que os estimadores de máxima verossimilhança
existem, e chegou às seguintes situações:
• quando ξ > −1
2
os EMV existem, e satisfazem as propriedades assintóticas;
• quando ξ < −1 os EMV não existem.
A questão cŕıtica que afetaria a existência e as propriedades assintóticas dos EMV
para aplicação de modelos extremos, só ocorreria para situações em que ξ < −1/2. Mas
circunstâncias como essas indicam casos onde a cauda da distribuição é muito limitada,
o que na prática normalmente não ocorre, já que eventos extremos tem a caracteŕıstica
de terem caudas pesadas.
Considerando a seguinte amostra de máximos em blocos Z1, . . . ,Zk v.a i.i.d com distri-
buição GEV, temos a seguir a função da log-verossimilhança para a equação (3.6) quando
ξ 6= 0
l(µ,σ, ξ) = −klog(σ) − (1 + 1/ξ)
k∑
i=1
log
[
1 + ξ
(
zi−µ
σ
)]
−
k∑
i=1
[
1 + ξ
(
zi−µ
σ
)]−1/ξ
,
(3.7)
válida para toda a configuração de parâmetros que atendem a essa restrição 1+ξ
(
zi−µ
σ
)
>
0, para todo i = 1, . . . ,k.
Quando ξ = 0 ou ξ ≈ 0, utiliza-se como distribuição limite a forma da distribuição
Gumbel, caso particular da distribuição GEV. Assim obtemos a seguinte função de log-
verossimilhança
l(µ,σ) = −klog(σ) −
k∑
i=1
(
zi − µ
σ
)
−
k∑
i=1
exp
[
−
(
zi − µ
σ
)]
. (3.8)
Caṕıtulo 3. Teoria dos Valores Extremos 14
Para obtenção dos estimadores de (µ,σ, ξ) restaria apenas proceder com a maxi-
mização do par de equações (3.7) e (3.8) em relação aos seus respectivos parâmetros.
Contudo, não é posśıvel maximizar estas equações analiticamente, sendo necessária a
utilização de métodos iterativos de aproximação numérica para obter os estimadores.
Em condições regulares, os EMV assumem assintoticamente uma distribuição Normal
multivariada permitindo, a partir deste ponto, a construção de intervalos de confiança e
demais formas de inferência que seguem imediatamente da normalidade aproximada dos
estimadores. Com as estimativas dos parâmetros, também podemos fazer inferência dos
ńıveis de retorno ẑp esperado em t peŕıodos de tempo. Assim, temos a seguinte forma
ẑp =
 µ̂− σ̂ξ̂ [1 − (−log(1 − p))−ξ̂] se ξ 6= 0µ̂− σ̂log(−log(1 − p)), se ξ = 0.
Quando ξ̂ < 0 temos o caso em que a distribuição é limitada superiormente, fato im-
portante, pois assim podemos fazer inferência do valor máximo dos dados da seguinte
forma
ẑ0 = µ̂−
σ̂
ξ̂
.
CAṔITULO 4
Modelo proposto
A finalidade deste modelo é oferecer uma precisão maior sobre as probabilidades da
realização de um evento extremo por meio da distribuição GEV, auxiliada por uma es-
trutura de regressão. O modelo desenvolvido tem uma estrutura dinâmica que possibilita
a modelagem do comportamento dos dados mediante a utilização da informação do mês,
tendo como novidade a captação de mudanças abruptas que ocorrem no comportamento
dos dados. Combinando estas duas ferramentas, buscamos apresentar um modelo abran-
gente ao máximo de informações que os dados dispõem.
Para tornar mais claro o foco deste trabalho, considere a ilustração de um conjunto de
dados que apresente l pontos de mudança. Então para esta série de dados teŕıamos l+ 1
regimes diferentes, sendo cada um deles modelados por uma distribuição GEV ajustada
com parâmetros estimados via modelos de regressão variando mensalmente. Em outras
palavras, teremos ajustes mensais da GEV, em vez de um único modelo para todo regime.
Os parâmetros (µ,σ e ξ), que podem ter covariáveisem comum, serão descritos através
de uma estrutura de regressão, sendo zµ, zσ e zξ os vetores de covariáveis p-dimensionais
de cada um deles, com o primeiro componente de cada um desses vetores sendo iguais a
1 para pertmitir a inclusão do intercepto nas estruturas de regressão do modelo. Com
isso, para os parâmetros da GEV teremos uma matriz 3 x p de coeficientes de regressão
composta pelos vetores βµ,βσ e βξ, com βµ = (βµ,0, . . . ,βµ,p)
′, βσ = (βσ,0, . . . ,βσ,p)
′
15
Caṕıtulo 4. Modelo proposto 16
e βξ = (βξ,0, . . . ,βξ,p)
′ para cada um dos regimes, onde cada linha desta matriz está
associada a cada um dos parâmetros µ,σ, e ξ.
Para cada parâmetro teremos uma função de ligação que o une ao seu respectivo
preditor linear. Neste modelo, optamos por uma transformação na função de ligação dos
parâmetros ξ e σ, que terão as seguintes formas:
t(µ,σ, ξ) = f(µ,σ∗, ξ∗) onde, σ∗ = logσ e ξ∗ = log(ξ+ 1). (4.1)
Optando por esta reparametrização, os componentes (βξ,βσ) são ortogonais (Chaves-
Demoulin e Davison [2005]), o que irá facilitar o cálculo das densidades a priori conjunta
π(βξ,βσ).
Com isso, considere um conjunto de dados Y1, . . . ,Yr que possam ser ordenados em
tamanhos de bloco n, obtendo uma amostra k de máximos X1, . . . ,Xk. Para esta amostra,
considere a presença de l pontos de mudança τ1, . . . , τl. Então temos para a modelagem
dos máximos a seguinte densidade proposta para a distribuição GEV:
h(x|µ,σ, ξ, τ) =

h(xi|µ1,i,σ1,i, ξ1,i) se i 6 τ1,
h(xi|µ2,i,σ2,i, ξ2,i) se τ1 < i 6 τ2,
. . . . . . . . .
h(xi|µ(l+1),i,σ(l+1),i, ξ(l+1),i) se τl < i 6 k,
(4.2)
onde h(.) é a densidade da GEV (obtida a partir da derivada da equação 3.6) no regime
j, com j = 1, . . . , l + 1. Com essa densidade, temos os parâmetros µj,i,σj,i e ξj,i dados
pela seguinte estrutura:
µi,j = β
′
µ,jzi,µ
σi,j = exp(β
′
σ,jzi,σ)
ξi,j = exp(β
′
ξ,jzi,ξ) − 1
(4.3)
em que βµ,βσ e βξ são os vetores com os coeficientes de regressão, zµ,i, zσ,i e zξ,i são
os vetores de covariáveis dos parâmetros µ,σ e ξ respectivamente, que podem ou não ter
covariáveis em comum.
Com isso, a partir de uma amostra obtida da densidade descrita em 4.2, temos a
seguinte função de verossimilhança:
L(µ,σ, ξ, τ|x) =
τ1∏
i=1
h(xi|µ1,i,σ1,i, ξ1,i)
τ2∏
i=τ1+1
h(xi|µ2,i,σ2,i, ξ2,i), . . . , (4.4)
k∏
i=τl+1
h(xi|µ(l+1),i,σ(l+1),i, ξ(l+1),i).
Caṕıtulo 4. Modelo proposto 17
Percebe-se que a função de verossimilhança pode ser particionada individualmente
para cada regime de acordo com os pontos de mudança da série.
4.1 Distribuições a Priori
Para este modelo, as distribuições a priori não serão atribúıdas diretamente aos parâmetros,
mas sim aos coeficientes de seus preditores lineares, e por imputação obter a estimação
de (µj,m,σj,m, ξj,m), com j = 1, . . . , l+ 1 e m = 1, . . . , 12, para cada regime.
Como temos um conjunto de vetores βµ, βσ e βξ para cada regime, aplicaremos as
mesmas distribuições a priori em cada um deles. Para os parâmetros da distribuição GEV
temos as seguintes distribuições a priori, referentes ao intercepto e demais parâmetros
respectivamente: βµ0 ∼ N(0,Vβµ0 ) e βµi ∼ N(0,Vβµi ) para µ; βσ0 ∼ N(0,Vβσ0 ) e βσi ∼
N(0,Vβσi ) para o σ; βξ0 ∼ N(0,Vβξ0 ) e βξi ∼ N(0,Vβξi ) referente ao ξ, com i = 1, . . . ,p.
Assim, temos a proporcional das distribuições a priori dos coeficientes de regressão
dos parâmetros da GEV em cada regime:
p(βµi) ∝ exp
(
β2µ0
2Vβµ0
+
p∑
i=1
(
β2µi
2Vβµi
))
(4.5)
p(βσi) ∝ exp
(
β2σ0
2Vβσ0
+
p∑
i=1
(
β2σi
2Vβσi
))
(4.6)
p(βξi) ∝ exp
(
β2ξ0
2Vβξ0
+
p∑
i=1
(
β2ξi
2Vβξi
))
(4.7)
com i = 1, . . . ,p.
Para os pontos de mudança, por não saber a exatidão de quando ocorrem, estipulamos
uma distribuição a priori uniforme discreta com a restrição τ1 < τ2 < . . . < τk como
mostra Nascimento e Silva (2017).
Um fato interessante é que como não se tem muita informação dos verdadeiros valores
dos parâmetros, caso bastante comum em inferência bayesiana, as distribuições a priori
são escolhidas de tal forma que representem este desconhecimento, em outras palavras,
os hiperparâmetros 1 de escala e locação são normalmente adotados com variância alta
e média qualquer. Para a nossa situação, atribúımos valores de média zero e variância
razoavelmente grande para as distribuições a priori.
1Hiperparâmetros são os parâmetros da distribuição a priori
Caṕıtulo 4. Modelo proposto 18
4.2 Distribuição a Posteriori
Com as distribuições a priori descritas na seção anterior e a verossimilhança dada em
4.3, temos os elementos necessários para obtenção da distribuição a posteriori. Para cada
regime j = 1, . . . , l+ 1 temos a seguinte proporcional da posteriori:
p(µj,i,σj,i, ξj,i|τ, θ−j, x) ∝
τj∏
i=τj−1+1
h(xi|µj,i,σj,i, ξj,i)p(βµj ,βσj ,βξj) (4.8)
em que θ−j representa o conjunto de vetores (βµi ,βσi ,βξi) exceto quando i = j. Para
proceder com a amostragem dos pontos de mudança, temos a seguinte distribuição a
posteriori, abordada por Carlin et al. (1992) e generalizada por Nascimento e Silva
(2017):
P(τj = i|τ−j, θi, x) =
h(xi|βµj ,βσj ,βξj)∑τj+1−1
l=τj−1+1
h(xj|βµj ,βσj ,βξj)
, i = τj−1 + 1, . . . , τj+1 − 1. (4.9)
Para as equações (4.8) e (4.9), utilizamos a notação τ0 = 0 e τl+1 = k para o primeiro
e último regimes. O MCMC, como já mencionado neste trabalho, será o de Metropolis-
Hastings em bloco, onde cada parâmetro será estimado individualmente (um em cada
bloco).
CAṔITULO 5
Aplicações
Este caṕıtulo destina-se à aplicação do modelo proposto. Para isto, dispomos de dois
bancos de dados referentes a cotas de rios (medidas em cm), sendo um deles, dados do rio
Parnáıba e o outro do rio Paraná. Estes dados foram obtidos da base de dados hidrológicos
de cotas (ńıvel d’água) fluviométricas, proveniente da rede hidrometereológica de respon-
sabilidade da ANA (Agência Nacional de Águas), utilizando o sistema de Informações
Hidrológicas-HidroWeb (http://hidroweb.ana.gov.br/).
5.1 Aplicação 1: rio Parnáıba
O rio Parnáıba está localizado no nordeste brasileiro possuindo cerca de 1700 km de
extensão, servindo de divisa entre os estados do Maranhão e Piaúı. Próximo a região do
munićıpio de Guadalupe no Piaúı, temos a usina hidrelétrica de Boa Esperança inaugurada
em 1970, e atualmente represa cerca de cinco bilhões de metros cúbicos de água, sendo
uma das maiores do nordeste ocidental.
Os dados dispońıveis para o rio Parnáıba são um conjunto de máximos mensais num
total de 413 observações, coletados no peŕıodo de primeiro de Julho de 1963 a primeiro
de Agosto de 2012, no qual vale ressaltar a existência de dados faltantes por motivos não
elucidados. Na Figura 5.1 temos a série dos dados na qual podemos perceber visivelmente
que esta em algum momento do tempo sofre uma mudança. Para esta situação, aplica-
19
Caṕıtulo 5. Aplicações 20
remos o modelo proposto e verificaremos a estimação obtida para o valor do ponto de
mudança, assim como as estimativas dos coeficientes de regressão e, consequentemente, o
ajuste da GEV com os parâmetros variando ao longo do tempo para cada regime.
Figura 5.1: Série dos dados do rio Parnáıba.
Tempo
M
áx
im
os
 m
en
sa
is
0 100 200 300 400
10
0
20
0
30
0
40
0
50
0
60
0
70
0
Na Figura 5.2 temos que o valor estimado para o ponto de mudança foi de 63, valor
referente à observação de 01 de Outubro de 1969, ano que antecede a inauguração da
usina hidrelétrica de Boa Esperança, revelando que após a construção da usina os dados
passaram a ter outro comportamento.
Com o ponto de mudança temos a formação dos regimes, e com isso, podemos estimar
os coeficientes de regressão. Para as aplicações apresentadas neste caṕıtulo contaremos
com duas covariáveis que serão comuns na estrutura de regressão dos parâmetros µ,σ e
ξ, às quais foram aplicadastransformações trigonométricas para captar o comportamento
sazonal dos dados, como no trabalho de Nascimento et al. (2011), z1 = cos(
2πm
12
) e
z2 = sin(
2πm
12
), em que m é o mês.
A partir disso, temos nas Figuras 5.3 e 5.4 a série das estimativas dos coeficientes de
regressão de cada um dos parâmetros (µ,σ e ξ) da distribuição GEV nos dois regimes.
Podemos perceber que os valores de alguns coeficientes como β1,µ1 ,β2,µ1 ,β1,σ1 ,β0,ξ1 ,β1,ξ1
e β2,ξ1 para o primeiro regime e β1,σ2 ,β0,ξ2 ,β1,ξ2 e β2,ξ2 para o segundo regime, se com-
portam em torno de intervalos nos quais o valor zero está incluso, o que nos levaria a
duvidar da significância destes coeficientes para o modelo. Mas, de acordo com as Figura
Caṕıtulo 5. Aplicações 21
Figura 5.2: Probabilidade dos pontos de mudança para os dados do rio Parnáıba.
0.
0
0.
1
0.
2
0.
3
0.
4
0.
5
τ
P
ro
ba
bi
lid
ad
es
63 64 65 66 67 68
Figura 5.3: Série das estimativas dos coeficientes de regressão para o primeiro regime dos
dados do rio Parnáıba.
Tempo
β 0
µ1
0 5000 10000 20000 30000
60
90
Tempo
β 1
µ1
0 5000 10000 20000 30000
−
5
5
Tempo
β 2
µ1
0 5000 10000 20000 30000
−
5
5
Tempo
β 0
σ1
0 5000 10000 20000 30000
3.
8
4.
4
Tempo
β 1
σ1
0 5000 10000 20000 30000
−
0.
2
0.
6
1.
2
Tempo
β 2
σ1
0 5000 10000 20000 30000
0.
8
1.
4
Tempo
β 0
ξ1
0 5000 10000 20000 30000
−
0.
8
0.
0
Tempo
β 1
ξ1
0 5000 10000 20000 30000
−
1.
0
0.
0
Tempo
β 2
ξ1
0 5000 10000 20000 30000
−
1.
0
0.
0
5.5 e 5.6, vemos pelos histogramas destes coeficientes que eles estão distribúıdos em torno
de valores diferentes de zero, apesar de serem bem próximos.
Na Tabela 5.1 temos os valores estimados para os coeficientes de regressão e os respec-
tivos intervalos de confiança. Pela tabela, percebemos que os coeficientes de regressão do
parâmetro de locação µ tiveram mudanças consideráveis de um regime para o outro, mos-
trando que a mudança no comportamento dos dados ocasionou um aumento significativo
Caṕıtulo 5. Aplicações 22
Figura 5.4: Série das estimativas dos coeficientes de regressão para o segundo regime dos
dados do rio Parnáıba.
Tempo
β 0
µ2
0 5000 10000 20000 30000
28
0
29
5
31
0
Tempo
β 1
µ2
0 5000 10000 20000 30000
5
15
Tempo
β 2
µ2
0 5000 10000 20000 30000
5
15
25
Tempo
β 0
σ2
0 5000 10000 20000 30000
3.
9
4.
1
4.
3
Tempo
β 1
σ2
0 5000 10000 20000 30000
−
0.
1
0.
2
Tempo
β 2
σ2
0 5000 10000 20000 30000
0.
6
0.
9
Tempo
β 0
ξ2
0 5000 10000 20000 30000
−
0.
25
0.
00
Tempo
β 1
ξ2
0 5000 10000 20000 30000
−
0.
3
0.
0
Tempo
β 2
ξ2
0 5000 10000 20000 30000
−
0.
1
0.
1
Figura 5.5: Histogramas dos coeficientes de regressão para o primeiro regime dos dados
do rio Parnáıba.
β0µ1
D
en
si
da
de
50 60 70 80 90 100 110 120
0.
00
0.
05
β1µ1
D
en
si
da
de
−10 −5 0 5 10
0.
00
0.
12
β2µ1
D
en
si
da
de
−5 0 5 10
0.
00
0.
12
β0σ1
D
en
si
da
de
3.8 4.0 4.2 4.4 4.6 4.8
0.
0
2.
0
β1σ1
D
en
si
da
de
0.0 0.5 1.0
0.
0
1.
5
β2σ1
D
en
si
da
de
0.8 1.0 1.2 1.4 1.6 1.8
0.
0
1.
5
β0ξ1
D
en
si
da
de
−0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4
0.
0
2.
0
β1ξ1
D
en
si
da
de
−1.0 −0.5 0.0
0.
0
1.
5
β2ξ1
D
en
si
da
de
−1.0 −0.5 0.0
0.
0
1.
5
nos ńıveis máximos de cotas do rio. Já os coeficientes do parâmetro de escala σ, tiveram
uma queda nos seus valores quando comparamos o primeiro regime com o segundo.
Após a estimação dos coeficientes de regressão, poderemos ver como os parâmetros da
distribuição GEV se comportam ao longo do tempo nos dando, por exemplo, a indicação
de quais são os meses onde os dados tem comportamento que são mais suscet́ıveis a
ocorrência do evento extremo.
Na Figura 5.7 podemos ver os gráficos dos parâmetros µ,σ e ξ variando ao longo dos
Caṕıtulo 5. Aplicações 23
Figura 5.6: Histogramas dos coeficientes de regressão para o segundo regime dos dados
do rio Parnáıba.
β0µ2
D
en
si
da
de
280 285 290 295 300 305 310
0.
00
0.
08
β1µ2
D
en
si
da
de
0 5 10 15 20
0.
00
β2µ2
D
en
si
da
de
5 10 15 20 25
0.
00
0.
10
β0σ2
D
en
si
da
de
3.9 4.0 4.1 4.2 4.3
0
3
6
β1σ2
D
en
si
da
de
−0.1 0.0 0.1 0.2 0.3 0.4 0.5
0
2
β2σ2
D
en
si
da
de
0.6 0.7 0.8 0.9 1.0 1.1
0
2
4
β0ξ2
D
en
si
da
de
−0.30 −0.20 −0.10 0.00 0.05
0
4
8
β1ξ2
D
en
si
da
de
−0.4 −0.3 −0.2 −0.1 0.0 0.1 0.2
0
3
β2ξ2
D
en
si
da
de
−1.0 −0.5 0.0
0.
0
1.
5
Tabela 5.1: Estimativas e intervalos de 95% de confiança para os coeficientes de regressão-
rio Parnáıba.
Regime 1 Regime 2
β0,µ1 = 74, 24 β1,µ1 = 0, 46 β2,µ1 = 2, 81 β0,µ2 = 294, 55 β1,µ2 = 10, 51 β2,µ2 = 14, 55
(62,610 ; 87,910) (-5,808 ; 6,391) (-3,186 ; 8,749) (286,438 ; 304,207) (4,766 ; 15,487) (8,148 ; 22,032)
β0,σ1 = 4, 50 β1,σ1 = 0, 49 β2,σ1 = 1, 19 τ = 63 β0,σ2 = 4, 13 β1,σ2 = 0, 18 β2,σ2 = 0, 83
(4,187 ; 4,805) (0,111 ; 0,929) (0,854 ; 1,544) (63 ; 66) (3,994 ; 4,255) (-0,032 ; 0,357) (0,642 ; 0,992)
β0,ξ1
= −0, 18 β1,ξ1 = −0, 56 β2,ξ1 = −0, 43 β0,ξ2 = −0, 13 β1,ξ2 = −0, 11 β2,ξ2 = 0, 01
(-0,473 ; 0,101) (-1,006 ; -0,136) (-0,878 ; 0,037) (-0,222 ; -0,043) (-0,247 ; 0,024) (-0,093 ; 0,147)
doze meses para os dois regimes. No primeiro gráfico desta figura, vemos que os valores
do parâmetro µ aumentaram bastante do primeiro para o segundo regime, nos revelando
ainda que os maiores valores para o parâmetro de locação estão nos primeiros meses do
ano, sendo Março o mês que possui a maior média no primeiro regime com 77,0619 cm, e
o mês de Fevereiro com 312,4122 cm para o segundo regime. No decorrer do tempo temos
um decaimento destes valores, chegando aos ńıveis mais baixos nos meses de Setembro
com 71,4350 cm no primeiro regime, e Agosto com 276,6932 cm para o segundo.
Para a variabilidade dos dados, temos um comportamento diferente. No segundo
gráfico, referente ao parâmetro de escala σ, percebemos que para os primeiros meses, os
máximos variam muito mais no primeiro regime. Ainda neste gráfico, podemos perceber
que em torno dos meses de Junho, Julho, Agosto e Setembro, a variabilidade dos máximos
é praticamente equivalente nos dois regimes.
No terceiro gráfico, temos um comportamento dinâmico do parâmetro de forma ξ.
Caṕıtulo 5. Aplicações 24
Para os primeiros meses, de Janeiro até Abril precisamente, a cauda da distribuição GEV
para o primeiro regime tem um comportamento na forma mais leve seguindo-se uma
mais pesada depois desses meses, tendo o pico máximo no mês de Julho, e retornando
a um comportamento de cauda leve nos meses finais. Para o segundo regime, temos um
comportamento diferente, em todos os meses os valores de ξ são negativos, demonstrando
que durante todo o ano a cauda da distribuição é leve.
Figura 5.7: Parâmetros µ,σ e ξ variando ao longo do tempo para os dados do rio
Parnáıba. Linha cheia: primeiro regime; linha tracejada: segundo regime.
Tempo
µ
2 4 6 8 10 12
10
0
15
0
20
0
25
0
30
0
Tempo
σ
2 4 6 8 10 12
50
10
0
15
0
20
0
25
0
30
0
Tempo
ξ
2 4 6 8 10 12
−
0.
6
−
0.
4
−
0.
2
0.
0
0.
2
0.
4
0.
6
0.
8
Nesta parte da aplicação, apresentaremos a análise dos retornos. Escolhemos os
quant́ıs referentes a 90 e 95 por cento da distribuição dos máximos, que nos retornarão
valores estimados de ńıveis de retorno a cada 10 e 20 peŕıodos de tempo respectivamente.
Na Figura 5.8 temos os gráficos dos retornos a cada 10 e 20 peŕıodos de tempo para
os dois regimes. No primeiro gráfico da figura, temos os retornos a cada 10 peŕıodos de
tempo. Para este ńıvel, temos que os retornos do segundo regime sempre são maiores em
relação ao primeiro, e o mês de Março é o mês que apresenta o maior ńıvel de retorno,
tanto no primeiro como no segundo regime. Pela análise, são esperados a cada dez meses
de março ou a cada dez anos valores para cotas máximas de 516,8401 cm e 599,0163 cm no
primeiro e segundo regime respectivamente. Os meses onde os ńıveisde retorno são mais
baixos dizem respeito aos meses de Outubro com valores estimados a cada dez anos de
162,0537 cm para o primeiro regime, e 332,3203 cm no mês de Setembro para o segundo.
Em relação aos ńıveis esperados a cada 20 anos, temos que estes são maiores para
Caṕıtulo 5. Aplicações 25
o segundo regime inicialmente de Janeiro a Maio, sendo Março o mês com maior ńıvel
de retorno, com valor esperado de 678,4313 cm a cada 20 anos. Após o mês de Maio,
temos que os ńıveis de retorno para os meses de Junho, Julho e Agosto são maiores para o
primeiro regime com cotas de 620,5507 cm, 782,7005 cm e 486,6008 cm esperadas a cada
20 anos respectivamente. Percebe-se que para o mês de Julho, apresentou-se uma alta
estimação dos ńıveis de retorno a cada 20 anos para o primeiro regime. Creditamos essa
alta estimação a pouca quantidade de dados disponibilizados para o primeiro regime, pois
de um total de 413 observações, apenas 63 fazem parte dele, ressaltando também que o
ciclo de coleta mensal para alguns anos não estão completos, e com isso, poucos valores
referentes a meses de Julho estão dispońıveis, o que deixa a variabilidade das estimativas
bem mais altas, e isso unido ao fato de o quantil estimado ser bem alto, acarretou uma
superestimação para este mês.
Figura 5.8: Nı́veis de retorno esperados a cada 10 e 20 anos. À esquerda: retorno esperado
a cada 10 anos; à direita: retorno esperado a cada 20 anos. Linha cheia: primeiro regime;
linha tracejada: segundo regime.
Tempo
R
et
or
no
2 4 6 8 10 12
20
0
30
0
40
0
50
0
60
0
Tempo
R
et
or
no
2 4 6 8 10 12
20
0
30
0
40
0
50
0
60
0
70
0
80
0
Na Figura 5.9 podemos ter uma noção de como se comportam os retornos esperados
a cada 10 e 20 peŕıodos de tempo do ponto de vista dos regimes. Analisando a figura
percebemos que os retornos a cada 20 anos são sempre maiores em relação aos esperados
a cada 10 anos. Ainda podemos perceber, bem mais pelo segundo regime, que as curvas
referentes a estes ńıveis de retorno se comportam de forma semelhante ao longo do tempo,
evidenciando a latente caracteŕıstica sazonal apresentada durante o ano.
Caṕıtulo 5. Aplicações 26
Figura 5.9: Nı́veis de retorno esperados a cada 10 e 20 anos para o primeiro e segundo
regime. À esquerda: primeiro regime; à direita: segundo regime. Linha cheia: retorno
esperado a cada 10 anos; linha tracejada: retorno esperado a cada 20 anos.
Tempo
R
et
or
no
2 4 6 8 10 12
20
0
30
0
40
0
50
0
60
0
70
0
80
0
Tempo
R
et
or
no
2 4 6 8 10 12
35
0
40
0
45
0
50
0
55
0
60
0
65
0
Para concluir esta aplicação, temos na Figura 5.10 o ajuste dos ńıveis de retorno
esperados a cada 10 e 20 anos na série original dos máximos do rio Parnáıba. Pela figura,
podemos perceber que o ajuste ficou razoável à serie dos máximos. Temos que a série de
retorno acompanha de forma bem satisfatória toda a variação sazonal que os máximos
apresentam, revelando ainda que este fator consegue explicar adequadamente os ńıveis
de cotas máximas do rio, pois as séries de retorno se movem de acordo com a variação
mensal dos dados.
Caṕıtulo 5. Aplicações 27
Figura 5.10: Nı́veis de retorno esperados a cada 10 e 20 anos na série dos máximos do rio
Parnáıba. Linha tracejada: retorno esperado a cada 10 anos ; linha pontilhada: retorno
esperado a cada 20 anos.
Tempo
S
ér
ie
 d
os
 d
ad
os
0 100 200 300 400
20
0
40
0
60
0
80
0
5.2 Aplicação 2: rio Paraná
O rio Paraná é um rio sul-americano com origem no Brasil, possuindo um trecho de 190
km que serve como demarcação da fronteira com o Paraguai até chegar a foz do rio Iguaçu.
É o segundo maior rio sul-americano em extensão, sendo o nono no ranking mundial, e
é o décimo em termos de maior vazão. Nasce da confluência de dois outros grandes rios,
o rio Grande e o rio Paranáıba nos estados de Minas Gerais, São Paulo e Mato Grosso
do Sul. No trecho da fronteira Brasil e Paraguai, se encontra a usina hidrelétrica Itaipu,
ĺıder mundial em produção de energia limpa e renovável, produzindo cerca de 2,5 bilhões
de megawatts-hora (MWh) desde o ińıcio de sua operação.
Para os dados do rio Paraná, dispomos de 1100 observações de máximos mensais
coletados a partir de primeiro de Junho de 1920 até Outubro de 2012, tendo apenas uma
falta de valor mensal durante todo esse peŕıodo, referente a Dezembro de 2008.
Na Figura 5.11 temos a série dos máximos do rio Paraná. Para estes dados, tenta-
remos a estimação de dois pontos de mudança para verificar a sensibilidade do modelo
proposto em detectar a quantidade real de pontos de mudança. Nascimento e Silva (2017)
fizeram conjecturas dessa situação, incluindo pontos de mudança além dos que realmente
constavam na série dos dados, e chegaram a conclusão de que os verdadeiros pontos de
mudança existentes na série dos dados eram bem estimados, enquanto que o ponto de
Caṕıtulo 5. Aplicações 28
mudança adicional cáıa sempre no ińıcio ou no final dela.
Por abordarmos um mecanismo similar de estimação do ponto de mudança ao que foi
proposto no modelo de Nascimento e Silva (2017), utilizaremos o mesmo critério de escolha
da quantidade exata de pontos de mudança. De acordo com uma análise preliminar da
série dos dados, colocamos para τ1, o primeiro ponto de mudança, um chute inicial de
617, e para o segundo τ2=737.
Figura 5.11: Série dos dados do rio Paraná.
Tempo
M
áx
m
im
os
 m
en
sa
is
0 200 400 600 800 1000
10
0
20
0
30
0
40
0
Temos pela Figura 5.12, que o modelo identificou a série dos dados com apenas um
ponto de mudança, estimado em 737, mostrando a existência de somente dois regimes,
pois o outro ponto, de acordo com o critério adotado, caiu no final da série.
Um detalhe importante é que o ponto de mudança estimado é referente à observação
de 1 de Novembro de 1981, ano que precede a conclusão da usina hidrelétrica de Itaipu
em 1982, revelando que assim como no caso do rio Parnáıba, os dados passaram a ter
outro comportamento após a construção desta usina hidrelétrica.
Com a formação dos regimes, podemos ter a estimação dos coeficientes de regressão
dos parâmetros µ,σ e ξ. Nas Figuras 5.13 e 5.14 temos as séries das estimativas dos
coeficientes de regressão para o primeiro e segundo regime, e pelas Figuras 5.15 e 5.16
temos os histogramas destes coeficientes. Podemos perceber através dos histogramas, que
os valores dos coeficientes se distribuem em torno de valores diferentes de zero. Para os
coeficientes β2,ξ1 e β2,ξ2 , apesar de serem valores bem próximos de zero, admitimos a
Caṕıtulo 5. Aplicações 29
Figura 5.12: Probabilidade dos pontos de mudança para os dados do rio Paraná. Linhas
verticais em cor cinza: estimativas dos intervalos de confiança
0.
0
0.
2
0.
4
τ1
P
ro
ba
bi
lid
ad
es
617 701 734 739 744 749
0.
0
0.
2
0.
4
τ2
P
ro
ba
bi
lid
ad
es
737 1095
relevância destes coeficientes para esta aplicação, pois vale ressaltar que pequenos rúıdos
na estrutura de regressão afetam a variação final do parâmetro estimado. Pela Tabela
5.2, temos as estimativas dos coeficientes de regressão com os respectivos intervalos de
confiança, e podemos constatar que os valores estimados são diferentes de zero.
Figura 5.13: Série das estimativas dos coeficientes de regressão para o primeiro regime do
rio Paraná .
Tempo
β 0
µ1
0 5000 10000 15000 20000 25000 30000
12
8
13
4
14
0
Tempo
β 1
µ1
0 5000 10000 15000 20000 25000 30000
6
10
16
Tempo
β 2
µ1
0 5000 10000 15000 20000 25000 30000
26
32
38
Tempo
β 0
σ1
0 5000 10000 15000 20000 25000 30000
3.
60
3.
75
Tempo
β 1
σ1
0 5000 10000 15000 20000 25000 30000
0.
05
0.
25
Tempo
β 2
σ1
0 5000 10000 15000 20000 25000 30000
0.
05
0.
25
Tempo
β 0
ξ1
0 5000 10000 15000 20000 25000 30000
−
0.
25
−
0.
10
Tempo
β 1
ξ1
0 5000 10000 15000 20000 25000 30000
−0.
25
0.
00
Tempo
β 2
ξ1
0 5000 10000 15000 20000 25000 30000
−
0.
10
0.
10
Quando avaliamos pela tabela os coeficientes de regressão do parâmetro µ, percebe-
mos pelo intercepto, que a média deste parâmetro aumentou bastante após o ponto de
Caṕıtulo 5. Aplicações 30
Figura 5.14: Série das estimativas dos coeficientes de regressão para o segundo regime do
rio Paraná.
Tempo
β 0
µ2
0 5000 10000 15000 20000 25000 30000
21
0
22
0
Tempo
β 1
µ2
0 5000 10000 15000 20000 25000 30000
−
4
2
6
Tempo
β 2
µ2
0 5000 10000 15000 20000 25000 30000
6
12
18
Tempo
β 0
σ2
0 5000 10000 15000 20000 25000 30000
3.
55
3.
75
Tempo
β 1
σ2
0 5000 10000 15000 20000 25000 30000
0.
0
0.
2
Tempo
β 2
σ2
0 5000 10000 15000 20000 25000 30000
−
0.
05
0.
20
Tempo
β 0
ξ2
0 5000 10000 15000 20000 25000 30000
−
0.
15
0.
00
Tempo
β 1
ξ2
0 5000 10000 15000 20000 25000 30000
−
0.
20
0.
00
Tempo
β 2
ξ2
0 5000 10000 15000 20000 25000 30000
−
0.
1
0.
1
Figura 5.15: Histogramas dos coeficientes de regressão para o primeiro regime do rio
Paraná.
β0µ1
D
en
si
da
de
128 130 132 134 136 138 140
0.
00
0.
20
β1µ1
D
en
si
da
de
6 8 10 12 14 16 18
0.
00
0.
20
β2µ1
D
en
si
da
de
26 28 30 32 34 36 38 40
0.
00
0.
20
β0σ1
D
en
si
da
de
3.60 3.65 3.70 3.75 3.80
0
10
β1σ1
D
en
si
da
de
0.05 0.10 0.15 0.20 0.25 0.30 0.35
0
4
8
β2σ1
D
en
si
da
de
0.0 0.1 0.2 0.3
0
4
8
β0ξ1
D
en
si
da
de
−0.25 −0.20 −0.15 −0.10 −0.05
0
6
14
β1ξ1
D
en
si
da
de
−0.25 −0.15 −0.05 0.05 0.10
0
4
8
β2ξ1
D
en
si
da
de
−0.15 −0.10 −0.05 0.00 0.05 0.10 0.15
0
6
12
mudança. Já para o parâmetro de escala σ percebemos que os valores dos seus respectivos
coeficientes quase não se alteram de um regime para o outro, revelando que, apesar de ha-
ver mudança no comportamento dos dados após certo momento no tempo, a variabilidade
dos dados permanece praticamente a mesma.
A partir da estrutura de regressão temos a estimação dos parâmetros por imputação,
e com isso, poderemos ver como eles se comportam ao longo do tempo. Na Figura
5.17, temos o primeiro gráfico que mostra que os valores do parâmetro µ aumentaram
Caṕıtulo 5. Aplicações 31
Figura 5.16: Histogramas dos coeficientes de regressão para o segundo regime do rio
Paraná.
β0µ2
D
en
si
da
de
210 215 220 225
0.
00
0.
15
β1µ2
D
en
si
da
de
−5 0 5
0.
00
0.
20
β2µ2
D
en
si
da
de
4 6 8 10 12 14 16 18
0.
00
0.
20
β0σ2
D
en
si
da
de
3.50 3.55 3.60 3.65 3.70 3.75 3.80
0
4
8
β1σ2
D
en
si
da
de
0.0 0.1 0.2 0.3
0
3
6
β2σ2
D
en
si
da
de
−0.05 0.05 0.10 0.15 0.20 0.25 0.30
0
3
6
β0ξ2
D
en
si
da
de
−0.15 −0.10 −0.05 0.00
0
6
12
β1ξ2
D
en
si
da
de
−0.20 −0.15 −0.10 −0.05 0.00 0.05
0
4
8
β2ξ2
D
en
si
da
de
−0.15 −0.10 −0.05 0.00 0.05 0.10 0.15
0
6
12
Tabela 5.2: Estimativas e intervalos de 95% de confiança para os coeficientes de regressão-
rio Paraná.
Regime 1 Regime 2
β0,µ1 = 134, 01 β1,µ1 = 12, 72 β2,µ1 = 32, 50 β0,µ2 = 217, 44 β1,µ2 = 1, 29 β2,µ2 = 11, 34
(130,334 ; 137,556) (8,940 ; 17,003) (28,407 ; 36,508) (213,061 ; 222,137) (-3,277 ; 5,627) (6,597 ; 15,850)
β0,σ1 = 3, 68 β1,σ1 = 0, 18 β2,σ1 = 0, 14 τ = 737 β0,σ2 = 3, 66 β1,σ2 = 0, 19 β2,σ2 = 0, 14
(3,615 ; 3,752) (0,093 ; 0,273) (0,060 ; 0,236) (735 ; 740) (3,588 ; 3,748) (0,073 ; 0,318) (0,034 ; 0,250)
β0,ξ1
= −0, 17 β1,ξ1 = −0, 07 β2,ξ1 = −0, 01 β0,ξ2 = −0, 09 β1,ξ2 = −0, 06 β2,ξ2 = 0, 02
(-0,232 ; -0,116) (-0,159 ; 0,025) (-0,066 ; 0,078) (-0,152 ; -0,028) (-0,138 ; 0,014) (-0,075 ; 0,134)
significativamente de um regime para o outro, sendo os maiores valores, assim como nos
dados do rio Parnáıba, para os primeiros meses do ano. Para o primeiro regime, o mês
de Fevereiro é o mês de maior valor para o parâmetro µ com 168,5367 cm, e para o
segundo regime, é o mês de Março com 228,7953 cm. Após os primeiros meses, temos um
decaimento nos valores de cotas chegando a suas médias mais baixas nos meses de Agosto,
com 99,5020 cm para o primeiro regime, e Setembro com 206,1017 cm para o segundo
regime.
No segundo gráfico da Figura 5.17, vemos como já mencionado anteriormente, o com-
portamento praticamente equivalente do parâmetro de escala nos dois regimes. Também
podemos perceber que estes variam bem menos quando comparamos com os dados do rio
Parnáıba, pois para os dados do rio Paraná há uma amplitude máxima de variação de
18,3810 cm para o primeiro regime, e 19,1804 cm para o segundo. Enquanto que para os
dados do rio Parnáıba a amplitude é bem diferente, sendo 309,9175 cm para o primeiro
Caṕıtulo 5. Aplicações 32
regime e 118,2783 cm para o segundo.
Analisando o parâmetro ξ, temos que a cauda da distribuição GEV é mais pesada
após o ponto de mudança. Ainda podemos perceber que o ξ tem comportamento similar
nos dois regimes, no qual a cauda assume uma forma mais leve para os primeiros meses
do ano, e no decorrer do tempo assume uma forma mais pesada, precisamente nos meses
de Maio e Junho para os dois regimes, e após esses meses volta a ter uma cauda mais leve.
Figura 5.17: Parâmetros µ,σ e ξ variando ao longo do tempo para os dados do rio
Paraná. Linha cheia: primeiro regime; linha tracejada: segundo regime.
Tempo
µ
2 4 6 8 10 12
10
0
12
0
14
0
16
0
18
0
20
0
22
0
Tempo
σ
2 4 6 8 10 12
35
40
45
50
Tempo
ξ
2 4 6 8 10 12
−
0.
20
−
0.
15
−
0.
10
−
0.
05
A partir deste momento, procederemos com as análises para os ńıveis de retorno. Para
a aplicação dos dados do rio Paraná, escolhemos os quant́ıs 90, 95 e 99 por cento, que nos
retornarão respectivamente valores esperados de retorno de cotas máximas do rio a cada
10, 20 e 100 anos.
Na Figura 5.18 temos o gráfico dos ńıveis de retorno a cada 10, 20 e 100 anos nos
dois regimes. Pelo que podemos observar, os ńıveis de retorno após o ponto de mudança
sempre são maiores. E também se percebe comportamentos sazonais semelhantes nos dois
regimes, e como já é caracteŕıstico de resultados anteriormente explanados, os maiores
ńıveis de retorno são para os primeiros meses do ano.
Para os ńıveis de retorno esperados a cada 10 anos, temos pela informação do gráfico,
que os maiores valores são referentes aos primeiros meses, nos quais o mês de Fevereiro
é o de maior retorno, tanto no primeiro como no segundo regime, com valores esperados
de cotas máximas a cada 10 anos de 259,9687 cm e 327,7696 cm respectivamente. Em
Caṕıtulo 5. Aplicações 33
contrapartida, o mês onde se espera o menor ńıvel de retorno diz respeito a Agosto, com
ńıveis esperados a cada 10 anos de 161,7735 cm e 271,5356 cm respectivamente.
Para os ńıveis esperados a cada 20 anos, temos que o comportamento sazonal destes
retornos é bem similar aos ńıveis esperados a cada 10 anos, diferenciando apenas nos
valores, já que se trata da estimação de um quantil bem mais alto que o anterior. Para
este ńıvel de retorno, o mês de Fevereiro ainda é o mês com maior valor de cota máxima
esperada, tanto antes como depois do ponto de mudança, com valores de retorno esperados
a cada 20 anos de 282,2810 cm e 355,6114 cm respectivamente. E o mês onde se espera o
menor valor de cota máxima a cada 20 anos diz respeito a Agosto, com valores de 178,0421
cm e 289,9165 cm.
Em relação aos ńıveis esperados a cada 100 anos, temos que antes do ponto de mudança
o maior ńıvel de retorno esperado se encontrava para o mês de Fevereiro, com o valor de
cota máxima de 323,5123 cm. Após o ponto de mudança, o mês de maior retorno passa
a ser Março com um valor de 412,5335 cm, similar ao mês de Fevereiro com 412.5112.
Em relação aos meses onde se espera os menores ńıveis de retorno, o mês de Agosto é o
que apresenta os menores valores com 209,6852 cm para o primeiro regime, e 328,1337 cm
para o segundo.
Na Figura 5.19 podemos ter uma noção de como esses retornos se distribuem ao longo
do tempo para os dois regimes. Astrês curvas referentes aos retornos a cada 10, 20 e
100 peŕıodos de tempo respectivamente, apresentam comportamento semelhante durante
o ano, mostrando que as caracteŕısticas sazonais foram bem captadas pelos ńıveis de
retorno.
Para finalizar esta aplicação, temos nas Figuras 5.20 e 5.21 o ajuste dos retornos na
série original dos dados de máximos do rio Paraná. A Figura 5.20 apresenta a série dos
retornos para os quant́ıs 90 e 95. Pelo gráfico podemos perceber que as séries de retorno se
adequam muito bem aos dados do rio, mostrando que a variação sazonal foi bem captada
pelos mesmos.
Na Figura 5.21, temos o ajuste do quantil 99, e para este também podemos afirmar
que se conseguiu uma boa captação da variação dos dados pelos retornos. Vale também
chamar atenção ao detalhe que, devido ao banco de dados do rio Paraná estar praticamente
completo para todos os anos, o comportamento sazonal para os ńıveis de retorno está quase
que invariante.
Caṕıtulo 5. Aplicações 34
Figura 5.18: Nı́veis de retorno esperados a cada 10, 20 e 100 anos. À esquerda: retorno a
cada 10 anos; centro: retorno a cada 20 anos; à direita: retorno a cada 100 anos. Linha
cheia: primeiro regime; linha tracejada: segundo regime.
Tempo
R
et
or
no
2 4 6 8 10 12
20
0
25
0
30
0
Tempo
R
et
or
no
2 4 6 8 10 12
20
0
25
0
30
0
35
0
Tempo
R
et
or
no
2 4 6 8 10 12
25
0
30
0
35
0
40
0
Figura 5.19: Nı́veis de retorno esperados a cada 10, 20 e 100 anos para o primeiro e
segundo regime. À esquerda: primeiro regime; à direita: segundo regime. Linha cheia:
retorno a cada 10 anos; linha tracejada: retorno a cada 20 anos; linha pontilhada: retorno
a cada 100 anos.
Tempo
R
et
or
no
2 4 6 8 10 12
15
0
20
0
25
0
30
0
35
0
Tempo
R
et
or
no
2 4 6 8 10 12
28
0
30
0
32
0
34
0
36
0
38
0
40
0
Caṕıtulo 5. Aplicações 35
Figura 5.20: Nı́veis de retorno esperados a cada 10 e 20 anos na série dos máximos do
rio Paraná. Linha tracejada: retorno esperado a cada 10 anos; linha pontilhada: retorno
esperado a cada 20 anos.
Tempo
S
ér
ie
 d
os
 d
ad
os
0 200 400 600 800 1000
10
0
20
0
30
0
40
0
Figura 5.21: Nı́veis de retorno esperados a cada 100 anos na série dos máximos do rio
Paraná. Linha tracejada: retorno esperado a cada 100 anos
Tempo
S
ér
ie
 d
os
 d
ad
os
0 200 400 600 800 1000
10
0
20
0
30
0
40
0
CAṔITULO 6
Conclusões
Este trabalho teve como objetivo apresentar um modelo que oferecesse uma precisão
maior sobre o comportamento de eventos extremos incorporando a sazonalidade como fa-
tor de explicação, servindo também como um aperfeiçoamento do trabalho de Nascimento
e Silva (2017).
Nas duas aplicações aqui apresentadas, o modelo alcançou resultados bem satisfatórios,
onde conseguimos ser precisos em relação aos meses com maiores chances de ocorrência
do evento extremo, como também para os meses em que essa chance é bem pequena,
realçando que o fator sazonal foi crucial para tal precisão do modelo. Entretanto, quando
temos poucas observações para estimarmos os parâmetros mensalmente, pode haver a
ocorrência de superestimação, como ocorreu para os ńıveis de retorno do primeiro regime
dos dados do rio Parnáıba.
Diante disso, temos que o trabalho desenvolvido alcançou os resultados esperados
nos dando expectativas promissoras para posśıveis extensões, em que uma delas seria a
aplicação do modelo em outros tipos de dados, tendo a possibilidade de incorporar outras
informações além da sazonalidade.
36
Referências
[1] B.P. Carlin, A.E. Gelfand, and A.F.M. Smith, Hierarchical Bayesian analysis to
change point problems, Appl. Stat. 41 (1992), pp. 309-405.
[2] Cabras S, Castellanos MA, Gamerman D (2010) A default approach for regres-
sion on extremes. Stat Model (accepted)
[3] Castellanos, M. A. and Cabras, S. (2007). A default Bayesian procedure for the
generalized Pareto distribution. Journal of Statistical Planning and Inference,
137, 473-483.
[4] D. Barry and J.A.Hartingan, A Bayesian analysis for change point problems,
J. Amer. Stat. Assoc. 88 (1993), pp. 309-319.
[5] Coles S. (2001) Introduction to Statistical Modelling of Extreme Values.
Springer.
[6] Chow, Y. S.; Teicher, H. Probability Theory, Independence, Interchangeabi-
lity, Martingales. New York:Springer-Verlag, 1988.
[7] Chaves-Demoulin V, Davison AC (2005) Generalized additive modelling of sam-
ple extremes. Appl Stat 54:207-222
[8] Embrechts, Kluppelberg,and Mikosch, Modelling Extremal Events for Insu-
rance and Finance, Springer-Verlag, Berlim, 1997.
37
Referências 38
[9] Ehlers, R. S. (2007). Inferência bayesiana. Dispońıvel em:<
http://conteudo.icmc.usp.br/pessoas/ehlers/bayes/bayes.pdf> Acesso em: 07
de Outubro de 2017.
[10] Fisher, R. A. e Tippet, L. H. C. (1928) On the estimation of the frequency
distributions of the largest and smallest sumber of a sample, Proceedings of
the Cambridge Philosophycal Society, 24, 180-190
[11] Gabriel Huerta, Bruno Sansó, Time-varying models for extreme values, Sprin-
ger, Environ Ecol Stat (2007) 14:285-299.
[12] Hosking, J. R. M.; Waliis, J. R. Regional Frequency Analysis. [s.l.]: Cambridge
University Press, 1997.
[13] Jenkinson, The frequency distribution of the annual maximum (or mini-
mum) values of meteorological events, Quarterly Journal of the Royal Meteo-
rological Society 81, 158-172, 1955.
[14] Lai, T. L.; Liu, T.; Xing, H. A Bayesian Approach to Sequential Surveillance
in Exponencial Families. Communications in Statistics-Theory and Methods, S.l.,
n 38,p. 2958-2968, 2009.
[15] Mendes, B. V. M. (2004) Introdução a análise de eventos extremos, Rio de
Janeiro, E-papers.
[16] Nascimento FF, Gamerman D, Lopes HF (2011) Regression models for excee-
dance data via the full likelihood. Environ Ecol Stat 18:495-512.
[17] Nascimento, F.F. (2012) Modelos Probabiĺısticos para dados Extremos: Te-
oria e aplicações. In: II COLÓQUIO DE MATEMÁTICA DA REGIÃO NOR-
DESTE, 2012. Teresina, Piaúı. Universidade Federal do Piaúı.
[18] Nascimento, F. F.; Silva, W. V. M. A Bayesian model for multiple change
point to extremes, with application to environmental and financial data.
Journal of Applied Statistics, p.2410-2426, 2017.
[19] Reiss, and Thomas, M. Statistical Analysis of Extreme Values. Birkhauser
Verlag, Basel-Boston-Berlim, 1997.
Referências 39
[20] Smith Extreme Value Theory based on the r largest annual events, J. Hi-
drology, n.86, 27-43, 1986.
[21] Von Mises, R. La distribution de la plus grande de n valeurs, In Selected
Papers, volumell, p. 271-294, American Mathematical Society, 1954.
	Resumo
	Abstract
	Introdução
	Objetivos
	Organização do Trabalho
	Teoria do Ponto de Mudança e Estrutura de Regressão
	Estrutura de Regressão
	Teoria dos Valores Extremos
	Modelagem Univariada de Extremos
	Modelos Probabilísticos para Máximos e Mínimos
	A Distribuição de Valores Extremos Generalizada (GEV)
	Estimação
	Modelo proposto
	Distribuições a Priori
	Distribuição a Posteriori
	Aplicações
	Aplicação 1: rio Parnaíba
	Aplicação 2: rio Paraná
	Conclusões
	Referências