Buscar

Análise de dados extremos: modelos de regressão para pontos de mudança

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 50 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 50 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 50 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Universidade Federal do Piaúı
Centro de Ciências da Natureza
Curso de Graduação em Estat́ıstica
Análise de dados extremos: modelos de regressão
para pontos de mudança
Alan da Silva Assunção
Teresina - 2018
Assunção, Alan da Silva.
Análise de dados extremos: modelos de regressão para pontos de mudança
Alan da Silva Assunção – Teresina: 2018.
Orientador: Prof. Dr. Fernando Ferraz do Nascimento
1. Área de Concentração
Alan da Silva Assunção
Monografia:
Análise de dados extremos: modelos de regressão para pontos
de mudança
Monografia submetida à Coordenação
do Curso de Graduação em Estat́ıstica,
da Universidade Federal do Piaúı, como
requisito parcial para obtenção do grau
de Bacharel em Estat́ıstica.
Orientador:
Prof. Dr. Fernando Ferraz do Nascimento
Teresina - 2018
Agradecimentos
A Deus, Pai Todo-Poderoso, meu Senhor e Rei, pelo seu grande amor incondicional que
se renova todos os dias em minha vida. A Ele toda a honra e toda a Glória para todo o
sempre!
Aos meus pais, por me ensinarem desde cedo a batalhar pelos meu objetivos, e por sempre
me apoiarem mesmo em meio às dificuldades, obrigado por tudo, amo vocês.
Aos meus parentes, principalmente aos meus avós paternos que sempre me ajudaram em
tudo aquilo que necessitei.
Ao meu orientador, professor Fernando, por toda a aprendizagem que obtive, pela con-
fiança em mim depositada e por me incentivar a continuar crescendo.
A minha irmã, por me ajudar na revisão gramatical deste trabalho.
Aos professores do curso de Estat́ıstica, por serem responsáveis pela construção do meu
conhecimento como estat́ıstico e me fazerem amar ainda mais esta ciência que agora tanto
me cativa.
Aos meus amigos, pastores e irmãos em Cristo da Igreja Batista Nova Aliança - Timon, a
companhia e o amor de vocês foram combust́ıveis essenciais para me fazerem chegar até
aqui.
Aos meus colegas de curso que sempre prezaram pelo companheirismo para vencermos as
nossas dificuldades de curso.
1
Resumo
A Teoria dos Valores Extremos (TVE) surgiu na tentativa de prever a frequência com
que eventos extremos ocorrem, dando uma descrição do comportamento destes fenômenos.
Muitos eventos extremos são caracterizados por apresentarem mudança brusca de com-
portamento em algum momento do tempo, situação comum em dados ambientais e finan-
ceiros. As inundações ocasionadas pelo transbordamento de rios são uma dessas muitas
situações onde encontramos, de certa forma, o padrão de comportamento da altura do
ńıvel do rio alterado por alguma influência humana, principalmente pela construção de
uma usina hidrelétrica no leito do mesmo. Assim, propomos um modelo baseado nas
técnicas da TVE que descreva o comportamento de dados extremos referentes a cotas
de rios que apresentem comportamento caracteŕıstico de mudança abrupta, tendo como
aux́ılio uma estrutura de regressão que capte a informação sazonal dos dados utilizando
a distribuição de Valores Extremos Generalizada (GEV). A estimação dos parâmetros é
baseada em abordagem bayesiana por meio de métodos de Monte Carlo via Cadeias de
Markov (MCMC). Com o modelo, calcularemos as estimativas para os pontos de mudança
dos dados, as estimativas mensais dos ńıveis de retorno, como também um panorama para
o comportamento dos parâmetros da GEV ao longo do tempo. Para as aplicações aqui
propostas, os resultados obtidos retratam com precisão os meses em que a ocorrência de
um evento extremo é maior, como também conseguem captar o momento exato em que
os dados tiveram uma mudança brusca de comportamento.
Palavras-Chave: Teoria de valores extremos; Ponto de mudança; Estrutura de re-
gressão; Abordagem bayesiana.
2
Abstract
The Extreme Values Theory (EVT) arose in an attempt to predict the frequency with
which extreme events can occur, giving a description of the behavior of these phenomena.
Many extreme events are characterized by abrupt behavior change at some point in time,
commonplace in environmental and financial data. The floods caused by the overflow
of rivers are one of those many situations where we find, in a certain way, the behavior
pattern of the height of the level of the river altered by some human influence, mainly by
the construction of a hydroelectric plant in the river bed. Thus, we propose a model based
on the EVT techniques that describe the behavior of extreme data referring to riverbanks
that present a behavior characteristic of abrupt change, with the aid of a regression struc-
ture that captures the seasonal information of the data using the distribution of Extreme
Values Generalized (EVG). The estimation of the parameters is based on Bayesian ap-
proach through methods via Markov Chains Monte Carlo (MCMC). With the model, we
will calculate the estimates for the points of change of the data, the monthly estimates of
the levels of return, as well as a panorama for the behavior of the parameters of the EVG
over time. For the applications proposed here, the results obtained accurately portray
the months in which the occurrence of an extreme event is greater, but also capture the
exact moment when the data had a sudden change of behavior.
Keywords: Extreme Values Theory; Change-Point; Regression Structure; Bayesian
Approach.
3
Lista de Figuras
2.1 Máximos mensais do rio Parnáıba. . . . . . . . . . . . . . . . . . . . . . . . 6
5.1 Série dos dados do rio Parnáıba. . . . . . . . . . . . . . . . . . . . . . . . . 20
5.2 Probabilidade dos pontos de mudança para os dados do rio Parnáıba. . . . 21
5.3 Série das estimativas dos coeficientes de regressão para o primeiro regime
dos dados do rio Parnáıba. . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5.4 Série das estimativas dos coeficientes de regressão para o segundo regime
dos dados do rio Parnáıba. . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.5 Histogramas dos coeficientes de regressão para o primeiro regime dos dados
do rio Parnáıba. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.6 Histogramas dos coeficientes de regressão para o segundo regime dos dados
do rio Parnáıba. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.7 Parâmetros µ,σ e ξ variando ao longo do tempo para os dados do rio
Parnáıba. Linha cheia: primeiro regime; linha tracejada: segundo regime. . 24
5.8 Nı́veis de retorno esperados a cada 10 e 20 anos. À esquerda: retorno
esperado a cada 10 anos; à direita: retorno esperado a cada 20 anos. Linha
cheia: primeiro regime; linha tracejada: segundo regime. . . . . . . . . . . 25
5.9 Nı́veis de retorno esperados a cada 10 e 20 anos para o primeiro e segundo
regime. À esquerda: primeiro regime; à direita: segundo regime. Linha
cheia: retorno esperado a cada 10 anos; linha tracejada: retorno esperado
a cada 20 anos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4
Lista de Figuras 5
5.10 Nı́veis de retorno esperados a cada 10 e 20 anos na série dos máximos do
rio Parnáıba. Linha tracejada: retorno esperado a cada 10 anos ; linha
pontilhada: retorno esperado a cada 20 anos. . . . . . . . . . . . . . . . . . 27
5.11 Série dos dados do rio Paraná. . . . . . . . . . . . . . . . . . . . . . . . . . 28
5.12 Probabilidade dos pontos de mudança para os dados do rio Paraná. Linhas
verticais em cor cinza: estimativas dos intervalos de confiança . . . . . . . 29
5.13 Série das estimativas dos coeficientes de regressão para o primeiro regime
do rio Paraná . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.14 Série das estimativas dos coeficientes de regressão para o segundo regime
do rio Paraná. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.15 Histogramas dos coeficientes de regressão para o primeiro regime do rio
Paraná. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305.16 Histogramas dos coeficientes de regressão para o segundo regime do rio
Paraná. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.17 Parâmetros µ,σ e ξ variando ao longo do tempo para os dados do rio
Paraná. Linha cheia: primeiro regime; linha tracejada: segundo regime. . . 32
5.18 Nı́veis de retorno esperados a cada 10, 20 e 100 anos. À esquerda: retorno
a cada 10 anos; centro: retorno a cada 20 anos; à direita: retorno a cada
100 anos. Linha cheia: primeiro regime; linha tracejada: segundo regime. . 34
5.19 Nı́veis de retorno esperados a cada 10, 20 e 100 anos para o primeiro e
segundo regime. À esquerda: primeiro regime; à direita: segundo regime.
Linha cheia: retorno a cada 10 anos; linha tracejada: retorno a cada 20
anos; linha pontilhada: retorno a cada 100 anos. . . . . . . . . . . . . . . . 34
5.20 Nı́veis de retorno esperados a cada 10 e 20 anos na série dos máximos
do rio Paraná. Linha tracejada: retorno esperado a cada 10 anos; linha
pontilhada: retorno esperado a cada 20 anos. . . . . . . . . . . . . . . . . . 35
5.21 Nı́veis de retorno esperados a cada 100 anos na série dos máximos do rio
Paraná. Linha tracejada: retorno esperado a cada 100 anos . . . . . . . . . 35
Lista de Tabelas
5.1 Estimativas e intervalos de 95% de confiança para os coeficientes de re-
gressão-rio Parnáıba. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.2 Estimativas e intervalos de 95% de confiança para os coeficientes de re-
gressão-rio Paraná. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
6
Sumário
Resumo 2
Abstract 3
1 Introdução 1
1.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2 Teoria do Ponto de Mudança e Estrutura de Regressão 3
2.1 Estrutura de Regressão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3 Teoria dos Valores Extremos 7
3.1 Modelagem Univariada de Extremos . . . . . . . . . . . . . . . . . . . . . 8
3.2 Modelos Probabiĺısticos para Máximos e Mı́nimos . . . . . . . . . . . . . . 9
3.2.1 A Distribuição de Valores Extremos Generalizada (GEV) . . . . . . 11
3.3 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4 Modelo proposto 15
4.1 Distribuições a Priori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.2 Distribuição a Posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5 Aplicações 19
5.1 Aplicação 1: rio Parnáıba . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
7
Sumário 8
5.2 Aplicação 2: rio Paraná . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
6 Conclusões 36
Referências 37
CAṔITULO 1
Introdução
Nos últimos anos, diversos fenômenos naturais têm ocorrido causando destruição e
acarretando grandes perdas para a sociedade. Entre eles podemos citar terremotos, fu-
racões, enchentes, que são eventos que causam grandes preocupações para os governos
nas mais diversas nações, principalmente para aquelas que não possuem um sistema de
prevenção eficiente.
Em 2009, no estado do Piaúı, a cidade de Teresina sofreu com a enchente provocada
pela sobre-vazão do rio Poti, que alagou casas, comércios e avenidas, ocasionando também
enorme prejúızo material e monetário, que teve de ser despendido na tentativa de reparar
os estragos provocados por essa catástrofe. Recentemente, devido às fortes chuvas do ińıcio
do ano, as cidades de Codó e Pedreiras no estado do Maranhão foram também afetadas
por enchentes provocadas pelas sobre-vazões dos rios Itapecuru e Mearim respectivamente.
Não é dif́ıcil perceber o quanto seria útil o conhecimento da frequência com que estas
eventualidades ocorrem, evitando grandes danos para a sociedade e contribuindo para o
avanço da qualidade de vida, como também da construção de um meio social mais seguro,
podendo até mesmo servir como direção na busca de medidas que possam contornar os
efeitos destes acontecimentos catastróficos.
Com isso, a Teoria de Valores Extremos tem ganhado cada vez mais espaço na área
estat́ıstica e suas técnicas têm sido de grande importância para as mais diversas áreas,
1
Caṕıtulo 1. Introdução 2
possibilitando resultados mais precisos e maior respaldo para conclusões sobre previsões de
eventos extremos, tornando proṕıcio o conhecimento sobre a dimensão de grandes ganhos
e perdas.
Os primeiros trabalhos em valores extremos são datados do ińıcio do século XX, com
aplicações iniciais na engenharia civil e, posteriormente mais formalizada, em fenômenos
meteorológicos nos EUA. Trabalhos importantes como os de Fisher-Tippet (1928) sobre
a convergência do máximo centrado e padronizado possibilitaram grandes avanços para a
TVE, servindo como um propulsor para o surgimento de modelos mais eficientes.
1.1 Objetivos
Este trabalho tem por objetivo a criação de um modelo de regressão aplicado a valores
extremos que apresentem comportamento caracteŕıstico de pontos de mudança, utilizando
a distribuição de Valores Extremos Generalizada (GEV). Calcularemos quantidades im-
portantes de dados extremos de cotas1 de rios através deste modelo, e verificaremos a
significância da precisão com a inserção da variável sazonal “mês do ano”.
Todo o processo de estimação será feito pelo enfoque bayesiano utilizando o método
de Monte Carlo via Cadeias de Markov (Markov Chain Monte Carlo - MCMC).
1.2 Organização do Trabalho
Este trabalho está organizado da seguinte forma: no Caṕıtulo 2, temos uma abordagem
a respeito da teoria do ponto de mudança, como também da estrutura de regressão e a
combinação destas duas ferramentas no modelo proposto. O Caṕıtulo 3 trata de forma
sucinta a respeito da Teoria dos Valores Extremos na qual apresentamos os primeiros
trabalhos que foram fundamentais no desenvolvimento de modelos aplicados a eventos
extremos, em especial a distribuição GEV.
No Caṕıtulo 4, temos o tratamento da base teórica do modelo proposto neste trabalho
e o enfoque bayesiano utilizado. No Caṕıtulo 5, segue as aplicações do modelo em dados
ambientais de cotas dos rios Parnáıba e Paraná.
E por fim no Caṕıtulo 6, temos as conclusões obtidas através dos resultados deste
modelo.
1Uma cota de rio é a altura da água medida (convencionalmente em cm) em determinado momento.
CAṔITULO 2
Teoria do Ponto de Mudança e Estrutura de Regressão
A Teoria do ponto de mudança é uma ferramenta estat́ıstica que avalia em uma série
de dados o ponto a partir do qual se percebe uma mudança no comportamento da mesma.
Para alguns fenômenos, a existência da mudança de comportamento da distribuição
dos dados é bem mais comum, não sendo tão inesperado em algum momento a série dos
mesmos sofrer uma variação. A exemplo disso, temos os dados ambientais e financeiros.
Analisando cotas de rios, podemos perceber em épocas de chuva um aumento na altura
máxima da água, provocando uma elevação do ńıvel normal devido ao volume adicional
das chuvas naquele determinado peŕıodo. Em dados financeiros, a volatilidade do mercado
de capitais é uma das principais explicações para o surgimento de mudanças abruptas na
série dos dados.
A teoria do ponto de mudança tem sido aplicada com as mais diversas finalidades.
Carlin et al. (1992) desenvolveram a construção de modelos hierárquicos bayesianos de
pontos de mudança para a versão de amostra do tipo não sequencial com aplicações em
estrutura de regressão e processos de Poisson. Barry e Hartigan (1993) propuseram que
para a modelagem de um processo com pontos de mudança, seria necessário, para uma
sequência de parâmetros subjacentes, a existência de blocos cont́ıguos na qual o ińıcio de
cada bloco seria considerado como um ponto de mudança.
Em análise de valoresextremos, Huerta e Sanso (2007) sugeriram um modelo para
3
Caṕıtulo 2. Teoria do Ponto de Mudança e Estrutura de Regressão 4
a predição de valores medidos no tempo e espaço em que os parâmetros da distribuição
de Valores Extremos Generalizada eram a base para o desenvolvimento de tal estrutura.
Utilizando uma ideia parecida, Lai et al. (2009) descreveram um modelo bayesiano para
pontos de mudança considerando os parâmetros variando no tempo e probabilidades a
posteriori de que um ponto de mudança ocorreu em um momento espećıfico. Nascimento
e Silva (2017) propuseram um modelo bayesiano utilizando a distribuição GEV, apli-
cado a dados que apresentam caracteŕısticas t́ıpicas de mudanças abruptas e que possam
apresentar mais de um ponto de mudança.
O modelo proposto neste trabalho estende a abordagem desenvolvida por Nascimento
e Silva (2017), em que os pontos de mudança são considerados parâmetros a serem esti-
mados, e a indicação da quantidade total de pontos de mudança ficará a cargo do modelo
apontando, de acordo com a informação dos dados, em que momento do tempo eles ocor-
rem.
Para construir tal objeção, a abordagem bayesiana é considerada para possibilitar
a estimação dos pontos de mudança. O prinćıpio bayesiano considera a incerteza do
verdadeiro valor do parâmetro através de uma quantidade em forma de distribuição de
probabilidade, denominada distribuição a priori. Esta distribuição a priori unida à quan-
tidade dada à luz dos dados, possibilita a obtenção de outra distribuição (distribuição
a posteriori), que resulta diretamente do teorema de bayes, sendo esta a distribuição de
interesse que permite a possibilidade das estimativas do verdadeiro valor do parâmetro e
de outras quantidades importantes. Ver Ehlers (2007) para mais detalhes.
Uma das grandes vantagens da estrutura bayesiana, é que ela permite uma flexibilidade
a diferentes tipos de dados sem a exigência de um conhecimento aprofundado acerca da
proveniência da distribuição dos dados. Isto será de suma importância, uma vez que este
modelo se aplica a dados que se encaixam nessa situação.
Na obtenção das estimativas dos pontos de mudança, assim como dos demais parâmetros
do modelo, estaremos utilizando técnicas computacionais MCMC. As técnicas MCMC
surgem como uma resposta satisfatória ao problema em que os métodos computacionais
simples (não iterativos1) não conseguem ser eficientes, caso em que a distribuição a poste-
riori assume uma forma bastante complexa. Para esta situação, dispomos de duas técnicas
1Os métodos não iterativos são métodos computacionais de simulação de v.a.s que não necessitam
mais de que um ”passo”para se obter os valores da distribuição de interesse
Caṕıtulo 2. Teoria do Ponto de Mudança e Estrutura de Regressão 5
MCMC muito fortes na literatura estat́ıstica, o Amostrador de Gibbs e o Algoritmo de
Metropolis-Hastings. Neste trabalho, optamos pelo Algoritmo de Metropolis-Hastings na
sua variação em blocos.
2.1 Estrutura de Regressão
Analisar o comportamento de variáveis é um trabalho desenvolvido de forma minu-
ciosa, sendo de grande importância nessas análises o surgimento de uma estrutura que
apresente as principais causas e fatores que possam melhor explicar a distribuição dos
dados da variável em estudo e assim, possibilite o surgimento de um modelo que explique
com maior exatidão as chances de ocorrência do evento de interesse.
Não é dif́ıcil perceber que muitas caracteŕısticas conseguem ser melhor explicadas
quando expostas a presença de outras variáveis. Temos como exemplo, em estudos do
tipo caso controle na área da saúde, a exposição dos grupos de indiv́ıduos (doentes e não
doentes) a um fator de interesse na tentativa de se verificar algum tipo de associação entre
as variáveis.
Em teoria dos valores extremos, podemos citar o exemplo de dados ambientais, em que
o ńıvel de chuva de uma determinada região é intrinsicamente ligado aos efeitos sazonais
das estações do ano. Em dados financeiros, a cotação da moeda esta relacionada a taxa
de juros e ı́ndice de bolsa de valores.
Alguns trabalhos desenvolvidos na análise de extremos que consideram essa relação
de dependência entre as variáveis podem ser citados: Castellanos e Cabras (2007), uti-
lizando dados de chuva, mostraram que os parâmetros da distribuição de Pareto Gene-
ralizada (GPD) se comportam de acordo com a estação do ano; Cabras et al. (2010),
posteriormente, desenvolveram uma estrutura de regresão para os parâmetros da GPD,
considerando dados que iam além de um limite pré-especificado; Nascimento et al (2011)
apresentaram um modelo para análise de valores extremos utilizando a distribuição GPD,
considerando a presença de informações auxiliares. O modelo era composto de uma abor-
dagem não paramétrica para a parte central dos dados, e para a distribuição da cauda um
enfoque bayesiano incumbido através de um modelo de regressão para explicar a variação
dos excessos.
Assim como foi abordado nos resultados de Nascimento et al. (2011), será considerado
Caṕıtulo 2. Teoria do Ponto de Mudança e Estrutura de Regressão 6
para este trabalho um modelo de regressão para a estimação dos parâmetros da GEV,
que contará com a informação do mês do ano no preditor linear. O fator sazonal é um
forte indicador da variabilidade que os dados sofrem ao longo do ano. Com isso, o modelo
captará essa variação de acordo com a sazonalidade apresentada pelo mês, possibilitando
resultados mais precisos, e consequentemente predições mais confiáveis.
Temos como exemplo, para os dados de cotas do rio Parnáıba, parte da série dos
máximos mensais apresentada na Figura 2.1. Pelo gráfico, percebemos como os dados
apresentam um comportamento cicĺıco, nos revelando a caracteŕıstica sazonal presente
nos mesmos, mostrando ainda que o comportamento dos máximos é extremamente ligado
à sazonalidade.
Com os pontos de mudança, temos a formação dos regimes. Esta informação anúıda
a estrutura de regressão, possibilitará que seja constrúıdo em cada regime, o ajuste da
distribuição GEV com os parâmetros variando ao longo do tempo, ou seja, teremos uma
estrutura que nos permitirá ter um modelo mais senśıvel a qualquer variação que os dados
possam sofrer, de acordo com a informação advinda dos meses.
O enfoque bayesiano, como mencionado na seção anterior, será abordado para es-
timação dos coeficientes de regressão, onde as distribuições a priori serão atribúıdas aos
coeficientes e não aos parâmetros do modelo propriamente ditos. A partir das estimativas
dos coeficientes, os parâmetros podem ser obtidos por imputação.
Figura 2.1: Máximos mensais do rio Parnáıba.
Tempo
D
ad
os
0 50 100 150 200 250 300 350
30
0
40
0
50
0
60
0
70
0
CAṔITULO 3
Teoria dos Valores Extremos
A teoria dos valores extremos (TVE) é um conjunto de ferramentas estat́ısticas que tem
crescido muito ultimamente e estado bem presente em muitas áreas. São técnicas baseadas
em dados históricos e que fundamentam-se em fazer estimativas daquilo que é invulgar por
meio de modelos desenvolvidos sobre propriedades assintóticas . Tecnicamente, a TVE
é um segmento da probabilidade que estuda o comportamento estocástico de extremos
ligados a um conjunto de variáveis aleatórias (ou vetores aleatórios) com distribuição
comum F (Mendes (2004)).
Tendo achados de suas primeiras utilizações no ińıcio do século XX, as aplicações
formais de extremos surgiram para a modelagem de fenômenos meteorológicos envolvendo
dados de precipitação máxima e ńıveis anuais de inundação nos Estados Unidos, sendo
estes apenas alguns dos casos nos quais se aplica as técnicas da TVE, podendo ainda citar
entre outras situações, dados pluviométricos, vazão de rios, temperaturas máximas, dados
financeirosetc.
Em análise de extremos, temos como foco principal a caracterização das caudas (infe-
rior e superior), baseada em uma abordagem probabiĺıstica que garante uma extrapolação
para estimativas de ńıveis mais altos que os já observados, sendo esta abordagem proṕıcia
ao surgimento de diversos modelos que se adequam a inúmeras situações, desde as mais
comuns até as mais extraordinárias.
7
Caṕıtulo 3. Teoria dos Valores Extremos 8
A vantagem dessa abordagem é a possibilidade de incorporação de informações im-
portantes para o evento em estudo, tornando a incerteza do modelo ainda menor. Um
exemplo disso são as utilizações de estrutura de regressão para caracterizar as caudas
extremas de FX, permitindo a construção de um modelo robusto e mais preciso como no
trabalho de Nascimento et al. (2011).
3.1 Modelagem Univariada de Extremos
Deste momento em diante serão apresentadas a modelagem probabiĺıstica e a inferência
estat́ıstica para a distribuição de extremos. Em outras palavras, estaremos expondo
técnicas que tem como finalidade a lapidação de um modelo que expresse da melhor
forma posśıvel o comportamento dos dados.
Por definição, eventos extremos são escassos, sendo necessário para esta situação muita
cautela no desenvolvimento de um modelo para descrever o comportamento destes even-
tos. De ińıcio, estes fenômenos eram modelados por distribuições paramétricas conhecidas
como Normal e Gama. Mas eventos extremos tem a caracteŕıstica de terem caudas pesa-
das, o que não é ponto forte nestas distribuições. Por conta disso, Coles (2001) apresenta
pontos importantes na implementação estat́ıstica como complemento ao desenvolvimento
de modelos adequados para extremos, tornando as estimativas mais fidedignas.
Os resultados que se seguem são fundamentos que compõe a parte clássica da Teoria
dos Valores Extremos na qual o comportamento estat́ıstico do máximo é o alicerce de toda
a teoria. E dentro dessa perspectiva, o teorema de Fisher-Tippet (1928) é sem dúvida um
dos resultados mais importantes, especificando a forma da distribuição limite do máximo
em blocos de tamanho n.
A distribuição do máximo é de suma importância para a TVE, pois é a base para poder
caracterizar a cauda da distribuição FX. Em teoria, este máximo Mn = max(X1, . . . ,Xn)
para n variáveis aleatórias i.i.d.’s1 pode ser obtido da seguinte forma
FMn = P{Mn 6 y} = P{max(X1, . . . ,Xn) 6 y} = P{X1 6 y,X2 6 y, . . . ,Xn 6 y}
=
n∏
i=1
P{Xi 6 y} = (P{X 6 y})
n = (FX(y))
n (3.1)
para x ∈ R e n ∈ N.
1i.i.d.’s - Independentes e identicamente distribúıdas
Caṕıtulo 3. Teoria dos Valores Extremos 9
E para se obter a distribuição do mı́nimo, temos um procedimento semelhante
FM1 = P(M1 < y) = P(min(X1,X2, ...,Xn) < y) = 1 − P(min(X1,X2, ...,Xn) > y)
= 1 − P(X1 > y,X2 > y, ...,Xn > y) = 1 −
n∏
i=1
P(Xi > y) (3.2)
= 1 − (1 − FX(y))
n.
Em situações práticas, podemos também multiplicar os dados por -1 e analisar os
máximos, uma vez que os resultados para o máximo se aplicam facilmente a estudos
que tenham interesse na distribuição do mı́nimo. Por exemplo, em dados financeiros
podeŕıamos estar interessados no valor mı́nimo de retorno diário de cada mês.
3.2 Modelos Probabiĺısticos para Máximos e Mı́nimos
Para podermos especificar de forma exata a distribuição do máximo, o conhecimento
da distribuição FX é imprescind́ıvel. O problema é que nem sempre dispomos de tal
conhecimento, sendo necessário meios alternativos de técnicas estat́ısticas que nos levem
a uma estimação de FX que possa ser substitúıda no resultado da expressão 3.1.
Mas mesmo dispondo de técnicas na literatura estat́ıstica que nos dêem tal estimação
para FX, tal procedimento não é muito adequado, devido ao fato de que pequenas dis-
crepâncias na estimação de FX podem levar a resultados distorcidos do máximo FMn ,
prejudicando a credibilidade de toda a inferência feita nos dados.
Para contornar esta debilidade de estimação da distribuição FMn , Fisher e Tippett
(1928) desenvolveram um resultado que possibilitou um grande avanço para a teoria de
valores extremos. Com este resultado temos que, independente da distribuição de Fx,
há famı́lias aproximadas para FMn que podem ser estimadas apenas com base em uma
renormalização linear do máximo Mn, semelhante à prática usual de convergência de
somas de variáveis aleatórias para a distribuição Normal, garantida pelo Teorema Central
do Limite (TCL).
Para entendermos melhor o que está sendo aplanado, é necessário a apresentação da
seguinte definição, conhecida como limite superior do suporte da distribuição FX, aqui
denotado por xFX
xFX = sup{x ∈ R : FX(x) < 1}.
Esta definição implica que os valores de máximo são aqueles que estão próximos do
Caṕıtulo 3. Teoria dos Valores Extremos 10
limite superior da distribuição FX. Então temos para x < xFx que (F(x))
n −→ 0 quando
n −→ ∞, e xFx < ∞ e x > xFx temos (FX(x))n = 1, apontando para a convergência
do máximo Mn em probabilidade para xFx . O lema de Chow e Teicher (1988) pode ser
utilizado como prova deste resultado.
Com isso, temos que, para conhecer FMn é também necessário o conhecimento de FX,
que muitas vezes é desconhecido. E mesmo conhecendo FX, quando n −→∞, (FX(x))n é
degenerado, não sendo muito útil. Então, para superar esta dificuldade, temos a seguir a
renormalização linear de Mn que proporcionou o desenvolvimento de distribuições limites
para FMn
M∗n =
Mn − dn
cn
.
A padronização de Mn, centrado e normalizado, elimina o obstáculo de degeneração
anteriormente explanado, sendo apenas necessária a seleção apropriada das constantes
cn > 0 e dn tal que haja uma estabilização em M
∗
n a medida que n aumenta. Restando
somente a escolha de uma distribuição limite para M∗n.
A vantagem é que na TVE estas distribuições limites, também conhecidas como distri-
buições de valores extremos, são as únicas formas resultantes para M∗n e independem da
distribuição subjacente FX. O teorema a seguir atribúıdo a Fisher e Tippett dá a noção
desta ideia, envolvendo toda a gama posśıvel de distribuições para M∗n
Teorema 1 (Fisher-Tippett (1928)). Seja (Xn) uma sequência de v.a.s
2 i.i.d’s Se existi-
rem uma sequência de constantes normalizadoras cn > 0 e dn, e uma função não dege-
nerada H, onde dn ∈ R e
Mn − dn
cn
d−→ H,
converge em distribuição para H. Então H é do tipo de uma destas três distribuições f.d.:
Gumbel : HI(x) = exp{exp(−x)}, x ∈ R (3.3)
Fréchet : HII(x) = 0, x > 0, ξ > 0 (3.4)
exp(−x−ξ), x > 0, ξ > 0
Weibull : HIII(x) = exp{−(−x
−ξ)}, x 6 0, ξ 6 0, (3.5)
1, x > 0, ξ < 0.
A prova deste teorema pode ser encontrada em Embrechts et al. (1997).
2v.a. - variáveis aleatórias
Caṕıtulo 3. Teoria dos Valores Extremos 11
3.2.1 A Distribuição de Valores Extremos Generalizada (GEV)
Anteriormente vimos no resultado de Fisher-Tippet (1928) que as três distribuições de
valores extremos são as únicas formas de distribuições limite para os máximos em blocos
de tamanho n.
Estas distribuições no entanto apresentam formas bem distintas de comportamento
para dados extremos. Coles (2001) aponta fraquezas atreladas ao método inicial adotado
nas primeiras aplicações de dados extremos, entre elas a escolha individual por uma das
três distribuições, realçando a necessidade de uma distribuição que as unificasse em uma
única famı́lia de distribuições.
As três distribuições de valores extremos descritas em (3.3), (3.4) e (3.5) são apre-
sentadas como partes de uma única famı́lia de distribuições: a distribuição de Valores
Extremos Generalizada (GEV). Ela engloba as três distribuições de valores extremos an-
teriormente apresentadas no teorema de Fisher-Tippet. Proposta por Von Mises (1954)
e Jenkinson (1955), esta função tem a seguinte expressão:
H(y|ξ,σ,µ) =
exp
{
−
(
1 + ξ
(
(y−µ)
σ
))− 1ξ}
se ξ 6= 0
exp
{
−exp
{
−
(
(y−µ)
σ
)}}
se ξ = 0
(3.6)
definida em {y : 1 − ξ(y − µ)/σ > 0}. A distribuição GEV é definida pela presença
de três parâmetros satisfazendo as seguintes condições: um parâmetro de localização
−∞ < µ <∞, um de escala σ > 0 e um de forma −∞ < ξ <∞.
O parâmetro de forma ξ pode ser usado para modelar diversas formas de comporta-
mento. Quando ξ ≈ 0 a distribuição GEV assume a forma da distribuição Gumbel. Os
casos de ξ > 0 ou ξ < 0 correspondem às distribuições Weibull ou Fréchet respectiva-
mente.
A adoção de uma única distribuição de valor extremo ajuda na implementação es-
tat́ıstica de extremos, pois os próprios dados determinam que tipo de comportamento a
cauda necessita, não sendo necessário nenhum tipo de julgamento a priori para a escolha
de uma distribuição espećıfica.
Em situações práticas, os dados originais x1, x2, . . . , xr são organizados em sequências
de tamanho n suficientemente grande, e para cada sequência é obtido o máximo, gerando
uma amostra k de máximos Mn1,Mn2, . . . ,Mnk, que é modelada de acordo com a dis-
tribuição GEV. O agrupamento dos dados, por exemplo, pode ser feito em meses ou anos
Caṕıtulo 3. Teoria dos Valores Extremos 12
sendo os dados originais diários, modelando assim máximos mensais ou anuais segundo a
distribuição GEV. A escolha de n contudo, deve ser feita com cuidado, pois há situações
em que este detalhe pode ser um problema, como mostra Coles (2001), Seção 3.3.
Outra quantidade bastante utilizada é a obtenção de estimativas de quant́ıs extremos.
Esta quantidade está na mesma escala dos dados, e sua interpretação dependerá de como
foram definidos os blocos de tamanho n. Para se obter estimativa de quant́ıs extremos,
invertemos a equação (3.6), fazendo zp = H
−1(1 − p), obtendo a seguinte expressão
zp =
 µ− σξ [1 − (−log(1 − p))−ξ], se ξ 6= 0µ− σlog(−log(1 − p)), se ξ = 0
onde H(zp) = 1 − p. O quant́ıl zp é conhecido na análise de extremos como ńıvel de
retorno relacionado ao peŕıodo 1/p, sendo interpretado como o valor esperado que os
dados originais ultrapassem a quantidade zp pelo menos uma vez a cada 1/p peŕıodos de
tempo. Com a quantidade zp podemos também construir gráficos de ńıveis de retorno,
que por sua fácil interpretação e forte relação com os parâmetros do modelo, são bem
adequados para a apresentação e validação do mesmo.
3.3 Estimação
O surgimento da distribuição GEV possibilitou um grande avanço na modelagem de
eventos extremos. Sua adequação pressupõe que os dados da amostra, coletados e agru-
pados em blocos de tamanho n, sejam i.i.d’s seguindo uma distribuição GEV. A definição
do tamanho do bloco é uma questão a ser decidida com bastante cautela, mediante um
conhecimento aprofundado dos dados em estudo e dos objetivos do pesquisador.
A questão da independência dos dados, suposição necessária para aplicação da dis-
tribuição GEV, poderia ser um problema cŕıtico, uma vez que muitos processos f́ısicos
originam variáveis dependentes entre si. Mas mesmo havendo dependência, pelas propri-
edades de estacionariedade, há garantia que as caracteŕısticas estocásticas do processo
permaneçam as mesmas ao longo do tempo. Para mais detalhes veja Coles (2001).
Após todas essas definições, para que a distribuição GEV possa ser ajustada aos dados,
a estimação dos parâmetros (µ,σ, ξ) é requisito necessário para obtenção de estimativas e
de quantidades de interesse. Devido a isso, muitos métodos surgiram ao longo do tempo.
Mendes (2004) apresenta as seguintes sugestões de estimação: método dos Momentos
Caṕıtulo 3. Teoria dos Valores Extremos 13
(Reiss e Thomas [1997]), método da Máxima Verossimilhança (Embrechts et al. [1997]),
método da Regressão (Reiss e Thomas [1997]) e o método dos L-momentos (Hosking e
Wallis [1997]), além de procedimentos gráficos e métodos emṕıricos.
Apesar de termos dispońıveis tantas opções, abordaremos a estimação via método da
máxima verossimilhança por apresentar ótimas propriedades assintóticas e boa adaptação
a modelos complexos. Vale ressaltar que para aplicar a estimação por máxima verossi-
milhança - EMV, algumas condições de regularidade devem ser satisfeitas para que as
propriedades assintóticas sejam adequadas.
Smith (1984) estudou os casos em que os estimadores de máxima verossimilhança
existem, e chegou às seguintes situações:
• quando ξ > −1
2
os EMV existem, e satisfazem as propriedades assintóticas;
• quando ξ < −1 os EMV não existem.
A questão cŕıtica que afetaria a existência e as propriedades assintóticas dos EMV
para aplicação de modelos extremos, só ocorreria para situações em que ξ < −1/2. Mas
circunstâncias como essas indicam casos onde a cauda da distribuição é muito limitada,
o que na prática normalmente não ocorre, já que eventos extremos tem a caracteŕıstica
de terem caudas pesadas.
Considerando a seguinte amostra de máximos em blocos Z1, . . . ,Zk v.a i.i.d com distri-
buição GEV, temos a seguir a função da log-verossimilhança para a equação (3.6) quando
ξ 6= 0
l(µ,σ, ξ) = −klog(σ) − (1 + 1/ξ)
k∑
i=1
log
[
1 + ξ
(
zi−µ
σ
)]
−
k∑
i=1
[
1 + ξ
(
zi−µ
σ
)]−1/ξ
,
(3.7)
válida para toda a configuração de parâmetros que atendem a essa restrição 1+ξ
(
zi−µ
σ
)
>
0, para todo i = 1, . . . ,k.
Quando ξ = 0 ou ξ ≈ 0, utiliza-se como distribuição limite a forma da distribuição
Gumbel, caso particular da distribuição GEV. Assim obtemos a seguinte função de log-
verossimilhança
l(µ,σ) = −klog(σ) −
k∑
i=1
(
zi − µ
σ
)
−
k∑
i=1
exp
[
−
(
zi − µ
σ
)]
. (3.8)
Caṕıtulo 3. Teoria dos Valores Extremos 14
Para obtenção dos estimadores de (µ,σ, ξ) restaria apenas proceder com a maxi-
mização do par de equações (3.7) e (3.8) em relação aos seus respectivos parâmetros.
Contudo, não é posśıvel maximizar estas equações analiticamente, sendo necessária a
utilização de métodos iterativos de aproximação numérica para obter os estimadores.
Em condições regulares, os EMV assumem assintoticamente uma distribuição Normal
multivariada permitindo, a partir deste ponto, a construção de intervalos de confiança e
demais formas de inferência que seguem imediatamente da normalidade aproximada dos
estimadores. Com as estimativas dos parâmetros, também podemos fazer inferência dos
ńıveis de retorno ẑp esperado em t peŕıodos de tempo. Assim, temos a seguinte forma
ẑp =
 µ̂− σ̂ξ̂ [1 − (−log(1 − p))−ξ̂] se ξ 6= 0µ̂− σ̂log(−log(1 − p)), se ξ = 0.
Quando ξ̂ < 0 temos o caso em que a distribuição é limitada superiormente, fato im-
portante, pois assim podemos fazer inferência do valor máximo dos dados da seguinte
forma
ẑ0 = µ̂−
σ̂
ξ̂
.
CAṔITULO 4
Modelo proposto
A finalidade deste modelo é oferecer uma precisão maior sobre as probabilidades da
realização de um evento extremo por meio da distribuição GEV, auxiliada por uma es-
trutura de regressão. O modelo desenvolvido tem uma estrutura dinâmica que possibilita
a modelagem do comportamento dos dados mediante a utilização da informação do mês,
tendo como novidade a captação de mudanças abruptas que ocorrem no comportamento
dos dados. Combinando estas duas ferramentas, buscamos apresentar um modelo abran-
gente ao máximo de informações que os dados dispõem.
Para tornar mais claro o foco deste trabalho, considere a ilustração de um conjunto de
dados que apresente l pontos de mudança. Então para esta série de dados teŕıamos l+ 1
regimes diferentes, sendo cada um deles modelados por uma distribuição GEV ajustada
com parâmetros estimados via modelos de regressão variando mensalmente. Em outras
palavras, teremos ajustes mensais da GEV, em vez de um único modelo para todo regime.
Os parâmetros (µ,σ e ξ), que podem ter covariáveisem comum, serão descritos através
de uma estrutura de regressão, sendo zµ, zσ e zξ os vetores de covariáveis p-dimensionais
de cada um deles, com o primeiro componente de cada um desses vetores sendo iguais a
1 para pertmitir a inclusão do intercepto nas estruturas de regressão do modelo. Com
isso, para os parâmetros da GEV teremos uma matriz 3 x p de coeficientes de regressão
composta pelos vetores βµ,βσ e βξ, com βµ = (βµ,0, . . . ,βµ,p)
′, βσ = (βσ,0, . . . ,βσ,p)
′
15
Caṕıtulo 4. Modelo proposto 16
e βξ = (βξ,0, . . . ,βξ,p)
′ para cada um dos regimes, onde cada linha desta matriz está
associada a cada um dos parâmetros µ,σ, e ξ.
Para cada parâmetro teremos uma função de ligação que o une ao seu respectivo
preditor linear. Neste modelo, optamos por uma transformação na função de ligação dos
parâmetros ξ e σ, que terão as seguintes formas:
t(µ,σ, ξ) = f(µ,σ∗, ξ∗) onde, σ∗ = logσ e ξ∗ = log(ξ+ 1). (4.1)
Optando por esta reparametrização, os componentes (βξ,βσ) são ortogonais (Chaves-
Demoulin e Davison [2005]), o que irá facilitar o cálculo das densidades a priori conjunta
π(βξ,βσ).
Com isso, considere um conjunto de dados Y1, . . . ,Yr que possam ser ordenados em
tamanhos de bloco n, obtendo uma amostra k de máximos X1, . . . ,Xk. Para esta amostra,
considere a presença de l pontos de mudança τ1, . . . , τl. Então temos para a modelagem
dos máximos a seguinte densidade proposta para a distribuição GEV:
h(x|µ,σ, ξ, τ) =

h(xi|µ1,i,σ1,i, ξ1,i) se i 6 τ1,
h(xi|µ2,i,σ2,i, ξ2,i) se τ1 < i 6 τ2,
. . . . . . . . .
h(xi|µ(l+1),i,σ(l+1),i, ξ(l+1),i) se τl < i 6 k,
(4.2)
onde h(.) é a densidade da GEV (obtida a partir da derivada da equação 3.6) no regime
j, com j = 1, . . . , l + 1. Com essa densidade, temos os parâmetros µj,i,σj,i e ξj,i dados
pela seguinte estrutura:
µi,j = β
′
µ,jzi,µ
σi,j = exp(β
′
σ,jzi,σ)
ξi,j = exp(β
′
ξ,jzi,ξ) − 1
(4.3)
em que βµ,βσ e βξ são os vetores com os coeficientes de regressão, zµ,i, zσ,i e zξ,i são
os vetores de covariáveis dos parâmetros µ,σ e ξ respectivamente, que podem ou não ter
covariáveis em comum.
Com isso, a partir de uma amostra obtida da densidade descrita em 4.2, temos a
seguinte função de verossimilhança:
L(µ,σ, ξ, τ|x) =
τ1∏
i=1
h(xi|µ1,i,σ1,i, ξ1,i)
τ2∏
i=τ1+1
h(xi|µ2,i,σ2,i, ξ2,i), . . . , (4.4)
k∏
i=τl+1
h(xi|µ(l+1),i,σ(l+1),i, ξ(l+1),i).
Caṕıtulo 4. Modelo proposto 17
Percebe-se que a função de verossimilhança pode ser particionada individualmente
para cada regime de acordo com os pontos de mudança da série.
4.1 Distribuições a Priori
Para este modelo, as distribuições a priori não serão atribúıdas diretamente aos parâmetros,
mas sim aos coeficientes de seus preditores lineares, e por imputação obter a estimação
de (µj,m,σj,m, ξj,m), com j = 1, . . . , l+ 1 e m = 1, . . . , 12, para cada regime.
Como temos um conjunto de vetores βµ, βσ e βξ para cada regime, aplicaremos as
mesmas distribuições a priori em cada um deles. Para os parâmetros da distribuição GEV
temos as seguintes distribuições a priori, referentes ao intercepto e demais parâmetros
respectivamente: βµ0 ∼ N(0,Vβµ0 ) e βµi ∼ N(0,Vβµi ) para µ; βσ0 ∼ N(0,Vβσ0 ) e βσi ∼
N(0,Vβσi ) para o σ; βξ0 ∼ N(0,Vβξ0 ) e βξi ∼ N(0,Vβξi ) referente ao ξ, com i = 1, . . . ,p.
Assim, temos a proporcional das distribuições a priori dos coeficientes de regressão
dos parâmetros da GEV em cada regime:
p(βµi) ∝ exp
(
β2µ0
2Vβµ0
+
p∑
i=1
(
β2µi
2Vβµi
))
(4.5)
p(βσi) ∝ exp
(
β2σ0
2Vβσ0
+
p∑
i=1
(
β2σi
2Vβσi
))
(4.6)
p(βξi) ∝ exp
(
β2ξ0
2Vβξ0
+
p∑
i=1
(
β2ξi
2Vβξi
))
(4.7)
com i = 1, . . . ,p.
Para os pontos de mudança, por não saber a exatidão de quando ocorrem, estipulamos
uma distribuição a priori uniforme discreta com a restrição τ1 < τ2 < . . . < τk como
mostra Nascimento e Silva (2017).
Um fato interessante é que como não se tem muita informação dos verdadeiros valores
dos parâmetros, caso bastante comum em inferência bayesiana, as distribuições a priori
são escolhidas de tal forma que representem este desconhecimento, em outras palavras,
os hiperparâmetros 1 de escala e locação são normalmente adotados com variância alta
e média qualquer. Para a nossa situação, atribúımos valores de média zero e variância
razoavelmente grande para as distribuições a priori.
1Hiperparâmetros são os parâmetros da distribuição a priori
Caṕıtulo 4. Modelo proposto 18
4.2 Distribuição a Posteriori
Com as distribuições a priori descritas na seção anterior e a verossimilhança dada em
4.3, temos os elementos necessários para obtenção da distribuição a posteriori. Para cada
regime j = 1, . . . , l+ 1 temos a seguinte proporcional da posteriori:
p(µj,i,σj,i, ξj,i|τ, θ−j, x) ∝
τj∏
i=τj−1+1
h(xi|µj,i,σj,i, ξj,i)p(βµj ,βσj ,βξj) (4.8)
em que θ−j representa o conjunto de vetores (βµi ,βσi ,βξi) exceto quando i = j. Para
proceder com a amostragem dos pontos de mudança, temos a seguinte distribuição a
posteriori, abordada por Carlin et al. (1992) e generalizada por Nascimento e Silva
(2017):
P(τj = i|τ−j, θi, x) =
h(xi|βµj ,βσj ,βξj)∑τj+1−1
l=τj−1+1
h(xj|βµj ,βσj ,βξj)
, i = τj−1 + 1, . . . , τj+1 − 1. (4.9)
Para as equações (4.8) e (4.9), utilizamos a notação τ0 = 0 e τl+1 = k para o primeiro
e último regimes. O MCMC, como já mencionado neste trabalho, será o de Metropolis-
Hastings em bloco, onde cada parâmetro será estimado individualmente (um em cada
bloco).
CAṔITULO 5
Aplicações
Este caṕıtulo destina-se à aplicação do modelo proposto. Para isto, dispomos de dois
bancos de dados referentes a cotas de rios (medidas em cm), sendo um deles, dados do rio
Parnáıba e o outro do rio Paraná. Estes dados foram obtidos da base de dados hidrológicos
de cotas (ńıvel d’água) fluviométricas, proveniente da rede hidrometereológica de respon-
sabilidade da ANA (Agência Nacional de Águas), utilizando o sistema de Informações
Hidrológicas-HidroWeb (http://hidroweb.ana.gov.br/).
5.1 Aplicação 1: rio Parnáıba
O rio Parnáıba está localizado no nordeste brasileiro possuindo cerca de 1700 km de
extensão, servindo de divisa entre os estados do Maranhão e Piaúı. Próximo a região do
munićıpio de Guadalupe no Piaúı, temos a usina hidrelétrica de Boa Esperança inaugurada
em 1970, e atualmente represa cerca de cinco bilhões de metros cúbicos de água, sendo
uma das maiores do nordeste ocidental.
Os dados dispońıveis para o rio Parnáıba são um conjunto de máximos mensais num
total de 413 observações, coletados no peŕıodo de primeiro de Julho de 1963 a primeiro
de Agosto de 2012, no qual vale ressaltar a existência de dados faltantes por motivos não
elucidados. Na Figura 5.1 temos a série dos dados na qual podemos perceber visivelmente
que esta em algum momento do tempo sofre uma mudança. Para esta situação, aplica-
19
Caṕıtulo 5. Aplicações 20
remos o modelo proposto e verificaremos a estimação obtida para o valor do ponto de
mudança, assim como as estimativas dos coeficientes de regressão e, consequentemente, o
ajuste da GEV com os parâmetros variando ao longo do tempo para cada regime.
Figura 5.1: Série dos dados do rio Parnáıba.
Tempo
M
áx
im
os
 m
en
sa
is
0 100 200 300 400
10
0
20
0
30
0
40
0
50
0
60
0
70
0
Na Figura 5.2 temos que o valor estimado para o ponto de mudança foi de 63, valor
referente à observação de 01 de Outubro de 1969, ano que antecede a inauguração da
usina hidrelétrica de Boa Esperança, revelando que após a construção da usina os dados
passaram a ter outro comportamento.
Com o ponto de mudança temos a formação dos regimes, e com isso, podemos estimar
os coeficientes de regressão. Para as aplicações apresentadas neste caṕıtulo contaremos
com duas covariáveis que serão comuns na estrutura de regressão dos parâmetros µ,σ e
ξ, às quais foram aplicadastransformações trigonométricas para captar o comportamento
sazonal dos dados, como no trabalho de Nascimento et al. (2011), z1 = cos(
2πm
12
) e
z2 = sin(
2πm
12
), em que m é o mês.
A partir disso, temos nas Figuras 5.3 e 5.4 a série das estimativas dos coeficientes de
regressão de cada um dos parâmetros (µ,σ e ξ) da distribuição GEV nos dois regimes.
Podemos perceber que os valores de alguns coeficientes como β1,µ1 ,β2,µ1 ,β1,σ1 ,β0,ξ1 ,β1,ξ1
e β2,ξ1 para o primeiro regime e β1,σ2 ,β0,ξ2 ,β1,ξ2 e β2,ξ2 para o segundo regime, se com-
portam em torno de intervalos nos quais o valor zero está incluso, o que nos levaria a
duvidar da significância destes coeficientes para o modelo. Mas, de acordo com as Figura
Caṕıtulo 5. Aplicações 21
Figura 5.2: Probabilidade dos pontos de mudança para os dados do rio Parnáıba.
0.
0
0.
1
0.
2
0.
3
0.
4
0.
5
τ
P
ro
ba
bi
lid
ad
es
63 64 65 66 67 68
Figura 5.3: Série das estimativas dos coeficientes de regressão para o primeiro regime dos
dados do rio Parnáıba.
Tempo
β 0
µ1
0 5000 10000 20000 30000
60
90
Tempo
β 1
µ1
0 5000 10000 20000 30000
−
5
5
Tempo
β 2
µ1
0 5000 10000 20000 30000
−
5
5
Tempo
β 0
σ1
0 5000 10000 20000 30000
3.
8
4.
4
Tempo
β 1
σ1
0 5000 10000 20000 30000
−
0.
2
0.
6
1.
2
Tempo
β 2
σ1
0 5000 10000 20000 30000
0.
8
1.
4
Tempo
β 0
ξ1
0 5000 10000 20000 30000
−
0.
8
0.
0
Tempo
β 1
ξ1
0 5000 10000 20000 30000
−
1.
0
0.
0
Tempo
β 2
ξ1
0 5000 10000 20000 30000
−
1.
0
0.
0
5.5 e 5.6, vemos pelos histogramas destes coeficientes que eles estão distribúıdos em torno
de valores diferentes de zero, apesar de serem bem próximos.
Na Tabela 5.1 temos os valores estimados para os coeficientes de regressão e os respec-
tivos intervalos de confiança. Pela tabela, percebemos que os coeficientes de regressão do
parâmetro de locação µ tiveram mudanças consideráveis de um regime para o outro, mos-
trando que a mudança no comportamento dos dados ocasionou um aumento significativo
Caṕıtulo 5. Aplicações 22
Figura 5.4: Série das estimativas dos coeficientes de regressão para o segundo regime dos
dados do rio Parnáıba.
Tempo
β 0
µ2
0 5000 10000 20000 30000
28
0
29
5
31
0
Tempo
β 1
µ2
0 5000 10000 20000 30000
5
15
Tempo
β 2
µ2
0 5000 10000 20000 30000
5
15
25
Tempo
β 0
σ2
0 5000 10000 20000 30000
3.
9
4.
1
4.
3
Tempo
β 1
σ2
0 5000 10000 20000 30000
−
0.
1
0.
2
Tempo
β 2
σ2
0 5000 10000 20000 30000
0.
6
0.
9
Tempo
β 0
ξ2
0 5000 10000 20000 30000
−
0.
25
0.
00
Tempo
β 1
ξ2
0 5000 10000 20000 30000
−
0.
3
0.
0
Tempo
β 2
ξ2
0 5000 10000 20000 30000
−
0.
1
0.
1
Figura 5.5: Histogramas dos coeficientes de regressão para o primeiro regime dos dados
do rio Parnáıba.
β0µ1
D
en
si
da
de
50 60 70 80 90 100 110 120
0.
00
0.
05
β1µ1
D
en
si
da
de
−10 −5 0 5 10
0.
00
0.
12
β2µ1
D
en
si
da
de
−5 0 5 10
0.
00
0.
12
β0σ1
D
en
si
da
de
3.8 4.0 4.2 4.4 4.6 4.8
0.
0
2.
0
β1σ1
D
en
si
da
de
0.0 0.5 1.0
0.
0
1.
5
β2σ1
D
en
si
da
de
0.8 1.0 1.2 1.4 1.6 1.8
0.
0
1.
5
β0ξ1
D
en
si
da
de
−0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4
0.
0
2.
0
β1ξ1
D
en
si
da
de
−1.0 −0.5 0.0
0.
0
1.
5
β2ξ1
D
en
si
da
de
−1.0 −0.5 0.0
0.
0
1.
5
nos ńıveis máximos de cotas do rio. Já os coeficientes do parâmetro de escala σ, tiveram
uma queda nos seus valores quando comparamos o primeiro regime com o segundo.
Após a estimação dos coeficientes de regressão, poderemos ver como os parâmetros da
distribuição GEV se comportam ao longo do tempo nos dando, por exemplo, a indicação
de quais são os meses onde os dados tem comportamento que são mais suscet́ıveis a
ocorrência do evento extremo.
Na Figura 5.7 podemos ver os gráficos dos parâmetros µ,σ e ξ variando ao longo dos
Caṕıtulo 5. Aplicações 23
Figura 5.6: Histogramas dos coeficientes de regressão para o segundo regime dos dados
do rio Parnáıba.
β0µ2
D
en
si
da
de
280 285 290 295 300 305 310
0.
00
0.
08
β1µ2
D
en
si
da
de
0 5 10 15 20
0.
00
β2µ2
D
en
si
da
de
5 10 15 20 25
0.
00
0.
10
β0σ2
D
en
si
da
de
3.9 4.0 4.1 4.2 4.3
0
3
6
β1σ2
D
en
si
da
de
−0.1 0.0 0.1 0.2 0.3 0.4 0.5
0
2
β2σ2
D
en
si
da
de
0.6 0.7 0.8 0.9 1.0 1.1
0
2
4
β0ξ2
D
en
si
da
de
−0.30 −0.20 −0.10 0.00 0.05
0
4
8
β1ξ2
D
en
si
da
de
−0.4 −0.3 −0.2 −0.1 0.0 0.1 0.2
0
3
β2ξ2
D
en
si
da
de
−1.0 −0.5 0.0
0.
0
1.
5
Tabela 5.1: Estimativas e intervalos de 95% de confiança para os coeficientes de regressão-
rio Parnáıba.
Regime 1 Regime 2
β0,µ1 = 74, 24 β1,µ1 = 0, 46 β2,µ1 = 2, 81 β0,µ2 = 294, 55 β1,µ2 = 10, 51 β2,µ2 = 14, 55
(62,610 ; 87,910) (-5,808 ; 6,391) (-3,186 ; 8,749) (286,438 ; 304,207) (4,766 ; 15,487) (8,148 ; 22,032)
β0,σ1 = 4, 50 β1,σ1 = 0, 49 β2,σ1 = 1, 19 τ = 63 β0,σ2 = 4, 13 β1,σ2 = 0, 18 β2,σ2 = 0, 83
(4,187 ; 4,805) (0,111 ; 0,929) (0,854 ; 1,544) (63 ; 66) (3,994 ; 4,255) (-0,032 ; 0,357) (0,642 ; 0,992)
β0,ξ1
= −0, 18 β1,ξ1 = −0, 56 β2,ξ1 = −0, 43 β0,ξ2 = −0, 13 β1,ξ2 = −0, 11 β2,ξ2 = 0, 01
(-0,473 ; 0,101) (-1,006 ; -0,136) (-0,878 ; 0,037) (-0,222 ; -0,043) (-0,247 ; 0,024) (-0,093 ; 0,147)
doze meses para os dois regimes. No primeiro gráfico desta figura, vemos que os valores
do parâmetro µ aumentaram bastante do primeiro para o segundo regime, nos revelando
ainda que os maiores valores para o parâmetro de locação estão nos primeiros meses do
ano, sendo Março o mês que possui a maior média no primeiro regime com 77,0619 cm, e
o mês de Fevereiro com 312,4122 cm para o segundo regime. No decorrer do tempo temos
um decaimento destes valores, chegando aos ńıveis mais baixos nos meses de Setembro
com 71,4350 cm no primeiro regime, e Agosto com 276,6932 cm para o segundo.
Para a variabilidade dos dados, temos um comportamento diferente. No segundo
gráfico, referente ao parâmetro de escala σ, percebemos que para os primeiros meses, os
máximos variam muito mais no primeiro regime. Ainda neste gráfico, podemos perceber
que em torno dos meses de Junho, Julho, Agosto e Setembro, a variabilidade dos máximos
é praticamente equivalente nos dois regimes.
No terceiro gráfico, temos um comportamento dinâmico do parâmetro de forma ξ.
Caṕıtulo 5. Aplicações 24
Para os primeiros meses, de Janeiro até Abril precisamente, a cauda da distribuição GEV
para o primeiro regime tem um comportamento na forma mais leve seguindo-se uma
mais pesada depois desses meses, tendo o pico máximo no mês de Julho, e retornando
a um comportamento de cauda leve nos meses finais. Para o segundo regime, temos um
comportamento diferente, em todos os meses os valores de ξ são negativos, demonstrando
que durante todo o ano a cauda da distribuição é leve.
Figura 5.7: Parâmetros µ,σ e ξ variando ao longo do tempo para os dados do rio
Parnáıba. Linha cheia: primeiro regime; linha tracejada: segundo regime.
Tempo
µ
2 4 6 8 10 12
10
0
15
0
20
0
25
0
30
0
Tempo
σ
2 4 6 8 10 12
50
10
0
15
0
20
0
25
0
30
0
Tempo
ξ
2 4 6 8 10 12
−
0.
6
−
0.
4
−
0.
2
0.
0
0.
2
0.
4
0.
6
0.
8
Nesta parte da aplicação, apresentaremos a análise dos retornos. Escolhemos os
quant́ıs referentes a 90 e 95 por cento da distribuição dos máximos, que nos retornarão
valores estimados de ńıveis de retorno a cada 10 e 20 peŕıodos de tempo respectivamente.
Na Figura 5.8 temos os gráficos dos retornos a cada 10 e 20 peŕıodos de tempo para
os dois regimes. No primeiro gráfico da figura, temos os retornos a cada 10 peŕıodos de
tempo. Para este ńıvel, temos que os retornos do segundo regime sempre são maiores em
relação ao primeiro, e o mês de Março é o mês que apresenta o maior ńıvel de retorno,
tanto no primeiro como no segundo regime. Pela análise, são esperados a cada dez meses
de março ou a cada dez anos valores para cotas máximas de 516,8401 cm e 599,0163 cm no
primeiro e segundo regime respectivamente. Os meses onde os ńıveisde retorno são mais
baixos dizem respeito aos meses de Outubro com valores estimados a cada dez anos de
162,0537 cm para o primeiro regime, e 332,3203 cm no mês de Setembro para o segundo.
Em relação aos ńıveis esperados a cada 20 anos, temos que estes são maiores para
Caṕıtulo 5. Aplicações 25
o segundo regime inicialmente de Janeiro a Maio, sendo Março o mês com maior ńıvel
de retorno, com valor esperado de 678,4313 cm a cada 20 anos. Após o mês de Maio,
temos que os ńıveis de retorno para os meses de Junho, Julho e Agosto são maiores para o
primeiro regime com cotas de 620,5507 cm, 782,7005 cm e 486,6008 cm esperadas a cada
20 anos respectivamente. Percebe-se que para o mês de Julho, apresentou-se uma alta
estimação dos ńıveis de retorno a cada 20 anos para o primeiro regime. Creditamos essa
alta estimação a pouca quantidade de dados disponibilizados para o primeiro regime, pois
de um total de 413 observações, apenas 63 fazem parte dele, ressaltando também que o
ciclo de coleta mensal para alguns anos não estão completos, e com isso, poucos valores
referentes a meses de Julho estão dispońıveis, o que deixa a variabilidade das estimativas
bem mais altas, e isso unido ao fato de o quantil estimado ser bem alto, acarretou uma
superestimação para este mês.
Figura 5.8: Nı́veis de retorno esperados a cada 10 e 20 anos. À esquerda: retorno esperado
a cada 10 anos; à direita: retorno esperado a cada 20 anos. Linha cheia: primeiro regime;
linha tracejada: segundo regime.
Tempo
R
et
or
no
2 4 6 8 10 12
20
0
30
0
40
0
50
0
60
0
Tempo
R
et
or
no
2 4 6 8 10 12
20
0
30
0
40
0
50
0
60
0
70
0
80
0
Na Figura 5.9 podemos ter uma noção de como se comportam os retornos esperados
a cada 10 e 20 peŕıodos de tempo do ponto de vista dos regimes. Analisando a figura
percebemos que os retornos a cada 20 anos são sempre maiores em relação aos esperados
a cada 10 anos. Ainda podemos perceber, bem mais pelo segundo regime, que as curvas
referentes a estes ńıveis de retorno se comportam de forma semelhante ao longo do tempo,
evidenciando a latente caracteŕıstica sazonal apresentada durante o ano.
Caṕıtulo 5. Aplicações 26
Figura 5.9: Nı́veis de retorno esperados a cada 10 e 20 anos para o primeiro e segundo
regime. À esquerda: primeiro regime; à direita: segundo regime. Linha cheia: retorno
esperado a cada 10 anos; linha tracejada: retorno esperado a cada 20 anos.
Tempo
R
et
or
no
2 4 6 8 10 12
20
0
30
0
40
0
50
0
60
0
70
0
80
0
Tempo
R
et
or
no
2 4 6 8 10 12
35
0
40
0
45
0
50
0
55
0
60
0
65
0
Para concluir esta aplicação, temos na Figura 5.10 o ajuste dos ńıveis de retorno
esperados a cada 10 e 20 anos na série original dos máximos do rio Parnáıba. Pela figura,
podemos perceber que o ajuste ficou razoável à serie dos máximos. Temos que a série de
retorno acompanha de forma bem satisfatória toda a variação sazonal que os máximos
apresentam, revelando ainda que este fator consegue explicar adequadamente os ńıveis
de cotas máximas do rio, pois as séries de retorno se movem de acordo com a variação
mensal dos dados.
Caṕıtulo 5. Aplicações 27
Figura 5.10: Nı́veis de retorno esperados a cada 10 e 20 anos na série dos máximos do rio
Parnáıba. Linha tracejada: retorno esperado a cada 10 anos ; linha pontilhada: retorno
esperado a cada 20 anos.
Tempo
S
ér
ie
 d
os
 d
ad
os
0 100 200 300 400
20
0
40
0
60
0
80
0
5.2 Aplicação 2: rio Paraná
O rio Paraná é um rio sul-americano com origem no Brasil, possuindo um trecho de 190
km que serve como demarcação da fronteira com o Paraguai até chegar a foz do rio Iguaçu.
É o segundo maior rio sul-americano em extensão, sendo o nono no ranking mundial, e
é o décimo em termos de maior vazão. Nasce da confluência de dois outros grandes rios,
o rio Grande e o rio Paranáıba nos estados de Minas Gerais, São Paulo e Mato Grosso
do Sul. No trecho da fronteira Brasil e Paraguai, se encontra a usina hidrelétrica Itaipu,
ĺıder mundial em produção de energia limpa e renovável, produzindo cerca de 2,5 bilhões
de megawatts-hora (MWh) desde o ińıcio de sua operação.
Para os dados do rio Paraná, dispomos de 1100 observações de máximos mensais
coletados a partir de primeiro de Junho de 1920 até Outubro de 2012, tendo apenas uma
falta de valor mensal durante todo esse peŕıodo, referente a Dezembro de 2008.
Na Figura 5.11 temos a série dos máximos do rio Paraná. Para estes dados, tenta-
remos a estimação de dois pontos de mudança para verificar a sensibilidade do modelo
proposto em detectar a quantidade real de pontos de mudança. Nascimento e Silva (2017)
fizeram conjecturas dessa situação, incluindo pontos de mudança além dos que realmente
constavam na série dos dados, e chegaram a conclusão de que os verdadeiros pontos de
mudança existentes na série dos dados eram bem estimados, enquanto que o ponto de
Caṕıtulo 5. Aplicações 28
mudança adicional cáıa sempre no ińıcio ou no final dela.
Por abordarmos um mecanismo similar de estimação do ponto de mudança ao que foi
proposto no modelo de Nascimento e Silva (2017), utilizaremos o mesmo critério de escolha
da quantidade exata de pontos de mudança. De acordo com uma análise preliminar da
série dos dados, colocamos para τ1, o primeiro ponto de mudança, um chute inicial de
617, e para o segundo τ2=737.
Figura 5.11: Série dos dados do rio Paraná.
Tempo
M
áx
m
im
os
 m
en
sa
is
0 200 400 600 800 1000
10
0
20
0
30
0
40
0
Temos pela Figura 5.12, que o modelo identificou a série dos dados com apenas um
ponto de mudança, estimado em 737, mostrando a existência de somente dois regimes,
pois o outro ponto, de acordo com o critério adotado, caiu no final da série.
Um detalhe importante é que o ponto de mudança estimado é referente à observação
de 1 de Novembro de 1981, ano que precede a conclusão da usina hidrelétrica de Itaipu
em 1982, revelando que assim como no caso do rio Parnáıba, os dados passaram a ter
outro comportamento após a construção desta usina hidrelétrica.
Com a formação dos regimes, podemos ter a estimação dos coeficientes de regressão
dos parâmetros µ,σ e ξ. Nas Figuras 5.13 e 5.14 temos as séries das estimativas dos
coeficientes de regressão para o primeiro e segundo regime, e pelas Figuras 5.15 e 5.16
temos os histogramas destes coeficientes. Podemos perceber através dos histogramas, que
os valores dos coeficientes se distribuem em torno de valores diferentes de zero. Para os
coeficientes β2,ξ1 e β2,ξ2 , apesar de serem valores bem próximos de zero, admitimos a
Caṕıtulo 5. Aplicações 29
Figura 5.12: Probabilidade dos pontos de mudança para os dados do rio Paraná. Linhas
verticais em cor cinza: estimativas dos intervalos de confiança
0.
0
0.
2
0.
4
τ1
P
ro
ba
bi
lid
ad
es
617 701 734 739 744 749
0.
0
0.
2
0.
4
τ2
P
ro
ba
bi
lid
ad
es
737 1095
relevância destes coeficientes para esta aplicação, pois vale ressaltar que pequenos rúıdos
na estrutura de regressão afetam a variação final do parâmetro estimado. Pela Tabela
5.2, temos as estimativas dos coeficientes de regressão com os respectivos intervalos de
confiança, e podemos constatar que os valores estimados são diferentes de zero.
Figura 5.13: Série das estimativas dos coeficientes de regressão para o primeiro regime do
rio Paraná .
Tempo
β 0
µ1
0 5000 10000 15000 20000 25000 30000
12
8
13
4
14
0
Tempo
β 1
µ1
0 5000 10000 15000 20000 25000 30000
6
10
16
Tempo
β 2
µ1
0 5000 10000 15000 20000 25000 30000
26
32
38
Tempo
β 0
σ1
0 5000 10000 15000 20000 25000 30000
3.
60
3.
75
Tempo
β 1
σ1
0 5000 10000 15000 20000 25000 30000
0.
05
0.
25
Tempo
β 2
σ1
0 5000 10000 15000 20000 25000 30000
0.
05
0.
25
Tempo
β 0
ξ1
0 5000 10000 15000 20000 25000 30000
−
0.
25
−
0.
10
Tempo
β 1
ξ1
0 5000 10000 15000 20000 25000 30000
−0.
25
0.
00
Tempo
β 2
ξ1
0 5000 10000 15000 20000 25000 30000
−
0.
10
0.
10
Quando avaliamos pela tabela os coeficientes de regressão do parâmetro µ, percebe-
mos pelo intercepto, que a média deste parâmetro aumentou bastante após o ponto de
Caṕıtulo 5. Aplicações 30
Figura 5.14: Série das estimativas dos coeficientes de regressão para o segundo regime do
rio Paraná.
Tempo
β 0
µ2
0 5000 10000 15000 20000 25000 30000
21
0
22
0
Tempo
β 1
µ2
0 5000 10000 15000 20000 25000 30000
−
4
2
6
Tempo
β 2
µ2
0 5000 10000 15000 20000 25000 30000
6
12
18
Tempo
β 0
σ2
0 5000 10000 15000 20000 25000 30000
3.
55
3.
75
Tempo
β 1
σ2
0 5000 10000 15000 20000 25000 30000
0.
0
0.
2
Tempo
β 2
σ2
0 5000 10000 15000 20000 25000 30000
−
0.
05
0.
20
Tempo
β 0
ξ2
0 5000 10000 15000 20000 25000 30000
−
0.
15
0.
00
Tempo
β 1
ξ2
0 5000 10000 15000 20000 25000 30000
−
0.
20
0.
00
Tempo
β 2
ξ2
0 5000 10000 15000 20000 25000 30000
−
0.
1
0.
1
Figura 5.15: Histogramas dos coeficientes de regressão para o primeiro regime do rio
Paraná.
β0µ1
D
en
si
da
de
128 130 132 134 136 138 140
0.
00
0.
20
β1µ1
D
en
si
da
de
6 8 10 12 14 16 18
0.
00
0.
20
β2µ1
D
en
si
da
de
26 28 30 32 34 36 38 40
0.
00
0.
20
β0σ1
D
en
si
da
de
3.60 3.65 3.70 3.75 3.80
0
10
β1σ1
D
en
si
da
de
0.05 0.10 0.15 0.20 0.25 0.30 0.35
0
4
8
β2σ1
D
en
si
da
de
0.0 0.1 0.2 0.3
0
4
8
β0ξ1
D
en
si
da
de
−0.25 −0.20 −0.15 −0.10 −0.05
0
6
14
β1ξ1
D
en
si
da
de
−0.25 −0.15 −0.05 0.05 0.10
0
4
8
β2ξ1
D
en
si
da
de
−0.15 −0.10 −0.05 0.00 0.05 0.10 0.15
0
6
12
mudança. Já para o parâmetro de escala σ percebemos que os valores dos seus respectivos
coeficientes quase não se alteram de um regime para o outro, revelando que, apesar de ha-
ver mudança no comportamento dos dados após certo momento no tempo, a variabilidade
dos dados permanece praticamente a mesma.
A partir da estrutura de regressão temos a estimação dos parâmetros por imputação,
e com isso, poderemos ver como eles se comportam ao longo do tempo. Na Figura
5.17, temos o primeiro gráfico que mostra que os valores do parâmetro µ aumentaram
Caṕıtulo 5. Aplicações 31
Figura 5.16: Histogramas dos coeficientes de regressão para o segundo regime do rio
Paraná.
β0µ2
D
en
si
da
de
210 215 220 225
0.
00
0.
15
β1µ2
D
en
si
da
de
−5 0 5
0.
00
0.
20
β2µ2
D
en
si
da
de
4 6 8 10 12 14 16 18
0.
00
0.
20
β0σ2
D
en
si
da
de
3.50 3.55 3.60 3.65 3.70 3.75 3.80
0
4
8
β1σ2
D
en
si
da
de
0.0 0.1 0.2 0.3
0
3
6
β2σ2
D
en
si
da
de
−0.05 0.05 0.10 0.15 0.20 0.25 0.30
0
3
6
β0ξ2
D
en
si
da
de
−0.15 −0.10 −0.05 0.00
0
6
12
β1ξ2
D
en
si
da
de
−0.20 −0.15 −0.10 −0.05 0.00 0.05
0
4
8
β2ξ2
D
en
si
da
de
−0.15 −0.10 −0.05 0.00 0.05 0.10 0.15
0
6
12
Tabela 5.2: Estimativas e intervalos de 95% de confiança para os coeficientes de regressão-
rio Paraná.
Regime 1 Regime 2
β0,µ1 = 134, 01 β1,µ1 = 12, 72 β2,µ1 = 32, 50 β0,µ2 = 217, 44 β1,µ2 = 1, 29 β2,µ2 = 11, 34
(130,334 ; 137,556) (8,940 ; 17,003) (28,407 ; 36,508) (213,061 ; 222,137) (-3,277 ; 5,627) (6,597 ; 15,850)
β0,σ1 = 3, 68 β1,σ1 = 0, 18 β2,σ1 = 0, 14 τ = 737 β0,σ2 = 3, 66 β1,σ2 = 0, 19 β2,σ2 = 0, 14
(3,615 ; 3,752) (0,093 ; 0,273) (0,060 ; 0,236) (735 ; 740) (3,588 ; 3,748) (0,073 ; 0,318) (0,034 ; 0,250)
β0,ξ1
= −0, 17 β1,ξ1 = −0, 07 β2,ξ1 = −0, 01 β0,ξ2 = −0, 09 β1,ξ2 = −0, 06 β2,ξ2 = 0, 02
(-0,232 ; -0,116) (-0,159 ; 0,025) (-0,066 ; 0,078) (-0,152 ; -0,028) (-0,138 ; 0,014) (-0,075 ; 0,134)
significativamente de um regime para o outro, sendo os maiores valores, assim como nos
dados do rio Parnáıba, para os primeiros meses do ano. Para o primeiro regime, o mês
de Fevereiro é o mês de maior valor para o parâmetro µ com 168,5367 cm, e para o
segundo regime, é o mês de Março com 228,7953 cm. Após os primeiros meses, temos um
decaimento nos valores de cotas chegando a suas médias mais baixas nos meses de Agosto,
com 99,5020 cm para o primeiro regime, e Setembro com 206,1017 cm para o segundo
regime.
No segundo gráfico da Figura 5.17, vemos como já mencionado anteriormente, o com-
portamento praticamente equivalente do parâmetro de escala nos dois regimes. Também
podemos perceber que estes variam bem menos quando comparamos com os dados do rio
Parnáıba, pois para os dados do rio Paraná há uma amplitude máxima de variação de
18,3810 cm para o primeiro regime, e 19,1804 cm para o segundo. Enquanto que para os
dados do rio Parnáıba a amplitude é bem diferente, sendo 309,9175 cm para o primeiro
Caṕıtulo 5. Aplicações 32
regime e 118,2783 cm para o segundo.
Analisando o parâmetro ξ, temos que a cauda da distribuição GEV é mais pesada
após o ponto de mudança. Ainda podemos perceber que o ξ tem comportamento similar
nos dois regimes, no qual a cauda assume uma forma mais leve para os primeiros meses
do ano, e no decorrer do tempo assume uma forma mais pesada, precisamente nos meses
de Maio e Junho para os dois regimes, e após esses meses volta a ter uma cauda mais leve.
Figura 5.17: Parâmetros µ,σ e ξ variando ao longo do tempo para os dados do rio
Paraná. Linha cheia: primeiro regime; linha tracejada: segundo regime.
Tempo
µ
2 4 6 8 10 12
10
0
12
0
14
0
16
0
18
0
20
0
22
0
Tempo
σ
2 4 6 8 10 12
35
40
45
50
Tempo
ξ
2 4 6 8 10 12
−
0.
20
−
0.
15
−
0.
10
−
0.
05
A partir deste momento, procederemos com as análises para os ńıveis de retorno. Para
a aplicação dos dados do rio Paraná, escolhemos os quant́ıs 90, 95 e 99 por cento, que nos
retornarão respectivamente valores esperados de retorno de cotas máximas do rio a cada
10, 20 e 100 anos.
Na Figura 5.18 temos o gráfico dos ńıveis de retorno a cada 10, 20 e 100 anos nos
dois regimes. Pelo que podemos observar, os ńıveis de retorno após o ponto de mudança
sempre são maiores. E também se percebe comportamentos sazonais semelhantes nos dois
regimes, e como já é caracteŕıstico de resultados anteriormente explanados, os maiores
ńıveis de retorno são para os primeiros meses do ano.
Para os ńıveis de retorno esperados a cada 10 anos, temos pela informação do gráfico,
que os maiores valores são referentes aos primeiros meses, nos quais o mês de Fevereiro
é o de maior retorno, tanto no primeiro como no segundo regime, com valores esperados
de cotas máximas a cada 10 anos de 259,9687 cm e 327,7696 cm respectivamente. Em
Caṕıtulo 5. Aplicações 33
contrapartida, o mês onde se espera o menor ńıvel de retorno diz respeito a Agosto, com
ńıveis esperados a cada 10 anos de 161,7735 cm e 271,5356 cm respectivamente.
Para os ńıveis esperados a cada 20 anos, temos que o comportamento sazonal destes
retornos é bem similar aos ńıveis esperados a cada 10 anos, diferenciando apenas nos
valores, já que se trata da estimação de um quantil bem mais alto que o anterior. Para
este ńıvel de retorno, o mês de Fevereiro ainda é o mês com maior valor de cota máxima
esperada, tanto antes como depois do ponto de mudança, com valores de retorno esperados
a cada 20 anos de 282,2810 cm e 355,6114 cm respectivamente. E o mês onde se espera o
menor valor de cota máxima a cada 20 anos diz respeito a Agosto, com valores de 178,0421
cm e 289,9165 cm.
Em relação aos ńıveis esperados a cada 100 anos, temos que antes do ponto de mudança
o maior ńıvel de retorno esperado se encontrava para o mês de Fevereiro, com o valor de
cota máxima de 323,5123 cm. Após o ponto de mudança, o mês de maior retorno passa
a ser Março com um valor de 412,5335 cm, similar ao mês de Fevereiro com 412.5112.
Em relação aos meses onde se espera os menores ńıveis de retorno, o mês de Agosto é o
que apresenta os menores valores com 209,6852 cm para o primeiro regime, e 328,1337 cm
para o segundo.
Na Figura 5.19 podemos ter uma noção de como esses retornos se distribuem ao longo
do tempo para os dois regimes. Astrês curvas referentes aos retornos a cada 10, 20 e
100 peŕıodos de tempo respectivamente, apresentam comportamento semelhante durante
o ano, mostrando que as caracteŕısticas sazonais foram bem captadas pelos ńıveis de
retorno.
Para finalizar esta aplicação, temos nas Figuras 5.20 e 5.21 o ajuste dos retornos na
série original dos dados de máximos do rio Paraná. A Figura 5.20 apresenta a série dos
retornos para os quant́ıs 90 e 95. Pelo gráfico podemos perceber que as séries de retorno se
adequam muito bem aos dados do rio, mostrando que a variação sazonal foi bem captada
pelos mesmos.
Na Figura 5.21, temos o ajuste do quantil 99, e para este também podemos afirmar
que se conseguiu uma boa captação da variação dos dados pelos retornos. Vale também
chamar atenção ao detalhe que, devido ao banco de dados do rio Paraná estar praticamente
completo para todos os anos, o comportamento sazonal para os ńıveis de retorno está quase
que invariante.
Caṕıtulo 5. Aplicações 34
Figura 5.18: Nı́veis de retorno esperados a cada 10, 20 e 100 anos. À esquerda: retorno a
cada 10 anos; centro: retorno a cada 20 anos; à direita: retorno a cada 100 anos. Linha
cheia: primeiro regime; linha tracejada: segundo regime.
Tempo
R
et
or
no
2 4 6 8 10 12
20
0
25
0
30
0
Tempo
R
et
or
no
2 4 6 8 10 12
20
0
25
0
30
0
35
0
Tempo
R
et
or
no
2 4 6 8 10 12
25
0
30
0
35
0
40
0
Figura 5.19: Nı́veis de retorno esperados a cada 10, 20 e 100 anos para o primeiro e
segundo regime. À esquerda: primeiro regime; à direita: segundo regime. Linha cheia:
retorno a cada 10 anos; linha tracejada: retorno a cada 20 anos; linha pontilhada: retorno
a cada 100 anos.
Tempo
R
et
or
no
2 4 6 8 10 12
15
0
20
0
25
0
30
0
35
0
Tempo
R
et
or
no
2 4 6 8 10 12
28
0
30
0
32
0
34
0
36
0
38
0
40
0
Caṕıtulo 5. Aplicações 35
Figura 5.20: Nı́veis de retorno esperados a cada 10 e 20 anos na série dos máximos do
rio Paraná. Linha tracejada: retorno esperado a cada 10 anos; linha pontilhada: retorno
esperado a cada 20 anos.
Tempo
S
ér
ie
 d
os
 d
ad
os
0 200 400 600 800 1000
10
0
20
0
30
0
40
0
Figura 5.21: Nı́veis de retorno esperados a cada 100 anos na série dos máximos do rio
Paraná. Linha tracejada: retorno esperado a cada 100 anos
Tempo
S
ér
ie
 d
os
 d
ad
os
0 200 400 600 800 1000
10
0
20
0
30
0
40
0
CAṔITULO 6
Conclusões
Este trabalho teve como objetivo apresentar um modelo que oferecesse uma precisão
maior sobre o comportamento de eventos extremos incorporando a sazonalidade como fa-
tor de explicação, servindo também como um aperfeiçoamento do trabalho de Nascimento
e Silva (2017).
Nas duas aplicações aqui apresentadas, o modelo alcançou resultados bem satisfatórios,
onde conseguimos ser precisos em relação aos meses com maiores chances de ocorrência
do evento extremo, como também para os meses em que essa chance é bem pequena,
realçando que o fator sazonal foi crucial para tal precisão do modelo. Entretanto, quando
temos poucas observações para estimarmos os parâmetros mensalmente, pode haver a
ocorrência de superestimação, como ocorreu para os ńıveis de retorno do primeiro regime
dos dados do rio Parnáıba.
Diante disso, temos que o trabalho desenvolvido alcançou os resultados esperados
nos dando expectativas promissoras para posśıveis extensões, em que uma delas seria a
aplicação do modelo em outros tipos de dados, tendo a possibilidade de incorporar outras
informações além da sazonalidade.
36
Referências
[1] B.P. Carlin, A.E. Gelfand, and A.F.M. Smith, Hierarchical Bayesian analysis to
change point problems, Appl. Stat. 41 (1992), pp. 309-405.
[2] Cabras S, Castellanos MA, Gamerman D (2010) A default approach for regres-
sion on extremes. Stat Model (accepted)
[3] Castellanos, M. A. and Cabras, S. (2007). A default Bayesian procedure for the
generalized Pareto distribution. Journal of Statistical Planning and Inference,
137, 473-483.
[4] D. Barry and J.A.Hartingan, A Bayesian analysis for change point problems,
J. Amer. Stat. Assoc. 88 (1993), pp. 309-319.
[5] Coles S. (2001) Introduction to Statistical Modelling of Extreme Values.
Springer.
[6] Chow, Y. S.; Teicher, H. Probability Theory, Independence, Interchangeabi-
lity, Martingales. New York:Springer-Verlag, 1988.
[7] Chaves-Demoulin V, Davison AC (2005) Generalized additive modelling of sam-
ple extremes. Appl Stat 54:207-222
[8] Embrechts, Kluppelberg,and Mikosch, Modelling Extremal Events for Insu-
rance and Finance, Springer-Verlag, Berlim, 1997.
37
Referências 38
[9] Ehlers, R. S. (2007). Inferência bayesiana. Dispońıvel em:<
http://conteudo.icmc.usp.br/pessoas/ehlers/bayes/bayes.pdf> Acesso em: 07
de Outubro de 2017.
[10] Fisher, R. A. e Tippet, L. H. C. (1928) On the estimation of the frequency
distributions of the largest and smallest sumber of a sample, Proceedings of
the Cambridge Philosophycal Society, 24, 180-190
[11] Gabriel Huerta, Bruno Sansó, Time-varying models for extreme values, Sprin-
ger, Environ Ecol Stat (2007) 14:285-299.
[12] Hosking, J. R. M.; Waliis, J. R. Regional Frequency Analysis. [s.l.]: Cambridge
University Press, 1997.
[13] Jenkinson, The frequency distribution of the annual maximum (or mini-
mum) values of meteorological events, Quarterly Journal of the Royal Meteo-
rological Society 81, 158-172, 1955.
[14] Lai, T. L.; Liu, T.; Xing, H. A Bayesian Approach to Sequential Surveillance
in Exponencial Families. Communications in Statistics-Theory and Methods, S.l.,
n 38,p. 2958-2968, 2009.
[15] Mendes, B. V. M. (2004) Introdução a análise de eventos extremos, Rio de
Janeiro, E-papers.
[16] Nascimento FF, Gamerman D, Lopes HF (2011) Regression models for excee-
dance data via the full likelihood. Environ Ecol Stat 18:495-512.
[17] Nascimento, F.F. (2012) Modelos Probabiĺısticos para dados Extremos: Te-
oria e aplicações. In: II COLÓQUIO DE MATEMÁTICA DA REGIÃO NOR-
DESTE, 2012. Teresina, Piaúı. Universidade Federal do Piaúı.
[18] Nascimento, F. F.; Silva, W. V. M. A Bayesian model for multiple change
point to extremes, with application to environmental and financial data.
Journal of Applied Statistics, p.2410-2426, 2017.
[19] Reiss, and Thomas, M. Statistical Analysis of Extreme Values. Birkhauser
Verlag, Basel-Boston-Berlim, 1997.
Referências 39
[20] Smith Extreme Value Theory based on the r largest annual events, J. Hi-
drology, n.86, 27-43, 1986.
[21] Von Mises, R. La distribution de la plus grande de n valeurs, In Selected
Papers, volumell, p. 271-294, American Mathematical Society, 1954.
	Resumo
	Abstract
	Introdução
	Objetivos
	Organização do Trabalho
	Teoria do Ponto de Mudança e Estrutura de Regressão
	Estrutura de Regressão
	Teoria dos Valores Extremos
	Modelagem Univariada de Extremos
	Modelos Probabilísticos para Máximos e Mínimos
	A Distribuição de Valores Extremos Generalizada (GEV)
	Estimação
	Modelo proposto
	Distribuições a Priori
	Distribuição a Posteriori
	Aplicações
	Aplicação 1: rio Parnaíba
	Aplicação 2: rio Paraná
	Conclusões
	Referências

Continue navegando