Baixe o app para aproveitar ainda mais
Prévia do material em texto
Universidade Federal do Piaúı Centro de Ciências da Natureza Curso de Graduação em Estat́ıstica Análise de dados extremos: modelos de regressão para pontos de mudança Alan da Silva Assunção Teresina - 2018 Assunção, Alan da Silva. Análise de dados extremos: modelos de regressão para pontos de mudança Alan da Silva Assunção – Teresina: 2018. Orientador: Prof. Dr. Fernando Ferraz do Nascimento 1. Área de Concentração Alan da Silva Assunção Monografia: Análise de dados extremos: modelos de regressão para pontos de mudança Monografia submetida à Coordenação do Curso de Graduação em Estat́ıstica, da Universidade Federal do Piaúı, como requisito parcial para obtenção do grau de Bacharel em Estat́ıstica. Orientador: Prof. Dr. Fernando Ferraz do Nascimento Teresina - 2018 Agradecimentos A Deus, Pai Todo-Poderoso, meu Senhor e Rei, pelo seu grande amor incondicional que se renova todos os dias em minha vida. A Ele toda a honra e toda a Glória para todo o sempre! Aos meus pais, por me ensinarem desde cedo a batalhar pelos meu objetivos, e por sempre me apoiarem mesmo em meio às dificuldades, obrigado por tudo, amo vocês. Aos meus parentes, principalmente aos meus avós paternos que sempre me ajudaram em tudo aquilo que necessitei. Ao meu orientador, professor Fernando, por toda a aprendizagem que obtive, pela con- fiança em mim depositada e por me incentivar a continuar crescendo. A minha irmã, por me ajudar na revisão gramatical deste trabalho. Aos professores do curso de Estat́ıstica, por serem responsáveis pela construção do meu conhecimento como estat́ıstico e me fazerem amar ainda mais esta ciência que agora tanto me cativa. Aos meus amigos, pastores e irmãos em Cristo da Igreja Batista Nova Aliança - Timon, a companhia e o amor de vocês foram combust́ıveis essenciais para me fazerem chegar até aqui. Aos meus colegas de curso que sempre prezaram pelo companheirismo para vencermos as nossas dificuldades de curso. 1 Resumo A Teoria dos Valores Extremos (TVE) surgiu na tentativa de prever a frequência com que eventos extremos ocorrem, dando uma descrição do comportamento destes fenômenos. Muitos eventos extremos são caracterizados por apresentarem mudança brusca de com- portamento em algum momento do tempo, situação comum em dados ambientais e finan- ceiros. As inundações ocasionadas pelo transbordamento de rios são uma dessas muitas situações onde encontramos, de certa forma, o padrão de comportamento da altura do ńıvel do rio alterado por alguma influência humana, principalmente pela construção de uma usina hidrelétrica no leito do mesmo. Assim, propomos um modelo baseado nas técnicas da TVE que descreva o comportamento de dados extremos referentes a cotas de rios que apresentem comportamento caracteŕıstico de mudança abrupta, tendo como aux́ılio uma estrutura de regressão que capte a informação sazonal dos dados utilizando a distribuição de Valores Extremos Generalizada (GEV). A estimação dos parâmetros é baseada em abordagem bayesiana por meio de métodos de Monte Carlo via Cadeias de Markov (MCMC). Com o modelo, calcularemos as estimativas para os pontos de mudança dos dados, as estimativas mensais dos ńıveis de retorno, como também um panorama para o comportamento dos parâmetros da GEV ao longo do tempo. Para as aplicações aqui propostas, os resultados obtidos retratam com precisão os meses em que a ocorrência de um evento extremo é maior, como também conseguem captar o momento exato em que os dados tiveram uma mudança brusca de comportamento. Palavras-Chave: Teoria de valores extremos; Ponto de mudança; Estrutura de re- gressão; Abordagem bayesiana. 2 Abstract The Extreme Values Theory (EVT) arose in an attempt to predict the frequency with which extreme events can occur, giving a description of the behavior of these phenomena. Many extreme events are characterized by abrupt behavior change at some point in time, commonplace in environmental and financial data. The floods caused by the overflow of rivers are one of those many situations where we find, in a certain way, the behavior pattern of the height of the level of the river altered by some human influence, mainly by the construction of a hydroelectric plant in the river bed. Thus, we propose a model based on the EVT techniques that describe the behavior of extreme data referring to riverbanks that present a behavior characteristic of abrupt change, with the aid of a regression struc- ture that captures the seasonal information of the data using the distribution of Extreme Values Generalized (EVG). The estimation of the parameters is based on Bayesian ap- proach through methods via Markov Chains Monte Carlo (MCMC). With the model, we will calculate the estimates for the points of change of the data, the monthly estimates of the levels of return, as well as a panorama for the behavior of the parameters of the EVG over time. For the applications proposed here, the results obtained accurately portray the months in which the occurrence of an extreme event is greater, but also capture the exact moment when the data had a sudden change of behavior. Keywords: Extreme Values Theory; Change-Point; Regression Structure; Bayesian Approach. 3 Lista de Figuras 2.1 Máximos mensais do rio Parnáıba. . . . . . . . . . . . . . . . . . . . . . . . 6 5.1 Série dos dados do rio Parnáıba. . . . . . . . . . . . . . . . . . . . . . . . . 20 5.2 Probabilidade dos pontos de mudança para os dados do rio Parnáıba. . . . 21 5.3 Série das estimativas dos coeficientes de regressão para o primeiro regime dos dados do rio Parnáıba. . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 5.4 Série das estimativas dos coeficientes de regressão para o segundo regime dos dados do rio Parnáıba. . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 5.5 Histogramas dos coeficientes de regressão para o primeiro regime dos dados do rio Parnáıba. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 5.6 Histogramas dos coeficientes de regressão para o segundo regime dos dados do rio Parnáıba. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 5.7 Parâmetros µ,σ e ξ variando ao longo do tempo para os dados do rio Parnáıba. Linha cheia: primeiro regime; linha tracejada: segundo regime. . 24 5.8 Nı́veis de retorno esperados a cada 10 e 20 anos. À esquerda: retorno esperado a cada 10 anos; à direita: retorno esperado a cada 20 anos. Linha cheia: primeiro regime; linha tracejada: segundo regime. . . . . . . . . . . 25 5.9 Nı́veis de retorno esperados a cada 10 e 20 anos para o primeiro e segundo regime. À esquerda: primeiro regime; à direita: segundo regime. Linha cheia: retorno esperado a cada 10 anos; linha tracejada: retorno esperado a cada 20 anos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4 Lista de Figuras 5 5.10 Nı́veis de retorno esperados a cada 10 e 20 anos na série dos máximos do rio Parnáıba. Linha tracejada: retorno esperado a cada 10 anos ; linha pontilhada: retorno esperado a cada 20 anos. . . . . . . . . . . . . . . . . . 27 5.11 Série dos dados do rio Paraná. . . . . . . . . . . . . . . . . . . . . . . . . . 28 5.12 Probabilidade dos pontos de mudança para os dados do rio Paraná. Linhas verticais em cor cinza: estimativas dos intervalos de confiança . . . . . . . 29 5.13 Série das estimativas dos coeficientes de regressão para o primeiro regime do rio Paraná . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 5.14 Série das estimativas dos coeficientes de regressão para o segundo regime do rio Paraná. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 5.15 Histogramas dos coeficientes de regressão para o primeiro regime do rio Paraná. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305.16 Histogramas dos coeficientes de regressão para o segundo regime do rio Paraná. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 5.17 Parâmetros µ,σ e ξ variando ao longo do tempo para os dados do rio Paraná. Linha cheia: primeiro regime; linha tracejada: segundo regime. . . 32 5.18 Nı́veis de retorno esperados a cada 10, 20 e 100 anos. À esquerda: retorno a cada 10 anos; centro: retorno a cada 20 anos; à direita: retorno a cada 100 anos. Linha cheia: primeiro regime; linha tracejada: segundo regime. . 34 5.19 Nı́veis de retorno esperados a cada 10, 20 e 100 anos para o primeiro e segundo regime. À esquerda: primeiro regime; à direita: segundo regime. Linha cheia: retorno a cada 10 anos; linha tracejada: retorno a cada 20 anos; linha pontilhada: retorno a cada 100 anos. . . . . . . . . . . . . . . . 34 5.20 Nı́veis de retorno esperados a cada 10 e 20 anos na série dos máximos do rio Paraná. Linha tracejada: retorno esperado a cada 10 anos; linha pontilhada: retorno esperado a cada 20 anos. . . . . . . . . . . . . . . . . . 35 5.21 Nı́veis de retorno esperados a cada 100 anos na série dos máximos do rio Paraná. Linha tracejada: retorno esperado a cada 100 anos . . . . . . . . . 35 Lista de Tabelas 5.1 Estimativas e intervalos de 95% de confiança para os coeficientes de re- gressão-rio Parnáıba. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 5.2 Estimativas e intervalos de 95% de confiança para os coeficientes de re- gressão-rio Paraná. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 6 Sumário Resumo 2 Abstract 3 1 Introdução 1 1.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 Teoria do Ponto de Mudança e Estrutura de Regressão 3 2.1 Estrutura de Regressão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 3 Teoria dos Valores Extremos 7 3.1 Modelagem Univariada de Extremos . . . . . . . . . . . . . . . . . . . . . 8 3.2 Modelos Probabiĺısticos para Máximos e Mı́nimos . . . . . . . . . . . . . . 9 3.2.1 A Distribuição de Valores Extremos Generalizada (GEV) . . . . . . 11 3.3 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 4 Modelo proposto 15 4.1 Distribuições a Priori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 4.2 Distribuição a Posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 5 Aplicações 19 5.1 Aplicação 1: rio Parnáıba . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 7 Sumário 8 5.2 Aplicação 2: rio Paraná . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 6 Conclusões 36 Referências 37 CAṔITULO 1 Introdução Nos últimos anos, diversos fenômenos naturais têm ocorrido causando destruição e acarretando grandes perdas para a sociedade. Entre eles podemos citar terremotos, fu- racões, enchentes, que são eventos que causam grandes preocupações para os governos nas mais diversas nações, principalmente para aquelas que não possuem um sistema de prevenção eficiente. Em 2009, no estado do Piaúı, a cidade de Teresina sofreu com a enchente provocada pela sobre-vazão do rio Poti, que alagou casas, comércios e avenidas, ocasionando também enorme prejúızo material e monetário, que teve de ser despendido na tentativa de reparar os estragos provocados por essa catástrofe. Recentemente, devido às fortes chuvas do ińıcio do ano, as cidades de Codó e Pedreiras no estado do Maranhão foram também afetadas por enchentes provocadas pelas sobre-vazões dos rios Itapecuru e Mearim respectivamente. Não é dif́ıcil perceber o quanto seria útil o conhecimento da frequência com que estas eventualidades ocorrem, evitando grandes danos para a sociedade e contribuindo para o avanço da qualidade de vida, como também da construção de um meio social mais seguro, podendo até mesmo servir como direção na busca de medidas que possam contornar os efeitos destes acontecimentos catastróficos. Com isso, a Teoria de Valores Extremos tem ganhado cada vez mais espaço na área estat́ıstica e suas técnicas têm sido de grande importância para as mais diversas áreas, 1 Caṕıtulo 1. Introdução 2 possibilitando resultados mais precisos e maior respaldo para conclusões sobre previsões de eventos extremos, tornando proṕıcio o conhecimento sobre a dimensão de grandes ganhos e perdas. Os primeiros trabalhos em valores extremos são datados do ińıcio do século XX, com aplicações iniciais na engenharia civil e, posteriormente mais formalizada, em fenômenos meteorológicos nos EUA. Trabalhos importantes como os de Fisher-Tippet (1928) sobre a convergência do máximo centrado e padronizado possibilitaram grandes avanços para a TVE, servindo como um propulsor para o surgimento de modelos mais eficientes. 1.1 Objetivos Este trabalho tem por objetivo a criação de um modelo de regressão aplicado a valores extremos que apresentem comportamento caracteŕıstico de pontos de mudança, utilizando a distribuição de Valores Extremos Generalizada (GEV). Calcularemos quantidades im- portantes de dados extremos de cotas1 de rios através deste modelo, e verificaremos a significância da precisão com a inserção da variável sazonal “mês do ano”. Todo o processo de estimação será feito pelo enfoque bayesiano utilizando o método de Monte Carlo via Cadeias de Markov (Markov Chain Monte Carlo - MCMC). 1.2 Organização do Trabalho Este trabalho está organizado da seguinte forma: no Caṕıtulo 2, temos uma abordagem a respeito da teoria do ponto de mudança, como também da estrutura de regressão e a combinação destas duas ferramentas no modelo proposto. O Caṕıtulo 3 trata de forma sucinta a respeito da Teoria dos Valores Extremos na qual apresentamos os primeiros trabalhos que foram fundamentais no desenvolvimento de modelos aplicados a eventos extremos, em especial a distribuição GEV. No Caṕıtulo 4, temos o tratamento da base teórica do modelo proposto neste trabalho e o enfoque bayesiano utilizado. No Caṕıtulo 5, segue as aplicações do modelo em dados ambientais de cotas dos rios Parnáıba e Paraná. E por fim no Caṕıtulo 6, temos as conclusões obtidas através dos resultados deste modelo. 1Uma cota de rio é a altura da água medida (convencionalmente em cm) em determinado momento. CAṔITULO 2 Teoria do Ponto de Mudança e Estrutura de Regressão A Teoria do ponto de mudança é uma ferramenta estat́ıstica que avalia em uma série de dados o ponto a partir do qual se percebe uma mudança no comportamento da mesma. Para alguns fenômenos, a existência da mudança de comportamento da distribuição dos dados é bem mais comum, não sendo tão inesperado em algum momento a série dos mesmos sofrer uma variação. A exemplo disso, temos os dados ambientais e financeiros. Analisando cotas de rios, podemos perceber em épocas de chuva um aumento na altura máxima da água, provocando uma elevação do ńıvel normal devido ao volume adicional das chuvas naquele determinado peŕıodo. Em dados financeiros, a volatilidade do mercado de capitais é uma das principais explicações para o surgimento de mudanças abruptas na série dos dados. A teoria do ponto de mudança tem sido aplicada com as mais diversas finalidades. Carlin et al. (1992) desenvolveram a construção de modelos hierárquicos bayesianos de pontos de mudança para a versão de amostra do tipo não sequencial com aplicações em estrutura de regressão e processos de Poisson. Barry e Hartigan (1993) propuseram que para a modelagem de um processo com pontos de mudança, seria necessário, para uma sequência de parâmetros subjacentes, a existência de blocos cont́ıguos na qual o ińıcio de cada bloco seria considerado como um ponto de mudança. Em análise de valoresextremos, Huerta e Sanso (2007) sugeriram um modelo para 3 Caṕıtulo 2. Teoria do Ponto de Mudança e Estrutura de Regressão 4 a predição de valores medidos no tempo e espaço em que os parâmetros da distribuição de Valores Extremos Generalizada eram a base para o desenvolvimento de tal estrutura. Utilizando uma ideia parecida, Lai et al. (2009) descreveram um modelo bayesiano para pontos de mudança considerando os parâmetros variando no tempo e probabilidades a posteriori de que um ponto de mudança ocorreu em um momento espećıfico. Nascimento e Silva (2017) propuseram um modelo bayesiano utilizando a distribuição GEV, apli- cado a dados que apresentam caracteŕısticas t́ıpicas de mudanças abruptas e que possam apresentar mais de um ponto de mudança. O modelo proposto neste trabalho estende a abordagem desenvolvida por Nascimento e Silva (2017), em que os pontos de mudança são considerados parâmetros a serem esti- mados, e a indicação da quantidade total de pontos de mudança ficará a cargo do modelo apontando, de acordo com a informação dos dados, em que momento do tempo eles ocor- rem. Para construir tal objeção, a abordagem bayesiana é considerada para possibilitar a estimação dos pontos de mudança. O prinćıpio bayesiano considera a incerteza do verdadeiro valor do parâmetro através de uma quantidade em forma de distribuição de probabilidade, denominada distribuição a priori. Esta distribuição a priori unida à quan- tidade dada à luz dos dados, possibilita a obtenção de outra distribuição (distribuição a posteriori), que resulta diretamente do teorema de bayes, sendo esta a distribuição de interesse que permite a possibilidade das estimativas do verdadeiro valor do parâmetro e de outras quantidades importantes. Ver Ehlers (2007) para mais detalhes. Uma das grandes vantagens da estrutura bayesiana, é que ela permite uma flexibilidade a diferentes tipos de dados sem a exigência de um conhecimento aprofundado acerca da proveniência da distribuição dos dados. Isto será de suma importância, uma vez que este modelo se aplica a dados que se encaixam nessa situação. Na obtenção das estimativas dos pontos de mudança, assim como dos demais parâmetros do modelo, estaremos utilizando técnicas computacionais MCMC. As técnicas MCMC surgem como uma resposta satisfatória ao problema em que os métodos computacionais simples (não iterativos1) não conseguem ser eficientes, caso em que a distribuição a poste- riori assume uma forma bastante complexa. Para esta situação, dispomos de duas técnicas 1Os métodos não iterativos são métodos computacionais de simulação de v.a.s que não necessitam mais de que um ”passo”para se obter os valores da distribuição de interesse Caṕıtulo 2. Teoria do Ponto de Mudança e Estrutura de Regressão 5 MCMC muito fortes na literatura estat́ıstica, o Amostrador de Gibbs e o Algoritmo de Metropolis-Hastings. Neste trabalho, optamos pelo Algoritmo de Metropolis-Hastings na sua variação em blocos. 2.1 Estrutura de Regressão Analisar o comportamento de variáveis é um trabalho desenvolvido de forma minu- ciosa, sendo de grande importância nessas análises o surgimento de uma estrutura que apresente as principais causas e fatores que possam melhor explicar a distribuição dos dados da variável em estudo e assim, possibilite o surgimento de um modelo que explique com maior exatidão as chances de ocorrência do evento de interesse. Não é dif́ıcil perceber que muitas caracteŕısticas conseguem ser melhor explicadas quando expostas a presença de outras variáveis. Temos como exemplo, em estudos do tipo caso controle na área da saúde, a exposição dos grupos de indiv́ıduos (doentes e não doentes) a um fator de interesse na tentativa de se verificar algum tipo de associação entre as variáveis. Em teoria dos valores extremos, podemos citar o exemplo de dados ambientais, em que o ńıvel de chuva de uma determinada região é intrinsicamente ligado aos efeitos sazonais das estações do ano. Em dados financeiros, a cotação da moeda esta relacionada a taxa de juros e ı́ndice de bolsa de valores. Alguns trabalhos desenvolvidos na análise de extremos que consideram essa relação de dependência entre as variáveis podem ser citados: Castellanos e Cabras (2007), uti- lizando dados de chuva, mostraram que os parâmetros da distribuição de Pareto Gene- ralizada (GPD) se comportam de acordo com a estação do ano; Cabras et al. (2010), posteriormente, desenvolveram uma estrutura de regresão para os parâmetros da GPD, considerando dados que iam além de um limite pré-especificado; Nascimento et al (2011) apresentaram um modelo para análise de valores extremos utilizando a distribuição GPD, considerando a presença de informações auxiliares. O modelo era composto de uma abor- dagem não paramétrica para a parte central dos dados, e para a distribuição da cauda um enfoque bayesiano incumbido através de um modelo de regressão para explicar a variação dos excessos. Assim como foi abordado nos resultados de Nascimento et al. (2011), será considerado Caṕıtulo 2. Teoria do Ponto de Mudança e Estrutura de Regressão 6 para este trabalho um modelo de regressão para a estimação dos parâmetros da GEV, que contará com a informação do mês do ano no preditor linear. O fator sazonal é um forte indicador da variabilidade que os dados sofrem ao longo do ano. Com isso, o modelo captará essa variação de acordo com a sazonalidade apresentada pelo mês, possibilitando resultados mais precisos, e consequentemente predições mais confiáveis. Temos como exemplo, para os dados de cotas do rio Parnáıba, parte da série dos máximos mensais apresentada na Figura 2.1. Pelo gráfico, percebemos como os dados apresentam um comportamento cicĺıco, nos revelando a caracteŕıstica sazonal presente nos mesmos, mostrando ainda que o comportamento dos máximos é extremamente ligado à sazonalidade. Com os pontos de mudança, temos a formação dos regimes. Esta informação anúıda a estrutura de regressão, possibilitará que seja constrúıdo em cada regime, o ajuste da distribuição GEV com os parâmetros variando ao longo do tempo, ou seja, teremos uma estrutura que nos permitirá ter um modelo mais senśıvel a qualquer variação que os dados possam sofrer, de acordo com a informação advinda dos meses. O enfoque bayesiano, como mencionado na seção anterior, será abordado para es- timação dos coeficientes de regressão, onde as distribuições a priori serão atribúıdas aos coeficientes e não aos parâmetros do modelo propriamente ditos. A partir das estimativas dos coeficientes, os parâmetros podem ser obtidos por imputação. Figura 2.1: Máximos mensais do rio Parnáıba. Tempo D ad os 0 50 100 150 200 250 300 350 30 0 40 0 50 0 60 0 70 0 CAṔITULO 3 Teoria dos Valores Extremos A teoria dos valores extremos (TVE) é um conjunto de ferramentas estat́ısticas que tem crescido muito ultimamente e estado bem presente em muitas áreas. São técnicas baseadas em dados históricos e que fundamentam-se em fazer estimativas daquilo que é invulgar por meio de modelos desenvolvidos sobre propriedades assintóticas . Tecnicamente, a TVE é um segmento da probabilidade que estuda o comportamento estocástico de extremos ligados a um conjunto de variáveis aleatórias (ou vetores aleatórios) com distribuição comum F (Mendes (2004)). Tendo achados de suas primeiras utilizações no ińıcio do século XX, as aplicações formais de extremos surgiram para a modelagem de fenômenos meteorológicos envolvendo dados de precipitação máxima e ńıveis anuais de inundação nos Estados Unidos, sendo estes apenas alguns dos casos nos quais se aplica as técnicas da TVE, podendo ainda citar entre outras situações, dados pluviométricos, vazão de rios, temperaturas máximas, dados financeirosetc. Em análise de extremos, temos como foco principal a caracterização das caudas (infe- rior e superior), baseada em uma abordagem probabiĺıstica que garante uma extrapolação para estimativas de ńıveis mais altos que os já observados, sendo esta abordagem proṕıcia ao surgimento de diversos modelos que se adequam a inúmeras situações, desde as mais comuns até as mais extraordinárias. 7 Caṕıtulo 3. Teoria dos Valores Extremos 8 A vantagem dessa abordagem é a possibilidade de incorporação de informações im- portantes para o evento em estudo, tornando a incerteza do modelo ainda menor. Um exemplo disso são as utilizações de estrutura de regressão para caracterizar as caudas extremas de FX, permitindo a construção de um modelo robusto e mais preciso como no trabalho de Nascimento et al. (2011). 3.1 Modelagem Univariada de Extremos Deste momento em diante serão apresentadas a modelagem probabiĺıstica e a inferência estat́ıstica para a distribuição de extremos. Em outras palavras, estaremos expondo técnicas que tem como finalidade a lapidação de um modelo que expresse da melhor forma posśıvel o comportamento dos dados. Por definição, eventos extremos são escassos, sendo necessário para esta situação muita cautela no desenvolvimento de um modelo para descrever o comportamento destes even- tos. De ińıcio, estes fenômenos eram modelados por distribuições paramétricas conhecidas como Normal e Gama. Mas eventos extremos tem a caracteŕıstica de terem caudas pesa- das, o que não é ponto forte nestas distribuições. Por conta disso, Coles (2001) apresenta pontos importantes na implementação estat́ıstica como complemento ao desenvolvimento de modelos adequados para extremos, tornando as estimativas mais fidedignas. Os resultados que se seguem são fundamentos que compõe a parte clássica da Teoria dos Valores Extremos na qual o comportamento estat́ıstico do máximo é o alicerce de toda a teoria. E dentro dessa perspectiva, o teorema de Fisher-Tippet (1928) é sem dúvida um dos resultados mais importantes, especificando a forma da distribuição limite do máximo em blocos de tamanho n. A distribuição do máximo é de suma importância para a TVE, pois é a base para poder caracterizar a cauda da distribuição FX. Em teoria, este máximo Mn = max(X1, . . . ,Xn) para n variáveis aleatórias i.i.d.’s1 pode ser obtido da seguinte forma FMn = P{Mn 6 y} = P{max(X1, . . . ,Xn) 6 y} = P{X1 6 y,X2 6 y, . . . ,Xn 6 y} = n∏ i=1 P{Xi 6 y} = (P{X 6 y}) n = (FX(y)) n (3.1) para x ∈ R e n ∈ N. 1i.i.d.’s - Independentes e identicamente distribúıdas Caṕıtulo 3. Teoria dos Valores Extremos 9 E para se obter a distribuição do mı́nimo, temos um procedimento semelhante FM1 = P(M1 < y) = P(min(X1,X2, ...,Xn) < y) = 1 − P(min(X1,X2, ...,Xn) > y) = 1 − P(X1 > y,X2 > y, ...,Xn > y) = 1 − n∏ i=1 P(Xi > y) (3.2) = 1 − (1 − FX(y)) n. Em situações práticas, podemos também multiplicar os dados por -1 e analisar os máximos, uma vez que os resultados para o máximo se aplicam facilmente a estudos que tenham interesse na distribuição do mı́nimo. Por exemplo, em dados financeiros podeŕıamos estar interessados no valor mı́nimo de retorno diário de cada mês. 3.2 Modelos Probabiĺısticos para Máximos e Mı́nimos Para podermos especificar de forma exata a distribuição do máximo, o conhecimento da distribuição FX é imprescind́ıvel. O problema é que nem sempre dispomos de tal conhecimento, sendo necessário meios alternativos de técnicas estat́ısticas que nos levem a uma estimação de FX que possa ser substitúıda no resultado da expressão 3.1. Mas mesmo dispondo de técnicas na literatura estat́ıstica que nos dêem tal estimação para FX, tal procedimento não é muito adequado, devido ao fato de que pequenas dis- crepâncias na estimação de FX podem levar a resultados distorcidos do máximo FMn , prejudicando a credibilidade de toda a inferência feita nos dados. Para contornar esta debilidade de estimação da distribuição FMn , Fisher e Tippett (1928) desenvolveram um resultado que possibilitou um grande avanço para a teoria de valores extremos. Com este resultado temos que, independente da distribuição de Fx, há famı́lias aproximadas para FMn que podem ser estimadas apenas com base em uma renormalização linear do máximo Mn, semelhante à prática usual de convergência de somas de variáveis aleatórias para a distribuição Normal, garantida pelo Teorema Central do Limite (TCL). Para entendermos melhor o que está sendo aplanado, é necessário a apresentação da seguinte definição, conhecida como limite superior do suporte da distribuição FX, aqui denotado por xFX xFX = sup{x ∈ R : FX(x) < 1}. Esta definição implica que os valores de máximo são aqueles que estão próximos do Caṕıtulo 3. Teoria dos Valores Extremos 10 limite superior da distribuição FX. Então temos para x < xFx que (F(x)) n −→ 0 quando n −→ ∞, e xFx < ∞ e x > xFx temos (FX(x))n = 1, apontando para a convergência do máximo Mn em probabilidade para xFx . O lema de Chow e Teicher (1988) pode ser utilizado como prova deste resultado. Com isso, temos que, para conhecer FMn é também necessário o conhecimento de FX, que muitas vezes é desconhecido. E mesmo conhecendo FX, quando n −→∞, (FX(x))n é degenerado, não sendo muito útil. Então, para superar esta dificuldade, temos a seguir a renormalização linear de Mn que proporcionou o desenvolvimento de distribuições limites para FMn M∗n = Mn − dn cn . A padronização de Mn, centrado e normalizado, elimina o obstáculo de degeneração anteriormente explanado, sendo apenas necessária a seleção apropriada das constantes cn > 0 e dn tal que haja uma estabilização em M ∗ n a medida que n aumenta. Restando somente a escolha de uma distribuição limite para M∗n. A vantagem é que na TVE estas distribuições limites, também conhecidas como distri- buições de valores extremos, são as únicas formas resultantes para M∗n e independem da distribuição subjacente FX. O teorema a seguir atribúıdo a Fisher e Tippett dá a noção desta ideia, envolvendo toda a gama posśıvel de distribuições para M∗n Teorema 1 (Fisher-Tippett (1928)). Seja (Xn) uma sequência de v.a.s 2 i.i.d’s Se existi- rem uma sequência de constantes normalizadoras cn > 0 e dn, e uma função não dege- nerada H, onde dn ∈ R e Mn − dn cn d−→ H, converge em distribuição para H. Então H é do tipo de uma destas três distribuições f.d.: Gumbel : HI(x) = exp{exp(−x)}, x ∈ R (3.3) Fréchet : HII(x) = 0, x > 0, ξ > 0 (3.4) exp(−x−ξ), x > 0, ξ > 0 Weibull : HIII(x) = exp{−(−x −ξ)}, x 6 0, ξ 6 0, (3.5) 1, x > 0, ξ < 0. A prova deste teorema pode ser encontrada em Embrechts et al. (1997). 2v.a. - variáveis aleatórias Caṕıtulo 3. Teoria dos Valores Extremos 11 3.2.1 A Distribuição de Valores Extremos Generalizada (GEV) Anteriormente vimos no resultado de Fisher-Tippet (1928) que as três distribuições de valores extremos são as únicas formas de distribuições limite para os máximos em blocos de tamanho n. Estas distribuições no entanto apresentam formas bem distintas de comportamento para dados extremos. Coles (2001) aponta fraquezas atreladas ao método inicial adotado nas primeiras aplicações de dados extremos, entre elas a escolha individual por uma das três distribuições, realçando a necessidade de uma distribuição que as unificasse em uma única famı́lia de distribuições. As três distribuições de valores extremos descritas em (3.3), (3.4) e (3.5) são apre- sentadas como partes de uma única famı́lia de distribuições: a distribuição de Valores Extremos Generalizada (GEV). Ela engloba as três distribuições de valores extremos an- teriormente apresentadas no teorema de Fisher-Tippet. Proposta por Von Mises (1954) e Jenkinson (1955), esta função tem a seguinte expressão: H(y|ξ,σ,µ) = exp { − ( 1 + ξ ( (y−µ) σ ))− 1ξ} se ξ 6= 0 exp { −exp { − ( (y−µ) σ )}} se ξ = 0 (3.6) definida em {y : 1 − ξ(y − µ)/σ > 0}. A distribuição GEV é definida pela presença de três parâmetros satisfazendo as seguintes condições: um parâmetro de localização −∞ < µ <∞, um de escala σ > 0 e um de forma −∞ < ξ <∞. O parâmetro de forma ξ pode ser usado para modelar diversas formas de comporta- mento. Quando ξ ≈ 0 a distribuição GEV assume a forma da distribuição Gumbel. Os casos de ξ > 0 ou ξ < 0 correspondem às distribuições Weibull ou Fréchet respectiva- mente. A adoção de uma única distribuição de valor extremo ajuda na implementação es- tat́ıstica de extremos, pois os próprios dados determinam que tipo de comportamento a cauda necessita, não sendo necessário nenhum tipo de julgamento a priori para a escolha de uma distribuição espećıfica. Em situações práticas, os dados originais x1, x2, . . . , xr são organizados em sequências de tamanho n suficientemente grande, e para cada sequência é obtido o máximo, gerando uma amostra k de máximos Mn1,Mn2, . . . ,Mnk, que é modelada de acordo com a dis- tribuição GEV. O agrupamento dos dados, por exemplo, pode ser feito em meses ou anos Caṕıtulo 3. Teoria dos Valores Extremos 12 sendo os dados originais diários, modelando assim máximos mensais ou anuais segundo a distribuição GEV. A escolha de n contudo, deve ser feita com cuidado, pois há situações em que este detalhe pode ser um problema, como mostra Coles (2001), Seção 3.3. Outra quantidade bastante utilizada é a obtenção de estimativas de quant́ıs extremos. Esta quantidade está na mesma escala dos dados, e sua interpretação dependerá de como foram definidos os blocos de tamanho n. Para se obter estimativa de quant́ıs extremos, invertemos a equação (3.6), fazendo zp = H −1(1 − p), obtendo a seguinte expressão zp = µ− σξ [1 − (−log(1 − p))−ξ], se ξ 6= 0µ− σlog(−log(1 − p)), se ξ = 0 onde H(zp) = 1 − p. O quant́ıl zp é conhecido na análise de extremos como ńıvel de retorno relacionado ao peŕıodo 1/p, sendo interpretado como o valor esperado que os dados originais ultrapassem a quantidade zp pelo menos uma vez a cada 1/p peŕıodos de tempo. Com a quantidade zp podemos também construir gráficos de ńıveis de retorno, que por sua fácil interpretação e forte relação com os parâmetros do modelo, são bem adequados para a apresentação e validação do mesmo. 3.3 Estimação O surgimento da distribuição GEV possibilitou um grande avanço na modelagem de eventos extremos. Sua adequação pressupõe que os dados da amostra, coletados e agru- pados em blocos de tamanho n, sejam i.i.d’s seguindo uma distribuição GEV. A definição do tamanho do bloco é uma questão a ser decidida com bastante cautela, mediante um conhecimento aprofundado dos dados em estudo e dos objetivos do pesquisador. A questão da independência dos dados, suposição necessária para aplicação da dis- tribuição GEV, poderia ser um problema cŕıtico, uma vez que muitos processos f́ısicos originam variáveis dependentes entre si. Mas mesmo havendo dependência, pelas propri- edades de estacionariedade, há garantia que as caracteŕısticas estocásticas do processo permaneçam as mesmas ao longo do tempo. Para mais detalhes veja Coles (2001). Após todas essas definições, para que a distribuição GEV possa ser ajustada aos dados, a estimação dos parâmetros (µ,σ, ξ) é requisito necessário para obtenção de estimativas e de quantidades de interesse. Devido a isso, muitos métodos surgiram ao longo do tempo. Mendes (2004) apresenta as seguintes sugestões de estimação: método dos Momentos Caṕıtulo 3. Teoria dos Valores Extremos 13 (Reiss e Thomas [1997]), método da Máxima Verossimilhança (Embrechts et al. [1997]), método da Regressão (Reiss e Thomas [1997]) e o método dos L-momentos (Hosking e Wallis [1997]), além de procedimentos gráficos e métodos emṕıricos. Apesar de termos dispońıveis tantas opções, abordaremos a estimação via método da máxima verossimilhança por apresentar ótimas propriedades assintóticas e boa adaptação a modelos complexos. Vale ressaltar que para aplicar a estimação por máxima verossi- milhança - EMV, algumas condições de regularidade devem ser satisfeitas para que as propriedades assintóticas sejam adequadas. Smith (1984) estudou os casos em que os estimadores de máxima verossimilhança existem, e chegou às seguintes situações: • quando ξ > −1 2 os EMV existem, e satisfazem as propriedades assintóticas; • quando ξ < −1 os EMV não existem. A questão cŕıtica que afetaria a existência e as propriedades assintóticas dos EMV para aplicação de modelos extremos, só ocorreria para situações em que ξ < −1/2. Mas circunstâncias como essas indicam casos onde a cauda da distribuição é muito limitada, o que na prática normalmente não ocorre, já que eventos extremos tem a caracteŕıstica de terem caudas pesadas. Considerando a seguinte amostra de máximos em blocos Z1, . . . ,Zk v.a i.i.d com distri- buição GEV, temos a seguir a função da log-verossimilhança para a equação (3.6) quando ξ 6= 0 l(µ,σ, ξ) = −klog(σ) − (1 + 1/ξ) k∑ i=1 log [ 1 + ξ ( zi−µ σ )] − k∑ i=1 [ 1 + ξ ( zi−µ σ )]−1/ξ , (3.7) válida para toda a configuração de parâmetros que atendem a essa restrição 1+ξ ( zi−µ σ ) > 0, para todo i = 1, . . . ,k. Quando ξ = 0 ou ξ ≈ 0, utiliza-se como distribuição limite a forma da distribuição Gumbel, caso particular da distribuição GEV. Assim obtemos a seguinte função de log- verossimilhança l(µ,σ) = −klog(σ) − k∑ i=1 ( zi − µ σ ) − k∑ i=1 exp [ − ( zi − µ σ )] . (3.8) Caṕıtulo 3. Teoria dos Valores Extremos 14 Para obtenção dos estimadores de (µ,σ, ξ) restaria apenas proceder com a maxi- mização do par de equações (3.7) e (3.8) em relação aos seus respectivos parâmetros. Contudo, não é posśıvel maximizar estas equações analiticamente, sendo necessária a utilização de métodos iterativos de aproximação numérica para obter os estimadores. Em condições regulares, os EMV assumem assintoticamente uma distribuição Normal multivariada permitindo, a partir deste ponto, a construção de intervalos de confiança e demais formas de inferência que seguem imediatamente da normalidade aproximada dos estimadores. Com as estimativas dos parâmetros, também podemos fazer inferência dos ńıveis de retorno ẑp esperado em t peŕıodos de tempo. Assim, temos a seguinte forma ẑp = µ̂− σ̂ξ̂ [1 − (−log(1 − p))−ξ̂] se ξ 6= 0µ̂− σ̂log(−log(1 − p)), se ξ = 0. Quando ξ̂ < 0 temos o caso em que a distribuição é limitada superiormente, fato im- portante, pois assim podemos fazer inferência do valor máximo dos dados da seguinte forma ẑ0 = µ̂− σ̂ ξ̂ . CAṔITULO 4 Modelo proposto A finalidade deste modelo é oferecer uma precisão maior sobre as probabilidades da realização de um evento extremo por meio da distribuição GEV, auxiliada por uma es- trutura de regressão. O modelo desenvolvido tem uma estrutura dinâmica que possibilita a modelagem do comportamento dos dados mediante a utilização da informação do mês, tendo como novidade a captação de mudanças abruptas que ocorrem no comportamento dos dados. Combinando estas duas ferramentas, buscamos apresentar um modelo abran- gente ao máximo de informações que os dados dispõem. Para tornar mais claro o foco deste trabalho, considere a ilustração de um conjunto de dados que apresente l pontos de mudança. Então para esta série de dados teŕıamos l+ 1 regimes diferentes, sendo cada um deles modelados por uma distribuição GEV ajustada com parâmetros estimados via modelos de regressão variando mensalmente. Em outras palavras, teremos ajustes mensais da GEV, em vez de um único modelo para todo regime. Os parâmetros (µ,σ e ξ), que podem ter covariáveisem comum, serão descritos através de uma estrutura de regressão, sendo zµ, zσ e zξ os vetores de covariáveis p-dimensionais de cada um deles, com o primeiro componente de cada um desses vetores sendo iguais a 1 para pertmitir a inclusão do intercepto nas estruturas de regressão do modelo. Com isso, para os parâmetros da GEV teremos uma matriz 3 x p de coeficientes de regressão composta pelos vetores βµ,βσ e βξ, com βµ = (βµ,0, . . . ,βµ,p) ′, βσ = (βσ,0, . . . ,βσ,p) ′ 15 Caṕıtulo 4. Modelo proposto 16 e βξ = (βξ,0, . . . ,βξ,p) ′ para cada um dos regimes, onde cada linha desta matriz está associada a cada um dos parâmetros µ,σ, e ξ. Para cada parâmetro teremos uma função de ligação que o une ao seu respectivo preditor linear. Neste modelo, optamos por uma transformação na função de ligação dos parâmetros ξ e σ, que terão as seguintes formas: t(µ,σ, ξ) = f(µ,σ∗, ξ∗) onde, σ∗ = logσ e ξ∗ = log(ξ+ 1). (4.1) Optando por esta reparametrização, os componentes (βξ,βσ) são ortogonais (Chaves- Demoulin e Davison [2005]), o que irá facilitar o cálculo das densidades a priori conjunta π(βξ,βσ). Com isso, considere um conjunto de dados Y1, . . . ,Yr que possam ser ordenados em tamanhos de bloco n, obtendo uma amostra k de máximos X1, . . . ,Xk. Para esta amostra, considere a presença de l pontos de mudança τ1, . . . , τl. Então temos para a modelagem dos máximos a seguinte densidade proposta para a distribuição GEV: h(x|µ,σ, ξ, τ) = h(xi|µ1,i,σ1,i, ξ1,i) se i 6 τ1, h(xi|µ2,i,σ2,i, ξ2,i) se τ1 < i 6 τ2, . . . . . . . . . h(xi|µ(l+1),i,σ(l+1),i, ξ(l+1),i) se τl < i 6 k, (4.2) onde h(.) é a densidade da GEV (obtida a partir da derivada da equação 3.6) no regime j, com j = 1, . . . , l + 1. Com essa densidade, temos os parâmetros µj,i,σj,i e ξj,i dados pela seguinte estrutura: µi,j = β ′ µ,jzi,µ σi,j = exp(β ′ σ,jzi,σ) ξi,j = exp(β ′ ξ,jzi,ξ) − 1 (4.3) em que βµ,βσ e βξ são os vetores com os coeficientes de regressão, zµ,i, zσ,i e zξ,i são os vetores de covariáveis dos parâmetros µ,σ e ξ respectivamente, que podem ou não ter covariáveis em comum. Com isso, a partir de uma amostra obtida da densidade descrita em 4.2, temos a seguinte função de verossimilhança: L(µ,σ, ξ, τ|x) = τ1∏ i=1 h(xi|µ1,i,σ1,i, ξ1,i) τ2∏ i=τ1+1 h(xi|µ2,i,σ2,i, ξ2,i), . . . , (4.4) k∏ i=τl+1 h(xi|µ(l+1),i,σ(l+1),i, ξ(l+1),i). Caṕıtulo 4. Modelo proposto 17 Percebe-se que a função de verossimilhança pode ser particionada individualmente para cada regime de acordo com os pontos de mudança da série. 4.1 Distribuições a Priori Para este modelo, as distribuições a priori não serão atribúıdas diretamente aos parâmetros, mas sim aos coeficientes de seus preditores lineares, e por imputação obter a estimação de (µj,m,σj,m, ξj,m), com j = 1, . . . , l+ 1 e m = 1, . . . , 12, para cada regime. Como temos um conjunto de vetores βµ, βσ e βξ para cada regime, aplicaremos as mesmas distribuições a priori em cada um deles. Para os parâmetros da distribuição GEV temos as seguintes distribuições a priori, referentes ao intercepto e demais parâmetros respectivamente: βµ0 ∼ N(0,Vβµ0 ) e βµi ∼ N(0,Vβµi ) para µ; βσ0 ∼ N(0,Vβσ0 ) e βσi ∼ N(0,Vβσi ) para o σ; βξ0 ∼ N(0,Vβξ0 ) e βξi ∼ N(0,Vβξi ) referente ao ξ, com i = 1, . . . ,p. Assim, temos a proporcional das distribuições a priori dos coeficientes de regressão dos parâmetros da GEV em cada regime: p(βµi) ∝ exp ( β2µ0 2Vβµ0 + p∑ i=1 ( β2µi 2Vβµi )) (4.5) p(βσi) ∝ exp ( β2σ0 2Vβσ0 + p∑ i=1 ( β2σi 2Vβσi )) (4.6) p(βξi) ∝ exp ( β2ξ0 2Vβξ0 + p∑ i=1 ( β2ξi 2Vβξi )) (4.7) com i = 1, . . . ,p. Para os pontos de mudança, por não saber a exatidão de quando ocorrem, estipulamos uma distribuição a priori uniforme discreta com a restrição τ1 < τ2 < . . . < τk como mostra Nascimento e Silva (2017). Um fato interessante é que como não se tem muita informação dos verdadeiros valores dos parâmetros, caso bastante comum em inferência bayesiana, as distribuições a priori são escolhidas de tal forma que representem este desconhecimento, em outras palavras, os hiperparâmetros 1 de escala e locação são normalmente adotados com variância alta e média qualquer. Para a nossa situação, atribúımos valores de média zero e variância razoavelmente grande para as distribuições a priori. 1Hiperparâmetros são os parâmetros da distribuição a priori Caṕıtulo 4. Modelo proposto 18 4.2 Distribuição a Posteriori Com as distribuições a priori descritas na seção anterior e a verossimilhança dada em 4.3, temos os elementos necessários para obtenção da distribuição a posteriori. Para cada regime j = 1, . . . , l+ 1 temos a seguinte proporcional da posteriori: p(µj,i,σj,i, ξj,i|τ, θ−j, x) ∝ τj∏ i=τj−1+1 h(xi|µj,i,σj,i, ξj,i)p(βµj ,βσj ,βξj) (4.8) em que θ−j representa o conjunto de vetores (βµi ,βσi ,βξi) exceto quando i = j. Para proceder com a amostragem dos pontos de mudança, temos a seguinte distribuição a posteriori, abordada por Carlin et al. (1992) e generalizada por Nascimento e Silva (2017): P(τj = i|τ−j, θi, x) = h(xi|βµj ,βσj ,βξj)∑τj+1−1 l=τj−1+1 h(xj|βµj ,βσj ,βξj) , i = τj−1 + 1, . . . , τj+1 − 1. (4.9) Para as equações (4.8) e (4.9), utilizamos a notação τ0 = 0 e τl+1 = k para o primeiro e último regimes. O MCMC, como já mencionado neste trabalho, será o de Metropolis- Hastings em bloco, onde cada parâmetro será estimado individualmente (um em cada bloco). CAṔITULO 5 Aplicações Este caṕıtulo destina-se à aplicação do modelo proposto. Para isto, dispomos de dois bancos de dados referentes a cotas de rios (medidas em cm), sendo um deles, dados do rio Parnáıba e o outro do rio Paraná. Estes dados foram obtidos da base de dados hidrológicos de cotas (ńıvel d’água) fluviométricas, proveniente da rede hidrometereológica de respon- sabilidade da ANA (Agência Nacional de Águas), utilizando o sistema de Informações Hidrológicas-HidroWeb (http://hidroweb.ana.gov.br/). 5.1 Aplicação 1: rio Parnáıba O rio Parnáıba está localizado no nordeste brasileiro possuindo cerca de 1700 km de extensão, servindo de divisa entre os estados do Maranhão e Piaúı. Próximo a região do munićıpio de Guadalupe no Piaúı, temos a usina hidrelétrica de Boa Esperança inaugurada em 1970, e atualmente represa cerca de cinco bilhões de metros cúbicos de água, sendo uma das maiores do nordeste ocidental. Os dados dispońıveis para o rio Parnáıba são um conjunto de máximos mensais num total de 413 observações, coletados no peŕıodo de primeiro de Julho de 1963 a primeiro de Agosto de 2012, no qual vale ressaltar a existência de dados faltantes por motivos não elucidados. Na Figura 5.1 temos a série dos dados na qual podemos perceber visivelmente que esta em algum momento do tempo sofre uma mudança. Para esta situação, aplica- 19 Caṕıtulo 5. Aplicações 20 remos o modelo proposto e verificaremos a estimação obtida para o valor do ponto de mudança, assim como as estimativas dos coeficientes de regressão e, consequentemente, o ajuste da GEV com os parâmetros variando ao longo do tempo para cada regime. Figura 5.1: Série dos dados do rio Parnáıba. Tempo M áx im os m en sa is 0 100 200 300 400 10 0 20 0 30 0 40 0 50 0 60 0 70 0 Na Figura 5.2 temos que o valor estimado para o ponto de mudança foi de 63, valor referente à observação de 01 de Outubro de 1969, ano que antecede a inauguração da usina hidrelétrica de Boa Esperança, revelando que após a construção da usina os dados passaram a ter outro comportamento. Com o ponto de mudança temos a formação dos regimes, e com isso, podemos estimar os coeficientes de regressão. Para as aplicações apresentadas neste caṕıtulo contaremos com duas covariáveis que serão comuns na estrutura de regressão dos parâmetros µ,σ e ξ, às quais foram aplicadastransformações trigonométricas para captar o comportamento sazonal dos dados, como no trabalho de Nascimento et al. (2011), z1 = cos( 2πm 12 ) e z2 = sin( 2πm 12 ), em que m é o mês. A partir disso, temos nas Figuras 5.3 e 5.4 a série das estimativas dos coeficientes de regressão de cada um dos parâmetros (µ,σ e ξ) da distribuição GEV nos dois regimes. Podemos perceber que os valores de alguns coeficientes como β1,µ1 ,β2,µ1 ,β1,σ1 ,β0,ξ1 ,β1,ξ1 e β2,ξ1 para o primeiro regime e β1,σ2 ,β0,ξ2 ,β1,ξ2 e β2,ξ2 para o segundo regime, se com- portam em torno de intervalos nos quais o valor zero está incluso, o que nos levaria a duvidar da significância destes coeficientes para o modelo. Mas, de acordo com as Figura Caṕıtulo 5. Aplicações 21 Figura 5.2: Probabilidade dos pontos de mudança para os dados do rio Parnáıba. 0. 0 0. 1 0. 2 0. 3 0. 4 0. 5 τ P ro ba bi lid ad es 63 64 65 66 67 68 Figura 5.3: Série das estimativas dos coeficientes de regressão para o primeiro regime dos dados do rio Parnáıba. Tempo β 0 µ1 0 5000 10000 20000 30000 60 90 Tempo β 1 µ1 0 5000 10000 20000 30000 − 5 5 Tempo β 2 µ1 0 5000 10000 20000 30000 − 5 5 Tempo β 0 σ1 0 5000 10000 20000 30000 3. 8 4. 4 Tempo β 1 σ1 0 5000 10000 20000 30000 − 0. 2 0. 6 1. 2 Tempo β 2 σ1 0 5000 10000 20000 30000 0. 8 1. 4 Tempo β 0 ξ1 0 5000 10000 20000 30000 − 0. 8 0. 0 Tempo β 1 ξ1 0 5000 10000 20000 30000 − 1. 0 0. 0 Tempo β 2 ξ1 0 5000 10000 20000 30000 − 1. 0 0. 0 5.5 e 5.6, vemos pelos histogramas destes coeficientes que eles estão distribúıdos em torno de valores diferentes de zero, apesar de serem bem próximos. Na Tabela 5.1 temos os valores estimados para os coeficientes de regressão e os respec- tivos intervalos de confiança. Pela tabela, percebemos que os coeficientes de regressão do parâmetro de locação µ tiveram mudanças consideráveis de um regime para o outro, mos- trando que a mudança no comportamento dos dados ocasionou um aumento significativo Caṕıtulo 5. Aplicações 22 Figura 5.4: Série das estimativas dos coeficientes de regressão para o segundo regime dos dados do rio Parnáıba. Tempo β 0 µ2 0 5000 10000 20000 30000 28 0 29 5 31 0 Tempo β 1 µ2 0 5000 10000 20000 30000 5 15 Tempo β 2 µ2 0 5000 10000 20000 30000 5 15 25 Tempo β 0 σ2 0 5000 10000 20000 30000 3. 9 4. 1 4. 3 Tempo β 1 σ2 0 5000 10000 20000 30000 − 0. 1 0. 2 Tempo β 2 σ2 0 5000 10000 20000 30000 0. 6 0. 9 Tempo β 0 ξ2 0 5000 10000 20000 30000 − 0. 25 0. 00 Tempo β 1 ξ2 0 5000 10000 20000 30000 − 0. 3 0. 0 Tempo β 2 ξ2 0 5000 10000 20000 30000 − 0. 1 0. 1 Figura 5.5: Histogramas dos coeficientes de regressão para o primeiro regime dos dados do rio Parnáıba. β0µ1 D en si da de 50 60 70 80 90 100 110 120 0. 00 0. 05 β1µ1 D en si da de −10 −5 0 5 10 0. 00 0. 12 β2µ1 D en si da de −5 0 5 10 0. 00 0. 12 β0σ1 D en si da de 3.8 4.0 4.2 4.4 4.6 4.8 0. 0 2. 0 β1σ1 D en si da de 0.0 0.5 1.0 0. 0 1. 5 β2σ1 D en si da de 0.8 1.0 1.2 1.4 1.6 1.8 0. 0 1. 5 β0ξ1 D en si da de −0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4 0. 0 2. 0 β1ξ1 D en si da de −1.0 −0.5 0.0 0. 0 1. 5 β2ξ1 D en si da de −1.0 −0.5 0.0 0. 0 1. 5 nos ńıveis máximos de cotas do rio. Já os coeficientes do parâmetro de escala σ, tiveram uma queda nos seus valores quando comparamos o primeiro regime com o segundo. Após a estimação dos coeficientes de regressão, poderemos ver como os parâmetros da distribuição GEV se comportam ao longo do tempo nos dando, por exemplo, a indicação de quais são os meses onde os dados tem comportamento que são mais suscet́ıveis a ocorrência do evento extremo. Na Figura 5.7 podemos ver os gráficos dos parâmetros µ,σ e ξ variando ao longo dos Caṕıtulo 5. Aplicações 23 Figura 5.6: Histogramas dos coeficientes de regressão para o segundo regime dos dados do rio Parnáıba. β0µ2 D en si da de 280 285 290 295 300 305 310 0. 00 0. 08 β1µ2 D en si da de 0 5 10 15 20 0. 00 β2µ2 D en si da de 5 10 15 20 25 0. 00 0. 10 β0σ2 D en si da de 3.9 4.0 4.1 4.2 4.3 0 3 6 β1σ2 D en si da de −0.1 0.0 0.1 0.2 0.3 0.4 0.5 0 2 β2σ2 D en si da de 0.6 0.7 0.8 0.9 1.0 1.1 0 2 4 β0ξ2 D en si da de −0.30 −0.20 −0.10 0.00 0.05 0 4 8 β1ξ2 D en si da de −0.4 −0.3 −0.2 −0.1 0.0 0.1 0.2 0 3 β2ξ2 D en si da de −1.0 −0.5 0.0 0. 0 1. 5 Tabela 5.1: Estimativas e intervalos de 95% de confiança para os coeficientes de regressão- rio Parnáıba. Regime 1 Regime 2 β0,µ1 = 74, 24 β1,µ1 = 0, 46 β2,µ1 = 2, 81 β0,µ2 = 294, 55 β1,µ2 = 10, 51 β2,µ2 = 14, 55 (62,610 ; 87,910) (-5,808 ; 6,391) (-3,186 ; 8,749) (286,438 ; 304,207) (4,766 ; 15,487) (8,148 ; 22,032) β0,σ1 = 4, 50 β1,σ1 = 0, 49 β2,σ1 = 1, 19 τ = 63 β0,σ2 = 4, 13 β1,σ2 = 0, 18 β2,σ2 = 0, 83 (4,187 ; 4,805) (0,111 ; 0,929) (0,854 ; 1,544) (63 ; 66) (3,994 ; 4,255) (-0,032 ; 0,357) (0,642 ; 0,992) β0,ξ1 = −0, 18 β1,ξ1 = −0, 56 β2,ξ1 = −0, 43 β0,ξ2 = −0, 13 β1,ξ2 = −0, 11 β2,ξ2 = 0, 01 (-0,473 ; 0,101) (-1,006 ; -0,136) (-0,878 ; 0,037) (-0,222 ; -0,043) (-0,247 ; 0,024) (-0,093 ; 0,147) doze meses para os dois regimes. No primeiro gráfico desta figura, vemos que os valores do parâmetro µ aumentaram bastante do primeiro para o segundo regime, nos revelando ainda que os maiores valores para o parâmetro de locação estão nos primeiros meses do ano, sendo Março o mês que possui a maior média no primeiro regime com 77,0619 cm, e o mês de Fevereiro com 312,4122 cm para o segundo regime. No decorrer do tempo temos um decaimento destes valores, chegando aos ńıveis mais baixos nos meses de Setembro com 71,4350 cm no primeiro regime, e Agosto com 276,6932 cm para o segundo. Para a variabilidade dos dados, temos um comportamento diferente. No segundo gráfico, referente ao parâmetro de escala σ, percebemos que para os primeiros meses, os máximos variam muito mais no primeiro regime. Ainda neste gráfico, podemos perceber que em torno dos meses de Junho, Julho, Agosto e Setembro, a variabilidade dos máximos é praticamente equivalente nos dois regimes. No terceiro gráfico, temos um comportamento dinâmico do parâmetro de forma ξ. Caṕıtulo 5. Aplicações 24 Para os primeiros meses, de Janeiro até Abril precisamente, a cauda da distribuição GEV para o primeiro regime tem um comportamento na forma mais leve seguindo-se uma mais pesada depois desses meses, tendo o pico máximo no mês de Julho, e retornando a um comportamento de cauda leve nos meses finais. Para o segundo regime, temos um comportamento diferente, em todos os meses os valores de ξ são negativos, demonstrando que durante todo o ano a cauda da distribuição é leve. Figura 5.7: Parâmetros µ,σ e ξ variando ao longo do tempo para os dados do rio Parnáıba. Linha cheia: primeiro regime; linha tracejada: segundo regime. Tempo µ 2 4 6 8 10 12 10 0 15 0 20 0 25 0 30 0 Tempo σ 2 4 6 8 10 12 50 10 0 15 0 20 0 25 0 30 0 Tempo ξ 2 4 6 8 10 12 − 0. 6 − 0. 4 − 0. 2 0. 0 0. 2 0. 4 0. 6 0. 8 Nesta parte da aplicação, apresentaremos a análise dos retornos. Escolhemos os quant́ıs referentes a 90 e 95 por cento da distribuição dos máximos, que nos retornarão valores estimados de ńıveis de retorno a cada 10 e 20 peŕıodos de tempo respectivamente. Na Figura 5.8 temos os gráficos dos retornos a cada 10 e 20 peŕıodos de tempo para os dois regimes. No primeiro gráfico da figura, temos os retornos a cada 10 peŕıodos de tempo. Para este ńıvel, temos que os retornos do segundo regime sempre são maiores em relação ao primeiro, e o mês de Março é o mês que apresenta o maior ńıvel de retorno, tanto no primeiro como no segundo regime. Pela análise, são esperados a cada dez meses de março ou a cada dez anos valores para cotas máximas de 516,8401 cm e 599,0163 cm no primeiro e segundo regime respectivamente. Os meses onde os ńıveisde retorno são mais baixos dizem respeito aos meses de Outubro com valores estimados a cada dez anos de 162,0537 cm para o primeiro regime, e 332,3203 cm no mês de Setembro para o segundo. Em relação aos ńıveis esperados a cada 20 anos, temos que estes são maiores para Caṕıtulo 5. Aplicações 25 o segundo regime inicialmente de Janeiro a Maio, sendo Março o mês com maior ńıvel de retorno, com valor esperado de 678,4313 cm a cada 20 anos. Após o mês de Maio, temos que os ńıveis de retorno para os meses de Junho, Julho e Agosto são maiores para o primeiro regime com cotas de 620,5507 cm, 782,7005 cm e 486,6008 cm esperadas a cada 20 anos respectivamente. Percebe-se que para o mês de Julho, apresentou-se uma alta estimação dos ńıveis de retorno a cada 20 anos para o primeiro regime. Creditamos essa alta estimação a pouca quantidade de dados disponibilizados para o primeiro regime, pois de um total de 413 observações, apenas 63 fazem parte dele, ressaltando também que o ciclo de coleta mensal para alguns anos não estão completos, e com isso, poucos valores referentes a meses de Julho estão dispońıveis, o que deixa a variabilidade das estimativas bem mais altas, e isso unido ao fato de o quantil estimado ser bem alto, acarretou uma superestimação para este mês. Figura 5.8: Nı́veis de retorno esperados a cada 10 e 20 anos. À esquerda: retorno esperado a cada 10 anos; à direita: retorno esperado a cada 20 anos. Linha cheia: primeiro regime; linha tracejada: segundo regime. Tempo R et or no 2 4 6 8 10 12 20 0 30 0 40 0 50 0 60 0 Tempo R et or no 2 4 6 8 10 12 20 0 30 0 40 0 50 0 60 0 70 0 80 0 Na Figura 5.9 podemos ter uma noção de como se comportam os retornos esperados a cada 10 e 20 peŕıodos de tempo do ponto de vista dos regimes. Analisando a figura percebemos que os retornos a cada 20 anos são sempre maiores em relação aos esperados a cada 10 anos. Ainda podemos perceber, bem mais pelo segundo regime, que as curvas referentes a estes ńıveis de retorno se comportam de forma semelhante ao longo do tempo, evidenciando a latente caracteŕıstica sazonal apresentada durante o ano. Caṕıtulo 5. Aplicações 26 Figura 5.9: Nı́veis de retorno esperados a cada 10 e 20 anos para o primeiro e segundo regime. À esquerda: primeiro regime; à direita: segundo regime. Linha cheia: retorno esperado a cada 10 anos; linha tracejada: retorno esperado a cada 20 anos. Tempo R et or no 2 4 6 8 10 12 20 0 30 0 40 0 50 0 60 0 70 0 80 0 Tempo R et or no 2 4 6 8 10 12 35 0 40 0 45 0 50 0 55 0 60 0 65 0 Para concluir esta aplicação, temos na Figura 5.10 o ajuste dos ńıveis de retorno esperados a cada 10 e 20 anos na série original dos máximos do rio Parnáıba. Pela figura, podemos perceber que o ajuste ficou razoável à serie dos máximos. Temos que a série de retorno acompanha de forma bem satisfatória toda a variação sazonal que os máximos apresentam, revelando ainda que este fator consegue explicar adequadamente os ńıveis de cotas máximas do rio, pois as séries de retorno se movem de acordo com a variação mensal dos dados. Caṕıtulo 5. Aplicações 27 Figura 5.10: Nı́veis de retorno esperados a cada 10 e 20 anos na série dos máximos do rio Parnáıba. Linha tracejada: retorno esperado a cada 10 anos ; linha pontilhada: retorno esperado a cada 20 anos. Tempo S ér ie d os d ad os 0 100 200 300 400 20 0 40 0 60 0 80 0 5.2 Aplicação 2: rio Paraná O rio Paraná é um rio sul-americano com origem no Brasil, possuindo um trecho de 190 km que serve como demarcação da fronteira com o Paraguai até chegar a foz do rio Iguaçu. É o segundo maior rio sul-americano em extensão, sendo o nono no ranking mundial, e é o décimo em termos de maior vazão. Nasce da confluência de dois outros grandes rios, o rio Grande e o rio Paranáıba nos estados de Minas Gerais, São Paulo e Mato Grosso do Sul. No trecho da fronteira Brasil e Paraguai, se encontra a usina hidrelétrica Itaipu, ĺıder mundial em produção de energia limpa e renovável, produzindo cerca de 2,5 bilhões de megawatts-hora (MWh) desde o ińıcio de sua operação. Para os dados do rio Paraná, dispomos de 1100 observações de máximos mensais coletados a partir de primeiro de Junho de 1920 até Outubro de 2012, tendo apenas uma falta de valor mensal durante todo esse peŕıodo, referente a Dezembro de 2008. Na Figura 5.11 temos a série dos máximos do rio Paraná. Para estes dados, tenta- remos a estimação de dois pontos de mudança para verificar a sensibilidade do modelo proposto em detectar a quantidade real de pontos de mudança. Nascimento e Silva (2017) fizeram conjecturas dessa situação, incluindo pontos de mudança além dos que realmente constavam na série dos dados, e chegaram a conclusão de que os verdadeiros pontos de mudança existentes na série dos dados eram bem estimados, enquanto que o ponto de Caṕıtulo 5. Aplicações 28 mudança adicional cáıa sempre no ińıcio ou no final dela. Por abordarmos um mecanismo similar de estimação do ponto de mudança ao que foi proposto no modelo de Nascimento e Silva (2017), utilizaremos o mesmo critério de escolha da quantidade exata de pontos de mudança. De acordo com uma análise preliminar da série dos dados, colocamos para τ1, o primeiro ponto de mudança, um chute inicial de 617, e para o segundo τ2=737. Figura 5.11: Série dos dados do rio Paraná. Tempo M áx m im os m en sa is 0 200 400 600 800 1000 10 0 20 0 30 0 40 0 Temos pela Figura 5.12, que o modelo identificou a série dos dados com apenas um ponto de mudança, estimado em 737, mostrando a existência de somente dois regimes, pois o outro ponto, de acordo com o critério adotado, caiu no final da série. Um detalhe importante é que o ponto de mudança estimado é referente à observação de 1 de Novembro de 1981, ano que precede a conclusão da usina hidrelétrica de Itaipu em 1982, revelando que assim como no caso do rio Parnáıba, os dados passaram a ter outro comportamento após a construção desta usina hidrelétrica. Com a formação dos regimes, podemos ter a estimação dos coeficientes de regressão dos parâmetros µ,σ e ξ. Nas Figuras 5.13 e 5.14 temos as séries das estimativas dos coeficientes de regressão para o primeiro e segundo regime, e pelas Figuras 5.15 e 5.16 temos os histogramas destes coeficientes. Podemos perceber através dos histogramas, que os valores dos coeficientes se distribuem em torno de valores diferentes de zero. Para os coeficientes β2,ξ1 e β2,ξ2 , apesar de serem valores bem próximos de zero, admitimos a Caṕıtulo 5. Aplicações 29 Figura 5.12: Probabilidade dos pontos de mudança para os dados do rio Paraná. Linhas verticais em cor cinza: estimativas dos intervalos de confiança 0. 0 0. 2 0. 4 τ1 P ro ba bi lid ad es 617 701 734 739 744 749 0. 0 0. 2 0. 4 τ2 P ro ba bi lid ad es 737 1095 relevância destes coeficientes para esta aplicação, pois vale ressaltar que pequenos rúıdos na estrutura de regressão afetam a variação final do parâmetro estimado. Pela Tabela 5.2, temos as estimativas dos coeficientes de regressão com os respectivos intervalos de confiança, e podemos constatar que os valores estimados são diferentes de zero. Figura 5.13: Série das estimativas dos coeficientes de regressão para o primeiro regime do rio Paraná . Tempo β 0 µ1 0 5000 10000 15000 20000 25000 30000 12 8 13 4 14 0 Tempo β 1 µ1 0 5000 10000 15000 20000 25000 30000 6 10 16 Tempo β 2 µ1 0 5000 10000 15000 20000 25000 30000 26 32 38 Tempo β 0 σ1 0 5000 10000 15000 20000 25000 30000 3. 60 3. 75 Tempo β 1 σ1 0 5000 10000 15000 20000 25000 30000 0. 05 0. 25 Tempo β 2 σ1 0 5000 10000 15000 20000 25000 30000 0. 05 0. 25 Tempo β 0 ξ1 0 5000 10000 15000 20000 25000 30000 − 0. 25 − 0. 10 Tempo β 1 ξ1 0 5000 10000 15000 20000 25000 30000 −0. 25 0. 00 Tempo β 2 ξ1 0 5000 10000 15000 20000 25000 30000 − 0. 10 0. 10 Quando avaliamos pela tabela os coeficientes de regressão do parâmetro µ, percebe- mos pelo intercepto, que a média deste parâmetro aumentou bastante após o ponto de Caṕıtulo 5. Aplicações 30 Figura 5.14: Série das estimativas dos coeficientes de regressão para o segundo regime do rio Paraná. Tempo β 0 µ2 0 5000 10000 15000 20000 25000 30000 21 0 22 0 Tempo β 1 µ2 0 5000 10000 15000 20000 25000 30000 − 4 2 6 Tempo β 2 µ2 0 5000 10000 15000 20000 25000 30000 6 12 18 Tempo β 0 σ2 0 5000 10000 15000 20000 25000 30000 3. 55 3. 75 Tempo β 1 σ2 0 5000 10000 15000 20000 25000 30000 0. 0 0. 2 Tempo β 2 σ2 0 5000 10000 15000 20000 25000 30000 − 0. 05 0. 20 Tempo β 0 ξ2 0 5000 10000 15000 20000 25000 30000 − 0. 15 0. 00 Tempo β 1 ξ2 0 5000 10000 15000 20000 25000 30000 − 0. 20 0. 00 Tempo β 2 ξ2 0 5000 10000 15000 20000 25000 30000 − 0. 1 0. 1 Figura 5.15: Histogramas dos coeficientes de regressão para o primeiro regime do rio Paraná. β0µ1 D en si da de 128 130 132 134 136 138 140 0. 00 0. 20 β1µ1 D en si da de 6 8 10 12 14 16 18 0. 00 0. 20 β2µ1 D en si da de 26 28 30 32 34 36 38 40 0. 00 0. 20 β0σ1 D en si da de 3.60 3.65 3.70 3.75 3.80 0 10 β1σ1 D en si da de 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0 4 8 β2σ1 D en si da de 0.0 0.1 0.2 0.3 0 4 8 β0ξ1 D en si da de −0.25 −0.20 −0.15 −0.10 −0.05 0 6 14 β1ξ1 D en si da de −0.25 −0.15 −0.05 0.05 0.10 0 4 8 β2ξ1 D en si da de −0.15 −0.10 −0.05 0.00 0.05 0.10 0.15 0 6 12 mudança. Já para o parâmetro de escala σ percebemos que os valores dos seus respectivos coeficientes quase não se alteram de um regime para o outro, revelando que, apesar de ha- ver mudança no comportamento dos dados após certo momento no tempo, a variabilidade dos dados permanece praticamente a mesma. A partir da estrutura de regressão temos a estimação dos parâmetros por imputação, e com isso, poderemos ver como eles se comportam ao longo do tempo. Na Figura 5.17, temos o primeiro gráfico que mostra que os valores do parâmetro µ aumentaram Caṕıtulo 5. Aplicações 31 Figura 5.16: Histogramas dos coeficientes de regressão para o segundo regime do rio Paraná. β0µ2 D en si da de 210 215 220 225 0. 00 0. 15 β1µ2 D en si da de −5 0 5 0. 00 0. 20 β2µ2 D en si da de 4 6 8 10 12 14 16 18 0. 00 0. 20 β0σ2 D en si da de 3.50 3.55 3.60 3.65 3.70 3.75 3.80 0 4 8 β1σ2 D en si da de 0.0 0.1 0.2 0.3 0 3 6 β2σ2 D en si da de −0.05 0.05 0.10 0.15 0.20 0.25 0.30 0 3 6 β0ξ2 D en si da de −0.15 −0.10 −0.05 0.00 0 6 12 β1ξ2 D en si da de −0.20 −0.15 −0.10 −0.05 0.00 0.05 0 4 8 β2ξ2 D en si da de −0.15 −0.10 −0.05 0.00 0.05 0.10 0.15 0 6 12 Tabela 5.2: Estimativas e intervalos de 95% de confiança para os coeficientes de regressão- rio Paraná. Regime 1 Regime 2 β0,µ1 = 134, 01 β1,µ1 = 12, 72 β2,µ1 = 32, 50 β0,µ2 = 217, 44 β1,µ2 = 1, 29 β2,µ2 = 11, 34 (130,334 ; 137,556) (8,940 ; 17,003) (28,407 ; 36,508) (213,061 ; 222,137) (-3,277 ; 5,627) (6,597 ; 15,850) β0,σ1 = 3, 68 β1,σ1 = 0, 18 β2,σ1 = 0, 14 τ = 737 β0,σ2 = 3, 66 β1,σ2 = 0, 19 β2,σ2 = 0, 14 (3,615 ; 3,752) (0,093 ; 0,273) (0,060 ; 0,236) (735 ; 740) (3,588 ; 3,748) (0,073 ; 0,318) (0,034 ; 0,250) β0,ξ1 = −0, 17 β1,ξ1 = −0, 07 β2,ξ1 = −0, 01 β0,ξ2 = −0, 09 β1,ξ2 = −0, 06 β2,ξ2 = 0, 02 (-0,232 ; -0,116) (-0,159 ; 0,025) (-0,066 ; 0,078) (-0,152 ; -0,028) (-0,138 ; 0,014) (-0,075 ; 0,134) significativamente de um regime para o outro, sendo os maiores valores, assim como nos dados do rio Parnáıba, para os primeiros meses do ano. Para o primeiro regime, o mês de Fevereiro é o mês de maior valor para o parâmetro µ com 168,5367 cm, e para o segundo regime, é o mês de Março com 228,7953 cm. Após os primeiros meses, temos um decaimento nos valores de cotas chegando a suas médias mais baixas nos meses de Agosto, com 99,5020 cm para o primeiro regime, e Setembro com 206,1017 cm para o segundo regime. No segundo gráfico da Figura 5.17, vemos como já mencionado anteriormente, o com- portamento praticamente equivalente do parâmetro de escala nos dois regimes. Também podemos perceber que estes variam bem menos quando comparamos com os dados do rio Parnáıba, pois para os dados do rio Paraná há uma amplitude máxima de variação de 18,3810 cm para o primeiro regime, e 19,1804 cm para o segundo. Enquanto que para os dados do rio Parnáıba a amplitude é bem diferente, sendo 309,9175 cm para o primeiro Caṕıtulo 5. Aplicações 32 regime e 118,2783 cm para o segundo. Analisando o parâmetro ξ, temos que a cauda da distribuição GEV é mais pesada após o ponto de mudança. Ainda podemos perceber que o ξ tem comportamento similar nos dois regimes, no qual a cauda assume uma forma mais leve para os primeiros meses do ano, e no decorrer do tempo assume uma forma mais pesada, precisamente nos meses de Maio e Junho para os dois regimes, e após esses meses volta a ter uma cauda mais leve. Figura 5.17: Parâmetros µ,σ e ξ variando ao longo do tempo para os dados do rio Paraná. Linha cheia: primeiro regime; linha tracejada: segundo regime. Tempo µ 2 4 6 8 10 12 10 0 12 0 14 0 16 0 18 0 20 0 22 0 Tempo σ 2 4 6 8 10 12 35 40 45 50 Tempo ξ 2 4 6 8 10 12 − 0. 20 − 0. 15 − 0. 10 − 0. 05 A partir deste momento, procederemos com as análises para os ńıveis de retorno. Para a aplicação dos dados do rio Paraná, escolhemos os quant́ıs 90, 95 e 99 por cento, que nos retornarão respectivamente valores esperados de retorno de cotas máximas do rio a cada 10, 20 e 100 anos. Na Figura 5.18 temos o gráfico dos ńıveis de retorno a cada 10, 20 e 100 anos nos dois regimes. Pelo que podemos observar, os ńıveis de retorno após o ponto de mudança sempre são maiores. E também se percebe comportamentos sazonais semelhantes nos dois regimes, e como já é caracteŕıstico de resultados anteriormente explanados, os maiores ńıveis de retorno são para os primeiros meses do ano. Para os ńıveis de retorno esperados a cada 10 anos, temos pela informação do gráfico, que os maiores valores são referentes aos primeiros meses, nos quais o mês de Fevereiro é o de maior retorno, tanto no primeiro como no segundo regime, com valores esperados de cotas máximas a cada 10 anos de 259,9687 cm e 327,7696 cm respectivamente. Em Caṕıtulo 5. Aplicações 33 contrapartida, o mês onde se espera o menor ńıvel de retorno diz respeito a Agosto, com ńıveis esperados a cada 10 anos de 161,7735 cm e 271,5356 cm respectivamente. Para os ńıveis esperados a cada 20 anos, temos que o comportamento sazonal destes retornos é bem similar aos ńıveis esperados a cada 10 anos, diferenciando apenas nos valores, já que se trata da estimação de um quantil bem mais alto que o anterior. Para este ńıvel de retorno, o mês de Fevereiro ainda é o mês com maior valor de cota máxima esperada, tanto antes como depois do ponto de mudança, com valores de retorno esperados a cada 20 anos de 282,2810 cm e 355,6114 cm respectivamente. E o mês onde se espera o menor valor de cota máxima a cada 20 anos diz respeito a Agosto, com valores de 178,0421 cm e 289,9165 cm. Em relação aos ńıveis esperados a cada 100 anos, temos que antes do ponto de mudança o maior ńıvel de retorno esperado se encontrava para o mês de Fevereiro, com o valor de cota máxima de 323,5123 cm. Após o ponto de mudança, o mês de maior retorno passa a ser Março com um valor de 412,5335 cm, similar ao mês de Fevereiro com 412.5112. Em relação aos meses onde se espera os menores ńıveis de retorno, o mês de Agosto é o que apresenta os menores valores com 209,6852 cm para o primeiro regime, e 328,1337 cm para o segundo. Na Figura 5.19 podemos ter uma noção de como esses retornos se distribuem ao longo do tempo para os dois regimes. Astrês curvas referentes aos retornos a cada 10, 20 e 100 peŕıodos de tempo respectivamente, apresentam comportamento semelhante durante o ano, mostrando que as caracteŕısticas sazonais foram bem captadas pelos ńıveis de retorno. Para finalizar esta aplicação, temos nas Figuras 5.20 e 5.21 o ajuste dos retornos na série original dos dados de máximos do rio Paraná. A Figura 5.20 apresenta a série dos retornos para os quant́ıs 90 e 95. Pelo gráfico podemos perceber que as séries de retorno se adequam muito bem aos dados do rio, mostrando que a variação sazonal foi bem captada pelos mesmos. Na Figura 5.21, temos o ajuste do quantil 99, e para este também podemos afirmar que se conseguiu uma boa captação da variação dos dados pelos retornos. Vale também chamar atenção ao detalhe que, devido ao banco de dados do rio Paraná estar praticamente completo para todos os anos, o comportamento sazonal para os ńıveis de retorno está quase que invariante. Caṕıtulo 5. Aplicações 34 Figura 5.18: Nı́veis de retorno esperados a cada 10, 20 e 100 anos. À esquerda: retorno a cada 10 anos; centro: retorno a cada 20 anos; à direita: retorno a cada 100 anos. Linha cheia: primeiro regime; linha tracejada: segundo regime. Tempo R et or no 2 4 6 8 10 12 20 0 25 0 30 0 Tempo R et or no 2 4 6 8 10 12 20 0 25 0 30 0 35 0 Tempo R et or no 2 4 6 8 10 12 25 0 30 0 35 0 40 0 Figura 5.19: Nı́veis de retorno esperados a cada 10, 20 e 100 anos para o primeiro e segundo regime. À esquerda: primeiro regime; à direita: segundo regime. Linha cheia: retorno a cada 10 anos; linha tracejada: retorno a cada 20 anos; linha pontilhada: retorno a cada 100 anos. Tempo R et or no 2 4 6 8 10 12 15 0 20 0 25 0 30 0 35 0 Tempo R et or no 2 4 6 8 10 12 28 0 30 0 32 0 34 0 36 0 38 0 40 0 Caṕıtulo 5. Aplicações 35 Figura 5.20: Nı́veis de retorno esperados a cada 10 e 20 anos na série dos máximos do rio Paraná. Linha tracejada: retorno esperado a cada 10 anos; linha pontilhada: retorno esperado a cada 20 anos. Tempo S ér ie d os d ad os 0 200 400 600 800 1000 10 0 20 0 30 0 40 0 Figura 5.21: Nı́veis de retorno esperados a cada 100 anos na série dos máximos do rio Paraná. Linha tracejada: retorno esperado a cada 100 anos Tempo S ér ie d os d ad os 0 200 400 600 800 1000 10 0 20 0 30 0 40 0 CAṔITULO 6 Conclusões Este trabalho teve como objetivo apresentar um modelo que oferecesse uma precisão maior sobre o comportamento de eventos extremos incorporando a sazonalidade como fa- tor de explicação, servindo também como um aperfeiçoamento do trabalho de Nascimento e Silva (2017). Nas duas aplicações aqui apresentadas, o modelo alcançou resultados bem satisfatórios, onde conseguimos ser precisos em relação aos meses com maiores chances de ocorrência do evento extremo, como também para os meses em que essa chance é bem pequena, realçando que o fator sazonal foi crucial para tal precisão do modelo. Entretanto, quando temos poucas observações para estimarmos os parâmetros mensalmente, pode haver a ocorrência de superestimação, como ocorreu para os ńıveis de retorno do primeiro regime dos dados do rio Parnáıba. Diante disso, temos que o trabalho desenvolvido alcançou os resultados esperados nos dando expectativas promissoras para posśıveis extensões, em que uma delas seria a aplicação do modelo em outros tipos de dados, tendo a possibilidade de incorporar outras informações além da sazonalidade. 36 Referências [1] B.P. Carlin, A.E. Gelfand, and A.F.M. Smith, Hierarchical Bayesian analysis to change point problems, Appl. Stat. 41 (1992), pp. 309-405. [2] Cabras S, Castellanos MA, Gamerman D (2010) A default approach for regres- sion on extremes. Stat Model (accepted) [3] Castellanos, M. A. and Cabras, S. (2007). A default Bayesian procedure for the generalized Pareto distribution. Journal of Statistical Planning and Inference, 137, 473-483. [4] D. Barry and J.A.Hartingan, A Bayesian analysis for change point problems, J. Amer. Stat. Assoc. 88 (1993), pp. 309-319. [5] Coles S. (2001) Introduction to Statistical Modelling of Extreme Values. Springer. [6] Chow, Y. S.; Teicher, H. Probability Theory, Independence, Interchangeabi- lity, Martingales. New York:Springer-Verlag, 1988. [7] Chaves-Demoulin V, Davison AC (2005) Generalized additive modelling of sam- ple extremes. Appl Stat 54:207-222 [8] Embrechts, Kluppelberg,and Mikosch, Modelling Extremal Events for Insu- rance and Finance, Springer-Verlag, Berlim, 1997. 37 Referências 38 [9] Ehlers, R. S. (2007). Inferência bayesiana. Dispońıvel em:< http://conteudo.icmc.usp.br/pessoas/ehlers/bayes/bayes.pdf> Acesso em: 07 de Outubro de 2017. [10] Fisher, R. A. e Tippet, L. H. C. (1928) On the estimation of the frequency distributions of the largest and smallest sumber of a sample, Proceedings of the Cambridge Philosophycal Society, 24, 180-190 [11] Gabriel Huerta, Bruno Sansó, Time-varying models for extreme values, Sprin- ger, Environ Ecol Stat (2007) 14:285-299. [12] Hosking, J. R. M.; Waliis, J. R. Regional Frequency Analysis. [s.l.]: Cambridge University Press, 1997. [13] Jenkinson, The frequency distribution of the annual maximum (or mini- mum) values of meteorological events, Quarterly Journal of the Royal Meteo- rological Society 81, 158-172, 1955. [14] Lai, T. L.; Liu, T.; Xing, H. A Bayesian Approach to Sequential Surveillance in Exponencial Families. Communications in Statistics-Theory and Methods, S.l., n 38,p. 2958-2968, 2009. [15] Mendes, B. V. M. (2004) Introdução a análise de eventos extremos, Rio de Janeiro, E-papers. [16] Nascimento FF, Gamerman D, Lopes HF (2011) Regression models for excee- dance data via the full likelihood. Environ Ecol Stat 18:495-512. [17] Nascimento, F.F. (2012) Modelos Probabiĺısticos para dados Extremos: Te- oria e aplicações. In: II COLÓQUIO DE MATEMÁTICA DA REGIÃO NOR- DESTE, 2012. Teresina, Piaúı. Universidade Federal do Piaúı. [18] Nascimento, F. F.; Silva, W. V. M. A Bayesian model for multiple change point to extremes, with application to environmental and financial data. Journal of Applied Statistics, p.2410-2426, 2017. [19] Reiss, and Thomas, M. Statistical Analysis of Extreme Values. Birkhauser Verlag, Basel-Boston-Berlim, 1997. Referências 39 [20] Smith Extreme Value Theory based on the r largest annual events, J. Hi- drology, n.86, 27-43, 1986. [21] Von Mises, R. La distribution de la plus grande de n valeurs, In Selected Papers, volumell, p. 271-294, American Mathematical Society, 1954. Resumo Abstract Introdução Objetivos Organização do Trabalho Teoria do Ponto de Mudança e Estrutura de Regressão Estrutura de Regressão Teoria dos Valores Extremos Modelagem Univariada de Extremos Modelos Probabilísticos para Máximos e Mínimos A Distribuição de Valores Extremos Generalizada (GEV) Estimação Modelo proposto Distribuições a Priori Distribuição a Posteriori Aplicações Aplicação 1: rio Parnaíba Aplicação 2: rio Paraná Conclusões Referências
Compartilhar