Prévia do material em texto
UNIVERSIDADE FEDERAL DE MINAS GERAIS INSTITUTO DE CIÊNCIAS EXATAS DEPARTAMENTO DE ESTATÍSTICA CURSO DE GRADUAÇÃO EM CIÊNCIAS ATUARIAIS Sérgio Luiz Moreira Júnior APLICAÇÃO DO MODELO LINEAR DINÂMICO SIMPLES NA ESTIMAÇÃO DA IBNR/PEONA BELO HORIZONTE 2019 SÉRGIO LUIZ MOREIRA JÚNIOR APLICAÇÃO DO MODELO LINEAR DINÂMICO SIMPLES NA ESTIMAÇÃO DA IBNR/PEONA Trabalho de Conclusão de Curso submetido à Universidade Federal de Minas Gerais, como requisito necessário para obtenção do grau de Bacharel em Ciências Atuariais Orientador: Vinı́cius Diniz Mayrink Co-orientador: Lorena Josino Silva Braga Belo Horizonte, junho de 2019 2 Aplicação do Modelo Linear Dinâmico Simples na estimação da IBNR/PEONA. † Autor: Sérgio Luiz Moreira Júnior Graduação em Ciências Atuariais, Universidade Federal de Minas Gerais Orientador: Vinicı́us Diniz Mayrink Professor Adjunto, Deparpatamento de Estatı́stica, Universidade Federal de Minas Gerais Co-orientador: Lorena Josino Silva Braga Bacharel em Ciências Atuariais, Universidade Federal de Minas Gerais Resumo De acordo com a Resolução Normativa 209/09 e suas alterações, mensalmente as Operado- ras de Plano de Saude devem contabilizar em seu passivo montante destinado às provisões. O objeto desse estudo será o cálculo da estimativa por metodologia própria de uma dessas provisões, a PEONA - Provisões de Eventos Ocorridos e Não Avisados. Trata-se de uma pes- quisa de campo, exploratória, com tratamento quantitativo e qualitativo, realizada com a base de dados de uma operadora de médio porte. O tratamento de dados e as análises estatı́sticas foram realizadas com auxı́lio dos softwares MSExcel R©, e do R com interface com o JAGS. A Inferência Bayesiana atribui a tudo que é desconhecido uma distribuição de probabilidade que possa exprimir nossa incerteza. Aliado a nossa suspeita de que a variação dos gastos men- sais das operadoras possuem dependência no tempo, foram propostos três Modelos Lineares Dinâmicos Bayesianos, sendo o primeiro simples, o segundo com a inclusão do número de beneficiários mês a mês e o terceiro com a inclusão também da sazonalidade. Ao final foi re- alizada uma análise dos resultados, produzindo um comparativo entre os modelos dinâmicos, a metodologia ANS e o método Chain-Ladder, buscando encontrar o melhor preditor para o cálculo da IBNR/PEONA. Os melhores resultados em média, podem ser atribuı́dos aos modelos dinâmicos, sendo que o melhor em média foi o modelo mais simples. Palavras chave: Provisões Técnicas, PEONA, Modelo Dinâmico, JAGS, Inferência Bayesiana, MCMC. † Endereço de correspondência: Universidade Federal de Minas Gerais, ICEx, Departamento de Estatı́stica, Av. Antônio Carlos 6627, Pampulha, Belo Horizonte Minas Gerais, Brasil. E-mail: sergiojunior@ufmg.br. 3 Lista de Figuras 1 Triângulo de run-off com entradas anuais com n=5. Fonte: Vilela (2013) . . . . . . . . . . 11 2 Gráfico das despesas mensais por data de ocorrência da Operadora A no perı́odo compreen- dido entre janeiro de 2014 e dezembro de 2018. . . . . . . . . . . . . . . . . . . . . . . 13 3 Histograma das despesas por densidade de probabilidade no perı́odo entre 2014 e 2018. A linha vermelha representa a distribuição amostral hipotética. . . . . . . . . . . . . . . . 14 4 Gráfico do número de beneficiários da Operadora A no perı́odo compreendido entre janeiro de 2014 e dezembro de 2018. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 5 Gráfico do número de beneficiários por faixa etária da Operadora A em fevereiro de 2019. . 16 6 Gráfico das despesas por estações do ano no perı́odo entre 2014 e 2018. . . . . . . . . . . 16 7 Processo do sistema de inferência. Fonte Melo (2007). . . . . . . . . . . . . . . . . . . . 22 8 Intervalo HPD com 95% de credibilidade de θ dos modelos (a), (b) e (c): 1 (simples), 2 (com beneficiários) e 3 (com beneficiários e sazonalidade), respectivamente. . . . . . . . . . . . 27 9 Intervalo HPD com 95% de credibilidade de µ dos modelos (a), (b) e (c): 1 (simples), 2 (com beneficiários) e 3 (com beneficiários e sazonalidade), respectivamente. A linha vermelha indica o 0 (zero) no eixo y. Se ela estiver dentro do intervalo, a média µ é considerada como não significativa. O foco deste gráfico é identificar a rapidez com que o reconhecimento cai. 27 10 Intervalo HPD com 95% de credibilidade da previsão das despesas(Y) 12 passos à frente dos modelos: 1 (simples), 2 (com beneficiários) e 3 (com beneficiários e sazonalidade), respecti- vamente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 11 Intervalo HPD com 95% de credibilidade para previsão das proporções de reconhecimento (pi,j) dos modelos: 1 (simples), 2 (com beneficiários) e 3 (com beneficiários e sazonalidade), respectivamente. A linha azul está indicando o zero. Se ela estiver dentro do intervalo, a variável é considerada como não significativa. Em vermelho temos o intervalo de credibili- dade com 1 desvio padrão da média para baixo e para cima. O ponto central em vermelho representa a média da distribuição a posteriori. . . . . . . . . . . . . . . . . . . . . . . 29 12 Intervalo HPD com 95% de credibilidade da previsão das dos montantes (Wi,j) que preen- chem o triângulo inferior dos modelos: 1 (simples), 2 (com beneficiários) e 3 (com bene- ficiários e sazonalidade), respectivamente. A linha azul está indicando o zero. Se ela estiver dentro do intervalo, a variável é considerada como não significativa. Em vermelho temos o intervalo de credibilidade com 1 desvio padrão da média para baixo e para cima. O ponto central em vermelho representa a média da distribuição a posteriori . . . . . . . . . . . . 30 13 Cadeia de convergência dos β’s dos modelos: 2 (com beneficiários) e 3 (com beneficiários e sazonalidade), respectivamente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 14 Cadeia de convergência, densidade e Função de Autocorrelação (FAC) de θ42, Y prev3 e µ59,6 do modelo 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 15 Cadeia de convergência, densidade e Função de Autocorrelação (FAC) de pprev60,7, W56,12 e γ do modelo 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 16 Cadeia de convergência, densidade e Função de Autocorrelação (FAC) de δ, τv e τw do modelo 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 17 Cadeia de convergência, densidade e Função de Autocorrelação (FAC) de θ42, Y prev3 e µ59,6 do modelo 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 18 Cadeia de convergência, densidade e Função de Autocorrelação (FAC) de pprev60,7, W56,12 e γ do modelo 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 4 19 Cadeia de convergência, densidade e Função de Autocorrelação (FAC) de δ, τv e τw do modelo 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 20 Cadeia de convergência, densidade e Função de Autocorrelação (FAC) de θ42, Y prev3 e µ59,6 do modelo 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 21 Cadeia de convergência, densidade e Função de Autocorrelação (FAC) de pprev60,7, W56,12 e γ do modelo 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 22 Cadeia de convergência, densidade e Função de Autocorrelação (FAC) de δ, τv e τw do modelo 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 5 Lista de Tabelas 1 Triângulo de run-off Superior - matriz de informação dos dados . . . . . . . . . . . . . . 10 2 Estatı́sticas básicas das despesas mensais da Operadora A no perı́do entre 2014 e 2018 . . . 13 3 Frequência de utilização por faixa etária da Operadora A ocorridas em fevereirode 2019 . . 14 4 Proporção média de reconhecimento das despesas por data de aviso da Operadora A. . . . . 17 5 Comparação dos valores da PEONA real e estimativa do método ANS da Operadora A. . . . 26 6 Comparação dos valores da PEONA real e estimativa do método Chain Ladder da Operadora A. 26 7 Comparação dos valores da PEONA real e estimativa do modelo linear dinâmico Bayesiano 1 da Operadora A. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 8 Comparação dos valores da PEONA real e estimativa do modelo linear dinâmico Bayesiano 2 da Operadora A. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 9 Comparação dos valores da PEONA real e estimativa do modelo linear dinâmico Bayesiano 3 da Operadora A. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 10 Diferença em porcentagem dos valores de todas as estimativas e a PEONA real da Operadora A. 33 6 Sumário 1 Introdução 8 2 Provisão de Eventos Ocorridos e Não Avisados - PEONA/IBNR 9 3 Visualização dos Dados 12 3.1 Descrição detalhada dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3.2 Análise Descritiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3.3 Fator inflação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 4 Inferência Bayesiana 17 4.1 JAGS - Just Another Gibbs Sampler . . . . . . . . . . . . . . . . . . . . . . . . . . 18 4.1.1 Gibbs Sampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 5 Metodologia 20 5.1 Metodologia ANS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 5.2 Chain Ladder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 5.3 Modelo Dinâmico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 5.3.1 Modelos Propostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 6 Resultados 25 7 Considerações Finais 34 7 1 Introdução Somente com a criação da Lei 9.656/98 que o mercado de saude, até então organizado de forma in- dependente, foi de fato regulado. Após essa lei, surgiu a necessidade de um órgão regulador/fiscalizador e normatizador. Em 28 de janeiro de 2000, criou-se pela Lei no 9.961 a Agência Nacional de Saúde (ANS), que tem como objetivo regulamentar, orientar e supervisionar as operadoras de plano de saúde do mercado. Desde então, para manter o equilı́brio econômico-financeiro das operadoras de planos de saúde (OPS), por meio de normativos, a ANS tem imposto regulações e prestações de contas de forma a manter a liquidez e solvência das OPS. Dentre esses normativos, destaca-se a Resolução Nor- mativa (RN) no 393/15 e suas alterações que estabelece (mensalmente) que as OPS devem registrar contabilmente um montante relacionado às principais provisões necessárias. No ramo das Ciências Atuariais, as provisões têm papel fundamental para lidar com as incertezas e riscos futuros. As provisões técnicas são valores constituı́dos pelas empresas cujo produto é o “risco”. Conforme pode ser visto em Mano e Ferreira (2009), “as provisões técnicas correspondem aos diversos compromissos financeiros futuros das empresas para com os seus clientes/participantes, sendo que esses compromissos futuros podem corresponder a valores já conhecidos ou, como acontece na maioria das vezes, corresponder a estimativas. Dessa forma, o cálculo das provisões técnicas deve ser feito necessariamente por um atuário, profissional que estabelece os limites de segurança na gestão de riscos a partir do uso das teorias financeiras e das probabilidades”. Destaca-se que os valores das provisões representam a maior parte do passivo das operadoras. Portanto há um enorme interesse por parte das OPS que este registro seja feito da maneira mais precisa possı́vel. A questão da sobrestimação ou subestimação da PEONA pode ter influência direta na relação econômico-financeira de uma OPS, ou seja, se realizada uma estimação de valores maiores do que necessário poderá implicar a redução dos lucros e menores poderá ter como consequência a insolvência da empresa. Ambos os cenários não são desejados pelas Operadoras. Dentre todas as provisões técnicas necessárias à manutenção do equilı́brio econômico-financeiro das operadoras, o enfoque deste estudo será a Provisão de Eventos Ocorridos e Não Avisados (PE- ONA, do inglês IBNR). A escolha dessa provisão se deu pela sua importância devido a sua de- pendência em cálculos mais sofisticados do que os utilizados nas outras provisões. O método mais popular, e por muito tempo o mais utilizado para estimação da reserva de PEONA a ser provisionada, é o Chain-Ladder (cadeia escalonada), proposto por Tarbell (1934). Através das despesas geradas pelos beneficiários do plano de estudo, no perı́odo dos últimos dos 12 meses organizados no triângulo de run-off, este método assume como premissa que o comportamento de gastos destes beneficiários nos próximos 12 meses será semelhante aos 12 meses anteriores. A partir disso, encontram-se fatores que deverão ser multiplicados às despesas do perı́odo passado para projetar as despesas que serão gastas no futuro. Ressalta-se que, se o reconhecimento da OPS for hábil, não há a necessidade de utilizar uma cauda tão longa, ou seja, pode se trabalhar com uma quantidade menor de meses. Inúmeros estimadores já foram propostos com um objetivo em comum: fornecer uma boa estima- tiva para o valor da PEONA/IBNR baseada nos dados do passado. Mesmo esses estimadores sendo utilizados no mundo inteiro, não encontrou-se ainda um que satisfizesse por inteiro as operadoras e seguradoras. Por isso, há muito o que ser desenvolvido e estudado. A principal ideia é desenvolver um estimador que forneça valores próximos ao do valor real do IBNR, utilizando o maior número de informações possı́vel e disponı́vel. O fato desta provisão servir para diminuir a possibilidade de inadimplência da empresa mostra o quanto importante ela é (Atherino e Fernandes, 2006). Sendo assim, há uma abertura quanto a qual a melhor metodologia a se utilizar. 8 Dada esta contextualização, o objetivo deste estudo é propor um método probabilı́stico de cálculo de PEONA na área de saúde suplementar. Posteriormente aplicá-lo em um banco de dados de uma OPS de médio porte, e comparar os resultados com o método mais tradicional da literatura, e com a metodologia da ANS (dois métodos determinı́sticos). De acordo com a definição da ANS, RN no 393 e suas alterações, podemos considerar OPS de médio porte àquelas operadoras que possuem mais de 20 mil e menos de 100 mil beneficiários. Trabalhar com modelos probabilı́sticos tem uma grande vantagem: a disponibilidade de se trabalhar com intervalos de credibilidade, ao invés de somente uma estatı́stica pontual. Portanto, espera-se que os resultados do modelo proposto obtenha maior precisão quando comparado aos modelos determinı́sticos. Ressalta-se ainda que, o intuito do presente estudo não é solucionar este cenário, mas agregar a ele outra forma possı́vel de cálculo. O modelo aqui proposto utiliza a estrutura do triângulo de Run-Off para o calculo da PEONA. Assim como no método de Chain-Ladder, o cálculo da provisão se dá pela soma do triângulo infe- rior. Para o preenchimento do triângulo inferior, estima-se as despesas finais por data de ocorrência independente da data em que ele foi avisado. Essa estimação é feita assumindo que as despesas mensais reais possuem os mesmos comportamentos apresentados em meses anteriores. Desta forma utilizamos um modelo dinâmico com dependência no tempo. Criou-se ainda outro modelo dinâmico para a estimação dos percentuais de reconhecimento por data de aviso. De posse destas estimati- vas, o triângulo inferior final é preenchido pela multiplicação das despesas por mês de ocorrência,multiplicado pelo percentual de reconhecimento do respectivo mês de aviso ainda desconhecido. O presente trabalho é dividido como segue: a Seção 2 descreve sobre as provisões técnicas, inclu- sive a PEONA. A Seção 3 descreve detalhadamente os dados utilizados. A Seção 4 traz os principais conceitos de inferência Bayesiana. A Seção 5 relata a metodologia aplicada neste trabalho. Por fim, a Seção 6 explicita os resultados, e a Seção 7 aponta as considerações finais. 2 Provisão de Eventos Ocorridos e Não Avisados - PEONA/IBNR As provisões técnicas são projeções registradas contabilmente no passivo da OPS, que visam assegurar que a operadora tenha capital suficiente para arcar com suas despesas futuras. Para aquelas OPS que não possuem metodologia própria do cálculo de provisão ou estão desobrigadas de sua constituição, a RN no 393/15 e suas alterações, estabelecem uma forma padrão de cálculo para cada uma das principais provisões, dentre elas: • Provisão de Eventos/Sinistros a Liquidar (PESL) - referente ao montante de eventos/sinistros já ocorridos e avisados mas que não foram pagos pela OPS; • Provisão para Eventos Ocorridos e Não Avisados (PEONA) - referente à estimativa do montante de eventos/sinistros que tenham ocorrido e que não tenham sido avisados à OPS; • Provisão para Eventos Ocorridos e Não Avisados SUS (PEONA SUS): referente à estimativa do montante de eventos/sinistros originados no Sistema Único de Saúde (SUS), que tenham ocorrido e que não tenham sido avisados à OPS; • Provisão para Prêmios não Ganhos (PPCNG) - referente à parcela de prêmio/contraprestação cujo perı́odo de cobertura do risco ainda não decorreu; • Provisão para Remissão - referente às obrigações decorrentes das cláusulas contratuais de re- missão das contraprestações/prêmios referentes à cobertura de assistência à saúde, quando exis- tentes; 9 • Provisão para Insuficiência de Contraprestação/Prêmio (PIC) - relativo à insuficiência de prêmio para a cobertura dos eventos/sinistros a ocorrer, quando constatada. Ressalta-se que, operadoras de grande porte, àquelas com mais de 100 mil beneficiários, obriga- toriamente precisam adotar metodologia própria, portanto não constituem pela RN 393/15. Conforme já mencionado, neste trabalho o enfoque será na PEONA. O cálculo das provisões de sinistros envolvem necessariamente o uso de estimativas, devido a existência de um espaço de tempo entre a ocorrência do sinistro, o momento em que o sinistro é reportado à operadora e o momento em que o sinistro é finalmente encerrado; para ver mais detalhes veja Mano e Ferreira (2009). Assim, as datas são muito importantes na organização do banco de dados e no processo de esti- mativas das provisões. A seguir apresentamos as principais datas: 1) Data de ocorrência: na qual a utilização do plano ocorreu; 2) Data de aviso: momento em que a utilização é avisada à operadora; 3) Data de cadastro (ou registro): instante em que a utilização foi registrada pela primeira vez no sistema operacional da companhia; 4) Data contábil (ou data de provisão): momento usado para definir qual o grupo de sinistros que serão incluı́dos na estimativa da provisão; 5) Data de avaliação: data na qual a estimativa de provisão é feita. A data de avaliação define o corte a ser feito na análise, pois todas as transações ocorridas para o grupo de utilização em estudo devem ser incluı́das até a data da avaliação. A data de avaliação pode ser antes, depois ou coincidente com a data contábil (Mano e Ferreira, 2009). Tabela 1: Triângulo de run-off Superior - matriz de informação dos dados Perı́odo de desenvolvimento ocorrência 0 1 2 . . . k . . . n-1 n 0 Y0,0 Y0,1 Y0,2 . . . Y0,k . . . Y0,n−1 Y0,n 1 Y1,0 Y1,1 Y1,2 . . . Y1,k . . . Y1,n−1 2 Y2,0 Y2,1 Y2,2 . . . Y2,k . . . ... ... ... ... . . . Y·,k i Yi,0 Yi,1 Yi,2 . . . ... ... ... . . . n-1 Yn−1,0 Yn−1,1 n Yn,0 O triângulo de run-off consiste em uma tabela de dupla entrada, onde as linhas (i) representam a data em que as despesas (Yi,k) geradas por utilização do plano ocorreram. As colunas (k) equivalem as datas em que a OPS é avisada sobre estas despesas geradas. Considere n a quantidade de perı́odos analisados. Assim obtemos o triângulo superior da Tabela 1. A diferença de tempo entre a data de aviso e o momento do acontecimento é denominado perı́odo de desenvolvimento. Assim, o formato indicado na tabela avalia o atraso das contas por meio de seu desenvolvimento. Ele caracteriza- se como uma das ferramentas de auxı́lio mais utilizada por atuários para organizar dados visando detectar possı́veis padrões históricos, e avaliar qual metodologia utilizar. Organizando os dados na estrutura do triângulo de run-off, o triângulo superior expõe as carac- terı́sticas dos dados observados. O triângulo inferior, equivale às informações ainda desconhecidas, que é o alvo de estudo. O cálculo da provisão se dá justamente pela soma de cada célula desse triângulo inferior. 10 Figura 1: Triângulo de run-off com entradas anuais com n=5. Fonte: Vilela (2013) A Figura 1 ilustra um triângulo de run-off com perı́odos anuais, considerando a suposição de que os sinistros sejam avisados em até 5 anos após sua ocorrência. O que está em branco equivale ao que já temos conhecimento, e o que está em cinza exprime o que queremos estimar. As variações de tons da cor cinza, expressa que quanto mais escuro for a tonalidade, maior será a nossa incerteza. As diagonais caracterizam as despesas reconhecidas em um determinado ano, de acordo com sua ocorrência. Como a diagonal principal contém dados completos de 2012, significa que estamos em 2013. Se estivéssemos em 2014, terı́amos informações completas de 2013, e os dados poderiam ser atualizados, “deslocando”uma linha para baixo, conforme a tabela da direita. O cálculo da PEONA equivale a soma das entradas que estão abaixo da diagonal principal (em cinza), que corresponde a toda informação do perı́odo futuro. Interpretando os dados da tabela, a entrada (i=1,k=1) representa as utilizações do plano que ocorreram em 2008 e foram reconhecidas com 0 ano de atraso, isto é, em 2008 mesmo (Vilela, 2013). De todos os métodos que utilizam da estrutura do triângulo de run-off, o mais famoso e res- peitável, sem dúvida, é o método Chain-Ladder (cadeia escalonada), atribuı́do ao trabalho de Tarbell (1934). Em Friedland et al. (2010) é apresentado essa metodologia em detalhe, ressaltando aspectos especı́ficos de sua utilização, exemplos de cálculo e demonstrações das melhores formas de aplicação do método. No entanto, esse é um modelo pouco robusto, e diversos autores tentaram propor melho- rias. Vale destacar o modelo inicialmente apresentado em Mack (1993) e posteriormente desenvolvido em Mack (1999) que proporciona a obtenção de medidas de erro e de intervalos de confiança, partindo das estimativas provindas do método Chain Ladder. Existem também vários outros métodos que utilizam uma estrutura semelhante, adaptando às suas particularidades. Vale destacar o método de Bornhuetter-Ferguson, introduzido por Bornhuetter e Ferguson (1972) e posteriormente explorado e desenvolvido por Neuhaus (1992), embasado em uma combinação da informação relativa aos montantes de indenizações com fatores externos, tais como, a taxa de sinistralidade. Assim como é a ideia deste trabalho, inúmeros já foram os modelos propostos com abordagem probabilı́sticas. Pinheiro (1999) apresentou a utilização da técnica de Bootstrap. England e Verrall (2002) avaliaram uma abordagem estocástica. Atherino (2008) optou pela utilização de modelos em espaço de estado. Há também aqueles que optaram por uma abordagem Bayesiana, em Vilela (2013) foi explorado o modelo log-Anova e a distribuição de Misturas da Escala Skew-Normal (MESN). Já em Melo (2007) foi elaborado a proposta de um modelo dinâmico.Deve-se mencionar ainda, os estudos comparativos com aplicações. Por exemplo, em Nasci- mento (2006) podemos ver a comparação entre o método Chain-Ladder, o modelo Log Normal e a distribuição Poisson Composta. Em de Souza (2013) a confrontação foi entre modelos para micro- dados, como Parodi (2013), Weissner (1978), Antonio e Plat (2010), além de um próprio método 11 proposto pelo autor. Essas pesquisas mencionadas foram apenas alguns casos realizados na área. Em um levantamento de publicações discorrendo sobre metodologia do calculo de reservas de perda, elaborado por Schmidt (2017), foi apurado 14 livros/manuais e mais de 900 artigos/monografias. O que evidencia a ampla discussão sobre o tema, e a incerteza quanto ao melhor método, se é que exista o melhor para todas as situações. Desta forma, o intuito deste estudo não é solucionar este cenário, mas agregá-lo com um mo- delo probabilı́stico, que apresenta robustez e associação de medidas de probabilidades, diferente da maioria, que são determinı́sticos e dependem da qualidade e bom coportamento dos dados. 3 Visualização dos Dados Após a descrição da importância da PEONA e da ampla gama de pesquisas anteriores, esta seção é dividida em duas subseções. Na primeira é feita um breve detalhamento de toda a informação contida na base de dados aqui utilizada. Na segunda subseção, é realizada uma análise descritiva e exploratória destes dados. 3.1 Descrição detalhada dos dados Os dados utilizados nas análises deste trabalho foram obtidos de uma OPS, de médio porte a partir de uma consultoria atuarial, a qual não será identificada por sigilo, e por isso, a chamaremos de Operadora A. A base de dados disponibilizada conta com as informações discriminadas dos sinistros ocorridos e avisados no perı́odo compreendido entre dezembro de 2013 e fevereiro de 2019, que foram organi- zados, tratados e analisados em MSExcel R© e em R (R Core Team, 2019). No entanto, optou-se por realizar as análises considerando apenas o perı́odo entre 2014 e 2018, pensando em utilizar apenas as informações de anos fechados. Tem-se ainda que as informações detalhadas mencionadas, tratam- se das despesas mensais, com seus respectivos meses de ocorrência, e de aviso, além do número de beneficiários do plano mês a mês. Desta forma, trabalharemos com a base composta de 60 meses, e com isso, atendemos o mı́nimo de 30 meses, conforme é previsto por normativa (no 393/15 e suas alterações) . Utilizaremos a consideração de 5 anos completos, como forma de investigar e analisar a sazonalidade dos dados. A base contempla ainda detalhamentos da utilização do plano por faixa etária, segregado por tipo de procedimentos ocorridos referente ao mês de fevereiro de 2019. São dez faixas etárias, conforme previsto pela Resoluçao Normativa no 63/03 da ANS, sendo a primeira dos 0 aos 18 anos, a segunda dos 19 aos 23 anos, as demais seguindo uma progressão aritmética com razão 5, até atingir a décima e última faixa etária que abrange as pessoas com 59 anos ou mais. Os tipos de procedimentos são subdivididos em: consultas médicas, exames complementares, terapias, internações, outras despesas ambulatoriais e demais despesas assistênciais. Tem-se ainda que para cada tipo de procedimento é possı́vel verificar o número de expostos e o número de eventos por faixa etária. 3.2 Análise Descritiva Nesta seção será feita uma análise exploratória dos dados. Inicialmente apresenta-se a evolução das despesas mensais no perı́do compreendido de janeiro de 2014 a dezembro de 2018. 12 Figura 2: Gráfico das despesas mensais por data de ocorrência da Operadora A no perı́odo compreendido entre janeiro de 2014 e dezembro de 2018. Na Figura 2 verifica-se uma tendência de crescimento ao longo do tempo e podemos observar algumas flutuações dentro dos anos, apresentando alguns picos em meses especı́ficos. Uma possibi- lidade é que exista a influência de sazonalidade nos dados, ou seja, maior ou menor utilização em determinado perı́odo de tempo o qual se repete ao longo dos anos. Essa investigação será apresentada adiante. As principais estatı́sticas foram resumidas abaixo na Tabela 2. Ressalta-se que alguns valores foram arredondados na tentativa de manter o sigilo das informações reais da Operadora A em análise. Tabela 2: Estatı́sticas básicas das despesas mensais da Operadora A no perı́do entre 2014 e 2018 Valor Mı́nimo 1o quartil Mediana Média 3o quartil 6.000.000,00 7.390.000,00 8.350.000,00 8.450.000,00 9.640.000,00 Valor Máximo Desvio padrão Curtose Assimetria 11.000.000,00 1.400.000,00 2.1451 -0.0431 No perı́odo de análise, as despesas da Operadora A variaram entre R$ 6 e R$ 11 milhões, sendo a média R$ 8.450.000,00. Através do pacote moments (Komsta e Novomestky, 2015) do software R, calculou-se também a curtose e o coeficiente de assimetria de Pearson. Essas estatı́sticas correspon- dem, respectivamente, ao terceiro e quarto momento da distribuição amostral, e suas análises são feitas com referência à distribuição Normal. Como resultado obtivemos que as despesas são leptocúrticas e assimétrica negativa. Isso significa que a distribuição amostral possui um grau de achatamendo maior que a distribuição Gaussiana,com menor propensão a outliers, e que a média da distribuição está des- locada mais a esquerda. Isso pode ser visto na Figura 3 apresentada abaixo. Um fato que enfatiza a assimetria é a questão da mediana ser um pouco menor que a média. 13 Figura 3: Histograma das despesas por densidade de probabilidade no perı́odo entre 2014 e 2018. A linha vermelha representa a distribuição amostral hipotética. A seguir é apresentada a Tabela 3 com a frequência de utilização dos beneficiários da Operadora A ocorrida em fevereiro de 2019. A frequência de utilizaçaõ foi calculada pela razão entre o número de eventos, e o número de expostos em cada faixa etária, sendo assim, o número lido na tabela, representa a frequência de utilização para cada pessoa naquela faixa etária especı́fica. Por exemplo, em média no mês de fevereiro de 2019, a cada 100 beneficiários inseridos na primeira faixa etária, observou-se a realização de 36 consultas médicas. A interpretação de toda a tabela pode ser verificada de maneira análoga. Tabela 3: Frequência de utilização por faixa etária da Operadora A ocorridas em fevereiro de 2019 Faixa Consultas Exames Terapias Internações Outros Demais Etária Médicas Complementares Atendimentos Despesas Ambulatoriais Assistenciais 0 - 18 0.36 0.54 0.01 0.00 0.03 0.68 19 - 23 0.33 0.73 0.02 0.01 0.04 1.87 24 - 28 0.37 0.95 0.02 0.01 0.06 2.64 29 - 33 0.37 1.08 0.03 0.01 0.06 2.47 34 - 38 0.37 1.10 0.03 0.01 0.08 3.64 39 - 43 0.37 1.21 0.03 0.01 0.10 4.07 44 - 48 0.39 1.40 0.03 0.01 0.12 8.71 49 - 53 0.41 1.50 0.04 0.01 0.16 4.87 54 - 58 0.45 1.78 0.05 0.01 0.19 22.87 59 ou mais 0.53 2.30 0.11 0.02 0.24 13.49 De forma geral, observa-se na Tabela 3 observa-se uma relação direta do aumento de utilização conforme se avançam nas faixas etárias. Este tipo de comportamento é esperado, se considerarmos 14 que as pessoas em idades avançadas tendem a ter uma utilização maior de procedimentos. Ressalta-se que, apesar do número de internações para a primeira faixa etária estar indicando zero, não significa necessariamente que não havia ninguém internado, mas que duas casas decimais não foram suficientes para contabilizar a quantidade correta. A apresentação do resumo das utilizações com apenas duas casas decimais, foi uma medida para reforçar a tentativa de privacidade da Operadora A. A Figura 4 traz a variação dos beneficiários mês a mês no perı́do compreendido entre 2014 e 2018. Em todo o perı́do de análise, não parece ter ocorrido alguma mudança significativa na quantidade de beneficiários. A média de beneficiários mensal fica em torno de 63000. Desta forma, trata-se de umaOPS com caracterı́sticas de operadora de médio porte, com pouca perspectiva de mudança de porte, o que pode ser consequência da concorrência de mercado existente. Figura 4: Gráfico do número de beneficiários da Operadora A no perı́odo compreendido entre janeiro de 2014 e dezembro de 2018. Apresenta-se ainda na Figura 5 a discriminação dos beneficiários da Operadora A segregados por faixa etária observado no final do mês de fevereiro de 2019. Esta massa apresenta um perfil jovem adulto com 60% dos beneficiários com menos de 33 anos. Portanto trata-se de uma carteira bem oxigenada dado o grande contingente de pessoas nas primeiras faixas etárias. Isto pode ser visto como positivo, dado que as pessoas que estão propensas a uma maior utilização do plano, e como consequência gerar maiores despesas, representam uma pequena fatia do todo. Aliado ao porte, altos custos são diluı́dos pela massa que torna esta carteira favorável para a manutenção de sua solvência. Buscou-se ainda avaliar a existência de sazonalidade nos dados. A sazonalidade é a oscilação dos dados durante certo perı́odo ocasionado pela alta ou baixa utilização por parte do beneficiário e que se repete em análise ao longo do tempo. No mercado de saúde, o perı́odo de sazonalidade normalmente é o perı́odo de entrada do inverno, de junho até setembro, que é quando há o agravo das doenças respiratórias, aumentando a utilização por parte dos beneficiários. O perı́odo de férias escolares, de novembro a fevereiro, normalmente é o perı́odo de sazonalidade de baixa utilização, em que os beneficiários tendem a utilizar menos os planos de saúde. Os meses não citados são os meses de transição em que as despesas aumentam ou diminuem de acordo com a chegada de cada época do ano. Os meses de alta e baixa utilização podem variar de região para região e o perı́odo ilustrado é atribuı́do ao comportamento no sudeste, mas os perı́odos se repetem ao longo dos anos de 12 em 12 meses (Braga, 2017). 15 Figura 5: Gráfico do número de beneficiários por faixa etária da Operadora A em fevereiro de 2019. Figura 6: Gráfico das despesas por estações do ano no perı́odo entre 2014 e 2018. 16 A Figura 6 parece evidenciar os picos mencionados anteriormente. Nota-se que o perı́odo que apresenta uma maior utilização é justamente o inverno, enquanto o perı́odo que apresenta uma menor utilização é o verão. Percebe-se ainda, uma certa tendência de crescimento das despesas em todos as estações de ano a ano. Sendo assim, há indı́cios que a sazonalidade tenha influência na evolução das despesas. Essa hipótese será explorada na seção 5, que abrange a metodologia. Além do mais, buscou-se investigar o impacto do tempo de aviso em relação as despesas ocorri- das. As informações obtidas foram sumarizadas na Tabela 4. Em média, a Operadora A consegue ter reconhecimento de praticamente 100% da despesa gerada em um determinado mês, com no máximo 12 meses de atraso. Tem-se ainda que até o quarto mês mais de 99% das despesas já chegaram ao conhecimento da operadora. No geral, espera-se que quanto antes a operadora conseguir identificar as despesas geradas, melhor será a provisão realizada, ou seja, quanto menor o perı́odo de reconhe- cimento, maior a chance de se reservar um montante para despesas próximo à realidade de gastos da OPS com essa finalidade. Além disso, a provisão será menor, alvo das OPS que terão mais recursos destinados para outros fins. Tabela 4: Proporção média de reconhecimento das despesas por data de aviso da Operadora A. Perı́odo de atraso 0 1 2 3 4 5 6 Proporção (%) 54.86 27.42 11.70 4.12 1.26 0.30 0.10 Acumulado (%) 54.86 82.27 93.97 98.09 99.35 99.65 99.75 Perı́odo de atraso 7 8 9 10 11 12 Proporção (%) 0.10 0.06 0.05 0.02 0.01 0.005 Acumulado (%) 99.86 99.91 99.96 99.97 99.98 99.98 3.3 Fator inflação Além do efeito natural do desenvolvimento dos sinistros, as despesas estimadas podem ser agrava- das pelo efeito da inflação. Tal fato aumenta os valores projetados de eventos indenizáveis finais pelo efeito passado, e não pelo impacto esperado no futuro, como deveria ser. Para eliminar essa resul- tante inflacionária, nos fatores de desenvolvimento, o ideal é sempre que possı́vel trabalhar com uma moeda estável, para que a influência da inflação passada não interfira na escolha dos fatores. Optando por descontar a provisão, deve-se levar em consideração que tal desconto elimina a possibilidade de ganhos financeiros futuros, pois todo o ganho futuro é utilizado para reduzir a provisão no momento do cálculo. Tal redução no provisionamento gera um lucro contábil imediato, mas diminui a possi- bilidade de distribuição de ganhos financeiros futuros (Mano e Ferreira, 2009). Apesar da inflação influenciar os custos com sinistros, neste estudo não se considera o fator de inflação. 4 Inferência Bayesiana A Inferência Estatı́stica é um conjunto de técnicas aplicadas para investigação das incertezas de uma população por meio de uma amostra observada, buscando explicar ao máximo a variabilidade do conjunto de dados de um fenômeno aleatório de interesse, através de probabilidades. Existem duas abordagens de infêrencia: a Frequentista (Clássica) e a Bayesiana. Neste trabalho o enfoque será a segunda. Se o leitor estiver interessado em mais detalhamentos sobre as abordagens de inferência, pode ver, por exemplo Migon e Gamerman (1999). 17 Na Inferência Bayesiana a tudo que é desconhecido pode-se atribuir uma distribuição de proba- bilidade que possa exprimir a nossa incerteza. De maneira geral, todas as análises realizadas sobre essas incertezas partem do Teorema de Bayes: P (θ | x) = P (θ ∩ x) P (x) = P (x | θ)P (θ) P (x) (1) A escolha da notação utilizada em (1) segue (Ehlers, 2003). Segundo o autor: “para um valor fixo de x, a função l(θ;x) = p(x|θ) fornece a plausibilidade ou verossimilhança de cada um dos possı́veis valores de θ enquanto p(θ) é chamada distribuição a priori de θ. Estas duas fontes de informação, priori e verossimilhança, são combinadas levando à distribuição a posteriori de θ, p(θ|x)”. O Teorema de Bayes é o responsável por atualizar as nossas incertezas. O objetivo principal é encontrar uma distribuição a posteriori que seja uma boa representação da sua variável de estudo. A ideia é estimar uma distribuição a posteriori, que conforme (2) é dada pela proporcionalidade do produto entre a função de verossimilhança e a distribuição a priori. p(θ | x) ∝ p(x | θ)p(θ), (2) onde θ é o parâmetro de interesse da distribuição sob a qual será feito a Inferência Bayesiana, atri- buindo uma distribuição de probabilidade. De posse da distribuição a posteriori para as quantidades desconhecidas, temos toda a informação de que precisamos. No entanto, o que acontece é que em muitos cenários a distribuição a posteriori não é analiticamente tratável. Como solução, é necessário o auxı́lio da utilização de softwares especı́ficos com métodos já implementados, ou mesmo do uso de programação realizada pelo próprio pesquisador. Um exemplo de software que tem esta utilidade, e que foi utilizado neste trabalho, é o JAGS - Just Another Gibbs Sampler (Plummer, 2003). Desta forma, a próxima subseção se destina a prestar maior esclarecimentos sobre este software. 4.1 JAGS - Just Another Gibbs Sampler O JAGS é um programa baseado no dialeto da linguagem BUGS - Bayesian inference Using Gibbs Sampling que utiliza a estrutura de grafos para a construção da simulação do Monte Carlo via Cadeia de Markov - MCMC (Gelfand AE, 1990) para um modelo Bayesiano. Outros programas semelhantes são o WinBUGS (que é restrito ao sistema Windows e deixou de ter atualizações) e o OpenBUGS que pode ser instalado em diversos sistemas. Optamos pelo JAGS por também ser gratuito e ter maior potencial de crescimento visto que permite a usuários mais avançadosque criem seus próprios módulos do JAGS. Para mais informações ver (Plummer, 2003). Ressalta-se que a linguagem de programação dos três é muito similar com poucas diferenças, ficando a escolha pela preferência do pesquisador. Iremos utilizar o pacote do R conhecido como R2jags (Su e Yajima, 2015) em nossa análise. Este pacote permite uma interface entre o R e o JAGS de forma que poderemos aproveitar todos os recursos do R além de solicitar a execução do JAGS dentro do R. Isso facilita a implementação dos passos de algoritmos como o Gibbs Sampling (Geman e Geman, 1984) e o Metropolis-Hastings (Metropolis e Teller, 1953; Hastings, 1970). 4.1.1 Gibbs Sampling Gibbs Sampling é um algoritmo da classe MCMC bastante utilizado em Inferência Bayesiana para gerar valores da distribuição a posteriori desconhecidas. O algoritmo é baseado na geração de 18 valores a partir das distribuições condicionais completas a posteriori. A regra de Bayes é usada para determinar estas condicionais completas. Basicamente a conta envolve o produto entre a distribuição a priori e a função de verossimilhança. O algoritmo é iterativo, ou seja, após diversas repetições os valores gerados deverão convergir para a situação de amostras obtidas da distribuição alvo. Preliminarmente as observações iniciais das cadeias serão descartadas, ou seja, um perı́odo de aquecimento (burn in) deve ser considerado. As cadeias geradas podem ser auto-correlacionadas, o que é uma caracterı́stica indesejável, visto que buscamos por amostras aleatórias, ou seja amostras independentes. Neste caso, podemos abordar este problema com a seleção de observações para compor a amostra a posteriori com um espaçamento (lag). De forma que um burn in de 100 significa que estamos descartando as primeiras 100 iterações, e um lag 10 indica que a cada 10 iterações iremos salvas apenas uma delas. O algoritmo MCMC Gibbs Sampling é construı́do por meio dos seguintes passos: 1. Inicialize a contagem das iterações da cadeia t=1 fazendo valores inicias θ(0) = (θ (0) 1 , . . . , θ (0) d )′. 2. Obter um novo valor de θ(t) usando as distribuições condicionais completas: θ (t) 1 ∼ p(θ1 | θ(t−1)2 , θ (t−1) 3 , . . . θ (t−1) d ) θ (t) 2 ∼ p(θ2 | θ(t)1 , θ (t−1) 3 , . . . θ (t−1) d ) ... θ (t) d ∼ p(θd | θ(t)1 , θ (t) 2 , . . . θ (t) d−1). 3. Altere a contagem de t para t+1 e repita o passo 2 até que a convergência seja atingida. Para mais informações ver Gamerman e Lopes (2006) e Geman e Geman (1984). Pode acontecer de algumas das condicionais completas não terem formas fechadas, ou seja, não sabemos amostrar delas. Nestes casos é necessário utilizar um segundo algoritmo para a geração. O JAGS escolhe um algoritmo automaticamente entre uma série de possibilidades em sua mémoria. Nós não sabemos qual ele utiliza. Um dos possı́veis e bastante popular é o Metropolis-Hastings (M-H) (Metropolis e Teller, 1953; Hastings, 1970), o qual iremos explicar a seguir. A sua aplicação para amostragem indireta, é dada como segue: Gibbs sampling com passos do M-H: 1. Inicialize o contador com t = 0 e especifique um valor inical θ(0) . 2. Gere um novo valor θ′ da distribuição q( · | θ). 3. Calcule a probabilidade de aceitação α(θ, θ′) e gere u ∼ U(0, 1). 4. Se u ≤ α então aceite o novo valor e faça θt+1 = θ′, caso contrário rejeite e faça θt+1 = θt. 5. Incremente o contador de t para t+1 e volte ao passo 2. No segundo passo geramos um candidato para ser o novo valor do θ em questão, denominado θ′. Esse θ′ geralmente segue uma distribuição Normal com média do último valor assumido pelo θ em questão, θt−1, e variância ω0, θ′ ∼ N(θ(t−1), ω0). Esse ω0 está diretamente relacionado com o quarto passo. Quanto maior o valor de ω0, menor a taxa de aceitação, e vice-versa. No terceiro passo 19 devemos calcular um α (taxa de aceitação) que também vai nos auxiliar no quarto passo. Para facilitar os nossos cálculos, faremos a seguinte conta: log ( r(θ′) r(θt−1) ) = log(r(θ′))− log(r(θt−1)) α∗ = min{0, log(r(θ′))− log(r(θt−1))} α = exp(α∗), onde o r(θ′) é núcleo da distribuição condicional completa desconhecida avaliada no ponto θ′. Espera- se que essa taxa de aceitação assuma valores entre 0.4 e 0.6. 5 Metodologia Esta seção discorrerá sobre a metodologia adotada neste estudo e esta dividida em 3 subseções. A primeira trata de um método padrão proposto pela ANS, o segundo considera o Chain-Ladder e o terceiro é o modelo linear dinâmico Bayesiano simples. 5.1 Metodologia ANS A ANS, órgão regulador das OPS, propõe um método básico de cálculo para provisionamento, para ser usado nos primeiros 12 (doze) meses de operação ou até que ocorra a aprovação de metodologia especı́fica de cálculo, que usaria o maior entre os seguintes valores: 1. 8,5% (oito vı́rgula cinco por cento) do total de contraprestações/prêmios nos últimos 12 (doze) meses, na modalidade de preço preestabelecido; 2. 10% (dez por cento) do total de sinistros/eventos indenizáveis na modalidade de preço preesta- belecido, nos últimos 12 (doze) meses. Entretanto, esses percentuais apresentados são padrão e deixam de considerar outros critérios que poderiam influenciar o provisionamento, tais como, o histórico de reconhecimento, a área de atuação da OPS e as variações de utilização pelos usuários, dentre outros. Assim sendo, os percentuais esta- belecidos não refletem a realidade de boa parte das operadoras e, na maioria das vezes, isto ocasiona a sobrestimação ou a subestimação da PEONA. Essa é uma saı́da que a ANS encontrou para estabe- lecer uma fórmula de cálculo geral, uma vez que geralmente é mais conservadora e não é possı́vel estabelecer uma forma definida que se adeque bem a todas as OPS, já que isso depende diretamente do perfil de cada uma. Por isso, é muito importante que cada OPS contrate os serviços do profissional habilitado, o atuário, para que este estude o seu perfil e determine qual metodologia de cálculo para representar a realidade (Braga, 2017). 5.2 Chain Ladder Devido a sua simplicidade e facilidade de implementação, o método de Chain-Ladder é conside- rado o método clássico dentre todos os utilizados para o cálculo da PEONA. Esse método pressupõe que existe proporcionalidade entre os perı́odos de desenvolvimento e independência entre os diferen- tes anos de ocorrência. Utiliza-se a estrutura do triângulo de run-off, como apresentado na Tabela 1. 20 Para realizar o seu cálculo, o primeiro passo é acumular as despesas por linha, ou seja, por ano de ocorrência. O cálculo se dá da seguinte forma: Ai,j = j∑ k=0 Yi,k . Com as despesas acumuladas (Ai,j), podemos prosseguir para o segundo passo: estimar os fatores de desenvolvimento (f̂k), que consiste no crescimento do valor acumulado das despesas dos desenvol- vimentos posterior e anterior, ou seja, representa o crescimento do desenvolvimento de um ano para o outro, que por sua vez, são calculados por meio da seguinte equação: f̂k = ∑n−k j−1 Aj,k+1∑n−k j−1 Aj,k ; 1 ≤ k ≤ n− 1, onde n corresponde ao número de meses analisados, podendo ser 1 ≤ n ≤ 12, considerando que o perı́odo máximo de atraso serão 12 meses. Ressalta-se que i e k são linhas e colunas do triângulo, por isso variam de 1 a n. Quando k = 1, estamos nos referimos a 1o coluna, que se representa o desenvolvimento 0 (zero), relativo a despesa reconhecida dentro do próprio mês. Desta forma podemos prosseguir para o próximo passo e posteriormente calcular o montante provisionado da PEONA. O terceiro passo será estimar a despesa futura, ou seja, estimaremos o triângulo inferior. O cálculo se dá com base nos montantes acumulados e nos fatores de desenvolvimento estimados, explicitado na formulação a seguir: Âi,j = Âi,j−1 × f̂j−1, i+ j > n. Após encontrar todas as previsões na forma acumulada, o quarto passo consiste na desacumulação do triângulo, ou seja, estas previsõessão novamente colocadas na forma de densidade do triângulo, da seguinte forma: Yi,j = Ai,j − Ai,j−1. O quinto e último passo compreende o cálculo da PEONA, equivalente a soma do triângulo infe- rior, composto pelas previsões realizadas. Geralmente, esse método nos dá bons resultados e apresenta uma boa adaptação aos dados em estudo. Para maiores detalhamentos ver Friedland et al. (2010). 5.3 Modelo Dinâmico Em estudos de regressão linear buscamos analisar o comportamento de uma variável de interesse, investigando um possı́vel relacionamento com outras variáveis disponı́veis, todas elas invariantes no tempo. Na presença da dependência no tempo, uma alternativa é utilizar a modelagem em séries temporais. Acontece que, em séries temporais, assume-se que as variáveis sejam equiespaçadas, o que em muitos casos não é observado. Com o passar do tempo, podemos nos deparar com situações adversas, como o surgimento de novas variáveis explicativas, e desejamos que o modelo estatı́stico consiga captar estas alterações para que seja realizada uma análise fidedigna. Este é o caso quando se considera séries temporais diretamente relacionadas à atividade humana, como por exemplo os gastos mensais gerados pela utilização dos procedimentos ligados a OPS. O Modelo Linear Dinâmico Baye- siano (MLDB) consegue incorporar essas mudanças temporais, tornando-o um modelo plurivalente, muito utilizado em trabalhos em que as variáveis tenham dependência no tempo. O caráter dinâmico 21 do modelo refere-se ao fato de atribuir maior peso às informações mais recentes que às mais anti- gas. Assim, à medida que observações adicionais são realizadas, as estimativas dos parâmetros são passı́veis de mudanças de modo que um único modelo é capaz de explicar bem uma série que se altera com o tempo. Para mais informações ver Lauar (2012). Modelos lineares dinâmicos são modelos paramétricos onde os parâmetros variam com o tempo e é atribuı́do distribuições de probabilidade para todas as informações de dados disponı́veis. Ba- sicamente, ele é especificado pela quadrupla {Ft, Gt, Vt,Wt}, que são determinadas por um par de equações, denominado equação observacional e evolução de parâmetros ou equação do sistema, que são dadas por: Equação das observações: Yt = F ′ t θt + νt, com νt ∼ N(0, Vt); (1) Equação de sistemas/estados: θt = Gtθt−1 + ωt, com ωt ∼ N(0,Wt), (2) sendo que Yt são os dados observados no tempo t, Ft é um vetor de constantes conhecidas, θt é um vetor de parâmetros com dimensão p× 1, Gt é uma matriz de coeficientes conhecidos com dimensão p × p, que descreve a evolução dos parâmetros ao longo do tempo, e por fim, ν e ω são termos estocásticos (ruı́do branco) com distribuição Normal mutuamente não correlacionadas, em que Vt e Wt são as variâncias dos erros associados, respectivamente, à observação unidimensional e ao vetor p- dimensional dos parâmetros. Temos ainda que Wt descreve a velocidade da evolução dos parâmetros. Em resumo, a equação das observações define a distribuição de Yt condicional em θt, e a equação de sistemas/estados define a evolução no tempo do vetor de parâmetros θ. Após a parametrização, o enfoque passa ser a busca por encontrar a distribuição preditiva. Seja Dt toda a informação relevante observada até o tempo t. Na Figura 7 podemos ter uma visualização mais clara da dinâmica do sistema de inferência, que engloba o processo de interesse. Figura 7: Processo do sistema de inferência. Fonte Melo (2007). A distribuição preditiva (Yt | Dt−1) é derivada da combinação de uma relação sequencial pa- ramétrica (θt | θt−1, Dt−1), em conjunto com a associação de observações (Yt | θt, Dt−1) e a distribuição de (θt−1 | Dt−1), ou seja, as previsões são obtidas da relação: P (Yt, θt | Dt−1) = P (Yt | θt, Dt−1)P (θt | Dt−1). Assim a previsão em um passo é dada pela distribuição marginal (Yt | Dt−1) e a posteriori (θt | Dt) é a condicional (θt | Yt, Dt−1). A prova detalhada pode ser visto em Lauar (2012). Dessa forma a distribuição preditiva pode ser encontrada resolvendo: P (Yt | Dt−1) = ∫ P (Yt | θt−1, Dt−1) · P (θt−1 | Dt−1) dθt−1 22 Essa é a maneira padrão de se fazer previsão em modelos dinâmicos. No entanto, neste trabalho não realizamos esse cálculo, pois resolvemos aproveitar a estrutura do JAGS e do Gibbs Sampling, que efetuam as contas de uma maneira mais fácil computacionalmente. Para isso, adotamos as despesas que querı́amos prever (Yprev) como parâmetros, assumimos distribuições a priori para elas, e então aplicamos o Teorema de Bayes, ou seja, utilizamos a distribuição condicional completa dos Yprev dado os outros parâmetros e os dados observados . Para maiores informações sobre MLDB recomenda-se a leitura de West e Harrison (1997). 5.3.1 Modelos Propostos Utilizando a estrututa do triângulo de run-off criou-se dois MLDB para o preenchimento do triângulo inferior. Inicialmente eles são estimados independentemente e posteriormente são utilizados em conjunto para encontrar o valor a ser provisionado da PEONA. O primeiro MLDB tem o foco nas despesas mensais geradas pela utilização do plano da Opera- dora A. O modelo utiliza todas as despesas já reconhecidas e prevê as despesas esperadas 12 passos a frente. A opção da realização 12 passos à frente deriva da condição observada de que esta Operadora A, tem praticamente 100% do reconhecimento da suas despesas com no máximo 12 meses de atraso, conforme apresentado na Tabela 4. Para a previsão, utiliza-se toda a informação das despesas reco- nhecidas até a data atual, por data de ocorrência. Desta forma, não utiliza-se a informação derivada da data de aviso. Portanto, a estimação é feita com o foco em um montante final ocorrido em um certo mês. Aqui tentamos prever a despesa total fechada gerada em um mês, ou seja, estamos tentado prever o total da soma de cada linha do triângulo, montante total de cada célula da linha. A seguir é apresentado a parte dinâmica para as despesas Yt. Foram propostos 3 modelos dife- rentes. O modelo 1 abrange apenas a dependência nas despesas anteriores (θt). O modelo 2 possui a inclusão do número de beneficiários mensal (Bt). O modelo 3 incorpora o termo de sazonalidade, representado por uma variável indicadora (It), que assume valor 1 nos meses em que se espera uma maior utilização do plano. De acordo, com as análises descritivas realizadas na Seção 3, considera- mos a presença de sazonalidade nos meses da estação inverno (junho, julho e agosto). Ressalta-se que, optamos por fazer um modelo mais simples, considerando a variância constante. Desta forma os modelos são definidos como: Modelo 1: Yt ∼ N(θt, σ 2 v); (1) Modelo 2: Yt ∼ N(θt + β1Bt, σ 2 v); (2) Modelo 3: Yt ∼ N(θt + β1Bt + β2It, σ 2 v), (3) em todos eles, temos que θt ∼ N(θt−1, σ 2 w). O termo “F ′ t θt”apresentado na equação das observações, em (1), (2) e (3) será dado, respectivamente por: (θt), (θt + β1Bt) e (θt + β1Bt + β2It). Considerando o modelo 3 (mais completo), a função de verossimilhança L(θ;Y ) será: L(θ;Y ) = n∏ t=1 1√ 2πσ2 τ exp { − 1 2σ2 τ [Yt − (θt + β1Bt + β2It)] 2 } . Para avançar, é preciso indicar as distribuições a priori e os chutes iniciais dos parâmetros. As- sumimos como distribuição a priori que βi ∼ N(0, 10), com i=1,2. Os valores escolhidos são con- sequência da nossa incerteza. A média zero por não sabermos se assumirão um efeito positivo ou negativo, e variância 10 por julgarmos que é grande o suficiente para permitir que os β’s atinjam valo- res bem diferentes de 0 (zero). Já para o σ2 v e σ2 w, foi assumida uma distribuição a prori GI(0.1, 0.1), 23 onde GI significa a distribuiçaõ Gama Inversa. Como chute inicial, as seleções foram: θ = R$ 8 milhões, σ2 v=1, σ2 w=1, β1=0 e β2=0. Além disso escolheu-se um burn in=2000, lag=10 e uma amostra a posterioride tamanho 1000, o que implica em 12000 iterações. Para execução do MCMC no JAGS nos deparamos com uma limitação logo na fase inicial. Como a despesa do tempo t se baseia na despesa do tempo t− 1, ao iniciar o tempo 1, não existia a referência de uma despesa no tempo 0. Então, exigiu-se que fosse dada uma atenção especial na inicialização, e foi necessário escolher uma distribuição a priori para θ0. Desta forma, seguindo a notação do modelo 3, a especificação inicial foi dada da seguinte forma: θ1 ∼ N(θ0, σ 2 w) θ0 ∼ N(8000000, 100) A escolha dos parâmetros, foi baseada no fato de que estamos lidando com montantes monetários para operadora, na casa dos milhões. Com isso a média escolhida foi de R$ 8 milhões. Já a variância 100, porque como a variabilidade está grande, eu preferi adotar o 100 para que os montantes pudessem atingir valores acima e abaixo suficiente de R$ 8 milhões. Prosseguimos então com a parte dinâmica considerando uma distribuição Beta para as porcenta- gens de reconhecimento (pi,j). Lembrando que, considera-se como porcentagem de reconhecimento a proporção das despesas reconhecidas ao longo do tempo. Para se obter essa proporção basta calcular a fração entre o montante que foi avisado em um determinado mês, por toda a quantia de despesa gerada do mês de origem. Assim, a cada mês com a chegada de novas informações essa proporção de reconhecimento é atualizada. No caso em questão, essa atualização acontece até o décimo segundo mês após o mês de origem. Seja pi,j ∼ Beta(a, b), com a > 0, b > 0. Sua função densidade é dada por: f(pi,j) = Γ(a+ b) Γ(a)Γ(b) pa−1i,j (1− pi,j)b−1, para 0 < pi,j < 1 (4) sua média e variância são dadas respectivamete por: E(pi,j) = a a+ b V ar(pi,j) = ab (a+ b)2 (a+ b+ 1) (5) Para trabalharmos com o modelo Beta de forma dinâmica, é necessário fazer a seguinte reparametrização desta distribuição: µi,j = a a+ b γ = a+ b f(pi,j) = Γ(γ) Γ(µi,jγ)Γ((1− µi,j)γ) p µi,jγ−1 i,j (1− pi,j)(1−µi,j)γ−1, para 0 < pi,j < 1 E(pi,j) = µi,j V ar(pi,j) = µi,j(1− µi,j) (1 + γ) . Veja que µi,j é a média da distribuição Beta nesta nova parametrização. Sendo assim, podemos implementar no JAGS, o MLDB baseado na distribuição Beta assumindo a seguinte estrutura pi,j ∼ Beta(ai,j, bi,j); 24 ai,j = µi,j × γ; bi,j = (1− µi,j)× γ; µi,j = µi,j−1 × δ, onde δ é um fator de desconto e para ele iremos assumir uma distribuição que considera um intervalo (0,1), como por exemplo a própria distribuição Beta ou a distribuição Uniforme. Note que, sendo δ e µ pertencentes ao intervalo (0,1), a cada passo, a multiplicação desses termos, implica na redução da média, ou seja, µi,j será igual a µi,j−1 diminuı́do um pouco, porque conforme pode ser observado nos dados, sempre se observa a diminuição da proporção de reconhecimento a cada mês. Após a reparametrização podemos então dizer que o MLDB será dado da seguinte forma: µi,j ∼ Beta(a∗, b∗), a∗ = µi(j−1) × δ × γ∗ e b∗ = (1− µi,(j−1))× δ × γ∗ , apesar de γ e γ∗ poderem assumir valores diferentes, optou-se por usar o mesmo valor para ambos, ou seja, γ = γ∗. Dando continuidade, assumimos como distribuição a priori γ ∼ Ga(0.1, 0.1) e δ ∼ Beta(1, c). A escolha do parâmetro de escala c, deve ser determinado pelo pesquisador. Assumimos c sendo 4, visando assegurar maior rapidez de decaı́mento para a proporção de reconhecimento. Como chute ini- cial as seleções foram: p=0.1, µ0=0.5, δ = 0.5 e γ=1. Neste modelo tivemos a mesma restrição inicial mencionada anteriormente devido a falta de uma referência de um valor no tempo 0. Solucionando, o modelo deve ser inicializado da como segue: µi,1 = µ0 × δ µ0 ∼ Beta(1, 1) Para o cálculo de cada célula (Wi,j) do triângulo inferior utilizaremos toda a previsão feita su- pracitada. Basicamente iremos pegar a despesa total prevista e distribuı́-la seguindo a proporção do reconhecimento previsto. Wi,j = Yi × pi,j O valor a ser provisionado da PEONA, assim como no Chain-Ladder, se dará em função da soma do triângulo inferior. A previsão foi realizada 12 passos à frente, mas apurou-se que somente até o 4o passo os termos foram significativos. 6 Resultados Buscou-se avaliar a precisão do ajuste de 5 modelos diferentes: ANS, Chain-Ladder, e 3 MLDB. Desta forma, simulou-se o cálculo de PEONA nos 12 meses de ocorrência do ano de 2018. Nos MLDB, para realização da previsão, omitiu-se os dados observados dos doze perı́odos imediatamente anteriores ao de análise, buscando se aproximar do cenário real vivido pelas operadoras. A Tabela 5 sumariza os resultados obtidos com a metodologia proposta pela ANS. Observa-se uma grande discrepância entre o que foi calculado e o que realmente foi observado. Em média, a estimativa foi 111% maior do que o necessário, ou seja, se esta fosse a metodologia adotada, a Operadora A estaria provisionando mais que o dobro do valor preciso, implicando em uma sobrestimação muito elevada, prejudicando a alocação de recursos e até mesmo os lucros da operadora. Esse cenário é totalmente indesejável. A seguir investigaremos os outros modelos em busca de resultados melhores. 25 Tabela 5: Comparação dos valores da PEONA real e estimativa do método ANS da Operadora A. Mês/ano Método ANS Peona Real Diferença (%) Jan/2018 11.030.025,27 5.149.296,42 114,20 Fev/2018 11.167.764,35 5.639.306,97 98,03 Mar/2018 11.305.503,43 6.549.891,69 72,61 Abr/2018 11.403.062,32 6.040.718,77 88,77 Mai/2018 11.500.621,21 5.237.688,85 119,57 Jun/2018 11.598.180,10 5.474.737,22 111,85 Jul/2018 11.690.426,23 5.715.856,89 104,53 Ago/2018 11.782.672,36 5.658.118,95 108,24 Set/2018 11.874.918,48 5.745.632,13 106,68 Out/2018 12.102.049,50 5.531.625,23 118,78 Nov/2018 12.329.180,52 5.589.136,58 120,59 Dez/2018 12.556.311,53 4.642.027,12 170,49 Média 11.695.059,61 5.581.169,69 111,20 Na Tabela 6 podemos visualizar os resultados obtidos com o método de Chain-Ladder. Nota-se que foram encontrados resultados bem melhores do que o observado no modelo anterior. Em apenas dois meses a variação superou os 20%. Em média a diferença detectada foi de 8,8%. Destaca- se a estimativa do mês de setembro que foi a que mais se aproximou do real. Apesar da melhora significativa, o valor a ser provisionado permanece sobrestimado. Tabela 6: Comparação dos valores da PEONA real e estimativa do método Chain Ladder da Ope- radora A. Mês/ano Método Chain-Ladder Peona Real Diferença (%) Jan/2018 6.237.409,88 5.149.296,42 21,13 Fev/2018 5.313.384,93 5.639.306 -5,78 Mar/2018 5.991.308,35 6.549.891,69 -8,53 Abr/2018 6.444.705,00 6.040.718,77 6,69 Mai/2018 6.389.053,88 5.237.688,85 21,98 Jun/2018 6.073.261,33 5.474.737,22 10,93 Jul/2018 6.160.482,08 5.715.856,89 7,78 Ago/2018 6.413.362,17 5.658.118,95 13,35 Set/2018 5.841.640,21 5.745.632,13 1,67 Out/2018 6.237.427,87 5.531.625,23 12,76 Nov/2018 6.013.773,31 5.589.136,58 7,60 Dez/2018 5.372.114,94 4.642.027,12 15,73 Média 6.040.660,33 5.581.169,69 8,78 Antes de apresentar os resultados dos três modelos dinâmicos tabelado como foi feito para os outros dois modelos, primeiramente faremos algumas análises de seus ajustes e comportamento dos parâmetros. Buscando simplificar, essas análises serão feitas apenas para o mês de dezembro de 2018, último mês em análise, que por consequência possui os dados mais atualizados. A Figura 8 apresenta o intervalo HPD com 95% de credibilidade da evolução das despesas ao longo do perı́odo de análise, representado por θ. Não observa-se grandes variações entre os modelos. No geral, a média da distribuição de θ aponta para um crescimento, com uma amplitude praticamente 26 constante, com exceção do perı́odo entre o 33o(set/2016) e o 45o mês(set/2017). Nesse perı́odo de variação atı́pica, pode-se perceber um padrão no Modelo 2 de que a amplitude do intervalo foi au- mentando de acordo com o tempo que foi passando. A partir de outubro de 2017, o modelo pareceter se estabilizado voltando a ter comportamento semelhante ao observado no inı́cio do perı́odo. (a) (b) (c) Figura 8: Intervalo HPD com 95% de credibilidade de θ dos modelos (a), (b) e (c): 1 (simples), 2 (com beneficiários) e 3 (com beneficiários e sazonalidade), respectivamente. (a) (b) (c) Figura 9: Intervalo HPD com 95% de credibilidade de µ dos modelos (a), (b) e (c): 1 (simples), 2 (com beneficiários) e 3 (com beneficiários e sazonalidade), respectivamente. A linha vermelha indica o 0 (zero) no eixo y. Se ela estiver dentro do intervalo, a média µ é considerada como não significativa. O foco deste gráfico é identificar a rapidez com que o reconhecimento cai. A Figura 9 apresenta o intervalo HPD com 95% de credibilidade da evolução da proporção de reconhecimento de acordo com o tempo de atraso ao longo do perı́odo de análise, representado por 27 µi,j . Não observa-se grandes variações entre os modelos. O parâmetro µi,j mede a “rapidez”com que esse reconhecimento diminui. Observa-se que nos perı́odos iniciais, a amplitude do intervalo é maior, e quanto mais se distância da data de ocorrência, mais o intervalo se reduz. O que é indı́cio de pouca propensão a outlier, ou seja, a chance de um reconhecimento de um grande montante de despesas, muito tempo após a sua ocorrência é minúscula. O esperado é que a operadora reconheça grande parte de suas despesas próximas a data de ocorrência do evento gerador da despesa. A medida que o tempo de atraso aumenta, menor é a quantidade de avisos, e por coseguinte menor é a despesa reconhecida, já tendendo a zero após um certo perı́odo. (a) (b) (c) Figura 10: Intervalo HPD com 95% de credibilidade da previsão das despesas(Y) 12 passos à frente dos modelos: 1 (simples), 2 (com beneficiários) e 3 (com beneficiários e sazonalidade), respectivamente. A Figura 10 ilustra o itervalo HPD com 95% de credibilidade das previsões em 12 passos. Os três modelos tiveram resultados muito semelhantes, com o intervalo de amplitude aumentando a cada passo, o que é esperado, dado que devido ao aumento da nossa incerteza, quanto mais longe tentamos prever, maior será a variância. A média da distribuição a posteriori ficou próxima de R$ 8,8 milhões em todo o perı́odo. Note um grande contraste entre as Figuras 8 e 10. A Figura 8 é a média a posteriori que indica um crescimento para o perı́odo que estamos analisando. Já a Figura 10 é o Yprev cuja média é aquela dada por θt indicada na Figura 8 com um erro associado, porque ele varia em torno da média, o que pode ser caracterizado como cenários diferentes. Esta estabilidade indicada na Figura 10, pode ser atribuı́da ao tamanho do banco de dados. Se o banco de dados fosse grande, talvez terı́amos informação suficiente para poder prever o crescimento, mas com apenas 60 observações o modelo não foi capaz de captar esse comportamento. Nas análises feitas na Seção 3, podemos notar na Figura 1 uma tendência de crescimento no global. Mas se olharmos apenas para pequenas janelas, por exemplo 6 meses, notamos que esta elevação não fica tão visı́vel. O que nota-se é um comportamento mais constante, ou seja, para identificar o padrão de crescimento precisamos examinar um intervalo grande, o que corrobora a necessidade de grande volume de dados. As Figuras 11 e 12 apresentam comportamentos semelhantes e por isso será feita uma análise conjunta. A primeira apresenta as proporções de reconhecimento previstas (ppprevi,j), e a segunda as 28 previsões das despesas que já foram geradas mas que ainda não foram avisadas, ou seja, áquelas que irão preencher a parte inferior do triângulo Wi,j . As figuras apresentam também o intervalo HPD com 95% de credibilidade, representado pela cor preto. No entanto, em ambos, adotou-se um critério de seleção mais rigoroso, no qual limita-se o intervalo a apenas um desvio padrão da média para cima e para baixo, que está representado em vermelho. A linha azul está indicando o 0 (zero) simulando um teste de hipóteses para verificar se a variável possui efeito no todo, ou seja, se a linha azul cai dentro do intervalo, a variável é considerada como não significativa. Nota-se que a partir do quinto mês de reconhecimento, praticamente toda a informação recebida se manifestou como não significativa da despesa total, ou seja, a quantidade é tão ı́nfima que não afeta o todo. Tem-se ainda que para realização do cálculo do pprevi,j foi necessário um ajuste. Como µi,j mede a taxa de decaı́mento do reconhecimento mensal, estávamos violando a condição de que a soma dos pprevi,j’s ficassem no intervalo (0,1), ou seja, estavámos obtendo um reconhecimento maior do que 100% nos perı́odos, o que foge totalmente de qualquer realidade. A solução considerada foi dividir essas porcentagens estimadas pela soma delas, de modo que essa redistribuição resultaria exatamente em 100%. (a) (b) (c) Figura 11: Intervalo HPD com 95% de credibilidade para previsão das proporções de reconhecimento (pi,j) dos modelos: 1 (simples), 2 (com beneficiários) e 3 (com beneficiários e sazonalidade), respectivamente. A linha azul está indicando o zero. Se ela estiver dentro do intervalo, a variável é considerada como não signifi- cativa. Em vermelho temos o intervalo de credibilidade com 1 desvio padrão da média para baixo e para cima. O ponto central em vermelho representa a média da distribuição a posteriori. 29 (a) (b) (c) Figura 12: Intervalo HPD com 95% de credibilidade da previsão das dos montantes (Wi,j) que preenchem o triângulo inferior dos modelos: 1 (simples), 2 (com beneficiários) e 3 (com beneficiários e sazonalidade), respectivamente. A linha azul está indicando o zero. Se ela estiver dentro do intervalo, a variável é considerada como não significativa. Em vermelho temos o intervalo de credibilidade com 1 desvio padrão da média para baixo e para cima. O ponto central em vermelho representa a média da distribuição a posteriori Buscou-se ainda avaliar o coeficiente das inclusões feitas. A Figura 13 apresenta a cadeia de convergência dos β’s dos modelos 2 (primeira cadeia) e 3 (segunda e terceira cadeia). Por conter o zero em seus intervalos, nenhum dos coeficietes se apresentaram como significativos, ou seja, tanto o número de beneficiários como a sazonalidade não manifestaram efeito nas despesas totais. 30 Figura 13: Cadeia de convergência dos β’s dos modelos: 2 (com beneficiários) e 3 (com beneficiários e sazonalidade), respectivamente. Intuitivamente espera-se que o número de beneficiários mensal interfira diretamente no montante de gastos gerados pela utilização do plano, visto que, quanto maior o número de expostos maior a chance de utilização dos procedimentos, e por consequência, maiores as chances de gerar um valor maior de gastos. De acordo com as análises descritivas realizadas na Seção 3, pôde-se notar que o número de beneficiários teve pouca variação mensal, então por esse motivo, pode ser que o número total em si, tivesse pouco impacto nas despesas observadas. Nas mesmas análises da Seção 3, parecı́amos ter indı́cios do efeito de sazonalidade, de alta nos gastos no inverno e baixa no verão. No entanto, por mais que fosse alterada a variável indicadora que considera a sazonalidade, não conseguimos alcançar a significância do β2. Pode ser que a sazonali- dade não tenha sido captada de mês a mês, e tenha se manifestado fortemente ano a ano. Pode ser que a sazonalidade não tenha sido captada devido a limitação do curto perı́odo de tempo acessı́vel dos 31 dados. Se tivermos um banco de dados maior podemos ser capazes de detectá-la. Há de considerar ainda, a ordem de grandeza dos números. As despesas estão na escala do milhão. O número de beneficiários em dezenas de milhares. A sazonalidade representada por uma variável categórica (0 ou 1). Desta forma, a despesa do mês anterior pode ter puxado todo o peso para ela.Tabela 7: Comparação dos valores da PEONA real e estimativa do modelo linear dinâmico Bayesi- ano 1 da Operadora A. Mês/ano Modelo Dinâmico 1 Peona Real Diferença (%) jan/18 5.986.092,42 5.149.296,42 16,25 fev/18 5.065.730,53 5.639.306,38 -10,17 mar/18 5.720.018,12 6.549.891,69 -12,67 abr/18 5.098.599,17 6.040.718,77 -15,60 mai/18 6.120.591,06 5.237.688,85 16,86 jun/18 5.926.224,61 5.474.737,22 8,25 jul/18 6.295.699,73 5.715.856,89 10,14 ago/18 6.337.747,67 5.658.118,95 12,01 set/18 6.291.368,96 5.745.632,13 9,50 out/18 6.267.552,54 5.531.625,23 13,30 nov/18 6.121.006,27 5.589.136,58 9,52 dez/18 5.643.804,44 4.642.027,12 21,58 Média 5.906.202,96 5.581.169,69 6,58 Nas Tabelas 7, 8 e 9 são apresentadas respectivamente, a comparação entre a PEONA real, e os três modelos dinâmicos. Analisando a média das diferenças percentuais, os ajustes em ordem crescente foram, Modelo 1, 3 e 2, respectivamente. Mesmo o termo de sazonalidade não se apresentando como significativo, ele parece ter contribuı́do para a redução média da diferença percentual. Tabela 8: Comparação dos valores da PEONA real e estimativa do modelo linear dinâmico Bayesi- ano 2 da Operadora A. Mês/ano Modelo Dinâmico 2 Peona Real Diferença (%) jan/18 5.952.298,14 5.149.296,42 15,59 fev/18 5.034.895,99 5.639.306,38 -10,72 mar/18 6.312.798,57 6.549.891,69 -3,62 abr/18 5.910.420,84 6.040.718,77 -2,16 mai/18 6.009.181,24 5.237.688,85 14,73 jun/18 5.889.942,45 5.474.737,22 7,58 jul/18 6.200.718,61 5.715.856,89 8,48 ago/18 6.452.610,76 5.658.118,95 14,04 set/18 6.390.660,71 5.745.632,13 11,23 out/18 6.209.812,80 5.531.625,23 12,26 nov/18 6.133.472,82 5.589.136,58 9,74 dez/18 5.765.519,67 4.642.027,12 24,20 Média 6.021.861,05 5.581.169,69 8,45 Por fim, a Tabela 10 ilustra um comparativo em porcentagem da diferença entre o estimado e o observado de todos os modelos. A metodologia proposta pela ANS foi de longe a que obteve 32 Tabela 9: Comparação dos valores da PEONA real e estimativa do modelo linear dinâmico Bayesi- ano 3 da Operadora A. Mês/ano Modelo Dinâmico 3 Peona Real Diferença (%) jan/18 5.844.904,35 5.149.296,42 13,51 fev/18 4.990.138,95 5.639.306,38 -11,51 mar/18 6.232.345,40 6.549.891,69 -4,85 abr/18 5.887.622,12 6.040.718,77 -2,53 mai/18 5.982.847,67 5.237.688,85 14,23 jun/18 5.897.921,81 5.474.737,22 7,73 jul/18 6.297.553,46 5.715.856,89 10,18 ago/18 6.358.325,77 5.658.118,95 12,38 set/18 6.298.993,60 5.745.632,13 9,63 out/18 6.245.634,25 5.531.625,23 12,91 nov/18 6.110.132,89 5.589.136,58 9,32 dez/18 5.774.761,16 4.642.027,12 24,40 Média 5.993.431,79 5.581.169,69 7,95 Tabela 10: Diferença em porcentagem dos valores de todas as estimativas e a PEONA real da Operadora A. Mês/ano Metodologia Chain Modelo Modelo Modelo ANS Ladder Dinâmico 1 Dinâmico 2 Dinâmico 3 jan/18 114,20 21,13 16,25 15,59 13,51 fev/18 98,03 -5,78 -10,17 -10,72 -11,51 mar/18 72,61 -8,53 -12,67 -3,62 -4,85 abr/18 88,77 6,69 -15,60 -2,16 -2,53 mai/18 119,57 21,98 16,86 14,73 14,23 jun/18 111,85 10,93 8,25 7,58 7,73 jul/18 104,53 7,78 10,14 8,48 10,18 ago/18 108,24 13,35 12,01 14,04 12,38 set/18 106,68 1,67 9,50 11,23 9,63 out/18 118,78 12,76 13,30 12,26 12,91 nov/18 120,59 7,60 9,52 9,74 9,32 dez/18 170,49 15,73 21,58 24,20 24,40 Média 111,20 8,78 6,58 8,45 7,95 as piores estimativas. O método Chain-Ladder conseguiu resultados melhores, como destaque para setembro de 2018, onde a diferença foi a menor de todas. O modelo dinâmico 1, em média, foi o que obteve o melhor desempenho, mesmo sendo o mais simples dentre os três elaborados. Mesmo com os coeficientes de inclusão se manifestando como não significativo, os modelos dinâmico 2 e 3 alcançaram resultados expressivos, com erros menores, em média, do que o método Chain-Ladder. 33 7 Considerações Finais Este trabalho examinou a aplicação dos Modelos Lineares Dinâmicos Bayesianos nas estimativas do cálculo da Provisão Eventos Ocorridos e Não Avisados, considerando que as despesas geradas pela utilização dos beneficiários do plano de saúde da Operadora A, tinham dependência no tempo. O banco de dados utilizado foi de uma operadora de médio porte, porém acredita-se que a metodologia proposta também se ajustaria bem para as operadoras de grande porte. Por ser um modelo mais robusto que os existentes comparados, constatou-se que os MLDB con- seguiram alcançar bons resultados, sendo que dentre as metodologias analisadas, foram os que mais se aproximaram, em média, do que realmente foi observado ao longo do ano de 2018. Destaca-se que o melhor modelo ajustado, nem sempre vai ser o melhor modelo de previsão. Fato que comprova isso, foi o Modelo dinâmico 3 ter apresentado, em média, resultados melhores do que o Modelo dinâmico 2, mesmo com o termo de inclusão sendo não significativo. Apesar disso, o Modelo dinâmico 1, mesmo sendo o mais simples correspondeu, em média, às menores diferenças do valor de provisionamento que realmente seria necessário. Apurou-se também certa limitação quanto ao tamanho do banco de dados. Por estarmos traba- lhando com apenas 60 observações, acredita-se que esta quantidade de informações não foram sufi- cientes para o MLDB conseguir captar todos os indı́cios apurados na análise descritiva e exploratória dos dados, como a tendência de crescimento e a sazonalidade. Julga-se que com a incoporação de uma boa quantidade de dados, deixando o banco suficientemente grande, poderı́amos encontrar estimativas melhores. As despesa estão na escala dos milhões, o número de beneficiários nos milhares, e a sazonalidade foi representada por uma variável indicadora que assume valor zero ou um. Dessa forma, suspeita-se ainda que a grandeza dos números, ou seja, a diferença de escalas das variáveis, da mesma forma pode ter sido outro fator limitador. Conforme mencionado em Bornhuetter e Ferguson (1972), a dificuldade da modelagem de PE- ONA, é mais atuarial do que estatı́stico, considerando que não existe um método único de estimativas de previsão que conseguirão alcançar os melhores resultados sempre. Segundo Mano e Ferreira (2009) cada método é baseado em algumas suposições que podem não ser válidas em determinada situação. Desta forma, por mais sofisticadas que as metodologias sejam, não eliminam o trabalho de análise e a tomada de decisão por parte do atuário. Com base em todo o exposto, sugere-se para trabalhos futuros: a inclusão do fator de inflação, a alteração de premissas, mudança de escala das variáveis, consideração de banco de dados maior. 34 Bibliografia Antonio, K. e Plat, R. (2010), “Micro-Level Stochastic Loss Reserving for General Insurance,” Scan- dinavian Actuarial Journal, 2014:7, 649–669. Atherino, R. (2008), “Estimação de Reservas IBNR por Modelos em Espaço de Estado: Empi- lhamento por Linhas do Triângulo Run-off.” Tese de Doutorado, Departamento de Engenharia Elétrica, Pontı́fica Universidade Católica do Rio de Janeiro. Atherino, R. e Fernandes, C. A. C. (2006), “Um Modelo em Espaço de Estado para Estimação de Reservas IBNR,” Revista Brasileira de Risco e Seguro. Bornhuetter, R. L. e Ferguson, R. E. (1972), “The Actuarial and IBNR,” Proceedings of the Casualty Actuarial Society, pp. 181–195. Braga, L. J. S. (2017), “Adaptação de metodologia de Provisão de Eventos Ocorridos e Não Avisa- dos (PEONA) para operadoras de pequeno porte co intuito de minimizar a influência dos dados,” Trabalho de Conclusão de Curso - Departamento de Estatı́stica, ICEX, UFMG. de Souza, L. G. (2013), “Comparação de métodos de micro-dados e de triângulo run-of para previsão da quantidade IBNR,” Dissertação de Mestrado, Departamento de Engenharia Elétrica, Pontı́fica Universidade Católica do Rio de Janeiro. Ehlers, R. S. (2003), Introdução a Inferência Bayesiana, http://leg.ufpr.br/ paulo- jus/CE227/ce227.pdf. England, P. e Verrall, R. (2002), “Stochastic Claims Reserving in General Insurance,” British Actua- rial Journal, 8. Friedland,