IBNR PEONA - Monografia Sérgio

Imunologia

•
UFRGS

Jonas Stocker
24/05/2024
Prévia do material em texto
UNIVERSIDADE FEDERAL DE MINAS GERAIS
INSTITUTO DE CIÊNCIAS EXATAS
DEPARTAMENTO DE ESTATÍSTICA
CURSO DE GRADUAÇÃO EM CIÊNCIAS ATUARIAIS
Sérgio Luiz Moreira Júnior
APLICAÇÃO DO MODELO LINEAR DINÂMICO SIMPLES NA
ESTIMAÇÃO DA IBNR/PEONA
BELO HORIZONTE
2019
SÉRGIO LUIZ MOREIRA JÚNIOR
APLICAÇÃO DO MODELO LINEAR DINÂMICO SIMPLES NA
ESTIMAÇÃO DA IBNR/PEONA
Trabalho de Conclusão de Curso submetido à
Universidade Federal de Minas Gerais, como
requisito necessário para obtenção do grau de
Bacharel em Ciências Atuariais
Orientador: Vinı́cius Diniz Mayrink
Co-orientador: Lorena Josino Silva Braga
Belo Horizonte, junho de 2019
2
Aplicação do Modelo Linear Dinâmico Simples na estimação
da IBNR/PEONA.
† Autor: Sérgio Luiz Moreira Júnior
Graduação em Ciências Atuariais, Universidade Federal de Minas Gerais
Orientador: Vinicı́us Diniz Mayrink
Professor Adjunto, Deparpatamento de Estatı́stica, Universidade Federal de Minas Gerais
Co-orientador: Lorena Josino Silva Braga
Bacharel em Ciências Atuariais, Universidade Federal de Minas Gerais
Resumo
De acordo com a Resolução Normativa 209/09 e suas alterações, mensalmente as Operado-
ras de Plano de Saude devem contabilizar em seu passivo montante destinado às provisões.
O objeto desse estudo será o cálculo da estimativa por metodologia própria de uma dessas
provisões, a PEONA - Provisões de Eventos Ocorridos e Não Avisados. Trata-se de uma pes-
quisa de campo, exploratória, com tratamento quantitativo e qualitativo, realizada com a base
de dados de uma operadora de médio porte. O tratamento de dados e as análises estatı́sticas
foram realizadas com auxı́lio dos softwares MSExcel R©, e do R com interface com o JAGS.
A Inferência Bayesiana atribui a tudo que é desconhecido uma distribuição de probabilidade
que possa exprimir nossa incerteza. Aliado a nossa suspeita de que a variação dos gastos men-
sais das operadoras possuem dependência no tempo, foram propostos três Modelos Lineares
Dinâmicos Bayesianos, sendo o primeiro simples, o segundo com a inclusão do número de
beneficiários mês a mês e o terceiro com a inclusão também da sazonalidade. Ao final foi re-
alizada uma análise dos resultados, produzindo um comparativo entre os modelos dinâmicos,
a metodologia ANS e o método Chain-Ladder, buscando encontrar o melhor preditor para
o cálculo da IBNR/PEONA. Os melhores resultados em média, podem ser atribuı́dos aos
modelos dinâmicos, sendo que o melhor em média foi o modelo mais simples.
Palavras chave: Provisões Técnicas, PEONA, Modelo Dinâmico, JAGS, Inferência
Bayesiana, MCMC.
† Endereço de correspondência: Universidade Federal de Minas Gerais, ICEx, Departamento de
Estatı́stica, Av. Antônio Carlos 6627, Pampulha, Belo Horizonte Minas Gerais, Brasil.
E-mail: sergiojunior@ufmg.br.
3
Lista de Figuras
1 Triângulo de run-off com entradas anuais com n=5. Fonte: Vilela (2013) . . . . . . . . . . 11
2 Gráfico das despesas mensais por data de ocorrência da Operadora A no perı́odo compreen-
dido entre janeiro de 2014 e dezembro de 2018. . . . . . . . . . . . . . . . . . . . . . . 13
3 Histograma das despesas por densidade de probabilidade no perı́odo entre 2014 e 2018. A
linha vermelha representa a distribuição amostral hipotética. . . . . . . . . . . . . . . . 14
4 Gráfico do número de beneficiários da Operadora A no perı́odo compreendido entre janeiro
de 2014 e dezembro de 2018. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
5 Gráfico do número de beneficiários por faixa etária da Operadora A em fevereiro de 2019. . 16
6 Gráfico das despesas por estações do ano no perı́odo entre 2014 e 2018. . . . . . . . . . . 16
7 Processo do sistema de inferência. Fonte Melo (2007). . . . . . . . . . . . . . . . . . . . 22
8 Intervalo HPD com 95% de credibilidade de θ dos modelos (a), (b) e (c): 1 (simples), 2 (com
beneficiários) e 3 (com beneficiários e sazonalidade), respectivamente. . . . . . . . . . . . 27
9 Intervalo HPD com 95% de credibilidade de µ dos modelos (a), (b) e (c): 1 (simples), 2 (com
beneficiários) e 3 (com beneficiários e sazonalidade), respectivamente. A linha vermelha
indica o 0 (zero) no eixo y. Se ela estiver dentro do intervalo, a média µ é considerada como
não significativa. O foco deste gráfico é identificar a rapidez com que o reconhecimento cai. 27
10 Intervalo HPD com 95% de credibilidade da previsão das despesas(Y) 12 passos à frente dos
modelos: 1 (simples), 2 (com beneficiários) e 3 (com beneficiários e sazonalidade), respecti-
vamente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
11 Intervalo HPD com 95% de credibilidade para previsão das proporções de reconhecimento
(pi,j) dos modelos: 1 (simples), 2 (com beneficiários) e 3 (com beneficiários e sazonalidade),
respectivamente. A linha azul está indicando o zero. Se ela estiver dentro do intervalo, a
variável é considerada como não significativa. Em vermelho temos o intervalo de credibili-
dade com 1 desvio padrão da média para baixo e para cima. O ponto central em vermelho
representa a média da distribuição a posteriori. . . . . . . . . . . . . . . . . . . . . . . 29
12 Intervalo HPD com 95% de credibilidade da previsão das dos montantes (Wi,j) que preen-
chem o triângulo inferior dos modelos: 1 (simples), 2 (com beneficiários) e 3 (com bene-
ficiários e sazonalidade), respectivamente. A linha azul está indicando o zero. Se ela estiver
dentro do intervalo, a variável é considerada como não significativa. Em vermelho temos o
intervalo de credibilidade com 1 desvio padrão da média para baixo e para cima. O ponto
central em vermelho representa a média da distribuição a posteriori . . . . . . . . . . . . 30
13 Cadeia de convergência dos β’s dos modelos: 2 (com beneficiários) e 3 (com beneficiários e
sazonalidade), respectivamente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
14 Cadeia de convergência, densidade e Função de Autocorrelação (FAC) de θ42, Y prev3 e µ59,6
do modelo 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
15 Cadeia de convergência, densidade e Função de Autocorrelação (FAC) de pprev60,7, W56,12
e γ do modelo 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
16 Cadeia de convergência, densidade e Função de Autocorrelação (FAC) de δ, τv e τw do
modelo 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
17 Cadeia de convergência, densidade e Função de Autocorrelação (FAC) de θ42, Y prev3 e µ59,6
do modelo 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
18 Cadeia de convergência, densidade e Função de Autocorrelação (FAC) de pprev60,7, W56,12
e γ do modelo 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4
19 Cadeia de convergência, densidade e Função de Autocorrelação (FAC) de δ, τv e τw do
modelo 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
20 Cadeia de convergência, densidade e Função de Autocorrelação (FAC) de θ42, Y prev3 e µ59,6
do modelo 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
21 Cadeia de convergência, densidade e Função de Autocorrelação (FAC) de pprev60,7, W56,12
e γ do modelo 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
22 Cadeia de convergência, densidade e Função de Autocorrelação (FAC) de δ, τv e τw do
modelo 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5
Lista de Tabelas
1 Triângulo de run-off Superior - matriz de informação dos dados . . . . . . . . . . . . . . 10
2 Estatı́sticas básicas das despesas mensais da Operadora A no perı́do entre 2014 e 2018 . . . 13
3 Frequência de utilização por faixa etária da Operadora A ocorridas em fevereirode 2019 . . 14
4 Proporção média de reconhecimento das despesas por data de aviso da Operadora A. . . . . 17
5 Comparação dos valores da PEONA real e estimativa do método ANS da Operadora A. . . . 26
6 Comparação dos valores da PEONA real e estimativa do método Chain Ladder da Operadora A. 26
7 Comparação dos valores da PEONA real e estimativa do modelo linear dinâmico Bayesiano 1
da Operadora A. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
8 Comparação dos valores da PEONA real e estimativa do modelo linear dinâmico Bayesiano 2
da Operadora A. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
9 Comparação dos valores da PEONA real e estimativa do modelo linear dinâmico Bayesiano 3
da Operadora A. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
10 Diferença em porcentagem dos valores de todas as estimativas e a PEONA real da Operadora A. 33
6
Sumário
1 Introdução 8
2 Provisão de Eventos Ocorridos e Não Avisados - PEONA/IBNR 9
3 Visualização dos Dados 12
3.1 Descrição detalhada dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.2 Análise Descritiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.3 Fator inflação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4 Inferência Bayesiana 17
4.1 JAGS - Just Another Gibbs Sampler . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.1.1 Gibbs Sampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5 Metodologia 20
5.1 Metodologia ANS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
5.2 Chain Ladder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
5.3 Modelo Dinâmico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5.3.1 Modelos Propostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
6 Resultados 25
7 Considerações Finais 34
7
1 Introdução
Somente com a criação da Lei 9.656/98 que o mercado de saude, até então organizado de forma in-
dependente, foi de fato regulado. Após essa lei, surgiu a necessidade de um órgão regulador/fiscalizador
e normatizador. Em 28 de janeiro de 2000, criou-se pela Lei no 9.961 a Agência Nacional de Saúde
(ANS), que tem como objetivo regulamentar, orientar e supervisionar as operadoras de plano de saúde
do mercado. Desde então, para manter o equilı́brio econômico-financeiro das operadoras de planos
de saúde (OPS), por meio de normativos, a ANS tem imposto regulações e prestações de contas de
forma a manter a liquidez e solvência das OPS. Dentre esses normativos, destaca-se a Resolução Nor-
mativa (RN) no 393/15 e suas alterações que estabelece (mensalmente) que as OPS devem registrar
contabilmente um montante relacionado às principais provisões necessárias.
No ramo das Ciências Atuariais, as provisões têm papel fundamental para lidar com as
incertezas e riscos futuros. As provisões técnicas são valores constituı́dos pelas empresas cujo produto
é o “risco”. Conforme pode ser visto em Mano e Ferreira (2009), “as provisões técnicas correspondem
aos diversos compromissos financeiros futuros das empresas para com os seus
clientes/participantes, sendo que esses compromissos futuros podem corresponder a valores já
conhecidos ou, como acontece na maioria das vezes, corresponder a estimativas. Dessa forma,
o cálculo das provisões técnicas deve ser feito necessariamente por um atuário, profissional que
estabelece os limites de segurança na gestão de riscos a partir do uso das teorias financeiras e das
probabilidades”.
Destaca-se que os valores das provisões representam a maior parte do passivo das operadoras.
Portanto há um enorme interesse por parte das OPS que este registro seja feito da maneira mais
precisa possı́vel. A questão da sobrestimação ou subestimação da PEONA pode ter influência
direta na relação econômico-financeira de uma OPS, ou seja, se realizada uma estimação de valores
maiores do que necessário poderá implicar a redução dos lucros e menores poderá ter como
consequência a insolvência da empresa. Ambos os cenários não são desejados pelas Operadoras.
Dentre todas as provisões técnicas necessárias à manutenção do equilı́brio econômico-financeiro
das operadoras, o enfoque deste estudo será a Provisão de Eventos Ocorridos e Não Avisados (PE-
ONA, do inglês IBNR). A escolha dessa provisão se deu pela sua importância devido a sua de-
pendência em cálculos mais sofisticados do que os utilizados nas outras provisões. O método mais
popular, e por muito tempo o mais utilizado para estimação da reserva de PEONA a ser provisionada,
é o Chain-Ladder (cadeia escalonada), proposto por Tarbell (1934). Através das despesas geradas
pelos beneficiários do plano de estudo, no perı́odo dos últimos dos 12 meses organizados no triângulo
de run-off, este método assume como premissa que o comportamento de gastos destes beneficiários
nos próximos 12 meses será semelhante aos 12 meses anteriores. A partir disso, encontram-se fatores
que deverão ser multiplicados às despesas do perı́odo passado para projetar as despesas que serão
gastas no futuro. Ressalta-se que, se o reconhecimento da OPS for hábil, não há a necessidade de
utilizar uma cauda tão longa, ou seja, pode se trabalhar com uma quantidade menor de meses.
Inúmeros estimadores já foram propostos com um objetivo em comum: fornecer uma boa estima-
tiva para o valor da PEONA/IBNR baseada nos dados do passado. Mesmo esses estimadores sendo
utilizados no mundo inteiro, não encontrou-se ainda um que satisfizesse por inteiro as operadoras e
seguradoras. Por isso, há muito o que ser desenvolvido e estudado. A principal ideia é desenvolver
um estimador que forneça valores próximos ao do valor real do IBNR, utilizando o maior número
de informações possı́vel e disponı́vel. O fato desta provisão servir para diminuir a possibilidade de
inadimplência da empresa mostra o quanto importante ela é (Atherino e Fernandes, 2006). Sendo
assim, há uma abertura quanto a qual a melhor metodologia a se utilizar.
8
Dada esta contextualização, o objetivo deste estudo é propor um método probabilı́stico de cálculo
de PEONA na área de saúde suplementar. Posteriormente aplicá-lo em um banco de dados de uma
OPS de médio porte, e comparar os resultados com o método mais tradicional da literatura, e com
a metodologia da ANS (dois métodos determinı́sticos). De acordo com a definição da ANS, RN no
393 e suas alterações, podemos considerar OPS de médio porte àquelas operadoras que possuem mais
de 20 mil e menos de 100 mil beneficiários. Trabalhar com modelos probabilı́sticos tem uma grande
vantagem: a disponibilidade de se trabalhar com intervalos de credibilidade, ao invés de somente uma
estatı́stica pontual. Portanto, espera-se que os resultados do modelo proposto obtenha maior precisão
quando comparado aos modelos determinı́sticos. Ressalta-se ainda que, o intuito do presente estudo
não é solucionar este cenário, mas agregar a ele outra forma possı́vel de cálculo.
O modelo aqui proposto utiliza a estrutura do triângulo de Run-Off para o calculo da PEONA.
Assim como no método de Chain-Ladder, o cálculo da provisão se dá pela soma do triângulo infe-
rior. Para o preenchimento do triângulo inferior, estima-se as despesas finais por data de ocorrência
independente da data em que ele foi avisado. Essa estimação é feita assumindo que as despesas
mensais reais possuem os mesmos comportamentos apresentados em meses anteriores. Desta forma
utilizamos um modelo dinâmico com dependência no tempo. Criou-se ainda outro modelo dinâmico
para a estimação dos percentuais de reconhecimento por data de aviso. De posse destas estimati-
vas, o triângulo inferior final é preenchido pela multiplicação das despesas por mês de ocorrência,multiplicado pelo percentual de reconhecimento do respectivo mês de aviso ainda desconhecido.
O presente trabalho é dividido como segue: a Seção 2 descreve sobre as provisões técnicas, inclu-
sive a PEONA. A Seção 3 descreve detalhadamente os dados utilizados. A Seção 4 traz os principais
conceitos de inferência Bayesiana. A Seção 5 relata a metodologia aplicada neste trabalho. Por fim,
a Seção 6 explicita os resultados, e a Seção 7 aponta as considerações finais.
2 Provisão de Eventos Ocorridos e Não Avisados - PEONA/IBNR
As provisões técnicas são projeções registradas contabilmente no passivo da OPS, que visam assegurar
que a operadora tenha capital suficiente para arcar com suas despesas futuras. Para aquelas OPS que
não possuem metodologia própria do cálculo de provisão ou estão desobrigadas de sua constituição,
a RN no 393/15 e suas alterações, estabelecem uma forma padrão de cálculo para cada uma das
principais provisões, dentre elas:
• Provisão de Eventos/Sinistros a Liquidar (PESL) - referente ao montante de eventos/sinistros já
ocorridos e avisados mas que não foram pagos pela OPS;
• Provisão para Eventos Ocorridos e Não Avisados (PEONA) - referente à estimativa do montante
de eventos/sinistros que tenham ocorrido e que não tenham sido avisados à OPS;
• Provisão para Eventos Ocorridos e Não Avisados SUS (PEONA SUS): referente à estimativa
do montante de eventos/sinistros originados no Sistema Único de Saúde (SUS), que tenham
ocorrido e que não tenham sido avisados à OPS;
• Provisão para Prêmios não Ganhos (PPCNG) - referente à parcela de prêmio/contraprestação
cujo perı́odo de cobertura do risco ainda não decorreu;
• Provisão para Remissão - referente às obrigações decorrentes das cláusulas contratuais de re-
missão das contraprestações/prêmios referentes à cobertura de assistência à saúde, quando exis-
tentes;
9
• Provisão para Insuficiência de Contraprestação/Prêmio (PIC) - relativo à insuficiência de prêmio
para a cobertura dos eventos/sinistros a ocorrer, quando constatada.
Ressalta-se que, operadoras de grande porte, àquelas com mais de 100 mil beneficiários, obriga-
toriamente precisam adotar metodologia própria, portanto não constituem pela RN 393/15.
Conforme já mencionado, neste trabalho o enfoque será na PEONA. O cálculo das provisões de
sinistros envolvem necessariamente o uso de estimativas, devido a existência de um espaço de tempo
entre a ocorrência do sinistro, o momento em que o sinistro é reportado à operadora e o momento em
que o sinistro é finalmente encerrado; para ver mais detalhes veja Mano e Ferreira (2009).
Assim, as datas são muito importantes na organização do banco de dados e no processo de esti-
mativas das provisões. A seguir apresentamos as principais datas: 1) Data de ocorrência: na qual a
utilização do plano ocorreu; 2) Data de aviso: momento em que a utilização é avisada à operadora; 3)
Data de cadastro (ou registro): instante em que a utilização foi registrada pela primeira vez no sistema
operacional da companhia; 4) Data contábil (ou data de provisão): momento usado para definir qual
o grupo de sinistros que serão incluı́dos na estimativa da provisão; 5) Data de avaliação: data na qual
a estimativa de provisão é feita. A data de avaliação define o corte a ser feito na análise, pois todas as
transações ocorridas para o grupo de utilização em estudo devem ser incluı́das até a data da avaliação.
A data de avaliação pode ser antes, depois ou coincidente com a data contábil (Mano e Ferreira, 2009).
Tabela 1: Triângulo de run-off Superior - matriz de informação dos dados
Perı́odo de desenvolvimento
ocorrência 0 1 2 . . . k . . . n-1 n
0 Y0,0 Y0,1 Y0,2 . . . Y0,k . . . Y0,n−1 Y0,n
1 Y1,0 Y1,1 Y1,2 . . . Y1,k . . . Y1,n−1
2 Y2,0 Y2,1 Y2,2 . . . Y2,k
. . .
...
...
...
...
. . . Y·,k
i Yi,0 Yi,1 Yi,2 . . .
...
...
...
. . .
n-1 Yn−1,0 Yn−1,1
n Yn,0
O triângulo de run-off consiste em uma tabela de dupla entrada, onde as linhas (i) representam a
data em que as despesas (Yi,k) geradas por utilização do plano ocorreram. As colunas (k) equivalem
as datas em que a OPS é avisada sobre estas despesas geradas. Considere n a quantidade de perı́odos
analisados. Assim obtemos o triângulo superior da Tabela 1. A diferença de tempo entre a data de
aviso e o momento do acontecimento é denominado perı́odo de desenvolvimento. Assim, o formato
indicado na tabela avalia o atraso das contas por meio de seu desenvolvimento. Ele caracteriza-
se como uma das ferramentas de auxı́lio mais utilizada por atuários para organizar dados visando
detectar possı́veis padrões históricos, e avaliar qual metodologia utilizar.
Organizando os dados na estrutura do triângulo de run-off, o triângulo superior expõe as carac-
terı́sticas dos dados observados. O triângulo inferior, equivale às informações ainda desconhecidas,
que é o alvo de estudo. O cálculo da provisão se dá justamente pela soma de cada célula desse
triângulo inferior.
10
Figura 1: Triângulo de run-off com entradas anuais com n=5. Fonte: Vilela (2013)
A Figura 1 ilustra um triângulo de run-off com perı́odos anuais, considerando a suposição de que
os sinistros sejam avisados em até 5 anos após sua ocorrência. O que está em branco equivale ao
que já temos conhecimento, e o que está em cinza exprime o que queremos estimar. As variações
de tons da cor cinza, expressa que quanto mais escuro for a tonalidade, maior será a nossa incerteza.
As diagonais caracterizam as despesas reconhecidas em um determinado ano, de acordo com sua
ocorrência. Como a diagonal principal contém dados completos de 2012, significa que estamos em
2013. Se estivéssemos em 2014, terı́amos informações completas de 2013, e os dados poderiam ser
atualizados, “deslocando”uma linha para baixo, conforme a tabela da direita. O cálculo da PEONA
equivale a soma das entradas que estão abaixo da diagonal principal (em cinza), que corresponde a
toda informação do perı́odo futuro. Interpretando os dados da tabela, a entrada (i=1,k=1) representa
as utilizações do plano que ocorreram em 2008 e foram reconhecidas com 0 ano de atraso, isto é, em
2008 mesmo (Vilela, 2013).
De todos os métodos que utilizam da estrutura do triângulo de run-off, o mais famoso e res-
peitável, sem dúvida, é o método Chain-Ladder (cadeia escalonada), atribuı́do ao trabalho de Tarbell
(1934). Em Friedland et al. (2010) é apresentado essa metodologia em detalhe, ressaltando aspectos
especı́ficos de sua utilização, exemplos de cálculo e demonstrações das melhores formas de aplicação
do método. No entanto, esse é um modelo pouco robusto, e diversos autores tentaram propor melho-
rias. Vale destacar o modelo inicialmente apresentado em Mack (1993) e posteriormente desenvolvido
em Mack (1999) que proporciona a obtenção de medidas de erro e de intervalos de confiança, partindo
das estimativas provindas do método Chain Ladder.
Existem também vários outros métodos que utilizam uma estrutura semelhante, adaptando às suas
particularidades. Vale destacar o método de Bornhuetter-Ferguson, introduzido por Bornhuetter e
Ferguson (1972) e posteriormente explorado e desenvolvido por Neuhaus (1992), embasado em uma
combinação da informação relativa aos montantes de indenizações com fatores externos, tais como, a
taxa de sinistralidade.
Assim como é a ideia deste trabalho, inúmeros já foram os modelos propostos com abordagem
probabilı́sticas. Pinheiro (1999) apresentou a utilização da técnica de Bootstrap. England e Verrall
(2002) avaliaram uma abordagem estocástica. Atherino (2008) optou pela utilização de modelos em
espaço de estado. Há também aqueles que optaram por uma abordagem Bayesiana, em Vilela (2013)
foi explorado o modelo log-Anova e a distribuição de Misturas da Escala Skew-Normal (MESN). Já
em Melo (2007) foi elaborado a proposta de um modelo dinâmico.Deve-se mencionar ainda, os estudos comparativos com aplicações. Por exemplo, em Nasci-
mento (2006) podemos ver a comparação entre o método Chain-Ladder, o modelo Log Normal e a
distribuição Poisson Composta. Em de Souza (2013) a confrontação foi entre modelos para micro-
dados, como Parodi (2013), Weissner (1978), Antonio e Plat (2010), além de um próprio método
11
proposto pelo autor.
Essas pesquisas mencionadas foram apenas alguns casos realizados na área. Em um levantamento
de publicações discorrendo sobre metodologia do calculo de reservas de perda, elaborado por Schmidt
(2017), foi apurado 14 livros/manuais e mais de 900 artigos/monografias. O que evidencia a ampla
discussão sobre o tema, e a incerteza quanto ao melhor método, se é que exista o melhor para todas
as situações.
Desta forma, o intuito deste estudo não é solucionar este cenário, mas agregá-lo com um mo-
delo probabilı́stico, que apresenta robustez e associação de medidas de probabilidades, diferente da
maioria, que são determinı́sticos e dependem da qualidade e bom coportamento dos dados.
3 Visualização dos Dados
Após a descrição da importância da PEONA e da ampla gama de pesquisas anteriores, esta seção
é dividida em duas subseções. Na primeira é feita um breve detalhamento de toda a informação
contida na base de dados aqui utilizada. Na segunda subseção, é realizada uma análise descritiva e
exploratória destes dados.
3.1 Descrição detalhada dos dados
Os dados utilizados nas análises deste trabalho foram obtidos de uma OPS, de médio porte a
partir de uma consultoria atuarial, a qual não será identificada por sigilo, e por isso, a chamaremos de
Operadora A.
A base de dados disponibilizada conta com as informações discriminadas dos sinistros ocorridos
e avisados no perı́odo compreendido entre dezembro de 2013 e fevereiro de 2019, que foram organi-
zados, tratados e analisados em MSExcel R© e em R (R Core Team, 2019). No entanto, optou-se por
realizar as análises considerando apenas o perı́odo entre 2014 e 2018, pensando em utilizar apenas
as informações de anos fechados. Tem-se ainda que as informações detalhadas mencionadas, tratam-
se das despesas mensais, com seus respectivos meses de ocorrência, e de aviso, além do número de
beneficiários do plano mês a mês. Desta forma, trabalharemos com a base composta de 60 meses,
e com isso, atendemos o mı́nimo de 30 meses, conforme é previsto por normativa (no 393/15 e suas
alterações) . Utilizaremos a consideração de 5 anos completos, como forma de investigar e analisar a
sazonalidade dos dados.
A base contempla ainda detalhamentos da utilização do plano por faixa etária, segregado por tipo
de procedimentos ocorridos referente ao mês de fevereiro de 2019. São dez faixas etárias, conforme
previsto pela Resoluçao Normativa no 63/03 da ANS, sendo a primeira dos 0 aos 18 anos, a segunda
dos 19 aos 23 anos, as demais seguindo uma progressão aritmética com razão 5, até atingir a décima
e última faixa etária que abrange as pessoas com 59 anos ou mais. Os tipos de procedimentos são
subdivididos em: consultas médicas, exames complementares, terapias, internações, outras despesas
ambulatoriais e demais despesas assistênciais. Tem-se ainda que para cada tipo de procedimento é
possı́vel verificar o número de expostos e o número de eventos por faixa etária.
3.2 Análise Descritiva
Nesta seção será feita uma análise exploratória dos dados. Inicialmente apresenta-se a evolução
das despesas mensais no perı́do compreendido de janeiro de 2014 a dezembro de 2018.
12
Figura 2: Gráfico das despesas mensais por data de ocorrência da Operadora A no perı́odo compreendido
entre janeiro de 2014 e dezembro de 2018.
Na Figura 2 verifica-se uma tendência de crescimento ao longo do tempo e podemos observar
algumas flutuações dentro dos anos, apresentando alguns picos em meses especı́ficos. Uma possibi-
lidade é que exista a influência de sazonalidade nos dados, ou seja, maior ou menor utilização em
determinado perı́odo de tempo o qual se repete ao longo dos anos. Essa investigação será apresentada
adiante. As principais estatı́sticas foram resumidas abaixo na Tabela 2. Ressalta-se que alguns valores
foram arredondados na tentativa de manter o sigilo das informações reais da Operadora A em análise.
Tabela 2: Estatı́sticas básicas das despesas mensais da Operadora A no perı́do entre 2014 e 2018
Valor Mı́nimo 1o quartil Mediana Média 3o quartil
6.000.000,00 7.390.000,00 8.350.000,00 8.450.000,00 9.640.000,00
Valor Máximo Desvio padrão Curtose Assimetria
11.000.000,00 1.400.000,00 2.1451 -0.0431
No perı́odo de análise, as despesas da Operadora A variaram entre R$ 6 e R$ 11 milhões, sendo
a média R$ 8.450.000,00. Através do pacote moments (Komsta e Novomestky, 2015) do software R,
calculou-se também a curtose e o coeficiente de assimetria de Pearson. Essas estatı́sticas correspon-
dem, respectivamente, ao terceiro e quarto momento da distribuição amostral, e suas análises são feitas
com referência à distribuição Normal. Como resultado obtivemos que as despesas são leptocúrticas e
assimétrica negativa. Isso significa que a distribuição amostral possui um grau de achatamendo maior
que a distribuição Gaussiana,com menor propensão a outliers, e que a média da distribuição está des-
locada mais a esquerda. Isso pode ser visto na Figura 3 apresentada abaixo. Um fato que enfatiza a
assimetria é a questão da mediana ser um pouco menor que a média.
13
Figura 3: Histograma das despesas por densidade de probabilidade no perı́odo entre 2014 e 2018. A linha
vermelha representa a distribuição amostral hipotética.
A seguir é apresentada a Tabela 3 com a frequência de utilização dos beneficiários da Operadora A
ocorrida em fevereiro de 2019. A frequência de utilizaçaõ foi calculada pela razão entre o número de
eventos, e o número de expostos em cada faixa etária, sendo assim, o número lido na tabela, representa
a frequência de utilização para cada pessoa naquela faixa etária especı́fica. Por exemplo, em média
no mês de fevereiro de 2019, a cada 100 beneficiários inseridos na primeira faixa etária, observou-se
a realização de 36 consultas médicas. A interpretação de toda a tabela pode ser verificada de maneira
análoga.
Tabela 3: Frequência de utilização por faixa etária da Operadora A ocorridas em fevereiro de 2019
Faixa Consultas Exames Terapias Internações Outros Demais
Etária Médicas Complementares Atendimentos Despesas
Ambulatoriais Assistenciais
0 - 18 0.36 0.54 0.01 0.00 0.03 0.68
19 - 23 0.33 0.73 0.02 0.01 0.04 1.87
24 - 28 0.37 0.95 0.02 0.01 0.06 2.64
29 - 33 0.37 1.08 0.03 0.01 0.06 2.47
34 - 38 0.37 1.10 0.03 0.01 0.08 3.64
39 - 43 0.37 1.21 0.03 0.01 0.10 4.07
44 - 48 0.39 1.40 0.03 0.01 0.12 8.71
49 - 53 0.41 1.50 0.04 0.01 0.16 4.87
54 - 58 0.45 1.78 0.05 0.01 0.19 22.87
59 ou mais 0.53 2.30 0.11 0.02 0.24 13.49
De forma geral, observa-se na Tabela 3 observa-se uma relação direta do aumento de utilização
conforme se avançam nas faixas etárias. Este tipo de comportamento é esperado, se considerarmos
14
que as pessoas em idades avançadas tendem a ter uma utilização maior de procedimentos. Ressalta-se
que, apesar do número de internações para a primeira faixa etária estar indicando zero, não significa
necessariamente que não havia ninguém internado, mas que duas casas decimais não foram suficientes
para contabilizar a quantidade correta. A apresentação do resumo das utilizações com apenas duas
casas decimais, foi uma medida para reforçar a tentativa de privacidade da Operadora A.
A Figura 4 traz a variação dos beneficiários mês a mês no perı́do compreendido entre 2014 e 2018.
Em todo o perı́do de análise, não parece ter ocorrido alguma mudança significativa na quantidade de
beneficiários. A média de beneficiários mensal fica em torno de 63000. Desta forma, trata-se de umaOPS com caracterı́sticas de operadora de médio porte, com pouca perspectiva de mudança de porte,
o que pode ser consequência da concorrência de mercado existente.
Figura 4: Gráfico do número de beneficiários da Operadora A no perı́odo compreendido entre janeiro de 2014
e dezembro de 2018.
Apresenta-se ainda na Figura 5 a discriminação dos beneficiários da Operadora A segregados por
faixa etária observado no final do mês de fevereiro de 2019. Esta massa apresenta um perfil jovem
adulto com 60% dos beneficiários com menos de 33 anos. Portanto trata-se de uma carteira bem
oxigenada dado o grande contingente de pessoas nas primeiras faixas etárias. Isto pode ser visto
como positivo, dado que as pessoas que estão propensas a uma maior utilização do plano, e como
consequência gerar maiores despesas, representam uma pequena fatia do todo. Aliado ao porte, altos
custos são diluı́dos pela massa que torna esta carteira favorável para a manutenção de sua solvência.
Buscou-se ainda avaliar a existência de sazonalidade nos dados. A sazonalidade é a oscilação
dos dados durante certo perı́odo ocasionado pela alta ou baixa utilização por parte do beneficiário
e que se repete em análise ao longo do tempo. No mercado de saúde, o perı́odo de sazonalidade
normalmente é o perı́odo de entrada do inverno, de junho até setembro, que é quando há o agravo
das doenças respiratórias, aumentando a utilização por parte dos beneficiários. O perı́odo de férias
escolares, de novembro a fevereiro, normalmente é o perı́odo de sazonalidade de baixa utilização, em
que os beneficiários tendem a utilizar menos os planos de saúde. Os meses não citados são os meses
de transição em que as despesas aumentam ou diminuem de acordo com a chegada de cada época do
ano. Os meses de alta e baixa utilização podem variar de região para região e o perı́odo ilustrado é
atribuı́do ao comportamento no sudeste, mas os perı́odos se repetem ao longo dos anos de 12 em 12
meses (Braga, 2017).
15
Figura 5: Gráfico do número de beneficiários por faixa etária da Operadora A em fevereiro de 2019.
Figura 6: Gráfico das despesas por estações do ano no perı́odo entre 2014 e 2018.
16
A Figura 6 parece evidenciar os picos mencionados anteriormente. Nota-se que o perı́odo que
apresenta uma maior utilização é justamente o inverno, enquanto o perı́odo que apresenta uma menor
utilização é o verão. Percebe-se ainda, uma certa tendência de crescimento das despesas em todos as
estações de ano a ano. Sendo assim, há indı́cios que a sazonalidade tenha influência na evolução das
despesas. Essa hipótese será explorada na seção 5, que abrange a metodologia.
Além do mais, buscou-se investigar o impacto do tempo de aviso em relação as despesas ocorri-
das. As informações obtidas foram sumarizadas na Tabela 4. Em média, a Operadora A consegue ter
reconhecimento de praticamente 100% da despesa gerada em um determinado mês, com no máximo
12 meses de atraso. Tem-se ainda que até o quarto mês mais de 99% das despesas já chegaram ao
conhecimento da operadora. No geral, espera-se que quanto antes a operadora conseguir identificar
as despesas geradas, melhor será a provisão realizada, ou seja, quanto menor o perı́odo de reconhe-
cimento, maior a chance de se reservar um montante para despesas próximo à realidade de gastos da
OPS com essa finalidade. Além disso, a provisão será menor, alvo das OPS que terão mais recursos
destinados para outros fins.
Tabela 4: Proporção média de reconhecimento das despesas por data de aviso da Operadora A.
Perı́odo de atraso 0 1 2 3 4 5 6
Proporção (%) 54.86 27.42 11.70 4.12 1.26 0.30 0.10
Acumulado (%) 54.86 82.27 93.97 98.09 99.35 99.65 99.75
Perı́odo de atraso 7 8 9 10 11 12
Proporção (%) 0.10 0.06 0.05 0.02 0.01 0.005
Acumulado (%) 99.86 99.91 99.96 99.97 99.98 99.98
3.3 Fator inflação
Além do efeito natural do desenvolvimento dos sinistros, as despesas estimadas podem ser agrava-
das pelo efeito da inflação. Tal fato aumenta os valores projetados de eventos indenizáveis finais pelo
efeito passado, e não pelo impacto esperado no futuro, como deveria ser. Para eliminar essa resul-
tante inflacionária, nos fatores de desenvolvimento, o ideal é sempre que possı́vel trabalhar com uma
moeda estável, para que a influência da inflação passada não interfira na escolha dos fatores. Optando
por descontar a provisão, deve-se levar em consideração que tal desconto elimina a possibilidade de
ganhos financeiros futuros, pois todo o ganho futuro é utilizado para reduzir a provisão no momento
do cálculo. Tal redução no provisionamento gera um lucro contábil imediato, mas diminui a possi-
bilidade de distribuição de ganhos financeiros futuros (Mano e Ferreira, 2009). Apesar da inflação
influenciar os custos com sinistros, neste estudo não se considera o fator de inflação.
4 Inferência Bayesiana
A Inferência Estatı́stica é um conjunto de técnicas aplicadas para investigação das incertezas de
uma população por meio de uma amostra observada, buscando explicar ao máximo a variabilidade do
conjunto de dados de um fenômeno aleatório de interesse, através de probabilidades. Existem duas
abordagens de infêrencia: a Frequentista (Clássica) e a Bayesiana. Neste trabalho o enfoque será a
segunda. Se o leitor estiver interessado em mais detalhamentos sobre as abordagens de inferência,
pode ver, por exemplo Migon e Gamerman (1999).
17
Na Inferência Bayesiana a tudo que é desconhecido pode-se atribuir uma distribuição de proba-
bilidade que possa exprimir a nossa incerteza. De maneira geral, todas as análises realizadas sobre
essas incertezas partem do Teorema de Bayes:
P (θ | x) =
P (θ ∩ x)
P (x)
=
P (x | θ)P (θ)
P (x)
(1)
A escolha da notação utilizada em (1) segue (Ehlers, 2003). Segundo o autor: “para um valor fixo
de x, a função l(θ;x) = p(x|θ) fornece a plausibilidade ou verossimilhança de cada um dos possı́veis
valores de θ enquanto p(θ) é chamada distribuição a priori de θ. Estas duas fontes de informação,
priori e verossimilhança, são combinadas levando à distribuição a posteriori de θ, p(θ|x)”.
O Teorema de Bayes é o responsável por atualizar as nossas incertezas. O objetivo principal é
encontrar uma distribuição a posteriori que seja uma boa representação da sua variável de estudo.
A ideia é estimar uma distribuição a posteriori, que conforme (2) é dada pela proporcionalidade do
produto entre a função de verossimilhança e a distribuição a priori.
p(θ | x) ∝ p(x | θ)p(θ), (2)
onde θ é o parâmetro de interesse da distribuição sob a qual será feito a Inferência Bayesiana, atri-
buindo uma distribuição de probabilidade. De posse da distribuição a posteriori para as quantidades
desconhecidas, temos toda a informação de que precisamos. No entanto, o que acontece é que em
muitos cenários a distribuição a posteriori não é analiticamente tratável. Como solução, é necessário
o auxı́lio da utilização de softwares especı́ficos com métodos já implementados, ou mesmo do uso de
programação realizada pelo próprio pesquisador. Um exemplo de software que tem esta utilidade, e
que foi utilizado neste trabalho, é o JAGS - Just Another Gibbs Sampler (Plummer, 2003). Desta
forma, a próxima subseção se destina a prestar maior esclarecimentos sobre este software.
4.1 JAGS - Just Another Gibbs Sampler
O JAGS é um programa baseado no dialeto da linguagem BUGS - Bayesian inference Using Gibbs
Sampling que utiliza a estrutura de grafos para a construção da simulação do Monte Carlo via Cadeia
de Markov - MCMC (Gelfand AE, 1990) para um modelo Bayesiano. Outros programas semelhantes
são o WinBUGS (que é restrito ao sistema Windows e deixou de ter atualizações) e o OpenBUGS
que pode ser instalado em diversos sistemas. Optamos pelo JAGS por também ser gratuito e ter
maior potencial de crescimento visto que permite a usuários mais avançadosque criem seus próprios
módulos do JAGS. Para mais informações ver (Plummer, 2003). Ressalta-se que a linguagem de
programação dos três é muito similar com poucas diferenças, ficando a escolha pela preferência do
pesquisador.
Iremos utilizar o pacote do R conhecido como R2jags (Su e Yajima, 2015) em nossa análise.
Este pacote permite uma interface entre o R e o JAGS de forma que poderemos aproveitar todos
os recursos do R além de solicitar a execução do JAGS dentro do R. Isso facilita a implementação
dos passos de algoritmos como o Gibbs Sampling (Geman e Geman, 1984) e o Metropolis-Hastings
(Metropolis e Teller, 1953; Hastings, 1970).
4.1.1 Gibbs Sampling
Gibbs Sampling é um algoritmo da classe MCMC bastante utilizado em Inferência Bayesiana
para gerar valores da distribuição a posteriori desconhecidas. O algoritmo é baseado na geração de
18
valores a partir das distribuições condicionais completas a posteriori. A regra de Bayes é usada para
determinar estas condicionais completas. Basicamente a conta envolve o produto entre a distribuição
a priori e a função de verossimilhança.
O algoritmo é iterativo, ou seja, após diversas repetições os valores gerados deverão convergir
para a situação de amostras obtidas da distribuição alvo. Preliminarmente as observações iniciais das
cadeias serão descartadas, ou seja, um perı́odo de aquecimento (burn in) deve ser considerado. As
cadeias geradas podem ser auto-correlacionadas, o que é uma caracterı́stica indesejável, visto que
buscamos por amostras aleatórias, ou seja amostras independentes. Neste caso, podemos abordar este
problema com a seleção de observações para compor a amostra a posteriori com um espaçamento
(lag). De forma que um burn in de 100 significa que estamos descartando as primeiras 100 iterações,
e um lag 10 indica que a cada 10 iterações iremos salvas apenas uma delas. O algoritmo MCMC
Gibbs Sampling é construı́do por meio dos seguintes passos:
1. Inicialize a contagem das iterações da cadeia t=1 fazendo valores inicias θ(0) = (θ
(0)
1 , . . . , θ
(0)
d )′.
2. Obter um novo valor de θ(t) usando as distribuições condicionais completas:
θ
(t)
1 ∼ p(θ1 | θ(t−1)2 , θ
(t−1)
3 , . . . θ
(t−1)
d )
θ
(t)
2 ∼ p(θ2 | θ(t)1 , θ
(t−1)
3 , . . . θ
(t−1)
d )
...
θ
(t)
d ∼ p(θd | θ(t)1 , θ
(t)
2 , . . . θ
(t)
d−1).
3. Altere a contagem de t para t+1 e repita o passo 2 até que a convergência seja atingida.
Para mais informações ver Gamerman e Lopes (2006) e Geman e Geman (1984). Pode acontecer
de algumas das condicionais completas não terem formas fechadas, ou seja, não sabemos amostrar
delas. Nestes casos é necessário utilizar um segundo algoritmo para a geração. O JAGS escolhe um
algoritmo automaticamente entre uma série de possibilidades em sua mémoria. Nós não sabemos qual
ele utiliza. Um dos possı́veis e bastante popular é o Metropolis-Hastings (M-H) (Metropolis e Teller,
1953; Hastings, 1970), o qual iremos explicar a seguir. A sua aplicação para amostragem indireta, é
dada como segue:
Gibbs sampling com passos do M-H:
1. Inicialize o contador com t = 0 e especifique um valor inical θ(0) .
2. Gere um novo valor θ′ da distribuição q( · | θ).
3. Calcule a probabilidade de aceitação α(θ, θ′) e gere u ∼ U(0, 1).
4. Se u ≤ α então aceite o novo valor e faça θt+1 = θ′, caso contrário rejeite e faça θt+1 = θt.
5. Incremente o contador de t para t+1 e volte ao passo 2.
No segundo passo geramos um candidato para ser o novo valor do θ em questão, denominado
θ′. Esse θ′ geralmente segue uma distribuição Normal com média do último valor assumido pelo θ
em questão, θt−1, e variância ω0, θ′ ∼ N(θ(t−1), ω0). Esse ω0 está diretamente relacionado com o
quarto passo. Quanto maior o valor de ω0, menor a taxa de aceitação, e vice-versa. No terceiro passo
19
devemos calcular um α (taxa de aceitação) que também vai nos auxiliar no quarto passo. Para facilitar
os nossos cálculos, faremos a seguinte conta:
log
(
r(θ′)
r(θt−1)
)
= log(r(θ′))− log(r(θt−1))
α∗ = min{0, log(r(θ′))− log(r(θt−1))}
α = exp(α∗),
onde o r(θ′) é núcleo da distribuição condicional completa desconhecida avaliada no ponto θ′. Espera-
se que essa taxa de aceitação assuma valores entre 0.4 e 0.6.
5 Metodologia
Esta seção discorrerá sobre a metodologia adotada neste estudo e esta dividida em 3 subseções.
A primeira trata de um método padrão proposto pela ANS, o segundo considera o Chain-Ladder e o
terceiro é o modelo linear dinâmico Bayesiano simples.
5.1 Metodologia ANS
A ANS, órgão regulador das OPS, propõe um método básico de cálculo para provisionamento, para
ser usado nos primeiros 12 (doze) meses de operação ou até que ocorra a aprovação de metodologia
especı́fica de cálculo, que usaria o maior entre os seguintes valores:
1. 8,5% (oito vı́rgula cinco por cento) do total de contraprestações/prêmios nos últimos 12 (doze)
meses, na modalidade de preço preestabelecido;
2. 10% (dez por cento) do total de sinistros/eventos indenizáveis na modalidade de preço preesta-
belecido, nos últimos 12 (doze) meses.
Entretanto, esses percentuais apresentados são padrão e deixam de considerar outros critérios que
poderiam influenciar o provisionamento, tais como, o histórico de reconhecimento, a área de atuação
da OPS e as variações de utilização pelos usuários, dentre outros. Assim sendo, os percentuais esta-
belecidos não refletem a realidade de boa parte das operadoras e, na maioria das vezes, isto ocasiona
a sobrestimação ou a subestimação da PEONA. Essa é uma saı́da que a ANS encontrou para estabe-
lecer uma fórmula de cálculo geral, uma vez que geralmente é mais conservadora e não é possı́vel
estabelecer uma forma definida que se adeque bem a todas as OPS, já que isso depende diretamente
do perfil de cada uma. Por isso, é muito importante que cada OPS contrate os serviços do profissional
habilitado, o atuário, para que este estude o seu perfil e determine qual metodologia de cálculo para
representar a realidade (Braga, 2017).
5.2 Chain Ladder
Devido a sua simplicidade e facilidade de implementação, o método de Chain-Ladder é conside-
rado o método clássico dentre todos os utilizados para o cálculo da PEONA. Esse método pressupõe
que existe proporcionalidade entre os perı́odos de desenvolvimento e independência entre os diferen-
tes anos de ocorrência. Utiliza-se a estrutura do triângulo de run-off, como apresentado na Tabela 1.
20
Para realizar o seu cálculo, o primeiro passo é acumular as despesas por linha, ou seja, por ano de
ocorrência. O cálculo se dá da seguinte forma:
Ai,j =
j∑
k=0
Yi,k
.
Com as despesas acumuladas (Ai,j), podemos prosseguir para o segundo passo: estimar os fatores
de desenvolvimento (f̂k), que consiste no crescimento do valor acumulado das despesas dos desenvol-
vimentos posterior e anterior, ou seja, representa o crescimento do desenvolvimento de um ano para
o outro, que por sua vez, são calculados por meio da seguinte equação:
f̂k =
∑n−k
j−1 Aj,k+1∑n−k
j−1 Aj,k
; 1 ≤ k ≤ n− 1,
onde n corresponde ao número de meses analisados, podendo ser 1 ≤ n ≤ 12, considerando que o
perı́odo máximo de atraso serão 12 meses. Ressalta-se que i e k são linhas e colunas do triângulo,
por isso variam de 1 a n. Quando k = 1, estamos nos referimos a 1o coluna, que se representa
o desenvolvimento 0 (zero), relativo a despesa reconhecida dentro do próprio mês. Desta forma
podemos prosseguir para o próximo passo e posteriormente calcular o montante provisionado da
PEONA.
O terceiro passo será estimar a despesa futura, ou seja, estimaremos o triângulo inferior. O cálculo
se dá com base nos montantes acumulados e nos fatores de desenvolvimento estimados, explicitado
na formulação a seguir:
Âi,j = Âi,j−1 × f̂j−1, i+ j > n.
Após encontrar todas as previsões na forma acumulada, o quarto passo consiste na desacumulação
do triângulo, ou seja, estas previsõessão novamente colocadas na forma de densidade do triângulo,
da seguinte forma:
Yi,j = Ai,j − Ai,j−1.
O quinto e último passo compreende o cálculo da PEONA, equivalente a soma do triângulo infe-
rior, composto pelas previsões realizadas. Geralmente, esse método nos dá bons resultados e apresenta
uma boa adaptação aos dados em estudo. Para maiores detalhamentos ver Friedland et al. (2010).
5.3 Modelo Dinâmico
Em estudos de regressão linear buscamos analisar o comportamento de uma variável de interesse,
investigando um possı́vel relacionamento com outras variáveis disponı́veis, todas elas invariantes no
tempo. Na presença da dependência no tempo, uma alternativa é utilizar a modelagem em séries
temporais. Acontece que, em séries temporais, assume-se que as variáveis sejam equiespaçadas, o
que em muitos casos não é observado. Com o passar do tempo, podemos nos deparar com situações
adversas, como o surgimento de novas variáveis explicativas, e desejamos que o modelo estatı́stico
consiga captar estas alterações para que seja realizada uma análise fidedigna. Este é o caso quando se
considera séries temporais diretamente relacionadas à atividade humana, como por exemplo os gastos
mensais gerados pela utilização dos procedimentos ligados a OPS. O Modelo Linear Dinâmico Baye-
siano (MLDB) consegue incorporar essas mudanças temporais, tornando-o um modelo plurivalente,
muito utilizado em trabalhos em que as variáveis tenham dependência no tempo. O caráter dinâmico
21
do modelo refere-se ao fato de atribuir maior peso às informações mais recentes que às mais anti-
gas. Assim, à medida que observações adicionais são realizadas, as estimativas dos parâmetros são
passı́veis de mudanças de modo que um único modelo é capaz de explicar bem uma série que se altera
com o tempo. Para mais informações ver Lauar (2012).
Modelos lineares dinâmicos são modelos paramétricos onde os parâmetros variam com o tempo
e é atribuı́do distribuições de probabilidade para todas as informações de dados disponı́veis. Ba-
sicamente, ele é especificado pela quadrupla {Ft, Gt, Vt,Wt}, que são determinadas por um par de
equações, denominado equação observacional e evolução de parâmetros ou equação do sistema, que
são dadas por:
Equação das observações: Yt = F
′
t θt + νt, com νt ∼ N(0, Vt); (1)
Equação de sistemas/estados: θt = Gtθt−1 + ωt, com ωt ∼ N(0,Wt), (2)
sendo que Yt são os dados observados no tempo t, Ft é um vetor de constantes conhecidas, θt é um
vetor de parâmetros com dimensão p× 1, Gt é uma matriz de coeficientes conhecidos com dimensão
p × p, que descreve a evolução dos parâmetros ao longo do tempo, e por fim, ν e ω são termos
estocásticos (ruı́do branco) com distribuição Normal mutuamente não correlacionadas, em que Vt e
Wt são as variâncias dos erros associados, respectivamente, à observação unidimensional e ao vetor p-
dimensional dos parâmetros. Temos ainda que Wt descreve a velocidade da evolução dos parâmetros.
Em resumo, a equação das observações define a distribuição de Yt condicional em θt, e a equação de
sistemas/estados define a evolução no tempo do vetor de parâmetros θ.
Após a parametrização, o enfoque passa ser a busca por encontrar a distribuição preditiva. Seja
Dt toda a informação relevante observada até o tempo t. Na Figura 7 podemos ter uma visualização
mais clara da dinâmica do sistema de inferência, que engloba o processo de interesse.
Figura 7: Processo do sistema de inferência. Fonte Melo (2007).
A distribuição preditiva (Yt | Dt−1) é derivada da combinação de uma relação sequencial pa-
ramétrica (θt | θt−1, Dt−1), em conjunto com a associação de observações (Yt | θt, Dt−1) e a distribuição
de (θt−1 | Dt−1), ou seja, as previsões são obtidas da relação:
P (Yt, θt | Dt−1) = P (Yt | θt, Dt−1)P (θt | Dt−1).
Assim a previsão em um passo é dada pela distribuição marginal (Yt | Dt−1) e a posteriori (θt | Dt)
é a condicional (θt | Yt, Dt−1). A prova detalhada pode ser visto em Lauar (2012). Dessa forma a
distribuição preditiva pode ser encontrada resolvendo:
P (Yt | Dt−1) =
∫
P (Yt | θt−1, Dt−1) · P (θt−1 | Dt−1) dθt−1
22
Essa é a maneira padrão de se fazer previsão em modelos dinâmicos. No entanto, neste trabalho
não realizamos esse cálculo, pois resolvemos aproveitar a estrutura do JAGS e do Gibbs Sampling, que
efetuam as contas de uma maneira mais fácil computacionalmente. Para isso, adotamos as despesas
que querı́amos prever (Yprev) como parâmetros, assumimos distribuições a priori para elas, e então
aplicamos o Teorema de Bayes, ou seja, utilizamos a distribuição condicional completa dos Yprev dado
os outros parâmetros e os dados observados . Para maiores informações sobre MLDB recomenda-se
a leitura de West e Harrison (1997).
5.3.1 Modelos Propostos
Utilizando a estrututa do triângulo de run-off criou-se dois MLDB para o preenchimento do
triângulo inferior. Inicialmente eles são estimados independentemente e posteriormente são utilizados
em conjunto para encontrar o valor a ser provisionado da PEONA.
O primeiro MLDB tem o foco nas despesas mensais geradas pela utilização do plano da Opera-
dora A. O modelo utiliza todas as despesas já reconhecidas e prevê as despesas esperadas 12 passos a
frente. A opção da realização 12 passos à frente deriva da condição observada de que esta Operadora
A, tem praticamente 100% do reconhecimento da suas despesas com no máximo 12 meses de atraso,
conforme apresentado na Tabela 4. Para a previsão, utiliza-se toda a informação das despesas reco-
nhecidas até a data atual, por data de ocorrência. Desta forma, não utiliza-se a informação derivada
da data de aviso. Portanto, a estimação é feita com o foco em um montante final ocorrido em um
certo mês. Aqui tentamos prever a despesa total fechada gerada em um mês, ou seja, estamos tentado
prever o total da soma de cada linha do triângulo, montante total de cada célula da linha.
A seguir é apresentado a parte dinâmica para as despesas Yt. Foram propostos 3 modelos dife-
rentes. O modelo 1 abrange apenas a dependência nas despesas anteriores (θt). O modelo 2 possui
a inclusão do número de beneficiários mensal (Bt). O modelo 3 incorpora o termo de sazonalidade,
representado por uma variável indicadora (It), que assume valor 1 nos meses em que se espera uma
maior utilização do plano. De acordo, com as análises descritivas realizadas na Seção 3, considera-
mos a presença de sazonalidade nos meses da estação inverno (junho, julho e agosto). Ressalta-se
que, optamos por fazer um modelo mais simples, considerando a variância constante. Desta forma os
modelos são definidos como:
Modelo 1: Yt ∼ N(θt, σ
2
v); (1)
Modelo 2: Yt ∼ N(θt + β1Bt, σ
2
v); (2)
Modelo 3: Yt ∼ N(θt + β1Bt + β2It, σ
2
v), (3)
em todos eles, temos que θt ∼ N(θt−1, σ
2
w). O termo “F ′
t θt”apresentado na equação das observações,
em (1), (2) e (3) será dado, respectivamente por: (θt), (θt + β1Bt) e (θt + β1Bt + β2It). Considerando
o modelo 3 (mais completo), a função de verossimilhança L(θ;Y ) será:
L(θ;Y ) =
n∏
t=1
1√
2πσ2
τ
exp
{
− 1
2σ2
τ
[Yt − (θt + β1Bt + β2It)]
2
}
.
Para avançar, é preciso indicar as distribuições a priori e os chutes iniciais dos parâmetros. As-
sumimos como distribuição a priori que βi ∼ N(0, 10), com i=1,2. Os valores escolhidos são con-
sequência da nossa incerteza. A média zero por não sabermos se assumirão um efeito positivo ou
negativo, e variância 10 por julgarmos que é grande o suficiente para permitir que os β’s atinjam valo-
res bem diferentes de 0 (zero). Já para o σ2
v e σ2
w, foi assumida uma distribuição a prori GI(0.1, 0.1),
23
onde GI significa a distribuiçaõ Gama Inversa. Como chute inicial, as seleções foram: θ = R$ 8
milhões, σ2
v=1, σ2
w=1, β1=0 e β2=0. Além disso escolheu-se um burn in=2000, lag=10 e uma amostra
a posterioride tamanho 1000, o que implica em 12000 iterações.
Para execução do MCMC no JAGS nos deparamos com uma limitação logo na fase inicial. Como a
despesa do tempo t se baseia na despesa do tempo t− 1, ao iniciar o tempo 1, não existia a referência
de uma despesa no tempo 0. Então, exigiu-se que fosse dada uma atenção especial na inicialização, e
foi necessário escolher uma distribuição a priori para θ0. Desta forma, seguindo a notação do modelo
3, a especificação inicial foi dada da seguinte forma:
θ1 ∼ N(θ0, σ
2
w)
θ0 ∼ N(8000000, 100)
A escolha dos parâmetros, foi baseada no fato de que estamos lidando com montantes monetários
para operadora, na casa dos milhões. Com isso a média escolhida foi de R$ 8 milhões. Já a variância
100, porque como a variabilidade está grande, eu preferi adotar o 100 para que os montantes pudessem
atingir valores acima e abaixo suficiente de R$ 8 milhões.
Prosseguimos então com a parte dinâmica considerando uma distribuição Beta para as porcenta-
gens de reconhecimento (pi,j). Lembrando que, considera-se como porcentagem de reconhecimento a
proporção das despesas reconhecidas ao longo do tempo. Para se obter essa proporção basta calcular
a fração entre o montante que foi avisado em um determinado mês, por toda a quantia de despesa
gerada do mês de origem. Assim, a cada mês com a chegada de novas informações essa proporção de
reconhecimento é atualizada. No caso em questão, essa atualização acontece até o décimo segundo
mês após o mês de origem.
Seja pi,j ∼ Beta(a, b), com a > 0, b > 0. Sua função densidade é dada por:
f(pi,j) =
Γ(a+ b)
Γ(a)Γ(b)
pa−1i,j (1− pi,j)b−1, para 0 < pi,j < 1 (4)
sua média e variância são dadas respectivamete por:
E(pi,j) =
a
a+ b
V ar(pi,j) =
ab
(a+ b)2 (a+ b+ 1)
(5)
Para trabalharmos com o modelo Beta de forma dinâmica, é necessário fazer a seguinte reparametrização
desta distribuição:
µi,j =
a
a+ b
γ = a+ b
f(pi,j) =
Γ(γ)
Γ(µi,jγ)Γ((1− µi,j)γ)
p
µi,jγ−1
i,j (1− pi,j)(1−µi,j)γ−1, para 0 < pi,j < 1
E(pi,j) = µi,j V ar(pi,j) =
µi,j(1− µi,j)
(1 + γ)
.
Veja que µi,j é a média da distribuição Beta nesta nova parametrização. Sendo assim, podemos
implementar no JAGS, o MLDB baseado na distribuição Beta assumindo a seguinte estrutura
pi,j ∼ Beta(ai,j, bi,j);
24
ai,j = µi,j × γ;
bi,j = (1− µi,j)× γ;
µi,j = µi,j−1 × δ,
onde δ é um fator de desconto e para ele iremos assumir uma distribuição que considera um intervalo
(0,1), como por exemplo a própria distribuição Beta ou a distribuição Uniforme. Note que, sendo δ e
µ pertencentes ao intervalo (0,1), a cada passo, a multiplicação desses termos, implica na redução da
média, ou seja, µi,j será igual a µi,j−1 diminuı́do um pouco, porque conforme pode ser observado nos
dados, sempre se observa a diminuição da proporção de reconhecimento a cada mês.
Após a reparametrização podemos então dizer que o MLDB será dado da seguinte forma:
µi,j ∼ Beta(a∗, b∗), a∗ = µi(j−1) × δ × γ∗ e b∗ = (1− µi,(j−1))× δ × γ∗ ,
apesar de γ e γ∗ poderem assumir valores diferentes, optou-se por usar o mesmo valor para ambos,
ou seja, γ = γ∗.
Dando continuidade, assumimos como distribuição a priori γ ∼ Ga(0.1, 0.1) e δ ∼ Beta(1, c).
A escolha do parâmetro de escala c, deve ser determinado pelo pesquisador. Assumimos c sendo 4,
visando assegurar maior rapidez de decaı́mento para a proporção de reconhecimento. Como chute ini-
cial as seleções foram: p=0.1, µ0=0.5, δ = 0.5 e γ=1. Neste modelo tivemos a mesma restrição inicial
mencionada anteriormente devido a falta de uma referência de um valor no tempo 0. Solucionando, o
modelo deve ser inicializado da como segue:
µi,1 = µ0 × δ
µ0 ∼ Beta(1, 1)
Para o cálculo de cada célula (Wi,j) do triângulo inferior utilizaremos toda a previsão feita su-
pracitada. Basicamente iremos pegar a despesa total prevista e distribuı́-la seguindo a proporção do
reconhecimento previsto.
Wi,j = Yi × pi,j
O valor a ser provisionado da PEONA, assim como no Chain-Ladder, se dará em função da soma do
triângulo inferior. A previsão foi realizada 12 passos à frente, mas apurou-se que somente até o 4o
passo os termos foram significativos.
6 Resultados
Buscou-se avaliar a precisão do ajuste de 5 modelos diferentes: ANS, Chain-Ladder, e 3 MLDB.
Desta forma, simulou-se o cálculo de PEONA nos 12 meses de ocorrência do ano de 2018. Nos
MLDB, para realização da previsão, omitiu-se os dados observados dos doze perı́odos imediatamente
anteriores ao de análise, buscando se aproximar do cenário real vivido pelas operadoras.
A Tabela 5 sumariza os resultados obtidos com a metodologia proposta pela ANS. Observa-se uma
grande discrepância entre o que foi calculado e o que realmente foi observado. Em média, a estimativa
foi 111% maior do que o necessário, ou seja, se esta fosse a metodologia adotada, a Operadora A
estaria provisionando mais que o dobro do valor preciso, implicando em uma sobrestimação muito
elevada, prejudicando a alocação de recursos e até mesmo os lucros da operadora. Esse cenário é
totalmente indesejável. A seguir investigaremos os outros modelos em busca de resultados melhores.
25
Tabela 5: Comparação dos valores da PEONA real e estimativa do método ANS da Operadora A.
Mês/ano Método ANS Peona Real Diferença (%)
Jan/2018 11.030.025,27 5.149.296,42 114,20
Fev/2018 11.167.764,35 5.639.306,97 98,03
Mar/2018 11.305.503,43 6.549.891,69 72,61
Abr/2018 11.403.062,32 6.040.718,77 88,77
Mai/2018 11.500.621,21 5.237.688,85 119,57
Jun/2018 11.598.180,10 5.474.737,22 111,85
Jul/2018 11.690.426,23 5.715.856,89 104,53
Ago/2018 11.782.672,36 5.658.118,95 108,24
Set/2018 11.874.918,48 5.745.632,13 106,68
Out/2018 12.102.049,50 5.531.625,23 118,78
Nov/2018 12.329.180,52 5.589.136,58 120,59
Dez/2018 12.556.311,53 4.642.027,12 170,49
Média 11.695.059,61 5.581.169,69 111,20
Na Tabela 6 podemos visualizar os resultados obtidos com o método de Chain-Ladder. Nota-se
que foram encontrados resultados bem melhores do que o observado no modelo anterior. Em apenas
dois meses a variação superou os 20%. Em média a diferença detectada foi de 8,8%. Destaca-
se a estimativa do mês de setembro que foi a que mais se aproximou do real. Apesar da melhora
significativa, o valor a ser provisionado permanece sobrestimado.
Tabela 6: Comparação dos valores da PEONA real e estimativa do método Chain Ladder da Ope-
radora A.
Mês/ano Método Chain-Ladder Peona Real Diferença (%)
Jan/2018 6.237.409,88 5.149.296,42 21,13
Fev/2018 5.313.384,93 5.639.306 -5,78
Mar/2018 5.991.308,35 6.549.891,69 -8,53
Abr/2018 6.444.705,00 6.040.718,77 6,69
Mai/2018 6.389.053,88 5.237.688,85 21,98
Jun/2018 6.073.261,33 5.474.737,22 10,93
Jul/2018 6.160.482,08 5.715.856,89 7,78
Ago/2018 6.413.362,17 5.658.118,95 13,35
Set/2018 5.841.640,21 5.745.632,13 1,67
Out/2018 6.237.427,87 5.531.625,23 12,76
Nov/2018 6.013.773,31 5.589.136,58 7,60
Dez/2018 5.372.114,94 4.642.027,12 15,73
Média 6.040.660,33 5.581.169,69 8,78
Antes de apresentar os resultados dos três modelos dinâmicos tabelado como foi feito para os
outros dois modelos, primeiramente faremos algumas análises de seus ajustes e comportamento dos
parâmetros. Buscando simplificar, essas análises serão feitas apenas para o mês de dezembro de 2018,
último mês em análise, que por consequência possui os dados mais atualizados.
A Figura 8 apresenta o intervalo HPD com 95% de credibilidade da evolução das despesas ao
longo do perı́odo de análise, representado por θ. Não observa-se grandes variações entre os modelos.
No geral, a média da distribuição de θ aponta para um crescimento, com uma amplitude praticamente
26
constante, com exceção do perı́odo entre o 33o(set/2016) e o 45o mês(set/2017). Nesse perı́odo de
variação atı́pica, pode-se perceber um padrão no Modelo 2 de que a amplitude do intervalo foi au-
mentando de acordo com o tempo que foi passando. A partir de outubro de 2017, o modelo pareceter
se estabilizado voltando a ter comportamento semelhante ao observado no inı́cio do perı́odo.
(a) (b) (c)
Figura 8: Intervalo HPD com 95% de credibilidade de θ dos modelos (a), (b) e (c): 1 (simples), 2 (com
beneficiários) e 3 (com beneficiários e sazonalidade), respectivamente.
(a) (b) (c)
Figura 9: Intervalo HPD com 95% de credibilidade de µ dos modelos (a), (b) e (c): 1 (simples), 2 (com
beneficiários) e 3 (com beneficiários e sazonalidade), respectivamente. A linha vermelha indica o 0 (zero) no
eixo y. Se ela estiver dentro do intervalo, a média µ é considerada como não significativa. O foco deste gráfico
é identificar a rapidez com que o reconhecimento cai.
A Figura 9 apresenta o intervalo HPD com 95% de credibilidade da evolução da proporção de
reconhecimento de acordo com o tempo de atraso ao longo do perı́odo de análise, representado por
27
µi,j . Não observa-se grandes variações entre os modelos. O parâmetro µi,j mede a “rapidez”com que
esse reconhecimento diminui. Observa-se que nos perı́odos iniciais, a amplitude do intervalo é maior,
e quanto mais se distância da data de ocorrência, mais o intervalo se reduz. O que é indı́cio de pouca
propensão a outlier, ou seja, a chance de um reconhecimento de um grande montante de despesas,
muito tempo após a sua ocorrência é minúscula. O esperado é que a operadora reconheça grande parte
de suas despesas próximas a data de ocorrência do evento gerador da despesa. A medida que o tempo
de atraso aumenta, menor é a quantidade de avisos, e por coseguinte menor é a despesa reconhecida,
já tendendo a zero após um certo perı́odo.
(a) (b) (c)
Figura 10: Intervalo HPD com 95% de credibilidade da previsão das despesas(Y) 12 passos à frente dos
modelos: 1 (simples), 2 (com beneficiários) e 3 (com beneficiários e sazonalidade), respectivamente.
A Figura 10 ilustra o itervalo HPD com 95% de credibilidade das previsões em 12 passos. Os
três modelos tiveram resultados muito semelhantes, com o intervalo de amplitude aumentando a cada
passo, o que é esperado, dado que devido ao aumento da nossa incerteza, quanto mais longe tentamos
prever, maior será a variância. A média da distribuição a posteriori ficou próxima de R$ 8,8 milhões
em todo o perı́odo.
Note um grande contraste entre as Figuras 8 e 10. A Figura 8 é a média a posteriori que indica
um crescimento para o perı́odo que estamos analisando. Já a Figura 10 é o Yprev cuja média é aquela
dada por θt indicada na Figura 8 com um erro associado, porque ele varia em torno da média, o que
pode ser caracterizado como cenários diferentes.
Esta estabilidade indicada na Figura 10, pode ser atribuı́da ao tamanho do banco de dados. Se o
banco de dados fosse grande, talvez terı́amos informação suficiente para poder prever o crescimento,
mas com apenas 60 observações o modelo não foi capaz de captar esse comportamento. Nas análises
feitas na Seção 3, podemos notar na Figura 1 uma tendência de crescimento no global. Mas se
olharmos apenas para pequenas janelas, por exemplo 6 meses, notamos que esta elevação não fica
tão visı́vel. O que nota-se é um comportamento mais constante, ou seja, para identificar o padrão
de crescimento precisamos examinar um intervalo grande, o que corrobora a necessidade de grande
volume de dados.
As Figuras 11 e 12 apresentam comportamentos semelhantes e por isso será feita uma análise
conjunta. A primeira apresenta as proporções de reconhecimento previstas (ppprevi,j), e a segunda as
28
previsões das despesas que já foram geradas mas que ainda não foram avisadas, ou seja, áquelas que
irão preencher a parte inferior do triângulo Wi,j . As figuras apresentam também o intervalo HPD com
95% de credibilidade, representado pela cor preto. No entanto, em ambos, adotou-se um critério de
seleção mais rigoroso, no qual limita-se o intervalo a apenas um desvio padrão da média para cima e
para baixo, que está representado em vermelho. A linha azul está indicando o 0 (zero) simulando um
teste de hipóteses para verificar se a variável possui efeito no todo, ou seja, se a linha azul cai dentro
do intervalo, a variável é considerada como não significativa. Nota-se que a partir do quinto mês de
reconhecimento, praticamente toda a informação recebida se manifestou como não significativa da
despesa total, ou seja, a quantidade é tão ı́nfima que não afeta o todo.
Tem-se ainda que para realização do cálculo do pprevi,j foi necessário um ajuste. Como µi,j mede
a taxa de decaı́mento do reconhecimento mensal, estávamos violando a condição de que a soma dos
pprevi,j’s ficassem no intervalo (0,1), ou seja, estavámos obtendo um reconhecimento maior do que
100% nos perı́odos, o que foge totalmente de qualquer realidade. A solução considerada foi dividir
essas porcentagens estimadas pela soma delas, de modo que essa redistribuição resultaria exatamente
em 100%.
(a) (b) (c)
Figura 11: Intervalo HPD com 95% de credibilidade para previsão das proporções de reconhecimento (pi,j)
dos modelos: 1 (simples), 2 (com beneficiários) e 3 (com beneficiários e sazonalidade), respectivamente. A
linha azul está indicando o zero. Se ela estiver dentro do intervalo, a variável é considerada como não signifi-
cativa. Em vermelho temos o intervalo de credibilidade com 1 desvio padrão da média para baixo e para cima.
O ponto central em vermelho representa a média da distribuição a posteriori.
29
(a) (b) (c)
Figura 12: Intervalo HPD com 95% de credibilidade da previsão das dos montantes (Wi,j) que preenchem
o triângulo inferior dos modelos: 1 (simples), 2 (com beneficiários) e 3 (com beneficiários e sazonalidade),
respectivamente. A linha azul está indicando o zero. Se ela estiver dentro do intervalo, a variável é considerada
como não significativa. Em vermelho temos o intervalo de credibilidade com 1 desvio padrão da média para
baixo e para cima. O ponto central em vermelho representa a média da distribuição a posteriori
Buscou-se ainda avaliar o coeficiente das inclusões feitas. A Figura 13 apresenta a cadeia de
convergência dos β’s dos modelos 2 (primeira cadeia) e 3 (segunda e terceira cadeia). Por conter o
zero em seus intervalos, nenhum dos coeficietes se apresentaram como significativos, ou seja, tanto o
número de beneficiários como a sazonalidade não manifestaram efeito nas despesas totais.
30
Figura 13: Cadeia de convergência dos β’s dos modelos: 2 (com beneficiários) e 3 (com beneficiários e
sazonalidade), respectivamente.
Intuitivamente espera-se que o número de beneficiários mensal interfira diretamente no montante
de gastos gerados pela utilização do plano, visto que, quanto maior o número de expostos maior a
chance de utilização dos procedimentos, e por consequência, maiores as chances de gerar um valor
maior de gastos. De acordo com as análises descritivas realizadas na Seção 3, pôde-se notar que o
número de beneficiários teve pouca variação mensal, então por esse motivo, pode ser que o número
total em si, tivesse pouco impacto nas despesas observadas.
Nas mesmas análises da Seção 3, parecı́amos ter indı́cios do efeito de sazonalidade, de alta nos
gastos no inverno e baixa no verão. No entanto, por mais que fosse alterada a variável indicadora que
considera a sazonalidade, não conseguimos alcançar a significância do β2. Pode ser que a sazonali-
dade não tenha sido captada de mês a mês, e tenha se manifestado fortemente ano a ano. Pode ser
que a sazonalidade não tenha sido captada devido a limitação do curto perı́odo de tempo acessı́vel dos
31
dados. Se tivermos um banco de dados maior podemos ser capazes de detectá-la.
Há de considerar ainda, a ordem de grandeza dos números. As despesas estão na escala do milhão.
O número de beneficiários em dezenas de milhares. A sazonalidade representada por uma variável
categórica (0 ou 1). Desta forma, a despesa do mês anterior pode ter puxado todo o peso para ela.Tabela 7: Comparação dos valores da PEONA real e estimativa do modelo linear dinâmico Bayesi-
ano 1 da Operadora A.
Mês/ano Modelo Dinâmico 1 Peona Real Diferença (%)
jan/18 5.986.092,42 5.149.296,42 16,25
fev/18 5.065.730,53 5.639.306,38 -10,17
mar/18 5.720.018,12 6.549.891,69 -12,67
abr/18 5.098.599,17 6.040.718,77 -15,60
mai/18 6.120.591,06 5.237.688,85 16,86
jun/18 5.926.224,61 5.474.737,22 8,25
jul/18 6.295.699,73 5.715.856,89 10,14
ago/18 6.337.747,67 5.658.118,95 12,01
set/18 6.291.368,96 5.745.632,13 9,50
out/18 6.267.552,54 5.531.625,23 13,30
nov/18 6.121.006,27 5.589.136,58 9,52
dez/18 5.643.804,44 4.642.027,12 21,58
Média 5.906.202,96 5.581.169,69 6,58
Nas Tabelas 7, 8 e 9 são apresentadas respectivamente, a comparação entre a PEONA real, e os três
modelos dinâmicos. Analisando a média das diferenças percentuais, os ajustes em ordem crescente
foram, Modelo 1, 3 e 2, respectivamente. Mesmo o termo de sazonalidade não se apresentando como
significativo, ele parece ter contribuı́do para a redução média da diferença percentual.
Tabela 8: Comparação dos valores da PEONA real e estimativa do modelo linear dinâmico Bayesi-
ano 2 da Operadora A.
Mês/ano Modelo Dinâmico 2 Peona Real Diferença (%)
jan/18 5.952.298,14 5.149.296,42 15,59
fev/18 5.034.895,99 5.639.306,38 -10,72
mar/18 6.312.798,57 6.549.891,69 -3,62
abr/18 5.910.420,84 6.040.718,77 -2,16
mai/18 6.009.181,24 5.237.688,85 14,73
jun/18 5.889.942,45 5.474.737,22 7,58
jul/18 6.200.718,61 5.715.856,89 8,48
ago/18 6.452.610,76 5.658.118,95 14,04
set/18 6.390.660,71 5.745.632,13 11,23
out/18 6.209.812,80 5.531.625,23 12,26
nov/18 6.133.472,82 5.589.136,58 9,74
dez/18 5.765.519,67 4.642.027,12 24,20
Média 6.021.861,05 5.581.169,69 8,45
Por fim, a Tabela 10 ilustra um comparativo em porcentagem da diferença entre o estimado e
o observado de todos os modelos. A metodologia proposta pela ANS foi de longe a que obteve
32
Tabela 9: Comparação dos valores da PEONA real e estimativa do modelo linear dinâmico Bayesi-
ano 3 da Operadora A.
Mês/ano Modelo Dinâmico 3 Peona Real Diferença (%)
jan/18 5.844.904,35 5.149.296,42 13,51
fev/18 4.990.138,95 5.639.306,38 -11,51
mar/18 6.232.345,40 6.549.891,69 -4,85
abr/18 5.887.622,12 6.040.718,77 -2,53
mai/18 5.982.847,67 5.237.688,85 14,23
jun/18 5.897.921,81 5.474.737,22 7,73
jul/18 6.297.553,46 5.715.856,89 10,18
ago/18 6.358.325,77 5.658.118,95 12,38
set/18 6.298.993,60 5.745.632,13 9,63
out/18 6.245.634,25 5.531.625,23 12,91
nov/18 6.110.132,89 5.589.136,58 9,32
dez/18 5.774.761,16 4.642.027,12 24,40
Média 5.993.431,79 5.581.169,69 7,95
Tabela 10: Diferença em porcentagem dos valores de todas as estimativas e a PEONA real da
Operadora A.
Mês/ano Metodologia Chain Modelo Modelo Modelo
ANS Ladder Dinâmico 1 Dinâmico 2 Dinâmico 3
jan/18 114,20 21,13 16,25 15,59 13,51
fev/18 98,03 -5,78 -10,17 -10,72 -11,51
mar/18 72,61 -8,53 -12,67 -3,62 -4,85
abr/18 88,77 6,69 -15,60 -2,16 -2,53
mai/18 119,57 21,98 16,86 14,73 14,23
jun/18 111,85 10,93 8,25 7,58 7,73
jul/18 104,53 7,78 10,14 8,48 10,18
ago/18 108,24 13,35 12,01 14,04 12,38
set/18 106,68 1,67 9,50 11,23 9,63
out/18 118,78 12,76 13,30 12,26 12,91
nov/18 120,59 7,60 9,52 9,74 9,32
dez/18 170,49 15,73 21,58 24,20 24,40
Média 111,20 8,78 6,58 8,45 7,95
as piores estimativas. O método Chain-Ladder conseguiu resultados melhores, como destaque para
setembro de 2018, onde a diferença foi a menor de todas. O modelo dinâmico 1, em média, foi o
que obteve o melhor desempenho, mesmo sendo o mais simples dentre os três elaborados. Mesmo
com os coeficientes de inclusão se manifestando como não significativo, os modelos dinâmico 2 e 3
alcançaram resultados expressivos, com erros menores, em média, do que o método Chain-Ladder.
33
7 Considerações Finais
Este trabalho examinou a aplicação dos Modelos Lineares Dinâmicos Bayesianos nas estimativas
do cálculo da Provisão Eventos Ocorridos e Não Avisados, considerando que as despesas geradas
pela utilização dos beneficiários do plano de saúde da Operadora A, tinham dependência no tempo. O
banco de dados utilizado foi de uma operadora de médio porte, porém acredita-se que a metodologia
proposta também se ajustaria bem para as operadoras de grande porte.
Por ser um modelo mais robusto que os existentes comparados, constatou-se que os MLDB con-
seguiram alcançar bons resultados, sendo que dentre as metodologias analisadas, foram os que mais
se aproximaram, em média, do que realmente foi observado ao longo do ano de 2018. Destaca-se que
o melhor modelo ajustado, nem sempre vai ser o melhor modelo de previsão. Fato que comprova isso,
foi o Modelo dinâmico 3 ter apresentado, em média, resultados melhores do que o Modelo dinâmico 2,
mesmo com o termo de inclusão sendo não significativo. Apesar disso, o Modelo dinâmico 1, mesmo
sendo o mais simples correspondeu, em média, às menores diferenças do valor de provisionamento
que realmente seria necessário.
Apurou-se também certa limitação quanto ao tamanho do banco de dados. Por estarmos traba-
lhando com apenas 60 observações, acredita-se que esta quantidade de informações não foram sufi-
cientes para o MLDB conseguir captar todos os indı́cios apurados na análise descritiva e exploratória
dos dados, como a tendência de crescimento e a sazonalidade. Julga-se que com a incoporação de uma
boa quantidade de dados, deixando o banco suficientemente grande, poderı́amos encontrar estimativas
melhores.
As despesa estão na escala dos milhões, o número de beneficiários nos milhares, e a sazonalidade
foi representada por uma variável indicadora que assume valor zero ou um. Dessa forma, suspeita-se
ainda que a grandeza dos números, ou seja, a diferença de escalas das variáveis, da mesma forma
pode ter sido outro fator limitador.
Conforme mencionado em Bornhuetter e Ferguson (1972), a dificuldade da modelagem de PE-
ONA, é mais atuarial do que estatı́stico, considerando que não existe um método único de estimativas
de previsão que conseguirão alcançar os melhores resultados sempre. Segundo Mano e Ferreira (2009)
cada método é baseado em algumas suposições que podem não ser válidas em determinada situação.
Desta forma, por mais sofisticadas que as metodologias sejam, não eliminam o trabalho de análise e
a tomada de decisão por parte do atuário.
Com base em todo o exposto, sugere-se para trabalhos futuros: a inclusão do fator de inflação, a
alteração de premissas, mudança de escala das variáveis, consideração de banco de dados maior.
34
Bibliografia
Antonio, K. e Plat, R. (2010), “Micro-Level Stochastic Loss Reserving for General Insurance,” Scan-
dinavian Actuarial Journal, 2014:7, 649–669.
Atherino, R. (2008), “Estimação de Reservas IBNR por Modelos em Espaço de Estado: Empi-
lhamento por Linhas do Triângulo Run-off.” Tese de Doutorado, Departamento de Engenharia
Elétrica, Pontı́fica Universidade Católica do Rio de Janeiro.
Atherino, R. e Fernandes, C. A. C. (2006), “Um Modelo em Espaço de Estado para Estimação de
Reservas IBNR,” Revista Brasileira de Risco e Seguro.
Bornhuetter, R. L. e Ferguson, R. E. (1972), “The Actuarial and IBNR,” Proceedings of the Casualty
Actuarial Society, pp. 181–195.
Braga, L. J. S. (2017), “Adaptação de metodologia de Provisão de Eventos Ocorridos e Não Avisa-
dos (PEONA) para operadoras de pequeno porte co intuito de minimizar a influência dos dados,”
Trabalho de Conclusão de Curso - Departamento de Estatı́stica, ICEX, UFMG.
de Souza, L. G. (2013), “Comparação de métodos de micro-dados e de triângulo run-of para previsão
da quantidade IBNR,” Dissertação de Mestrado, Departamento de Engenharia Elétrica, Pontı́fica
Universidade Católica do Rio de Janeiro.
Ehlers, R. S. (2003), Introdução a Inferência Bayesiana, http://leg.ufpr.br/ paulo-
jus/CE227/ce227.pdf.
England, P. e Verrall, R. (2002), “Stochastic Claims Reserving in General Insurance,” British Actua-
rial Journal, 8.
Friedland,