Buscar

IBNR PEONA - Monografia Sérgio

Prévia do material em texto

UNIVERSIDADE FEDERAL DE MINAS GERAIS
INSTITUTO DE CIÊNCIAS EXATAS
DEPARTAMENTO DE ESTATÍSTICA
CURSO DE GRADUAÇÃO EM CIÊNCIAS ATUARIAIS
Sérgio Luiz Moreira Júnior
APLICAÇÃO DO MODELO LINEAR DINÂMICO SIMPLES NA
ESTIMAÇÃO DA IBNR/PEONA
BELO HORIZONTE
2019
SÉRGIO LUIZ MOREIRA JÚNIOR
APLICAÇÃO DO MODELO LINEAR DINÂMICO SIMPLES NA
ESTIMAÇÃO DA IBNR/PEONA
Trabalho de Conclusão de Curso submetido à
Universidade Federal de Minas Gerais, como
requisito necessário para obtenção do grau de
Bacharel em Ciências Atuariais
Orientador: Vinı́cius Diniz Mayrink
Co-orientador: Lorena Josino Silva Braga
Belo Horizonte, junho de 2019
2
Aplicação do Modelo Linear Dinâmico Simples na estimação
da IBNR/PEONA.
† Autor: Sérgio Luiz Moreira Júnior
Graduação em Ciências Atuariais, Universidade Federal de Minas Gerais
Orientador: Vinicı́us Diniz Mayrink
Professor Adjunto, Deparpatamento de Estatı́stica, Universidade Federal de Minas Gerais
Co-orientador: Lorena Josino Silva Braga
Bacharel em Ciências Atuariais, Universidade Federal de Minas Gerais
Resumo
De acordo com a Resolução Normativa 209/09 e suas alterações, mensalmente as Operado-
ras de Plano de Saude devem contabilizar em seu passivo montante destinado às provisões.
O objeto desse estudo será o cálculo da estimativa por metodologia própria de uma dessas
provisões, a PEONA - Provisões de Eventos Ocorridos e Não Avisados. Trata-se de uma pes-
quisa de campo, exploratória, com tratamento quantitativo e qualitativo, realizada com a base
de dados de uma operadora de médio porte. O tratamento de dados e as análises estatı́sticas
foram realizadas com auxı́lio dos softwares MSExcel R©, e do R com interface com o JAGS.
A Inferência Bayesiana atribui a tudo que é desconhecido uma distribuição de probabilidade
que possa exprimir nossa incerteza. Aliado a nossa suspeita de que a variação dos gastos men-
sais das operadoras possuem dependência no tempo, foram propostos três Modelos Lineares
Dinâmicos Bayesianos, sendo o primeiro simples, o segundo com a inclusão do número de
beneficiários mês a mês e o terceiro com a inclusão também da sazonalidade. Ao final foi re-
alizada uma análise dos resultados, produzindo um comparativo entre os modelos dinâmicos,
a metodologia ANS e o método Chain-Ladder, buscando encontrar o melhor preditor para
o cálculo da IBNR/PEONA. Os melhores resultados em média, podem ser atribuı́dos aos
modelos dinâmicos, sendo que o melhor em média foi o modelo mais simples.
Palavras chave: Provisões Técnicas, PEONA, Modelo Dinâmico, JAGS, Inferência
Bayesiana, MCMC.
† Endereço de correspondência: Universidade Federal de Minas Gerais, ICEx, Departamento de
Estatı́stica, Av. Antônio Carlos 6627, Pampulha, Belo Horizonte Minas Gerais, Brasil.
E-mail: sergiojunior@ufmg.br.
3
Lista de Figuras
1 Triângulo de run-off com entradas anuais com n=5. Fonte: Vilela (2013) . . . . . . . . . . 11
2 Gráfico das despesas mensais por data de ocorrência da Operadora A no perı́odo compreen-
dido entre janeiro de 2014 e dezembro de 2018. . . . . . . . . . . . . . . . . . . . . . . 13
3 Histograma das despesas por densidade de probabilidade no perı́odo entre 2014 e 2018. A
linha vermelha representa a distribuição amostral hipotética. . . . . . . . . . . . . . . . 14
4 Gráfico do número de beneficiários da Operadora A no perı́odo compreendido entre janeiro
de 2014 e dezembro de 2018. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
5 Gráfico do número de beneficiários por faixa etária da Operadora A em fevereiro de 2019. . 16
6 Gráfico das despesas por estações do ano no perı́odo entre 2014 e 2018. . . . . . . . . . . 16
7 Processo do sistema de inferência. Fonte Melo (2007). . . . . . . . . . . . . . . . . . . . 22
8 Intervalo HPD com 95% de credibilidade de θ dos modelos (a), (b) e (c): 1 (simples), 2 (com
beneficiários) e 3 (com beneficiários e sazonalidade), respectivamente. . . . . . . . . . . . 27
9 Intervalo HPD com 95% de credibilidade de µ dos modelos (a), (b) e (c): 1 (simples), 2 (com
beneficiários) e 3 (com beneficiários e sazonalidade), respectivamente. A linha vermelha
indica o 0 (zero) no eixo y. Se ela estiver dentro do intervalo, a média µ é considerada como
não significativa. O foco deste gráfico é identificar a rapidez com que o reconhecimento cai. 27
10 Intervalo HPD com 95% de credibilidade da previsão das despesas(Y) 12 passos à frente dos
modelos: 1 (simples), 2 (com beneficiários) e 3 (com beneficiários e sazonalidade), respecti-
vamente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
11 Intervalo HPD com 95% de credibilidade para previsão das proporções de reconhecimento
(pi,j) dos modelos: 1 (simples), 2 (com beneficiários) e 3 (com beneficiários e sazonalidade),
respectivamente. A linha azul está indicando o zero. Se ela estiver dentro do intervalo, a
variável é considerada como não significativa. Em vermelho temos o intervalo de credibili-
dade com 1 desvio padrão da média para baixo e para cima. O ponto central em vermelho
representa a média da distribuição a posteriori. . . . . . . . . . . . . . . . . . . . . . . 29
12 Intervalo HPD com 95% de credibilidade da previsão das dos montantes (Wi,j) que preen-
chem o triângulo inferior dos modelos: 1 (simples), 2 (com beneficiários) e 3 (com bene-
ficiários e sazonalidade), respectivamente. A linha azul está indicando o zero. Se ela estiver
dentro do intervalo, a variável é considerada como não significativa. Em vermelho temos o
intervalo de credibilidade com 1 desvio padrão da média para baixo e para cima. O ponto
central em vermelho representa a média da distribuição a posteriori . . . . . . . . . . . . 30
13 Cadeia de convergência dos β’s dos modelos: 2 (com beneficiários) e 3 (com beneficiários e
sazonalidade), respectivamente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
14 Cadeia de convergência, densidade e Função de Autocorrelação (FAC) de θ42, Y prev3 e µ59,6
do modelo 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
15 Cadeia de convergência, densidade e Função de Autocorrelação (FAC) de pprev60,7, W56,12
e γ do modelo 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
16 Cadeia de convergência, densidade e Função de Autocorrelação (FAC) de δ, τv e τw do
modelo 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
17 Cadeia de convergência, densidade e Função de Autocorrelação (FAC) de θ42, Y prev3 e µ59,6
do modelo 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
18 Cadeia de convergência, densidade e Função de Autocorrelação (FAC) de pprev60,7, W56,12
e γ do modelo 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4
19 Cadeia de convergência, densidade e Função de Autocorrelação (FAC) de δ, τv e τw do
modelo 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
20 Cadeia de convergência, densidade e Função de Autocorrelação (FAC) de θ42, Y prev3 e µ59,6
do modelo 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
21 Cadeia de convergência, densidade e Função de Autocorrelação (FAC) de pprev60,7, W56,12
e γ do modelo 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
22 Cadeia de convergência, densidade e Função de Autocorrelação (FAC) de δ, τv e τw do
modelo 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5
Lista de Tabelas
1 Triângulo de run-off Superior - matriz de informação dos dados . . . . . . . . . . . . . . 10
2 Estatı́sticas básicas das despesas mensais da Operadora A no perı́do entre 2014 e 2018 . . . 13
3 Frequência de utilização por faixa etária da Operadora A ocorridas em fevereirode 2019 . . 14
4 Proporção média de reconhecimento das despesas por data de aviso da Operadora A. . . . . 17
5 Comparação dos valores da PEONA real e estimativa do método ANS da Operadora A. . . . 26
6 Comparação dos valores da PEONA real e estimativa do método Chain Ladder da Operadora A. 26
7 Comparação dos valores da PEONA real e estimativa do modelo linear dinâmico Bayesiano 1
da Operadora A. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
8 Comparação dos valores da PEONA real e estimativa do modelo linear dinâmico Bayesiano 2
da Operadora A. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
9 Comparação dos valores da PEONA real e estimativa do modelo linear dinâmico Bayesiano 3
da Operadora A. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
10 Diferença em porcentagem dos valores de todas as estimativas e a PEONA real da Operadora A. 33
6
Sumário
1 Introdução 8
2 Provisão de Eventos Ocorridos e Não Avisados - PEONA/IBNR 9
3 Visualização dos Dados 12
3.1 Descrição detalhada dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.2 Análise Descritiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.3 Fator inflação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4 Inferência Bayesiana 17
4.1 JAGS - Just Another Gibbs Sampler . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.1.1 Gibbs Sampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5 Metodologia 20
5.1 Metodologia ANS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
5.2 Chain Ladder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
5.3 Modelo Dinâmico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5.3.1 Modelos Propostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
6 Resultados 25
7 Considerações Finais 34
7
1 Introdução
Somente com a criação da Lei 9.656/98 que o mercado de saude, até então organizado de forma in-
dependente, foi de fato regulado. Após essa lei, surgiu a necessidade de um órgão regulador/fiscalizador
e normatizador. Em 28 de janeiro de 2000, criou-se pela Lei no 9.961 a Agência Nacional de Saúde
(ANS), que tem como objetivo regulamentar, orientar e supervisionar as operadoras de plano de saúde
do mercado. Desde então, para manter o equilı́brio econômico-financeiro das operadoras de planos
de saúde (OPS), por meio de normativos, a ANS tem imposto regulações e prestações de contas de
forma a manter a liquidez e solvência das OPS. Dentre esses normativos, destaca-se a Resolução Nor-
mativa (RN) no 393/15 e suas alterações que estabelece (mensalmente) que as OPS devem registrar
contabilmente um montante relacionado às principais provisões necessárias.
No ramo das Ciências Atuariais, as provisões têm papel fundamental para lidar com as
incertezas e riscos futuros. As provisões técnicas são valores constituı́dos pelas empresas cujo produto
é o “risco”. Conforme pode ser visto em Mano e Ferreira (2009), “as provisões técnicas correspondem
aos diversos compromissos financeiros futuros das empresas para com os seus
clientes/participantes, sendo que esses compromissos futuros podem corresponder a valores já
conhecidos ou, como acontece na maioria das vezes, corresponder a estimativas. Dessa forma,
o cálculo das provisões técnicas deve ser feito necessariamente por um atuário, profissional que
estabelece os limites de segurança na gestão de riscos a partir do uso das teorias financeiras e das
probabilidades”.
Destaca-se que os valores das provisões representam a maior parte do passivo das operadoras.
Portanto há um enorme interesse por parte das OPS que este registro seja feito da maneira mais
precisa possı́vel. A questão da sobrestimação ou subestimação da PEONA pode ter influência
direta na relação econômico-financeira de uma OPS, ou seja, se realizada uma estimação de valores
maiores do que necessário poderá implicar a redução dos lucros e menores poderá ter como
consequência a insolvência da empresa. Ambos os cenários não são desejados pelas Operadoras.
Dentre todas as provisões técnicas necessárias à manutenção do equilı́brio econômico-financeiro
das operadoras, o enfoque deste estudo será a Provisão de Eventos Ocorridos e Não Avisados (PE-
ONA, do inglês IBNR). A escolha dessa provisão se deu pela sua importância devido a sua de-
pendência em cálculos mais sofisticados do que os utilizados nas outras provisões. O método mais
popular, e por muito tempo o mais utilizado para estimação da reserva de PEONA a ser provisionada,
é o Chain-Ladder (cadeia escalonada), proposto por Tarbell (1934). Através das despesas geradas
pelos beneficiários do plano de estudo, no perı́odo dos últimos dos 12 meses organizados no triângulo
de run-off, este método assume como premissa que o comportamento de gastos destes beneficiários
nos próximos 12 meses será semelhante aos 12 meses anteriores. A partir disso, encontram-se fatores
que deverão ser multiplicados às despesas do perı́odo passado para projetar as despesas que serão
gastas no futuro. Ressalta-se que, se o reconhecimento da OPS for hábil, não há a necessidade de
utilizar uma cauda tão longa, ou seja, pode se trabalhar com uma quantidade menor de meses.
Inúmeros estimadores já foram propostos com um objetivo em comum: fornecer uma boa estima-
tiva para o valor da PEONA/IBNR baseada nos dados do passado. Mesmo esses estimadores sendo
utilizados no mundo inteiro, não encontrou-se ainda um que satisfizesse por inteiro as operadoras e
seguradoras. Por isso, há muito o que ser desenvolvido e estudado. A principal ideia é desenvolver
um estimador que forneça valores próximos ao do valor real do IBNR, utilizando o maior número
de informações possı́vel e disponı́vel. O fato desta provisão servir para diminuir a possibilidade de
inadimplência da empresa mostra o quanto importante ela é (Atherino e Fernandes, 2006). Sendo
assim, há uma abertura quanto a qual a melhor metodologia a se utilizar.
8
Dada esta contextualização, o objetivo deste estudo é propor um método probabilı́stico de cálculo
de PEONA na área de saúde suplementar. Posteriormente aplicá-lo em um banco de dados de uma
OPS de médio porte, e comparar os resultados com o método mais tradicional da literatura, e com
a metodologia da ANS (dois métodos determinı́sticos). De acordo com a definição da ANS, RN no
393 e suas alterações, podemos considerar OPS de médio porte àquelas operadoras que possuem mais
de 20 mil e menos de 100 mil beneficiários. Trabalhar com modelos probabilı́sticos tem uma grande
vantagem: a disponibilidade de se trabalhar com intervalos de credibilidade, ao invés de somente uma
estatı́stica pontual. Portanto, espera-se que os resultados do modelo proposto obtenha maior precisão
quando comparado aos modelos determinı́sticos. Ressalta-se ainda que, o intuito do presente estudo
não é solucionar este cenário, mas agregar a ele outra forma possı́vel de cálculo.
O modelo aqui proposto utiliza a estrutura do triângulo de Run-Off para o calculo da PEONA.
Assim como no método de Chain-Ladder, o cálculo da provisão se dá pela soma do triângulo infe-
rior. Para o preenchimento do triângulo inferior, estima-se as despesas finais por data de ocorrência
independente da data em que ele foi avisado. Essa estimação é feita assumindo que as despesas
mensais reais possuem os mesmos comportamentos apresentados em meses anteriores. Desta forma
utilizamos um modelo dinâmico com dependência no tempo. Criou-se ainda outro modelo dinâmico
para a estimação dos percentuais de reconhecimento por data de aviso. De posse destas estimati-
vas, o triângulo inferior final é preenchido pela multiplicação das despesas por mês de ocorrência,multiplicado pelo percentual de reconhecimento do respectivo mês de aviso ainda desconhecido.
O presente trabalho é dividido como segue: a Seção 2 descreve sobre as provisões técnicas, inclu-
sive a PEONA. A Seção 3 descreve detalhadamente os dados utilizados. A Seção 4 traz os principais
conceitos de inferência Bayesiana. A Seção 5 relata a metodologia aplicada neste trabalho. Por fim,
a Seção 6 explicita os resultados, e a Seção 7 aponta as considerações finais.
2 Provisão de Eventos Ocorridos e Não Avisados - PEONA/IBNR
As provisões técnicas são projeções registradas contabilmente no passivo da OPS, que visam assegurar
que a operadora tenha capital suficiente para arcar com suas despesas futuras. Para aquelas OPS que
não possuem metodologia própria do cálculo de provisão ou estão desobrigadas de sua constituição,
a RN no 393/15 e suas alterações, estabelecem uma forma padrão de cálculo para cada uma das
principais provisões, dentre elas:
• Provisão de Eventos/Sinistros a Liquidar (PESL) - referente ao montante de eventos/sinistros já
ocorridos e avisados mas que não foram pagos pela OPS;
• Provisão para Eventos Ocorridos e Não Avisados (PEONA) - referente à estimativa do montante
de eventos/sinistros que tenham ocorrido e que não tenham sido avisados à OPS;
• Provisão para Eventos Ocorridos e Não Avisados SUS (PEONA SUS): referente à estimativa
do montante de eventos/sinistros originados no Sistema Único de Saúde (SUS), que tenham
ocorrido e que não tenham sido avisados à OPS;
• Provisão para Prêmios não Ganhos (PPCNG) - referente à parcela de prêmio/contraprestação
cujo perı́odo de cobertura do risco ainda não decorreu;
• Provisão para Remissão - referente às obrigações decorrentes das cláusulas contratuais de re-
missão das contraprestações/prêmios referentes à cobertura de assistência à saúde, quando exis-
tentes;
9
• Provisão para Insuficiência de Contraprestação/Prêmio (PIC) - relativo à insuficiência de prêmio
para a cobertura dos eventos/sinistros a ocorrer, quando constatada.
Ressalta-se que, operadoras de grande porte, àquelas com mais de 100 mil beneficiários, obriga-
toriamente precisam adotar metodologia própria, portanto não constituem pela RN 393/15.
Conforme já mencionado, neste trabalho o enfoque será na PEONA. O cálculo das provisões de
sinistros envolvem necessariamente o uso de estimativas, devido a existência de um espaço de tempo
entre a ocorrência do sinistro, o momento em que o sinistro é reportado à operadora e o momento em
que o sinistro é finalmente encerrado; para ver mais detalhes veja Mano e Ferreira (2009).
Assim, as datas são muito importantes na organização do banco de dados e no processo de esti-
mativas das provisões. A seguir apresentamos as principais datas: 1) Data de ocorrência: na qual a
utilização do plano ocorreu; 2) Data de aviso: momento em que a utilização é avisada à operadora; 3)
Data de cadastro (ou registro): instante em que a utilização foi registrada pela primeira vez no sistema
operacional da companhia; 4) Data contábil (ou data de provisão): momento usado para definir qual
o grupo de sinistros que serão incluı́dos na estimativa da provisão; 5) Data de avaliação: data na qual
a estimativa de provisão é feita. A data de avaliação define o corte a ser feito na análise, pois todas as
transações ocorridas para o grupo de utilização em estudo devem ser incluı́das até a data da avaliação.
A data de avaliação pode ser antes, depois ou coincidente com a data contábil (Mano e Ferreira, 2009).
Tabela 1: Triângulo de run-off Superior - matriz de informação dos dados
Perı́odo de desenvolvimento
ocorrência 0 1 2 . . . k . . . n-1 n
0 Y0,0 Y0,1 Y0,2 . . . Y0,k . . . Y0,n−1 Y0,n
1 Y1,0 Y1,1 Y1,2 . . . Y1,k . . . Y1,n−1
2 Y2,0 Y2,1 Y2,2 . . . Y2,k
. . .
...
...
...
...
. . . Y·,k
i Yi,0 Yi,1 Yi,2 . . .
...
...
...
. . .
n-1 Yn−1,0 Yn−1,1
n Yn,0
O triângulo de run-off consiste em uma tabela de dupla entrada, onde as linhas (i) representam a
data em que as despesas (Yi,k) geradas por utilização do plano ocorreram. As colunas (k) equivalem
as datas em que a OPS é avisada sobre estas despesas geradas. Considere n a quantidade de perı́odos
analisados. Assim obtemos o triângulo superior da Tabela 1. A diferença de tempo entre a data de
aviso e o momento do acontecimento é denominado perı́odo de desenvolvimento. Assim, o formato
indicado na tabela avalia o atraso das contas por meio de seu desenvolvimento. Ele caracteriza-
se como uma das ferramentas de auxı́lio mais utilizada por atuários para organizar dados visando
detectar possı́veis padrões históricos, e avaliar qual metodologia utilizar.
Organizando os dados na estrutura do triângulo de run-off, o triângulo superior expõe as carac-
terı́sticas dos dados observados. O triângulo inferior, equivale às informações ainda desconhecidas,
que é o alvo de estudo. O cálculo da provisão se dá justamente pela soma de cada célula desse
triângulo inferior.
10
Figura 1: Triângulo de run-off com entradas anuais com n=5. Fonte: Vilela (2013)
A Figura 1 ilustra um triângulo de run-off com perı́odos anuais, considerando a suposição de que
os sinistros sejam avisados em até 5 anos após sua ocorrência. O que está em branco equivale ao
que já temos conhecimento, e o que está em cinza exprime o que queremos estimar. As variações
de tons da cor cinza, expressa que quanto mais escuro for a tonalidade, maior será a nossa incerteza.
As diagonais caracterizam as despesas reconhecidas em um determinado ano, de acordo com sua
ocorrência. Como a diagonal principal contém dados completos de 2012, significa que estamos em
2013. Se estivéssemos em 2014, terı́amos informações completas de 2013, e os dados poderiam ser
atualizados, “deslocando”uma linha para baixo, conforme a tabela da direita. O cálculo da PEONA
equivale a soma das entradas que estão abaixo da diagonal principal (em cinza), que corresponde a
toda informação do perı́odo futuro. Interpretando os dados da tabela, a entrada (i=1,k=1) representa
as utilizações do plano que ocorreram em 2008 e foram reconhecidas com 0 ano de atraso, isto é, em
2008 mesmo (Vilela, 2013).
De todos os métodos que utilizam da estrutura do triângulo de run-off, o mais famoso e res-
peitável, sem dúvida, é o método Chain-Ladder (cadeia escalonada), atribuı́do ao trabalho de Tarbell
(1934). Em Friedland et al. (2010) é apresentado essa metodologia em detalhe, ressaltando aspectos
especı́ficos de sua utilização, exemplos de cálculo e demonstrações das melhores formas de aplicação
do método. No entanto, esse é um modelo pouco robusto, e diversos autores tentaram propor melho-
rias. Vale destacar o modelo inicialmente apresentado em Mack (1993) e posteriormente desenvolvido
em Mack (1999) que proporciona a obtenção de medidas de erro e de intervalos de confiança, partindo
das estimativas provindas do método Chain Ladder.
Existem também vários outros métodos que utilizam uma estrutura semelhante, adaptando às suas
particularidades. Vale destacar o método de Bornhuetter-Ferguson, introduzido por Bornhuetter e
Ferguson (1972) e posteriormente explorado e desenvolvido por Neuhaus (1992), embasado em uma
combinação da informação relativa aos montantes de indenizações com fatores externos, tais como, a
taxa de sinistralidade.
Assim como é a ideia deste trabalho, inúmeros já foram os modelos propostos com abordagem
probabilı́sticas. Pinheiro (1999) apresentou a utilização da técnica de Bootstrap. England e Verrall
(2002) avaliaram uma abordagem estocástica. Atherino (2008) optou pela utilização de modelos em
espaço de estado. Há também aqueles que optaram por uma abordagem Bayesiana, em Vilela (2013)
foi explorado o modelo log-Anova e a distribuição de Misturas da Escala Skew-Normal (MESN). Já
em Melo (2007) foi elaborado a proposta de um modelo dinâmico.Deve-se mencionar ainda, os estudos comparativos com aplicações. Por exemplo, em Nasci-
mento (2006) podemos ver a comparação entre o método Chain-Ladder, o modelo Log Normal e a
distribuição Poisson Composta. Em de Souza (2013) a confrontação foi entre modelos para micro-
dados, como Parodi (2013), Weissner (1978), Antonio e Plat (2010), além de um próprio método
11
proposto pelo autor.
Essas pesquisas mencionadas foram apenas alguns casos realizados na área. Em um levantamento
de publicações discorrendo sobre metodologia do calculo de reservas de perda, elaborado por Schmidt
(2017), foi apurado 14 livros/manuais e mais de 900 artigos/monografias. O que evidencia a ampla
discussão sobre o tema, e a incerteza quanto ao melhor método, se é que exista o melhor para todas
as situações.
Desta forma, o intuito deste estudo não é solucionar este cenário, mas agregá-lo com um mo-
delo probabilı́stico, que apresenta robustez e associação de medidas de probabilidades, diferente da
maioria, que são determinı́sticos e dependem da qualidade e bom coportamento dos dados.
3 Visualização dos Dados
Após a descrição da importância da PEONA e da ampla gama de pesquisas anteriores, esta seção
é dividida em duas subseções. Na primeira é feita um breve detalhamento de toda a informação
contida na base de dados aqui utilizada. Na segunda subseção, é realizada uma análise descritiva e
exploratória destes dados.
3.1 Descrição detalhada dos dados
Os dados utilizados nas análises deste trabalho foram obtidos de uma OPS, de médio porte a
partir de uma consultoria atuarial, a qual não será identificada por sigilo, e por isso, a chamaremos de
Operadora A.
A base de dados disponibilizada conta com as informações discriminadas dos sinistros ocorridos
e avisados no perı́odo compreendido entre dezembro de 2013 e fevereiro de 2019, que foram organi-
zados, tratados e analisados em MSExcel R© e em R (R Core Team, 2019). No entanto, optou-se por
realizar as análises considerando apenas o perı́odo entre 2014 e 2018, pensando em utilizar apenas
as informações de anos fechados. Tem-se ainda que as informações detalhadas mencionadas, tratam-
se das despesas mensais, com seus respectivos meses de ocorrência, e de aviso, além do número de
beneficiários do plano mês a mês. Desta forma, trabalharemos com a base composta de 60 meses,
e com isso, atendemos o mı́nimo de 30 meses, conforme é previsto por normativa (no 393/15 e suas
alterações) . Utilizaremos a consideração de 5 anos completos, como forma de investigar e analisar a
sazonalidade dos dados.
A base contempla ainda detalhamentos da utilização do plano por faixa etária, segregado por tipo
de procedimentos ocorridos referente ao mês de fevereiro de 2019. São dez faixas etárias, conforme
previsto pela Resoluçao Normativa no 63/03 da ANS, sendo a primeira dos 0 aos 18 anos, a segunda
dos 19 aos 23 anos, as demais seguindo uma progressão aritmética com razão 5, até atingir a décima
e última faixa etária que abrange as pessoas com 59 anos ou mais. Os tipos de procedimentos são
subdivididos em: consultas médicas, exames complementares, terapias, internações, outras despesas
ambulatoriais e demais despesas assistênciais. Tem-se ainda que para cada tipo de procedimento é
possı́vel verificar o número de expostos e o número de eventos por faixa etária.
3.2 Análise Descritiva
Nesta seção será feita uma análise exploratória dos dados. Inicialmente apresenta-se a evolução
das despesas mensais no perı́do compreendido de janeiro de 2014 a dezembro de 2018.
12
Figura 2: Gráfico das despesas mensais por data de ocorrência da Operadora A no perı́odo compreendido
entre janeiro de 2014 e dezembro de 2018.
Na Figura 2 verifica-se uma tendência de crescimento ao longo do tempo e podemos observar
algumas flutuações dentro dos anos, apresentando alguns picos em meses especı́ficos. Uma possibi-
lidade é que exista a influência de sazonalidade nos dados, ou seja, maior ou menor utilização em
determinado perı́odo de tempo o qual se repete ao longo dos anos. Essa investigação será apresentada
adiante. As principais estatı́sticas foram resumidas abaixo na Tabela 2. Ressalta-se que alguns valores
foram arredondados na tentativa de manter o sigilo das informações reais da Operadora A em análise.
Tabela 2: Estatı́sticas básicas das despesas mensais da Operadora A no perı́do entre 2014 e 2018
Valor Mı́nimo 1o quartil Mediana Média 3o quartil
6.000.000,00 7.390.000,00 8.350.000,00 8.450.000,00 9.640.000,00
Valor Máximo Desvio padrão Curtose Assimetria
11.000.000,00 1.400.000,00 2.1451 -0.0431
No perı́odo de análise, as despesas da Operadora A variaram entre R$ 6 e R$ 11 milhões, sendo
a média R$ 8.450.000,00. Através do pacote moments (Komsta e Novomestky, 2015) do software R,
calculou-se também a curtose e o coeficiente de assimetria de Pearson. Essas estatı́sticas correspon-
dem, respectivamente, ao terceiro e quarto momento da distribuição amostral, e suas análises são feitas
com referência à distribuição Normal. Como resultado obtivemos que as despesas são leptocúrticas e
assimétrica negativa. Isso significa que a distribuição amostral possui um grau de achatamendo maior
que a distribuição Gaussiana,com menor propensão a outliers, e que a média da distribuição está des-
locada mais a esquerda. Isso pode ser visto na Figura 3 apresentada abaixo. Um fato que enfatiza a
assimetria é a questão da mediana ser um pouco menor que a média.
13
Figura 3: Histograma das despesas por densidade de probabilidade no perı́odo entre 2014 e 2018. A linha
vermelha representa a distribuição amostral hipotética.
A seguir é apresentada a Tabela 3 com a frequência de utilização dos beneficiários da Operadora A
ocorrida em fevereiro de 2019. A frequência de utilizaçaõ foi calculada pela razão entre o número de
eventos, e o número de expostos em cada faixa etária, sendo assim, o número lido na tabela, representa
a frequência de utilização para cada pessoa naquela faixa etária especı́fica. Por exemplo, em média
no mês de fevereiro de 2019, a cada 100 beneficiários inseridos na primeira faixa etária, observou-se
a realização de 36 consultas médicas. A interpretação de toda a tabela pode ser verificada de maneira
análoga.
Tabela 3: Frequência de utilização por faixa etária da Operadora A ocorridas em fevereiro de 2019
Faixa Consultas Exames Terapias Internações Outros Demais
Etária Médicas Complementares Atendimentos Despesas
Ambulatoriais Assistenciais
0 - 18 0.36 0.54 0.01 0.00 0.03 0.68
19 - 23 0.33 0.73 0.02 0.01 0.04 1.87
24 - 28 0.37 0.95 0.02 0.01 0.06 2.64
29 - 33 0.37 1.08 0.03 0.01 0.06 2.47
34 - 38 0.37 1.10 0.03 0.01 0.08 3.64
39 - 43 0.37 1.21 0.03 0.01 0.10 4.07
44 - 48 0.39 1.40 0.03 0.01 0.12 8.71
49 - 53 0.41 1.50 0.04 0.01 0.16 4.87
54 - 58 0.45 1.78 0.05 0.01 0.19 22.87
59 ou mais 0.53 2.30 0.11 0.02 0.24 13.49
De forma geral, observa-se na Tabela 3 observa-se uma relação direta do aumento de utilização
conforme se avançam nas faixas etárias. Este tipo de comportamento é esperado, se considerarmos
14
que as pessoas em idades avançadas tendem a ter uma utilização maior de procedimentos. Ressalta-se
que, apesar do número de internações para a primeira faixa etária estar indicando zero, não significa
necessariamente que não havia ninguém internado, mas que duas casas decimais não foram suficientes
para contabilizar a quantidade correta. A apresentação do resumo das utilizações com apenas duas
casas decimais, foi uma medida para reforçar a tentativa de privacidade da Operadora A.
A Figura 4 traz a variação dos beneficiários mês a mês no perı́do compreendido entre 2014 e 2018.
Em todo o perı́do de análise, não parece ter ocorrido alguma mudança significativa na quantidade de
beneficiários. A média de beneficiários mensal fica em torno de 63000. Desta forma, trata-se de umaOPS com caracterı́sticas de operadora de médio porte, com pouca perspectiva de mudança de porte,
o que pode ser consequência da concorrência de mercado existente.
Figura 4: Gráfico do número de beneficiários da Operadora A no perı́odo compreendido entre janeiro de 2014
e dezembro de 2018.
Apresenta-se ainda na Figura 5 a discriminação dos beneficiários da Operadora A segregados por
faixa etária observado no final do mês de fevereiro de 2019. Esta massa apresenta um perfil jovem
adulto com 60% dos beneficiários com menos de 33 anos. Portanto trata-se de uma carteira bem
oxigenada dado o grande contingente de pessoas nas primeiras faixas etárias. Isto pode ser visto
como positivo, dado que as pessoas que estão propensas a uma maior utilização do plano, e como
consequência gerar maiores despesas, representam uma pequena fatia do todo. Aliado ao porte, altos
custos são diluı́dos pela massa que torna esta carteira favorável para a manutenção de sua solvência.
Buscou-se ainda avaliar a existência de sazonalidade nos dados. A sazonalidade é a oscilação
dos dados durante certo perı́odo ocasionado pela alta ou baixa utilização por parte do beneficiário
e que se repete em análise ao longo do tempo. No mercado de saúde, o perı́odo de sazonalidade
normalmente é o perı́odo de entrada do inverno, de junho até setembro, que é quando há o agravo
das doenças respiratórias, aumentando a utilização por parte dos beneficiários. O perı́odo de férias
escolares, de novembro a fevereiro, normalmente é o perı́odo de sazonalidade de baixa utilização, em
que os beneficiários tendem a utilizar menos os planos de saúde. Os meses não citados são os meses
de transição em que as despesas aumentam ou diminuem de acordo com a chegada de cada época do
ano. Os meses de alta e baixa utilização podem variar de região para região e o perı́odo ilustrado é
atribuı́do ao comportamento no sudeste, mas os perı́odos se repetem ao longo dos anos de 12 em 12
meses (Braga, 2017).
15
Figura 5: Gráfico do número de beneficiários por faixa etária da Operadora A em fevereiro de 2019.
Figura 6: Gráfico das despesas por estações do ano no perı́odo entre 2014 e 2018.
16
A Figura 6 parece evidenciar os picos mencionados anteriormente. Nota-se que o perı́odo que
apresenta uma maior utilização é justamente o inverno, enquanto o perı́odo que apresenta uma menor
utilização é o verão. Percebe-se ainda, uma certa tendência de crescimento das despesas em todos as
estações de ano a ano. Sendo assim, há indı́cios que a sazonalidade tenha influência na evolução das
despesas. Essa hipótese será explorada na seção 5, que abrange a metodologia.
Além do mais, buscou-se investigar o impacto do tempo de aviso em relação as despesas ocorri-
das. As informações obtidas foram sumarizadas na Tabela 4. Em média, a Operadora A consegue ter
reconhecimento de praticamente 100% da despesa gerada em um determinado mês, com no máximo
12 meses de atraso. Tem-se ainda que até o quarto mês mais de 99% das despesas já chegaram ao
conhecimento da operadora. No geral, espera-se que quanto antes a operadora conseguir identificar
as despesas geradas, melhor será a provisão realizada, ou seja, quanto menor o perı́odo de reconhe-
cimento, maior a chance de se reservar um montante para despesas próximo à realidade de gastos da
OPS com essa finalidade. Além disso, a provisão será menor, alvo das OPS que terão mais recursos
destinados para outros fins.
Tabela 4: Proporção média de reconhecimento das despesas por data de aviso da Operadora A.
Perı́odo de atraso 0 1 2 3 4 5 6
Proporção (%) 54.86 27.42 11.70 4.12 1.26 0.30 0.10
Acumulado (%) 54.86 82.27 93.97 98.09 99.35 99.65 99.75
Perı́odo de atraso 7 8 9 10 11 12
Proporção (%) 0.10 0.06 0.05 0.02 0.01 0.005
Acumulado (%) 99.86 99.91 99.96 99.97 99.98 99.98
3.3 Fator inflação
Além do efeito natural do desenvolvimento dos sinistros, as despesas estimadas podem ser agrava-
das pelo efeito da inflação. Tal fato aumenta os valores projetados de eventos indenizáveis finais pelo
efeito passado, e não pelo impacto esperado no futuro, como deveria ser. Para eliminar essa resul-
tante inflacionária, nos fatores de desenvolvimento, o ideal é sempre que possı́vel trabalhar com uma
moeda estável, para que a influência da inflação passada não interfira na escolha dos fatores. Optando
por descontar a provisão, deve-se levar em consideração que tal desconto elimina a possibilidade de
ganhos financeiros futuros, pois todo o ganho futuro é utilizado para reduzir a provisão no momento
do cálculo. Tal redução no provisionamento gera um lucro contábil imediato, mas diminui a possi-
bilidade de distribuição de ganhos financeiros futuros (Mano e Ferreira, 2009). Apesar da inflação
influenciar os custos com sinistros, neste estudo não se considera o fator de inflação.
4 Inferência Bayesiana
A Inferência Estatı́stica é um conjunto de técnicas aplicadas para investigação das incertezas de
uma população por meio de uma amostra observada, buscando explicar ao máximo a variabilidade do
conjunto de dados de um fenômeno aleatório de interesse, através de probabilidades. Existem duas
abordagens de infêrencia: a Frequentista (Clássica) e a Bayesiana. Neste trabalho o enfoque será a
segunda. Se o leitor estiver interessado em mais detalhamentos sobre as abordagens de inferência,
pode ver, por exemplo Migon e Gamerman (1999).
17
Na Inferência Bayesiana a tudo que é desconhecido pode-se atribuir uma distribuição de proba-
bilidade que possa exprimir a nossa incerteza. De maneira geral, todas as análises realizadas sobre
essas incertezas partem do Teorema de Bayes:
P (θ | x) =
P (θ ∩ x)
P (x)
=
P (x | θ)P (θ)
P (x)
(1)
A escolha da notação utilizada em (1) segue (Ehlers, 2003). Segundo o autor: “para um valor fixo
de x, a função l(θ;x) = p(x|θ) fornece a plausibilidade ou verossimilhança de cada um dos possı́veis
valores de θ enquanto p(θ) é chamada distribuição a priori de θ. Estas duas fontes de informação,
priori e verossimilhança, são combinadas levando à distribuição a posteriori de θ, p(θ|x)”.
O Teorema de Bayes é o responsável por atualizar as nossas incertezas. O objetivo principal é
encontrar uma distribuição a posteriori que seja uma boa representação da sua variável de estudo.
A ideia é estimar uma distribuição a posteriori, que conforme (2) é dada pela proporcionalidade do
produto entre a função de verossimilhança e a distribuição a priori.
p(θ | x) ∝ p(x | θ)p(θ), (2)
onde θ é o parâmetro de interesse da distribuição sob a qual será feito a Inferência Bayesiana, atri-
buindo uma distribuição de probabilidade. De posse da distribuição a posteriori para as quantidades
desconhecidas, temos toda a informação de que precisamos. No entanto, o que acontece é que em
muitos cenários a distribuição a posteriori não é analiticamente tratável. Como solução, é necessário
o auxı́lio da utilização de softwares especı́ficos com métodos já implementados, ou mesmo do uso de
programação realizada pelo próprio pesquisador. Um exemplo de software que tem esta utilidade, e
que foi utilizado neste trabalho, é o JAGS - Just Another Gibbs Sampler (Plummer, 2003). Desta
forma, a próxima subseção se destina a prestar maior esclarecimentos sobre este software.
4.1 JAGS - Just Another Gibbs Sampler
O JAGS é um programa baseado no dialeto da linguagem BUGS - Bayesian inference Using Gibbs
Sampling que utiliza a estrutura de grafos para a construção da simulação do Monte Carlo via Cadeia
de Markov - MCMC (Gelfand AE, 1990) para um modelo Bayesiano. Outros programas semelhantes
são o WinBUGS (que é restrito ao sistema Windows e deixou de ter atualizações) e o OpenBUGS
que pode ser instalado em diversos sistemas. Optamos pelo JAGS por também ser gratuito e ter
maior potencial de crescimento visto que permite a usuários mais avançadosque criem seus próprios
módulos do JAGS. Para mais informações ver (Plummer, 2003). Ressalta-se que a linguagem de
programação dos três é muito similar com poucas diferenças, ficando a escolha pela preferência do
pesquisador.
Iremos utilizar o pacote do R conhecido como R2jags (Su e Yajima, 2015) em nossa análise.
Este pacote permite uma interface entre o R e o JAGS de forma que poderemos aproveitar todos
os recursos do R além de solicitar a execução do JAGS dentro do R. Isso facilita a implementação
dos passos de algoritmos como o Gibbs Sampling (Geman e Geman, 1984) e o Metropolis-Hastings
(Metropolis e Teller, 1953; Hastings, 1970).
4.1.1 Gibbs Sampling
Gibbs Sampling é um algoritmo da classe MCMC bastante utilizado em Inferência Bayesiana
para gerar valores da distribuição a posteriori desconhecidas. O algoritmo é baseado na geração de
18
valores a partir das distribuições condicionais completas a posteriori. A regra de Bayes é usada para
determinar estas condicionais completas. Basicamente a conta envolve o produto entre a distribuição
a priori e a função de verossimilhança.
O algoritmo é iterativo, ou seja, após diversas repetições os valores gerados deverão convergir
para a situação de amostras obtidas da distribuição alvo. Preliminarmente as observações iniciais das
cadeias serão descartadas, ou seja, um perı́odo de aquecimento (burn in) deve ser considerado. As
cadeias geradas podem ser auto-correlacionadas, o que é uma caracterı́stica indesejável, visto que
buscamos por amostras aleatórias, ou seja amostras independentes. Neste caso, podemos abordar este
problema com a seleção de observações para compor a amostra a posteriori com um espaçamento
(lag). De forma que um burn in de 100 significa que estamos descartando as primeiras 100 iterações,
e um lag 10 indica que a cada 10 iterações iremos salvas apenas uma delas. O algoritmo MCMC
Gibbs Sampling é construı́do por meio dos seguintes passos:
1. Inicialize a contagem das iterações da cadeia t=1 fazendo valores inicias θ(0) = (θ
(0)
1 , . . . , θ
(0)
d )′.
2. Obter um novo valor de θ(t) usando as distribuições condicionais completas:
θ
(t)
1 ∼ p(θ1 | θ(t−1)2 , θ
(t−1)
3 , . . . θ
(t−1)
d )
θ
(t)
2 ∼ p(θ2 | θ(t)1 , θ
(t−1)
3 , . . . θ
(t−1)
d )
...
θ
(t)
d ∼ p(θd | θ(t)1 , θ
(t)
2 , . . . θ
(t)
d−1).
3. Altere a contagem de t para t+1 e repita o passo 2 até que a convergência seja atingida.
Para mais informações ver Gamerman e Lopes (2006) e Geman e Geman (1984). Pode acontecer
de algumas das condicionais completas não terem formas fechadas, ou seja, não sabemos amostrar
delas. Nestes casos é necessário utilizar um segundo algoritmo para a geração. O JAGS escolhe um
algoritmo automaticamente entre uma série de possibilidades em sua mémoria. Nós não sabemos qual
ele utiliza. Um dos possı́veis e bastante popular é o Metropolis-Hastings (M-H) (Metropolis e Teller,
1953; Hastings, 1970), o qual iremos explicar a seguir. A sua aplicação para amostragem indireta, é
dada como segue:
Gibbs sampling com passos do M-H:
1. Inicialize o contador com t = 0 e especifique um valor inical θ(0) .
2. Gere um novo valor θ′ da distribuição q( · | θ).
3. Calcule a probabilidade de aceitação α(θ, θ′) e gere u ∼ U(0, 1).
4. Se u ≤ α então aceite o novo valor e faça θt+1 = θ′, caso contrário rejeite e faça θt+1 = θt.
5. Incremente o contador de t para t+1 e volte ao passo 2.
No segundo passo geramos um candidato para ser o novo valor do θ em questão, denominado
θ′. Esse θ′ geralmente segue uma distribuição Normal com média do último valor assumido pelo θ
em questão, θt−1, e variância ω0, θ′ ∼ N(θ(t−1), ω0). Esse ω0 está diretamente relacionado com o
quarto passo. Quanto maior o valor de ω0, menor a taxa de aceitação, e vice-versa. No terceiro passo
19
devemos calcular um α (taxa de aceitação) que também vai nos auxiliar no quarto passo. Para facilitar
os nossos cálculos, faremos a seguinte conta:
log
(
r(θ′)
r(θt−1)
)
= log(r(θ′))− log(r(θt−1))
α∗ = min{0, log(r(θ′))− log(r(θt−1))}
α = exp(α∗),
onde o r(θ′) é núcleo da distribuição condicional completa desconhecida avaliada no ponto θ′. Espera-
se que essa taxa de aceitação assuma valores entre 0.4 e 0.6.
5 Metodologia
Esta seção discorrerá sobre a metodologia adotada neste estudo e esta dividida em 3 subseções.
A primeira trata de um método padrão proposto pela ANS, o segundo considera o Chain-Ladder e o
terceiro é o modelo linear dinâmico Bayesiano simples.
5.1 Metodologia ANS
A ANS, órgão regulador das OPS, propõe um método básico de cálculo para provisionamento, para
ser usado nos primeiros 12 (doze) meses de operação ou até que ocorra a aprovação de metodologia
especı́fica de cálculo, que usaria o maior entre os seguintes valores:
1. 8,5% (oito vı́rgula cinco por cento) do total de contraprestações/prêmios nos últimos 12 (doze)
meses, na modalidade de preço preestabelecido;
2. 10% (dez por cento) do total de sinistros/eventos indenizáveis na modalidade de preço preesta-
belecido, nos últimos 12 (doze) meses.
Entretanto, esses percentuais apresentados são padrão e deixam de considerar outros critérios que
poderiam influenciar o provisionamento, tais como, o histórico de reconhecimento, a área de atuação
da OPS e as variações de utilização pelos usuários, dentre outros. Assim sendo, os percentuais esta-
belecidos não refletem a realidade de boa parte das operadoras e, na maioria das vezes, isto ocasiona
a sobrestimação ou a subestimação da PEONA. Essa é uma saı́da que a ANS encontrou para estabe-
lecer uma fórmula de cálculo geral, uma vez que geralmente é mais conservadora e não é possı́vel
estabelecer uma forma definida que se adeque bem a todas as OPS, já que isso depende diretamente
do perfil de cada uma. Por isso, é muito importante que cada OPS contrate os serviços do profissional
habilitado, o atuário, para que este estude o seu perfil e determine qual metodologia de cálculo para
representar a realidade (Braga, 2017).
5.2 Chain Ladder
Devido a sua simplicidade e facilidade de implementação, o método de Chain-Ladder é conside-
rado o método clássico dentre todos os utilizados para o cálculo da PEONA. Esse método pressupõe
que existe proporcionalidade entre os perı́odos de desenvolvimento e independência entre os diferen-
tes anos de ocorrência. Utiliza-se a estrutura do triângulo de run-off, como apresentado na Tabela 1.
20
Para realizar o seu cálculo, o primeiro passo é acumular as despesas por linha, ou seja, por ano de
ocorrência. O cálculo se dá da seguinte forma:
Ai,j =
j∑
k=0
Yi,k
.
Com as despesas acumuladas (Ai,j), podemos prosseguir para o segundo passo: estimar os fatores
de desenvolvimento (f̂k), que consiste no crescimento do valor acumulado das despesas dos desenvol-
vimentos posterior e anterior, ou seja, representa o crescimento do desenvolvimento de um ano para
o outro, que por sua vez, são calculados por meio da seguinte equação:
f̂k =
∑n−k
j−1 Aj,k+1∑n−k
j−1 Aj,k
; 1 ≤ k ≤ n− 1,
onde n corresponde ao número de meses analisados, podendo ser 1 ≤ n ≤ 12, considerando que o
perı́odo máximo de atraso serão 12 meses. Ressalta-se que i e k são linhas e colunas do triângulo,
por isso variam de 1 a n. Quando k = 1, estamos nos referimos a 1o coluna, que se representa
o desenvolvimento 0 (zero), relativo a despesa reconhecida dentro do próprio mês. Desta forma
podemos prosseguir para o próximo passo e posteriormente calcular o montante provisionado da
PEONA.
O terceiro passo será estimar a despesa futura, ou seja, estimaremos o triângulo inferior. O cálculo
se dá com base nos montantes acumulados e nos fatores de desenvolvimento estimados, explicitado
na formulação a seguir:
Âi,j = Âi,j−1 × f̂j−1, i+ j > n.
Após encontrar todas as previsões na forma acumulada, o quarto passo consiste na desacumulação
do triângulo, ou seja, estas previsõessão novamente colocadas na forma de densidade do triângulo,
da seguinte forma:
Yi,j = Ai,j − Ai,j−1.
O quinto e último passo compreende o cálculo da PEONA, equivalente a soma do triângulo infe-
rior, composto pelas previsões realizadas. Geralmente, esse método nos dá bons resultados e apresenta
uma boa adaptação aos dados em estudo. Para maiores detalhamentos ver Friedland et al. (2010).
5.3 Modelo Dinâmico
Em estudos de regressão linear buscamos analisar o comportamento de uma variável de interesse,
investigando um possı́vel relacionamento com outras variáveis disponı́veis, todas elas invariantes no
tempo. Na presença da dependência no tempo, uma alternativa é utilizar a modelagem em séries
temporais. Acontece que, em séries temporais, assume-se que as variáveis sejam equiespaçadas, o
que em muitos casos não é observado. Com o passar do tempo, podemos nos deparar com situações
adversas, como o surgimento de novas variáveis explicativas, e desejamos que o modelo estatı́stico
consiga captar estas alterações para que seja realizada uma análise fidedigna. Este é o caso quando se
considera séries temporais diretamente relacionadas à atividade humana, como por exemplo os gastos
mensais gerados pela utilização dos procedimentos ligados a OPS. O Modelo Linear Dinâmico Baye-
siano (MLDB) consegue incorporar essas mudanças temporais, tornando-o um modelo plurivalente,
muito utilizado em trabalhos em que as variáveis tenham dependência no tempo. O caráter dinâmico
21
do modelo refere-se ao fato de atribuir maior peso às informações mais recentes que às mais anti-
gas. Assim, à medida que observações adicionais são realizadas, as estimativas dos parâmetros são
passı́veis de mudanças de modo que um único modelo é capaz de explicar bem uma série que se altera
com o tempo. Para mais informações ver Lauar (2012).
Modelos lineares dinâmicos são modelos paramétricos onde os parâmetros variam com o tempo
e é atribuı́do distribuições de probabilidade para todas as informações de dados disponı́veis. Ba-
sicamente, ele é especificado pela quadrupla {Ft, Gt, Vt,Wt}, que são determinadas por um par de
equações, denominado equação observacional e evolução de parâmetros ou equação do sistema, que
são dadas por:
Equação das observações: Yt = F
′
t θt + νt, com νt ∼ N(0, Vt); (1)
Equação de sistemas/estados: θt = Gtθt−1 + ωt, com ωt ∼ N(0,Wt), (2)
sendo que Yt são os dados observados no tempo t, Ft é um vetor de constantes conhecidas, θt é um
vetor de parâmetros com dimensão p× 1, Gt é uma matriz de coeficientes conhecidos com dimensão
p × p, que descreve a evolução dos parâmetros ao longo do tempo, e por fim, ν e ω são termos
estocásticos (ruı́do branco) com distribuição Normal mutuamente não correlacionadas, em que Vt e
Wt são as variâncias dos erros associados, respectivamente, à observação unidimensional e ao vetor p-
dimensional dos parâmetros. Temos ainda que Wt descreve a velocidade da evolução dos parâmetros.
Em resumo, a equação das observações define a distribuição de Yt condicional em θt, e a equação de
sistemas/estados define a evolução no tempo do vetor de parâmetros θ.
Após a parametrização, o enfoque passa ser a busca por encontrar a distribuição preditiva. Seja
Dt toda a informação relevante observada até o tempo t. Na Figura 7 podemos ter uma visualização
mais clara da dinâmica do sistema de inferência, que engloba o processo de interesse.
Figura 7: Processo do sistema de inferência. Fonte Melo (2007).
A distribuição preditiva (Yt | Dt−1) é derivada da combinação de uma relação sequencial pa-
ramétrica (θt | θt−1, Dt−1), em conjunto com a associação de observações (Yt | θt, Dt−1) e a distribuição
de (θt−1 | Dt−1), ou seja, as previsões são obtidas da relação:
P (Yt, θt | Dt−1) = P (Yt | θt, Dt−1)P (θt | Dt−1).
Assim a previsão em um passo é dada pela distribuição marginal (Yt | Dt−1) e a posteriori (θt | Dt)
é a condicional (θt | Yt, Dt−1). A prova detalhada pode ser visto em Lauar (2012). Dessa forma a
distribuição preditiva pode ser encontrada resolvendo:
P (Yt | Dt−1) =
∫
P (Yt | θt−1, Dt−1) · P (θt−1 | Dt−1) dθt−1
22
Essa é a maneira padrão de se fazer previsão em modelos dinâmicos. No entanto, neste trabalho
não realizamos esse cálculo, pois resolvemos aproveitar a estrutura do JAGS e do Gibbs Sampling, que
efetuam as contas de uma maneira mais fácil computacionalmente. Para isso, adotamos as despesas
que querı́amos prever (Yprev) como parâmetros, assumimos distribuições a priori para elas, e então
aplicamos o Teorema de Bayes, ou seja, utilizamos a distribuição condicional completa dos Yprev dado
os outros parâmetros e os dados observados . Para maiores informações sobre MLDB recomenda-se
a leitura de West e Harrison (1997).
5.3.1 Modelos Propostos
Utilizando a estrututa do triângulo de run-off criou-se dois MLDB para o preenchimento do
triângulo inferior. Inicialmente eles são estimados independentemente e posteriormente são utilizados
em conjunto para encontrar o valor a ser provisionado da PEONA.
O primeiro MLDB tem o foco nas despesas mensais geradas pela utilização do plano da Opera-
dora A. O modelo utiliza todas as despesas já reconhecidas e prevê as despesas esperadas 12 passos a
frente. A opção da realização 12 passos à frente deriva da condição observada de que esta Operadora
A, tem praticamente 100% do reconhecimento da suas despesas com no máximo 12 meses de atraso,
conforme apresentado na Tabela 4. Para a previsão, utiliza-se toda a informação das despesas reco-
nhecidas até a data atual, por data de ocorrência. Desta forma, não utiliza-se a informação derivada
da data de aviso. Portanto, a estimação é feita com o foco em um montante final ocorrido em um
certo mês. Aqui tentamos prever a despesa total fechada gerada em um mês, ou seja, estamos tentado
prever o total da soma de cada linha do triângulo, montante total de cada célula da linha.
A seguir é apresentado a parte dinâmica para as despesas Yt. Foram propostos 3 modelos dife-
rentes. O modelo 1 abrange apenas a dependência nas despesas anteriores (θt). O modelo 2 possui
a inclusão do número de beneficiários mensal (Bt). O modelo 3 incorpora o termo de sazonalidade,
representado por uma variável indicadora (It), que assume valor 1 nos meses em que se espera uma
maior utilização do plano. De acordo, com as análises descritivas realizadas na Seção 3, considera-
mos a presença de sazonalidade nos meses da estação inverno (junho, julho e agosto). Ressalta-se
que, optamos por fazer um modelo mais simples, considerando a variância constante. Desta forma os
modelos são definidos como:
Modelo 1: Yt ∼ N(θt, σ
2
v); (1)
Modelo 2: Yt ∼ N(θt + β1Bt, σ
2
v); (2)
Modelo 3: Yt ∼ N(θt + β1Bt + β2It, σ
2
v), (3)
em todos eles, temos que θt ∼ N(θt−1, σ
2
w). O termo “F ′
t θt”apresentado na equação das observações,
em (1), (2) e (3) será dado, respectivamente por: (θt), (θt + β1Bt) e (θt + β1Bt + β2It). Considerando
o modelo 3 (mais completo), a função de verossimilhança L(θ;Y ) será:
L(θ;Y ) =
n∏
t=1
1√
2πσ2
τ
exp
{
− 1
2σ2
τ
[Yt − (θt + β1Bt + β2It)]
2
}
.
Para avançar, é preciso indicar as distribuições a priori e os chutes iniciais dos parâmetros. As-
sumimos como distribuição a priori que βi ∼ N(0, 10), com i=1,2. Os valores escolhidos são con-
sequência da nossa incerteza. A média zero por não sabermos se assumirão um efeito positivo ou
negativo, e variância 10 por julgarmos que é grande o suficiente para permitir que os β’s atinjam valo-
res bem diferentes de 0 (zero). Já para o σ2
v e σ2
w, foi assumida uma distribuição a prori GI(0.1, 0.1),
23
onde GI significa a distribuiçaõ Gama Inversa. Como chute inicial, as seleções foram: θ = R$ 8
milhões, σ2
v=1, σ2
w=1, β1=0 e β2=0. Além disso escolheu-se um burn in=2000, lag=10 e uma amostra
a posterioride tamanho 1000, o que implica em 12000 iterações.
Para execução do MCMC no JAGS nos deparamos com uma limitação logo na fase inicial. Como a
despesa do tempo t se baseia na despesa do tempo t− 1, ao iniciar o tempo 1, não existia a referência
de uma despesa no tempo 0. Então, exigiu-se que fosse dada uma atenção especial na inicialização, e
foi necessário escolher uma distribuição a priori para θ0. Desta forma, seguindo a notação do modelo
3, a especificação inicial foi dada da seguinte forma:
θ1 ∼ N(θ0, σ
2
w)
θ0 ∼ N(8000000, 100)
A escolha dos parâmetros, foi baseada no fato de que estamos lidando com montantes monetários
para operadora, na casa dos milhões. Com isso a média escolhida foi de R$ 8 milhões. Já a variância
100, porque como a variabilidade está grande, eu preferi adotar o 100 para que os montantes pudessem
atingir valores acima e abaixo suficiente de R$ 8 milhões.
Prosseguimos então com a parte dinâmica considerando uma distribuição Beta para as porcenta-
gens de reconhecimento (pi,j). Lembrando que, considera-se como porcentagem de reconhecimento a
proporção das despesas reconhecidas ao longo do tempo. Para se obter essa proporção basta calcular
a fração entre o montante que foi avisado em um determinado mês, por toda a quantia de despesa
gerada do mês de origem. Assim, a cada mês com a chegada de novas informações essa proporção de
reconhecimento é atualizada. No caso em questão, essa atualização acontece até o décimo segundo
mês após o mês de origem.
Seja pi,j ∼ Beta(a, b), com a > 0, b > 0. Sua função densidade é dada por:
f(pi,j) =
Γ(a+ b)
Γ(a)Γ(b)
pa−1i,j (1− pi,j)b−1, para 0 < pi,j < 1 (4)
sua média e variância são dadas respectivamete por:
E(pi,j) =
a
a+ b
V ar(pi,j) =
ab
(a+ b)2 (a+ b+ 1)
(5)
Para trabalharmos com o modelo Beta de forma dinâmica, é necessário fazer a seguinte reparametrização
desta distribuição:
µi,j =
a
a+ b
γ = a+ b
f(pi,j) =
Γ(γ)
Γ(µi,jγ)Γ((1− µi,j)γ)
p
µi,jγ−1
i,j (1− pi,j)(1−µi,j)γ−1, para 0 < pi,j < 1
E(pi,j) = µi,j V ar(pi,j) =
µi,j(1− µi,j)
(1 + γ)
.
Veja que µi,j é a média da distribuição Beta nesta nova parametrização. Sendo assim, podemos
implementar no JAGS, o MLDB baseado na distribuição Beta assumindo a seguinte estrutura
pi,j ∼ Beta(ai,j, bi,j);
24
ai,j = µi,j × γ;
bi,j = (1− µi,j)× γ;
µi,j = µi,j−1 × δ,
onde δ é um fator de desconto e para ele iremos assumir uma distribuição que considera um intervalo
(0,1), como por exemplo a própria distribuição Beta ou a distribuição Uniforme. Note que, sendo δ e
µ pertencentes ao intervalo (0,1), a cada passo, a multiplicação desses termos, implica na redução da
média, ou seja, µi,j será igual a µi,j−1 diminuı́do um pouco, porque conforme pode ser observado nos
dados, sempre se observa a diminuição da proporção de reconhecimento a cada mês.
Após a reparametrização podemos então dizer que o MLDB será dado da seguinte forma:
µi,j ∼ Beta(a∗, b∗), a∗ = µi(j−1) × δ × γ∗ e b∗ = (1− µi,(j−1))× δ × γ∗ ,
apesar de γ e γ∗ poderem assumir valores diferentes, optou-se por usar o mesmo valor para ambos,
ou seja, γ = γ∗.
Dando continuidade, assumimos como distribuição a priori γ ∼ Ga(0.1, 0.1) e δ ∼ Beta(1, c).
A escolha do parâmetro de escala c, deve ser determinado pelo pesquisador. Assumimos c sendo 4,
visando assegurar maior rapidez de decaı́mento para a proporção de reconhecimento. Como chute ini-
cial as seleções foram: p=0.1, µ0=0.5, δ = 0.5 e γ=1. Neste modelo tivemos a mesma restrição inicial
mencionada anteriormente devido a falta de uma referência de um valor no tempo 0. Solucionando, o
modelo deve ser inicializado da como segue:
µi,1 = µ0 × δ
µ0 ∼ Beta(1, 1)
Para o cálculo de cada célula (Wi,j) do triângulo inferior utilizaremos toda a previsão feita su-
pracitada. Basicamente iremos pegar a despesa total prevista e distribuı́-la seguindo a proporção do
reconhecimento previsto.
Wi,j = Yi × pi,j
O valor a ser provisionado da PEONA, assim como no Chain-Ladder, se dará em função da soma do
triângulo inferior. A previsão foi realizada 12 passos à frente, mas apurou-se que somente até o 4o
passo os termos foram significativos.
6 Resultados
Buscou-se avaliar a precisão do ajuste de 5 modelos diferentes: ANS, Chain-Ladder, e 3 MLDB.
Desta forma, simulou-se o cálculo de PEONA nos 12 meses de ocorrência do ano de 2018. Nos
MLDB, para realização da previsão, omitiu-se os dados observados dos doze perı́odos imediatamente
anteriores ao de análise, buscando se aproximar do cenário real vivido pelas operadoras.
A Tabela 5 sumariza os resultados obtidos com a metodologia proposta pela ANS. Observa-se uma
grande discrepância entre o que foi calculado e o que realmente foi observado. Em média, a estimativa
foi 111% maior do que o necessário, ou seja, se esta fosse a metodologia adotada, a Operadora A
estaria provisionando mais que o dobro do valor preciso, implicando em uma sobrestimação muito
elevada, prejudicando a alocação de recursos e até mesmo os lucros da operadora. Esse cenário é
totalmente indesejável. A seguir investigaremos os outros modelos em busca de resultados melhores.
25
Tabela 5: Comparação dos valores da PEONA real e estimativa do método ANS da Operadora A.
Mês/ano Método ANS Peona Real Diferença (%)
Jan/2018 11.030.025,27 5.149.296,42 114,20
Fev/2018 11.167.764,35 5.639.306,97 98,03
Mar/2018 11.305.503,43 6.549.891,69 72,61
Abr/2018 11.403.062,32 6.040.718,77 88,77
Mai/2018 11.500.621,21 5.237.688,85 119,57
Jun/2018 11.598.180,10 5.474.737,22 111,85
Jul/2018 11.690.426,23 5.715.856,89 104,53
Ago/2018 11.782.672,36 5.658.118,95 108,24
Set/2018 11.874.918,48 5.745.632,13 106,68
Out/2018 12.102.049,50 5.531.625,23 118,78
Nov/2018 12.329.180,52 5.589.136,58 120,59
Dez/2018 12.556.311,53 4.642.027,12 170,49
Média 11.695.059,61 5.581.169,69 111,20
Na Tabela 6 podemos visualizar os resultados obtidos com o método de Chain-Ladder. Nota-se
que foram encontrados resultados bem melhores do que o observado no modelo anterior. Em apenas
dois meses a variação superou os 20%. Em média a diferença detectada foi de 8,8%. Destaca-
se a estimativa do mês de setembro que foi a que mais se aproximou do real. Apesar da melhora
significativa, o valor a ser provisionado permanece sobrestimado.
Tabela 6: Comparação dos valores da PEONA real e estimativa do método Chain Ladder da Ope-
radora A.
Mês/ano Método Chain-Ladder Peona Real Diferença (%)
Jan/2018 6.237.409,88 5.149.296,42 21,13
Fev/2018 5.313.384,93 5.639.306 -5,78
Mar/2018 5.991.308,35 6.549.891,69 -8,53
Abr/2018 6.444.705,00 6.040.718,77 6,69
Mai/2018 6.389.053,88 5.237.688,85 21,98
Jun/2018 6.073.261,33 5.474.737,22 10,93
Jul/2018 6.160.482,08 5.715.856,89 7,78
Ago/2018 6.413.362,17 5.658.118,95 13,35
Set/2018 5.841.640,21 5.745.632,13 1,67
Out/2018 6.237.427,87 5.531.625,23 12,76
Nov/2018 6.013.773,31 5.589.136,58 7,60
Dez/2018 5.372.114,94 4.642.027,12 15,73
Média 6.040.660,33 5.581.169,69 8,78
Antes de apresentar os resultados dos três modelos dinâmicos tabelado como foi feito para os
outros dois modelos, primeiramente faremos algumas análises de seus ajustes e comportamento dos
parâmetros. Buscando simplificar, essas análises serão feitas apenas para o mês de dezembro de 2018,
último mês em análise, que por consequência possui os dados mais atualizados.
A Figura 8 apresenta o intervalo HPD com 95% de credibilidade da evolução das despesas ao
longo do perı́odo de análise, representado por θ. Não observa-se grandes variações entre os modelos.
No geral, a média da distribuição de θ aponta para um crescimento, com uma amplitude praticamente
26
constante, com exceção do perı́odo entre o 33o(set/2016) e o 45o mês(set/2017). Nesse perı́odo de
variação atı́pica, pode-se perceber um padrão no Modelo 2 de que a amplitude do intervalo foi au-
mentando de acordo com o tempo que foi passando. A partir de outubro de 2017, o modelo pareceter
se estabilizado voltando a ter comportamento semelhante ao observado no inı́cio do perı́odo.
(a) (b) (c)
Figura 8: Intervalo HPD com 95% de credibilidade de θ dos modelos (a), (b) e (c): 1 (simples), 2 (com
beneficiários) e 3 (com beneficiários e sazonalidade), respectivamente.
(a) (b) (c)
Figura 9: Intervalo HPD com 95% de credibilidade de µ dos modelos (a), (b) e (c): 1 (simples), 2 (com
beneficiários) e 3 (com beneficiários e sazonalidade), respectivamente. A linha vermelha indica o 0 (zero) no
eixo y. Se ela estiver dentro do intervalo, a média µ é considerada como não significativa. O foco deste gráfico
é identificar a rapidez com que o reconhecimento cai.
A Figura 9 apresenta o intervalo HPD com 95% de credibilidade da evolução da proporção de
reconhecimento de acordo com o tempo de atraso ao longo do perı́odo de análise, representado por
27
µi,j . Não observa-se grandes variações entre os modelos. O parâmetro µi,j mede a “rapidez”com que
esse reconhecimento diminui. Observa-se que nos perı́odos iniciais, a amplitude do intervalo é maior,
e quanto mais se distância da data de ocorrência, mais o intervalo se reduz. O que é indı́cio de pouca
propensão a outlier, ou seja, a chance de um reconhecimento de um grande montante de despesas,
muito tempo após a sua ocorrência é minúscula. O esperado é que a operadora reconheça grande parte
de suas despesas próximas a data de ocorrência do evento gerador da despesa. A medida que o tempo
de atraso aumenta, menor é a quantidade de avisos, e por coseguinte menor é a despesa reconhecida,
já tendendo a zero após um certo perı́odo.
(a) (b) (c)
Figura 10: Intervalo HPD com 95% de credibilidade da previsão das despesas(Y) 12 passos à frente dos
modelos: 1 (simples), 2 (com beneficiários) e 3 (com beneficiários e sazonalidade), respectivamente.
A Figura 10 ilustra o itervalo HPD com 95% de credibilidade das previsões em 12 passos. Os
três modelos tiveram resultados muito semelhantes, com o intervalo de amplitude aumentando a cada
passo, o que é esperado, dado que devido ao aumento da nossa incerteza, quanto mais longe tentamos
prever, maior será a variância. A média da distribuição a posteriori ficou próxima de R$ 8,8 milhões
em todo o perı́odo.
Note um grande contraste entre as Figuras 8 e 10. A Figura 8 é a média a posteriori que indica
um crescimento para o perı́odo que estamos analisando. Já a Figura 10 é o Yprev cuja média é aquela
dada por θt indicada na Figura 8 com um erro associado, porque ele varia em torno da média, o que
pode ser caracterizado como cenários diferentes.
Esta estabilidade indicada na Figura 10, pode ser atribuı́da ao tamanho do banco de dados. Se o
banco de dados fosse grande, talvez terı́amos informação suficiente para poder prever o crescimento,
mas com apenas 60 observações o modelo não foi capaz de captar esse comportamento. Nas análises
feitas na Seção 3, podemos notar na Figura 1 uma tendência de crescimento no global. Mas se
olharmos apenas para pequenas janelas, por exemplo 6 meses, notamos que esta elevação não fica
tão visı́vel. O que nota-se é um comportamento mais constante, ou seja, para identificar o padrão
de crescimento precisamos examinar um intervalo grande, o que corrobora a necessidade de grande
volume de dados.
As Figuras 11 e 12 apresentam comportamentos semelhantes e por isso será feita uma análise
conjunta. A primeira apresenta as proporções de reconhecimento previstas (ppprevi,j), e a segunda as
28
previsões das despesas que já foram geradas mas que ainda não foram avisadas, ou seja, áquelas que
irão preencher a parte inferior do triângulo Wi,j . As figuras apresentam também o intervalo HPD com
95% de credibilidade, representado pela cor preto. No entanto, em ambos, adotou-se um critério de
seleção mais rigoroso, no qual limita-se o intervalo a apenas um desvio padrão da média para cima e
para baixo, que está representado em vermelho. A linha azul está indicando o 0 (zero) simulando um
teste de hipóteses para verificar se a variável possui efeito no todo, ou seja, se a linha azul cai dentro
do intervalo, a variável é considerada como não significativa. Nota-se que a partir do quinto mês de
reconhecimento, praticamente toda a informação recebida se manifestou como não significativa da
despesa total, ou seja, a quantidade é tão ı́nfima que não afeta o todo.
Tem-se ainda que para realização do cálculo do pprevi,j foi necessário um ajuste. Como µi,j mede
a taxa de decaı́mento do reconhecimento mensal, estávamos violando a condição de que a soma dos
pprevi,j’s ficassem no intervalo (0,1), ou seja, estavámos obtendo um reconhecimento maior do que
100% nos perı́odos, o que foge totalmente de qualquer realidade. A solução considerada foi dividir
essas porcentagens estimadas pela soma delas, de modo que essa redistribuição resultaria exatamente
em 100%.
(a) (b) (c)
Figura 11: Intervalo HPD com 95% de credibilidade para previsão das proporções de reconhecimento (pi,j)
dos modelos: 1 (simples), 2 (com beneficiários) e 3 (com beneficiários e sazonalidade), respectivamente. A
linha azul está indicando o zero. Se ela estiver dentro do intervalo, a variável é considerada como não signifi-
cativa. Em vermelho temos o intervalo de credibilidade com 1 desvio padrão da média para baixo e para cima.
O ponto central em vermelho representa a média da distribuição a posteriori.
29
(a) (b) (c)
Figura 12: Intervalo HPD com 95% de credibilidade da previsão das dos montantes (Wi,j) que preenchem
o triângulo inferior dos modelos: 1 (simples), 2 (com beneficiários) e 3 (com beneficiários e sazonalidade),
respectivamente. A linha azul está indicando o zero. Se ela estiver dentro do intervalo, a variável é considerada
como não significativa. Em vermelho temos o intervalo de credibilidade com 1 desvio padrão da média para
baixo e para cima. O ponto central em vermelho representa a média da distribuição a posteriori
Buscou-se ainda avaliar o coeficiente das inclusões feitas. A Figura 13 apresenta a cadeia de
convergência dos β’s dos modelos 2 (primeira cadeia) e 3 (segunda e terceira cadeia). Por conter o
zero em seus intervalos, nenhum dos coeficietes se apresentaram como significativos, ou seja, tanto o
número de beneficiários como a sazonalidade não manifestaram efeito nas despesas totais.
30
Figura 13: Cadeia de convergência dos β’s dos modelos: 2 (com beneficiários) e 3 (com beneficiários e
sazonalidade), respectivamente.
Intuitivamente espera-se que o número de beneficiários mensal interfira diretamente no montante
de gastos gerados pela utilização do plano, visto que, quanto maior o número de expostos maior a
chance de utilização dos procedimentos, e por consequência, maiores as chances de gerar um valor
maior de gastos. De acordo com as análises descritivas realizadas na Seção 3, pôde-se notar que o
número de beneficiários teve pouca variação mensal, então por esse motivo, pode ser que o número
total em si, tivesse pouco impacto nas despesas observadas.
Nas mesmas análises da Seção 3, parecı́amos ter indı́cios do efeito de sazonalidade, de alta nos
gastos no inverno e baixa no verão. No entanto, por mais que fosse alterada a variável indicadora que
considera a sazonalidade, não conseguimos alcançar a significância do β2. Pode ser que a sazonali-
dade não tenha sido captada de mês a mês, e tenha se manifestado fortemente ano a ano. Pode ser
que a sazonalidade não tenha sido captada devido a limitação do curto perı́odo de tempo acessı́vel dos
31
dados. Se tivermos um banco de dados maior podemos ser capazes de detectá-la.
Há de considerar ainda, a ordem de grandeza dos números. As despesas estão na escala do milhão.
O número de beneficiários em dezenas de milhares. A sazonalidade representada por uma variável
categórica (0 ou 1). Desta forma, a despesa do mês anterior pode ter puxado todo o peso para ela.Tabela 7: Comparação dos valores da PEONA real e estimativa do modelo linear dinâmico Bayesi-
ano 1 da Operadora A.
Mês/ano Modelo Dinâmico 1 Peona Real Diferença (%)
jan/18 5.986.092,42 5.149.296,42 16,25
fev/18 5.065.730,53 5.639.306,38 -10,17
mar/18 5.720.018,12 6.549.891,69 -12,67
abr/18 5.098.599,17 6.040.718,77 -15,60
mai/18 6.120.591,06 5.237.688,85 16,86
jun/18 5.926.224,61 5.474.737,22 8,25
jul/18 6.295.699,73 5.715.856,89 10,14
ago/18 6.337.747,67 5.658.118,95 12,01
set/18 6.291.368,96 5.745.632,13 9,50
out/18 6.267.552,54 5.531.625,23 13,30
nov/18 6.121.006,27 5.589.136,58 9,52
dez/18 5.643.804,44 4.642.027,12 21,58
Média 5.906.202,96 5.581.169,69 6,58
Nas Tabelas 7, 8 e 9 são apresentadas respectivamente, a comparação entre a PEONA real, e os três
modelos dinâmicos. Analisando a média das diferenças percentuais, os ajustes em ordem crescente
foram, Modelo 1, 3 e 2, respectivamente. Mesmo o termo de sazonalidade não se apresentando como
significativo, ele parece ter contribuı́do para a redução média da diferença percentual.
Tabela 8: Comparação dos valores da PEONA real e estimativa do modelo linear dinâmico Bayesi-
ano 2 da Operadora A.
Mês/ano Modelo Dinâmico 2 Peona Real Diferença (%)
jan/18 5.952.298,14 5.149.296,42 15,59
fev/18 5.034.895,99 5.639.306,38 -10,72
mar/18 6.312.798,57 6.549.891,69 -3,62
abr/18 5.910.420,84 6.040.718,77 -2,16
mai/18 6.009.181,24 5.237.688,85 14,73
jun/18 5.889.942,45 5.474.737,22 7,58
jul/18 6.200.718,61 5.715.856,89 8,48
ago/18 6.452.610,76 5.658.118,95 14,04
set/18 6.390.660,71 5.745.632,13 11,23
out/18 6.209.812,80 5.531.625,23 12,26
nov/18 6.133.472,82 5.589.136,58 9,74
dez/18 5.765.519,67 4.642.027,12 24,20
Média 6.021.861,05 5.581.169,69 8,45
Por fim, a Tabela 10 ilustra um comparativo em porcentagem da diferença entre o estimado e
o observado de todos os modelos. A metodologia proposta pela ANS foi de longe a que obteve
32
Tabela 9: Comparação dos valores da PEONA real e estimativa do modelo linear dinâmico Bayesi-
ano 3 da Operadora A.
Mês/ano Modelo Dinâmico 3 Peona Real Diferença (%)
jan/18 5.844.904,35 5.149.296,42 13,51
fev/18 4.990.138,95 5.639.306,38 -11,51
mar/18 6.232.345,40 6.549.891,69 -4,85
abr/18 5.887.622,12 6.040.718,77 -2,53
mai/18 5.982.847,67 5.237.688,85 14,23
jun/18 5.897.921,81 5.474.737,22 7,73
jul/18 6.297.553,46 5.715.856,89 10,18
ago/18 6.358.325,77 5.658.118,95 12,38
set/18 6.298.993,60 5.745.632,13 9,63
out/18 6.245.634,25 5.531.625,23 12,91
nov/18 6.110.132,89 5.589.136,58 9,32
dez/18 5.774.761,16 4.642.027,12 24,40
Média 5.993.431,79 5.581.169,69 7,95
Tabela 10: Diferença em porcentagem dos valores de todas as estimativas e a PEONA real da
Operadora A.
Mês/ano Metodologia Chain Modelo Modelo Modelo
ANS Ladder Dinâmico 1 Dinâmico 2 Dinâmico 3
jan/18 114,20 21,13 16,25 15,59 13,51
fev/18 98,03 -5,78 -10,17 -10,72 -11,51
mar/18 72,61 -8,53 -12,67 -3,62 -4,85
abr/18 88,77 6,69 -15,60 -2,16 -2,53
mai/18 119,57 21,98 16,86 14,73 14,23
jun/18 111,85 10,93 8,25 7,58 7,73
jul/18 104,53 7,78 10,14 8,48 10,18
ago/18 108,24 13,35 12,01 14,04 12,38
set/18 106,68 1,67 9,50 11,23 9,63
out/18 118,78 12,76 13,30 12,26 12,91
nov/18 120,59 7,60 9,52 9,74 9,32
dez/18 170,49 15,73 21,58 24,20 24,40
Média 111,20 8,78 6,58 8,45 7,95
as piores estimativas. O método Chain-Ladder conseguiu resultados melhores, como destaque para
setembro de 2018, onde a diferença foi a menor de todas. O modelo dinâmico 1, em média, foi o
que obteve o melhor desempenho, mesmo sendo o mais simples dentre os três elaborados. Mesmo
com os coeficientes de inclusão se manifestando como não significativo, os modelos dinâmico 2 e 3
alcançaram resultados expressivos, com erros menores, em média, do que o método Chain-Ladder.
33
7 Considerações Finais
Este trabalho examinou a aplicação dos Modelos Lineares Dinâmicos Bayesianos nas estimativas
do cálculo da Provisão Eventos Ocorridos e Não Avisados, considerando que as despesas geradas
pela utilização dos beneficiários do plano de saúde da Operadora A, tinham dependência no tempo. O
banco de dados utilizado foi de uma operadora de médio porte, porém acredita-se que a metodologia
proposta também se ajustaria bem para as operadoras de grande porte.
Por ser um modelo mais robusto que os existentes comparados, constatou-se que os MLDB con-
seguiram alcançar bons resultados, sendo que dentre as metodologias analisadas, foram os que mais
se aproximaram, em média, do que realmente foi observado ao longo do ano de 2018. Destaca-se que
o melhor modelo ajustado, nem sempre vai ser o melhor modelo de previsão. Fato que comprova isso,
foi o Modelo dinâmico 3 ter apresentado, em média, resultados melhores do que o Modelo dinâmico 2,
mesmo com o termo de inclusão sendo não significativo. Apesar disso, o Modelo dinâmico 1, mesmo
sendo o mais simples correspondeu, em média, às menores diferenças do valor de provisionamento
que realmente seria necessário.
Apurou-se também certa limitação quanto ao tamanho do banco de dados. Por estarmos traba-
lhando com apenas 60 observações, acredita-se que esta quantidade de informações não foram sufi-
cientes para o MLDB conseguir captar todos os indı́cios apurados na análise descritiva e exploratória
dos dados, como a tendência de crescimento e a sazonalidade. Julga-se que com a incoporação de uma
boa quantidade de dados, deixando o banco suficientemente grande, poderı́amos encontrar estimativas
melhores.
As despesa estão na escala dos milhões, o número de beneficiários nos milhares, e a sazonalidade
foi representada por uma variável indicadora que assume valor zero ou um. Dessa forma, suspeita-se
ainda que a grandeza dos números, ou seja, a diferença de escalas das variáveis, da mesma forma
pode ter sido outro fator limitador.
Conforme mencionado em Bornhuetter e Ferguson (1972), a dificuldade da modelagem de PE-
ONA, é mais atuarial do que estatı́stico, considerando que não existe um método único de estimativas
de previsão que conseguirão alcançar os melhores resultados sempre. Segundo Mano e Ferreira (2009)
cada método é baseado em algumas suposições que podem não ser válidas em determinada situação.
Desta forma, por mais sofisticadas que as metodologias sejam, não eliminam o trabalho de análise e
a tomada de decisão por parte do atuário.
Com base em todo o exposto, sugere-se para trabalhos futuros: a inclusão do fator de inflação, a
alteração de premissas, mudança de escala das variáveis, consideração de banco de dados maior.
34
Bibliografia
Antonio, K. e Plat, R. (2010), “Micro-Level Stochastic Loss Reserving for General Insurance,” Scan-
dinavian Actuarial Journal, 2014:7, 649–669.
Atherino, R. (2008), “Estimação de Reservas IBNR por Modelos em Espaço de Estado: Empi-
lhamento por Linhas do Triângulo Run-off.” Tese de Doutorado, Departamento de Engenharia
Elétrica, Pontı́fica Universidade Católica do Rio de Janeiro.
Atherino, R. e Fernandes, C. A. C. (2006), “Um Modelo em Espaço de Estado para Estimação de
Reservas IBNR,” Revista Brasileira de Risco e Seguro.
Bornhuetter, R. L. e Ferguson, R. E. (1972), “The Actuarial and IBNR,” Proceedings of the Casualty
Actuarial Society, pp. 181–195.
Braga, L. J. S. (2017), “Adaptação de metodologia de Provisão de Eventos Ocorridos e Não Avisa-
dos (PEONA) para operadoras de pequeno porte co intuito de minimizar a influência dos dados,”
Trabalho de Conclusão de Curso - Departamento de Estatı́stica, ICEX, UFMG.
de Souza, L. G. (2013), “Comparação de métodos de micro-dados e de triângulo run-of para previsão
da quantidade IBNR,” Dissertação de Mestrado, Departamento de Engenharia Elétrica, Pontı́fica
Universidade Católica do Rio de Janeiro.
Ehlers, R. S. (2003), Introdução a Inferência Bayesiana, http://leg.ufpr.br/ paulo-
jus/CE227/ce227.pdf.
England, P. e Verrall, R. (2002), “Stochastic Claims Reserving in General Insurance,” British Actua-
rial Journal, 8.
Friedland,

Mais conteúdos dessa disciplina