Baixe o app para aproveitar ainda mais
Prévia do material em texto
UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO DE CIÊNCIAS EXATAS E DA TERRA DEPARTAMENTO DE DEMOGRAFIA E CIÊNCIAS ATUARIAIS MONOGRAFIA TADEU AMORIM FARIAS APLICAÇÃO DE MACHINE LEARNING EM SEGUROS DE AUTOS NATAL 2021 TADEU AMORIM FARIAS MERCADO DE SEGUROS E ASSOCIAÇÕES DE PROTEÇÃO VEICULAR PRECIFICAÇÃO DE SEGUROS DE AUTOS MÉTODOS E ANALOGIA Monografia apresentada ao Curso de graduação em Ciências Atuariais da Universidade Federal do Rio Grande do Norte como requisito parcial à obtenção do título de Bacharelado em Ciências Atuariais. Orientadora: Professora Jordana Cristina de Jesus Coorientador: Professor Marcus Alexandre Nunes NATAL 2021 TADEU AMORIM FARIAS Universidade Federal do Rio Grande do Norte - UFRN Sistema de Bibliotecas - SISBI Catalogação de Publicação na Fonte. UFRN - Biblioteca Setorial Prof. Ronaldo Xavier de Arruda - CCET Farias, Tadeu Amorim. Aplicação de Machine Learning em seguros de autos / Tadeu Amorim Farias. - 2021. 52f.: il. Monografia (Bacharelado em Ciências Atuariais) - Universidade Federal do Rio Grande do Norte, Centro de Ciências Exatas e da Terra, Departamento de Demografia e Ciências Atuariais. Natal, 2021. Orientadora: Profa. Dra. Jordana Cristina de Jesus. Coorientador: Prof. Dr. Marcus Alexandre Nunes. 1. Risco - Monografia. 2. Prêmio - Monografia. 3. Sinistros - Monografia. 4. Machine Learning - Monografia. 5. Random Forest - Monografia. I. Jesus, Jordana Cristina de. II. Título. RN/UF/CCET CDU 368.025.6 Elaborado por Joseneide Ferreira Dantas - CRB-15/324 APLICAÇÃO DE MACHINE LEARNING EM SEGUROS DE AUTOS MERCADO DE SEGUROS E ASSOCIAÇÕES DE PROTEÇÃO VEICULAR PRECIFICAÇÃO DE SEGUROS DE AUTOS MÉTODOS E ANALOGIA Monografia apresentada ao curso de graduação em Ciências Atuariais, da Universidade Federal do Rio Grande do Norte, como requisito parcial à obtenção do título de Bacharel em Ciências Atuariais. Aprovada em 10 de setembro de 2021 BANCA EXAMINADORA ______________________________________ Profa. Dra. Jordana Cristina de Jesus Orientadora UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE ______________________________________ Prof. Dr. Marcus Alexandre Nunes Coorientador UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE ______________________________________ Prof. Dr. Flávio Henrique Miranda de Araújo Freire. Membro Interno UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE Dedico essa monografia aos meus Pais Josa (in memoriam) e Socorro, a minha esposa Vanusa e aos meus filhos Débora, Matheus e Rafael e a minha nora Andréa, aos meus irmão, irmãs e toda minha família, bem como aos meus orientadores Professora Jordana Cristina e Marcus Nunes, a todos os Professores da UFRN, as amigas e amigos do trabalho, da universidade e da vida. 6 RESUMO Aplicação De Machine Learning Em Seguros De Autos O presente trabalho tem por objetivo precificar o valor do prêmio de seguro de uma associação de proteção veicular utilizando a abordagem de Machine Learning através dos algoritmos de Random Forest, Bootstrap aggregating com a aplicação da regressão por Random Forest. As principais métricas de avaliação dos resultados da aplicação da regressão por Random Forest foram o RSME, MAE e análises gráficas, também foram empregadas as técnicas de transformação dos dados e Análises de Componentes Principais, PCA. Duas variáveis respostas foram utilizadas para dois modelos diferentes, a primeira foi a variável referente a ocorrência de sinistros, que resulta na importância média das variáveis preditoras quanto a frequência de sinistros e a segunda foi variável referente a indenização dos sinistros, seu resultado trás importância média das variáveis preditoras quanto a severidade dos sinistros. O método de precificação da sinistralidade esperada foi utilizado para obtenção do valor do prêmio de risco coletivo e para o prêmio puro coletivo, o prêmio puro coletivo foi utilizado como parâmetro para o cálculo do prêmio puro individual anual, foi calculado o prêmio individual anual para cada risco a partir da importância das variáveis de risco obtidas pelo método de regressão por Random Forest e de posse desses valores, calculamos o prêmio individual anual para perfis diferentes com o mesmo valor da importância segurada, assim, foi possível fazer uma avaliação do método aplicado. Palavras Chave: Risco, Prêmio, Sinistros, Machine Learning, Random Forest. 7 ABSTRACT Machine Learning Application in Auto Insurance The present work aims to price the insurance premium value of a vehicle protection association using the Machine Learning approach through the Random Forest algorithms, Bootstrap aggregating with the application of the Random Forest regression. The main metrics for evaluating the results of the application of regression by Random Forest were RSME, MAE and graphical analysis, data transformation techniques and Principal Component Analysis, PCA were also used. Two response variables were used for two different models, the first was the variable referring to the occurrence of claims, which results in the average importance of the predictor variables regarding the frequency of claims and the second was the variable referring to the indemnity of claims, its result showing average importance predictor variables as to the severity of claims. The expected loss ratio pricing method was used to obtain the value of the collective risk premium and for the collective pure premium, the collective pure premium was used as a parameter to calculate the annual individual pure premium, the annual individual premium was calculated for each risk from the importance of the risk variables obtained by the Random Forest regression method and having these values, we calculated the individual annual premium for different profiles with the same value of the insured amount, thus, it was possible to make an evaluation of the applied method. Keywords: Risk, Prize, Claims, Machine Learning, Random Forest. 8 ÍNDICE 1- Introdução ................................................................................................. 8 1.1 -A história do seguro .......................................................................... 8 1.2-Associações de Proteção Veicular ..................................................... 9 1.3 - Problema............................................................................................ 12 1.4 – Hipótese............................................................................................. 13 1.5 - Objetivo............................................................................................. 13 2- Fundamentação Teórica .......................................................................... 14 2.1- Aprendizado de máquina ................................................................. 14 2.2- Árvore de decisão .............................................................................. 14 2.3- Random Forest .................................................................................. 15 2.4- Classificação das variáveis ............................................................... 18 2.5- Precificação ....................................................................................... 19 2.5.1- Prêmio Puro a partir do histórico de sinistro agregado ............. 19 2.5.2- Prêmio puro individual anual .......................................................20 2.5.3- Exposição agregada ....................................................................... 20 2.5.4- Sinistralidade ................................................................................. 20 3- Metodologia ............................................................................................... 21 3.1- Tratamento banco de dados ............................................................ 21 3.2- Análises Descritiva ............................................................................ 22 3.2.1- Análises Correlação........................................................................ 26 3.3- Aplicação do Random Forest ........................................................... 28 3.3.1- Modelo Frequência 1 ..................................................................... 28 3.3.2- Modelo Frequência 2 ..................................................................... 30 3.3.3- Modelo Frequência 3 ..................................................................... 32 3.3.4- Modelo Severidade 1 ..................................................................... 38 3.3.5- Modelo Severidade 2 ..................................................................... 39 3.3.6- Modelo Severidade 3 ..................................................................... 41 3.3.7 Analise dos Modelos Ajustados....................................................... 45 3.4- Precificação Prêmio Puro ................................................................. 46 3.4.1- Prêmio de Risco e Prêmio Puro .................................................... 46 4- Conclusão .................................................................................................. 51 5- Referências ................................................................................................ 52 1 INTRODUÇÃO 9 1.1 A história do seguro A prática de mutualidade, um dos fundamentos da atividade seguradora, é tão antiga quanto a civilização. Há registro que data de 2250 a.C sobre um modelo rudimentar de contrato de seguro entre condutores de caravanas da Mesopotâmia para proteção das perdas de animais usados no transporte. O foenus nauticus – empréstimo marítimo a risco – era praticado entre gregos, fenícios e romanos, com o objetivo de cobrir os riscos para cargas lançadas ao mar em situação de perigo (CNSEG, 2019). Já na Idade Média, organizou-se a proteção coletiva em termos de socorros mútuos. Desde então, a Igreja Católica reconhece a importância do solidarismo que se articula em torno das formas de mutualidade. O Papa Leão X no século 16 refere-se à atividade seguradora (lato sensu) de proteção como assistência moralmente recomendável, dando um caráter social a prática do mutualismo (CNSEG, 2019) A mutualidade chegou ao Brasil nas primeiras décadas após o desembarque dos Portugueses em nosso País. O seguro e a previdência foram criação de jesuítas, e em especial do Padre José de Anchieta. A regulamentação mais remota da atividade seguradora data de 1791, quando foram promulgadas as “Regulações da Casa de Seguros de Lisboa”, que foram mantidas em vigor até a Proclamação da Independência, em 1822. Anos antes, em 1808, com a abertura dos portos brasileiros, teve início a exploração de seguros marítimos, através da Companhia de Seguros Boa Fé, sediada na Bahia. Foi a primeira seguradora a funcionar no país. A fiscalização da atividade seguradora teve início em 1831, com a instituição da Procuradoria de Seguros das Províncias Imperiais, que ainda atuava com base em leis portuguesas. Embora o Código Comercial de 1850 só definisse normas para o setor de seguros marítimos, em meados do século 19 muitas seguradoras conseguiam aprovar seus estatutos e davam início à operação de outros ramos de seguros elementares, e também o de vida. Em 1895, as empresas estrangeiras passam a ser supervisionadas com base em legislação nacional. Finalmente, em 1901, com a edição do Decreto 4.270 (Regulamento Murtinho), é criada a Superintendência Geral de Seguros, subordinada ao Ministério da Fazenda. Sua missão era estender a fiscalização a todas as seguradoras que operavam no país 10 Silva e Lamon (2013) afirmam que em 1916, com a Lei nº 3.071, foram fixados os princípios essenciais do contrato de seguro e disciplinados os direitos e obrigações das partes contratantes. Desde então, o mercado de seguros, em especial o de veículos automotores, denominado seguro do casco1, cresceu exponencialmente, acompanhando o crescimento da indústria automobilística e o consumo de veículos no mercado nacional. Atualmente, o mercado de seguro de autos no Brasil movimentou entre 01 de julho de 2018 e 30 de junho de 2019, cerca de R$ 24,25 bilhões em prêmio, com um total de apólice de autos de R$ 16,27 milhões, com um prêmio médio de R$ 1.488,00. Cabe registrar que, todo esse mercado está concentrado nas mãos de 119 seguradoras atuantes e 80% desse mercado está concentrado em apenas 10 Seguradoras (SUSEP, 2019). 1.2 Associações de Proteção Veicular As associações de proteção veicular são pessoas jurídicas sem fins lucrativos, não há um órgão regulador do Estado sobre essas associações, além do que já está previsto a qualquer associação. O crescimento da demanda do mercado de seguros, o monopólio das seguradoras e a seleção adversa deram origem ao surgimento das associações de proteção veicular, uma forma rudimentar de proteção que surgiu, mas que cumpre também um papel social importante, favorecendo os excluídos por esse mercado com uma cobertura para o risco exposto. As primeiras Associações de Proteção Veicular surgiram na década de 2000. Inicialmente, ofereciam serviços complementares aos associados que não dispunham ou avaliavam como de alto custo a contratação de um seguro. Assim, associavam-se em uma espécie de clube de benefícios. Estas associações prestavam serviços como reboque 24 horas e cobertura para eventos como acidentes, incêndio, roubo e furto (SANTOS; VIDA, 2019, p.1) Na organização dessas associações, era comum eleger uma diretoria administrativa. Havia o pagamento de uma taxa mensal para manutenção da associação, cuja metodologia para precificação praticada era simples. Além da taxa de participação para manter a associação, em um eventual sinistro, havia um rateio dessas despesas entre os associados. O funcionamento se dava de forma simples tal que, quando um proprietário de um veículo se associava, o valor da importância segurada era dividido por cotas. 1 Casco é o termo usado para designar o seguro de autos para danos básicos. 11 Quando sinistros eram observados em um determinado período de tempo, normalmente um mês, o valor da indenização era dividido pelo número de cotas de cada associado. Assim, por exemplo, um veículo com importância segurada de R$ 10.000,00 era responsável por 10 cotas, enquanto um veículo com valor de R$ 45.000,00 era responsável por 45 cotas e assim por diante. Desse modo, uma carteira com 10.000 cotas que tinha uma indenização a pagar de R$ 25.000,00, fazia-se a razão de R$ 25.000,00 por 10.000 cotas, chegando ao resultado de R$ 2,50 por cota. Dessa forma, o associado que tinha um carro com 10 cotas, pagava R$ 25,00. Este regime financeiro em muito se assemelha a um modelo de repartição simples. Outro regime também adotado é o de repartição mista, onde há repartição simples e também a capitalização do saldo excedente em cada mês. A ideia das associações tomou corpo e volume, de forma que atualmente elas estão presentes em todo o Brasil. Essas associações inicialmente ocuparam uma faixa de mercado que era composta pela seleção adversa das seguradoras, em sua maioria, carros e motos com mais de 10 anos de uso, proprietários com restrição ao crédito, mototaxistas e motoboys, veículos de transportes de passageiros, tais como lotação interbairros e intermunicipais,entre outros, além dos que buscavam um custo menor. Ao tempo em que se experimentou um crescimento de comercialização do seguro de automóveis acima de 10% (dez por cento) ao ano, passou-se a estabelecer mecanismos de seleção de riscos mais rígidos. Neste ponto, foram desenvolvidos critérios de aceitação, inicialmente, tendo em vista o cadastro de crédito do público-alvo, negando aceitação para clientes com restrições cadastrais, ou aceitando-os com agravo no prêmio cobrado. (SANTOS; VIDA, 2019) Assim, observando a história do seguro e das associações, podemos afirmar por analogia que seguradoras e associações de proteção veicular nasceram da mesma vontade em comum de proteger o património pessoal de um risco eminente. Um grupo de pessoas com riscos em comum, através do mutualismo, unem-se em busca de proteção. No contexto da seleção adversa das seguradoras, a dinâmica do mercado apresentou como alternativa essa nova modalidade de cobertura, composta pelo público recusado pelas seguradoras. Atualmente, além das pessoas que não conseguem contratar uma apólice de seguro junto às seguradoras, os consumidores buscam também o preço mais atrativo das associações de proteção veicular. 12 Seja em uma seguradora, seja uma associação de proteção veicular, o segurado, ao contratar um seguro ou uma proteção, busca transferir o risco de um eventual prejuízo para seguradora ou associação. Este eventual prejuízo é denominado de sinistro, que é um dos elementos básicos do seguro. É importante conhecer os elementos básicos de um contrato de seguro para autos e a partir desses elementos como é classificada as importâncias das variáveis. Podemos classificar esses elementos em: • Riscos são os quais o bem segurado está exposto, tais como roubo, furto, acidentes, incêndio, entre outros e que a seguradora ou associação cobrirá em caso de sinistro, de acordo com as cláusulas e condições contratadas. • Prêmio é o valor pago individualmente por cada segurado para cobertura do risco contratado. • Importância Segurada é o valor do bem exposto ao risco coberto na contratação do seguro. • Prazo de vigência é o tempo de duração do contrato ou apólice de seguro. • Sinistro é a ocorrência do risco previsto no contrato de seguro e que, legalmente, quando coberto, obriga a seguradora a indenizar. Ou seja, é o fato causador de uma perda ou prejuízo causado ao segurado e transferido para a seguradora através da apólice contratada. • Processo de sinistro é o conjunto de documentos necessários para o exame da cobertura e a liquidação do sinistro. É o meio pelo qual examinam-se a cobertura, os procedimentos, o cálculo da indenização e a documentação. Nos sinistros causados aos bens, geralmente o processo de sinistro abrange três etapas de operações interdependentes: 1. apuração de danos – consiste basicamente no levantamento da causa, natureza e extensão dos danos; 2. regulação de sinistros – análise do relatório ou certificado de vistoria; e 3. liquidação de sinistros – conclusões da regulação, encerramento do processo com pagamento ou não de indenização, venda de salvados, se houver, e tentativa ou não de ressarcimento, quando cabível. 13 O sinistro acontece de forma repentina, involuntária e imprevista. Este acontecimento não pode ser previsto, mas, através do conhecimento multidisciplinar atuarial, podemos prever a média de ocorrências dos sinistros quanto às suas severidades e frequências em um determinado período do tempo. Para mensurar o prêmio de um seguro, é necessário conhecer as estatísticas e mensurar as probabilidades de ocorrência do sinistro. Há duas formas básicas de obter as informações necessárias para esse processo. A primeira é utilizar uma base de dados de terceiros, ou seja, de outras seguradoras já existentes e aplicar na sua precificação. A outra é utilizar sua própria base. O modelo subjetivo, que consiste em utilizar observações de riscos similares, onde a tarifa é definida pelo método “underwriter” através de comparação de riscos similares e o método de sinistralidade, onde a tarifa é calculada em função da sinistralidade observada em sua própria carteira. (Ferreira, 2002, p.6) A meta de qualquer seguradora ou associação é conhecer com a maior precisão possível a probabilidade de ocorrência de sinistros e, de posse dessas probabilidades, selecionar as variáveis quanto à sua importância na severidade desses sinistros. Assim, de posse dessa informação, é possível calcular o preço do prêmio a ser cobrado dos segurados. 1.3 PROBLEMA Para uma seguradora tradicional, com precificação suficientemente precisa, a aplicação de métodos em função das sinistralidades observadas revela com alto grau de certeza quanto às variáveis de risco mais influentes na predição da ocorrência de sinistros. Estas variáveis de risco são utilizadas para seleção de segurados e precificação do prêmio comercial individual. As associações de proteção veicular não dispõem de estatísticas tão sofisticadas como as seguradoras e, na sua grande maioria, sequer usam métodos estatísticos atuariais para precificar sua carteira. A pesquisadora Silva (2013) utiliza análises de clusters para avaliar o agrupamento geográfico de áreas com o objetivo de classificar tais áreas na precificação de associações de proteção veicular usando uma base de dados de uma associação de proteção veicular. 14 Contudo, na literatura revisada não foram encontrados estudos ou artigos que tenham utilizado o banco de dados de uma associação de proteção veicular para seleção da importância das variáveis de risco e precificação do prêmio individual a partir da estatística da própria associação. Considerando a ausência de aplicações na literatura e o conjunto limitado de informações das associações, um problema se coloca: é possível, de forma empírica, fazer uma predição das variáveis mais importantes quanto à severidade dos sinistros para uma associação de proteção veicular a partir do seu próprio banco de dados? 1.4 Hipóteses Uma hipótese é que a predição quanto a importância das variáveis para a severidade dos sinistros de uma associação de proteção veicular possa ser mensurada a partir dos dados dessa mesma associação. 1.5 Objetivo O objetivo geral da pesquisa é realizar a precificação do seguro para uma hipotética associação de proteção veicular. Para isso, são necessários dois objetivos específicos: • Realizar tratamento do banco de dados • Mensurar a importância das variáveis de risco 15 2 Fundamentação teórica sobre modelagem 2.1 Aprendizado de máquina É a forma como um programa computacional pode “aprender” com a experiência de forma a melhorar sua performance na próxima execução. “[...] Aprendizado de Máquina lida com a questão de como construir programas de computadores que possam “aprender” com a experiência, ou seja, cujo desempenho em determinada tarefa melhora com a experiência. Aprendizado Máquina é uma subárea de pesquisa de muita importância na Inteligência Artificial (IA), e engloba os estudos de métodos computacionais para a automação da aquisição do conhecimento e para a estruturação e acesso do conhecimento já existente.” (MITCHELL, 1997 apud SANTOS, 2005, p.31) Algoritmos de aprendizagem de máquina baseados em árvores de decisão são muito utilizados para métodos de aprendizagem supervisionada, mas também podem ser utilizados em métodos de aprendizagem não supervisionada. Aprendizagem supervisionada é aquela em que a variável resposta está com seus possíveis valores identificados. Ou seja, existe um conjunto de exemplos de entrada e saída com os quais o algoritmo pode aprender as relações existentes no conjunto de dados. Em geral, o conjunto de dados original é dividido em outros dois, chamados treino e teste. Normalmente, o conjunto de treinoé composto por proporções entre 50% e 80% das observações e o conjunto de teste pelo seu complementar. Desta forma, o algoritmo aprende as relações no conjunto de treino e seu desempenho na predição de novos dados é avaliado no conjunto de teste. Por outro lado, na aprendizagem não supervisionada, não existe conjunto de treino, pois os possíveis valores que a variável resposta pode assumir não estão definidos. BRUNIALTI, L. F. at al.(2015) afirma que nos modelos supervisionados os algoritmos ajustam parâmetros de um modelo a partir do erro medido entre respostas obtidas e esperadas, já nos modelos não supervisionados há um uso de algoritmos híbridos que fazem uso dos recursos de correção de erro e de maximização de medidas de qualidade, conforme necessário. 2.2 Árvores de decisão São métodos utilizados para mapear os possíveis resultados de uma série de escolhas relacionadas aos parâmetros observados de forma comum entre as variáveis, 16 através de um algoritmo que analisa de forma matemática a decisão de classificar os níveis da variável resposta conforme os dados observados. A Figura 1 ilustra um modelo. Figura 1 – Ilustração modelo de árvore de decisão Fonte Elaboração Própria Na Figura 1, utilizando o conjunto de dados “íris” disponível no R, temos o arcabouço de uma árvore de decisão. Nesse processo, cada decisão é baseada em critérios matemáticos, de modo a estimar o melhor critério de separação. “[...] As árvores de decisão são representações simples do conhecimento, e um meio eficiente de construir classificadores que predizem ou revelam classes ou informações úteis baseadas nos valores de atributos de um conjunto de dados.” (Ávila at.al 2011, p.2). No conjunto de dados “íris” há três espécies de flor, observa-se que a classificação das espécies ocorreu por meio do comprimento e a largura das pétalas, classificando cada espécie de acordo com o seu tamanho. Esse método é aplicado em diversas áreas do conhecimento, no ramo de seguro não vida, pode ser aplicado para detectar fraudes nos sinistros, classificação de riscos, classificação de perfil dos segurados entre outras aplicações. 2.3 Random Forest Um conjunto de árvores de decisão forma uma floresta aleatória. O método Random Forest tem como base essa floresta de árvores de decisão e é um método frequentemente usado na ciência de dados. 17 O Random Forest, em particular, foi criado por Tim Kan Ho, em 1995, e aperfeiçoado por Leo Breiman em 2001, esse algoritmo é base para algoritmos mais avançados, ele é capaz de lidar dar com problemas como ‘small n” e “large p”, esse método tem por base que as previsões feitas a partir de vários modelos são melhores do que previsões feita em um só modelo. Breiman (2001) define o Random forest como um classificador que consiste em uma coleção de árvores estruturadas. Nesse processo, os erros dos estimadores utilizados vão gradualmente diminuindo e consequentemente diminuí a variância. O princípio do Random Forest é o Bootstrap aggregating, uma técnica de reamostragem com reposição, utilizada para estimação dos parâmetros. Bootstrap aggregating (bagging) combina uma série de classificadores para melhorar o processo de mineração de dados na classificação de aprendizagem supervisionada. Ele é um processo de extrair informações de grande quantidade de dados e tem sido aplicado com sucesso a diferentes tarefas de classificação, incluindo, mas não se limitando, a tomada de decisão, detecção de falhas, reconhecimento de padrões, previsão do tempo de processamento de imagens. (Dewan at al, 2011, p.30, tradução nossa). O conjunto de dados é dividido em m subconjuntos de dados originais e com reposição. Em cada um destes conjunto é ajustado uma árvore de classificação e regressão (classification and regression tree )– CART 𝑓𝑖 estimado a cada subconjunto e após encontra-se uma estimativa para o Random Forest. 𝑓 = 1 𝑚 ∑ 𝑓𝑖 𝑚 𝑖=1 (1) A forma para medir a importância de cada variável é feita durante o processo de ajuste do modelo, o erro de ajuste em cada ponto é medido e registrado, a importância da j-ésima variável é medida com a troca de seus valores dentro de cada interação. Dessa forma, temos os valores dos erros dos ajustes normais e perturbados. A cada divisão da variável j, o nível de impureza dos dois nós descendentes é menor do que o do nó original. Uma maneira mais rápida de obter a importância da variável é somando os índices de Gini para cada variável sobre todas as árvores, assim, temos como resultado a importância da variável. O índice de pureza Gini é definido como: 18 𝐺 = ∑ 𝑃𝑖(1 − 𝑃𝑖) 𝑛𝑐 𝑖=1 (2) Onde nc é o número de classes na variável j e 𝑃𝑖 é a proporção desta classe. A partir disto, a importância é calculada como 𝐼 = 𝐺𝑃𝑎𝑖 − 𝐺𝑓𝑖𝑙ℎ𝑜1 − 𝐺𝑓𝑖𝑙ℎ𝑜2 Onde a importância é dada pela diferença entre o índice de pureza de Gini entre o nó pai e seus nós filhos, por fim, é calculada a média de todos os nós para todas as árvores e é obtida um índice de impureza global. A técnica de Bootstrap aplicada a regressão pelo Métodos de Random Forest melhora a estabilidade e a acurácia, além de reduzir a variância e evitar o sobre ajuste do modelo. No método de regressão Random Forest, buscamos a importância das variáveis resposta em relação as variáveis preditoras. Quando o pesquisador se depara com um problema “small-n”, esse método é eficaz na análise de um conjunto de dados com um número pequeno de observações e um grande número de parâmetros, dando robustez estatística às análises apresentadas. Biau (2012) define o modelo Random Forest como um preditor consistente de uma coleção de árvores aleatórias, com base na regressão em 𝑟𝑛(𝑋, 𝐷𝑛) = 𝐸𝛳[𝑟𝑛(𝑋, 𝛳, 𝐷𝑛)] onde ϴ1, ϴ2, ..., ϴ𝑛, são independentes e identicamente distribuídos “iid” e são resultados de uma variável aleatória ϴ, uma compreensão melhor pode ser obtido em Biau (2012, p.1064) Essa poderosa ferramenta, segundo Genuer et al. (2010), é um método estatístico cada vez mais usado para problemas de classificação e regressão. Além das análises gráficas, uma métrica de avaliação de uma regressão no Random Forest é o RMSE (Root Mean Squared Error). Essa medida calcula a “raiz quadrática médias dos erros” e é definida como: RMSE = √ 1 𝑛 ∑ (𝑦𝑖 − 𝑦�̂�)² 𝑛 𝑖=1 (3) Onde 𝑛 é o tamanho da amostra, 𝑦𝑖 é valor original e �̂�𝑖 o valor predito. 19 O MAE (Mean Absolut Error) que calcula o "Erro Absoluto Médio" dos erros entre os valores observados e os valores preditos, pode ser definido como: MAE = 1 𝑁 ∑ |𝑦𝑖 − 𝑦�̂�| 𝑛 𝑖=1 (4) Para ambas as métricas, quanto menor o valor, melhor. Elas expressam o erro médio preditivo no intervalo [0, – ∞) dos conjuntos treino e teste em relação aos dados primários. No RMSE, primeiro os erros são elevados ao quadrado para então se calcular a média. Assim, diferentes pesos são atribuídos a soma e esses erros tem uma correlação positiva com o RMSE. Dessa forma, outliers no conjunto de dados alavancam o RMSE, podendo assim elevar o seu valor e prejudicar a métrica. Uma maneira de diagnosticar os erros da predição é fazer a diferença entre o RMSE e a MAE. Se a diferença for muito grande, deve-se verificar a suposição de presença de outliers. Um modo prático de verificar essa suposição é: RMSE ≥ MAE, com pequenas diferenças, os erros estão uniformes RMSE > MAE, para pequenas variâncias RMSE 2x > MAE, há prováveis casos de outliers. De uma forma ampla, o RMSE penaliza os erros de maior magnitude. Porém, o RSME pode não descrever sozinho o erro médio e tem outras implicações que são difíceis de descobrir e compreender. MAE utiliza valores absolutos dos erros e isso não é desejável em cálculos matemáticos. 2.4 Classificação das variáveis Na classificação das variáveis pelo método Random Forest,podemos dizer que esse poderoso algoritmo é eficiente em classificação supervisionada. Duro et al. (2012) fizeram um comparativo entre vários métodos de classificação e sobre o Random Forest, afirmam: Eles descobriram que os algoritmos em forma de árvore selecionados testado teve desempenho semelhante, mas o algoritmo de Random Forest superou a implementação padrão das Árvores de Decisão de (Breiman et al. 1984). Duro et al. (2012) usaram alguns algoritmos para classificar suas análises de tipos de solos através de pixels. Os autores concluem que não há diferença com significância estatística entre eles, porém ressalta que foram atribuídas as classificações por Random Forest e SVM as melhores definições para as terras ribeirinhas, pântanos e de cultivo. 20 No método de classificação por Random Forest, são utilizadas análises gráficas como ferramentas para avaliar os outputs da classificação. Além das análises gráficas, utilizam-se as métricas de acurácia, sensitividade e a especificidade para avaliar o quão bom ou ruim está o modelo, outra métrica utilizada na avaliação de classificação é a curva ROC, esse conjunto de métricas dizem o quão bem é a predição dos dados na classificação. 2.5 Precificação. A precificação do prêmio é talvez a parte mais importante para uma seguradora, todo o processo de analises das variáveis de risco, perfil dos segurados, sinistralidade tem como objetivo precificar individualmente cada apólice. Todo o processo de seguro consiste em oferecer um método equitativo de transferência do risco em troca de um preço ou tarifa predeterminados. (David, 2015 tradução nossa) De acordo com Ferreira (2002), diversos são os conceitos e metodologias envolvidos no cálculo do preço pago pelo segurado, o qual denominamos prêmio. No processo de precificação do custo de um seguro, existem três tipos de prêmios. O primeiro destes prêmios é chamado de prêmio de risco, que é o valor total das indenizações de uma carteira em um determinado período de tempo. O prêmio puro, dado pelo prêmio de risco mais um carregamento de segurança estatístico e, por fim, há o prêmio comercial, que corresponde ao prêmio puro acrescido do carregamento para as despesas da seguradora, incluída a margem de lucro. 2.5.1 Prêmio Puro a partir do histórico de sinistro agregado Segundo Ferreira (2002), o prêmio de risco E[S] é a soma de todas as indenizações de uma carteira em um determinado período de tempo. O prêmio puro é igual ao prêmio de risco somado a um carregamento de segurança estatístico, denominado θ, e assim o prêmio puro pode ser definido pela expressão: 𝑃𝑝 = 𝐸[𝑆](1 + 𝜃) O prêmio comercial é o prêmio puro mais um carregamento das despesas e margem de lucro da seguradora, e pode ser definido pela expressão: 𝑃𝑟ê𝑚𝑖𝑜 𝐶𝑜𝑚𝑒𝑟𝑐𝑖𝑎𝑙 = 𝐸[𝑆](1+𝜃) 1−𝛼 Onde, α é o percentual que representa o carregamento das despesas mais a margem de lucro. 2.5.2 Prêmio puro individual anual 21 Ferreira (2002) define o prêmio puro individual anual dado pela razão 𝑃𝑝 𝑛ú𝑚𝑒𝑟𝑜 𝑟𝑖𝑠𝑐𝑜 𝑒𝑥𝑝𝑜𝑠𝑡𝑜 , onde o número de risco exposto é o produto da média do tempo de exposição pelo número médio de apólices no período. 2.5.3 Exposição agregada Ferreira (2002) relata que a exposição agregada de um risco é definida como a soma de todas as exposições individuais. De forma simples, o somatório de cada dia para cada apólices em vigor (𝑅𝑖) de um determinado risco, para cada dia do período de análise (n), sendo então, a exposição agregada igual à média do número de apólices em vigor no período n, que podemos definir como: Exposição Agregada = ∑ 𝑅𝑖 𝑛 𝑖=1 𝑛 Essa formula também é válida para a Importância Segurada expostas. 2.5.4 Sinistralidade A sinistralidade de uma carteira é peça-chave para análises de risco futuro. Ela é a estatística que embasa a probabilidade de risco futuro. Assim, na sua análise, é importante estar atento à equidade do valor das tarifas no período. Uma redução na tarifa do prêmio no período presente não tem reflexos na sinistralidade do período passado, e se aplicada ao prêmio comercial recente, conduz a um cálculo de prêmio de risco inferior ao necessário para o equilíbrio da carteira. A tarifa é atualizada em função da análise da sinistralidade. O prêmio de risco pode ser, por exemplo, calculado pela aplicação da sinistralidade (apurada sobre o prêmio comercial) ao prêmio comercial (Ferreira 2002, p.6). 22 3 Metodologia 3.1 Tratamento banco de dados O banco de dados utilizado nessa pesquisa foi gentilmente cedido pela Associação de Benefícios Transporte e Serviços Terrestres e esse é a única fonte de dados utilizada nessa pesquisa, originalmente com 3174 observações e 34 variáveis, cada observação corresponde a um contrato individual. O primeiro passo foi realizar um tratamento no banco de dados original, descartando algumas variáveis que julgamos não serem necessárias para nossa pesquisa. Através das variáveis “data inicial”, “data final”, e “data boleto”, foi calculada o tempo de exposição em dias para cada observação, dando origem a uma nova variável denominada “tempo”. Ferreira (2002) afirma que podemos medir a exposição individual de cada risco pela relação entre o tempo em que o risco ficou exposto no período de análise e o tempo total do período de análise. Mesmo que o risco tenha iniciado antes do período de análise, ele é considerado no cálculo da exposição individual, desde que ele tenha alguma interseção de vigência no período de análise. Se considerarmos 1 dia como a unidade mínima de contagem de tempo, teremos: Exposição Individual = 𝑁𝐼 𝑁𝐴 , em que NI - Número de dias da vigência com interseção com o período de análise; NA - Número de dias do período de análise. Desta forma, delimitamos o período de análise entre 01 de janeiro de 2019 a 31 de dezembro de 2019. Assim, um contrato que teve início em 01/01/2018 e manteve-se ativo até 01/01/2019 teve ao menos 01 dia no período de interseção, bem como um contrato que teve início em 30/12/2020 teve ao menos 01 dia no período de interseção. Em seguida, criamos uma nova variável onde os sinistros ocorridos foram separados por tipo e criamos a variável de exposição individual denominada de “EXP”. Também foi criada a variável da taxa de sinistro, calculando a razão entre a quantidade de sinistros e o tempo de exposição individual. A variável “CIDADE” foi agrupada em três categorias, chamadas capital, região metropolitana e interior, utilizando a frequência média de ocorrências. Na coluna “ANO DO MODELO”, alguns anos foram agrupados de acordo com a frequência média observada, concluindo o tratamento inicial do banco de dados, restando 1996 observações em 17 variáveis. 23 3.2 Análises Descritiva Como uma visão geral, na Tabela 1, temos uma descrição dos dados, onde as variáveis categóricas estão representadas pelos seus níveis de categoria e as variáveis numéricas apenas com seus significados. Tabela 1- Descrição da Variáveis. Variável Descrição Variável Descrição "TIPO" Qualitativa nominal 0-Carro 1-Moto "ÁREA" Qualitativa nominal 0-Capital 1-Região Metropolitana 2-Interior "SEXO" Qualitativa nominal 0-Masculino 1-Feminino "ID” Quantitativa discreta Número de identificação "EST_CIVIL" Qualitativa nominal 0-Casado 1-União estável 2-Divorciado 3-Solteiro 4-Viuvo "IS" Quantitativa continua Importância Segurada "SIN_TIP" Qualitativa nominal 0-Não Sinistro 1-Roubo 2-Acidentes 3-Vidros 4-Incêndio "FRANQUIA" Quantitativa continua Franquia "ANO_MOD_CAT" Qualitativa nominal 0-<2001 1-2001 a 2006 2-2007 3-2008 4-2009 5-2010 6-2011 7-2012 8-2013 9-2014 10-2015 11-2016 12-2017 13-2018a 2019 14-2020 "NUM_SIN" Quantitativa discreta Número de sinistros 0 – Não sinistro 1 - Sinistro "PREMIO" Quantitativa continua Soma prêmio anual "VALOR_SIN" Quantitativa continua Valor do sinistro "TX_SIN" Quantitativa continua Taxa sinistro "EXP" Quantitativa continua Exposição período Fonte: Dados Associação Nas Figuras 2 e 3 observamos a distribuição das variáveis de acordo com o tipo de veículo em cada gráfico. Nas variáveis importância segurada, valor da franquia e prêmio é natural que os automóveis tenham um maior acúmulo que as motocicletas. Nelas podemos observar uma tendência a uma distribuição normal por tipo de veículo. Na variável NUM_SIN, o número de sinistro é muito pequeno em relação ao número de não sinistros. Nas despesas de sinistro acumuladas, observamos que as motocicletas apresentam uma frequência maior. Além disso, os automóveis têm um maior período de exposição em relação às motocicletas. As maiores frequências absolutas para estado civil 24 estão entre os casados e solteiros. Entre os tipos de sinistros, as motocicletas predominam no tipo roubo, quanto aos acidentes há um certo equilíbrio, o tipo vidros é próprio dos automóveis. Figura 2 – Distribuição da Variáveis por Tipo Veiculo Nota: 0 – Automóveis 1 Motocicletas Fonte: Dados Associação A cauda longa à esquerda no gráfico F da Figura 3, do tempo de exposição mostra que a maioria dos contratos permanecem ativos por quase todo período de contratação, a média do tempo de exposição é de 231 dias, entre as motocicletas essa média é de 238 dias, entre os automóveis a média é de 221 dias, o usuário de motocicletas fica em média 17 dias a mais. Um fator pode ser atribuído de maneira intuitiva a essa permanência é a maior frequência do uso e por isso uma maior sensação de exposição ao risco. Figura 3 – Distribuição da Variáveis por Tipo Veículo Nota: 0 – Automóveis 1 Motocicletas Fonte: Dados Associação 25 Na Tabela 2 temos a distribuição percentual por tipo de veículo em relação ao sexo, estado civil, tipo de sinistro, número de sinistros e área. Tabela 2 – Distribuição Percentual por Tipo de Veículo. Sexo Estado Civil Masc. Fem. Total Casado União Estável Divorciado Solteiro Viúvo Total Automóveis 77,50 22,50 100 52,35 9,75 4,21 32,97 0,72 100 Motocicletas 89,87 10,13 100 35,11 12,10 3,69 49,01 0,09 100 Tipo Sinistro Não Sinistro Roubo Acidentes Vidros Incêndios Total Automóveis 96,75 0,60 1,08 1,44 0,12 100 Motocicletas 97,77 1,29 0,94 0,00 0,00 100 Número de Sinistros Área Não Sinistro Sinistro Total Capital Metropolitana Interior Total Automóveis 96,39 3,61 100 62,33 31,53 6,14 100 Motocicletas 96,91 3,09 100 64,72 28,41 6,87 100 Fonte: Dados Associação As pessoas do sexo masculino são maioria nos dois tipos de veículos, com relação ao estado civil, nos seguros de automóveis, a maioria dos segurados são pessoas casadas (52,35%), enquanto o mais frequente entre os segurados de motocicletas tem o estado civil de solteiro (49,01%), O percentual de roubos é maior entre as motocicletas e os acidentes há basicamente a mesma proporção com um percentual um pouco maior entre os automóveis, Em relação ao número de sinistros, os automóveis têm um percentual maior, mas é compreensível, uma vez que os sinistros de vidros não se aplicam a motocicletas, Em relação à região, automóveis e motocicletas tem distribuição semelhantes quanto a região. Na Tabela 3 temos a distribuição percentual por sexo em relação ao estado civil, área, tipo de sinistro e número de sinistros, Tabela 3 – Distribuição Percentual por Sexo, Área Estado Civil Capital Metropolitana Interior Casado Estável Divorciado Solteiro Viúvo Masculino 61,56 31,16 7,27 43,70 11,41 3,02 41,81 0,06 Feminino 75,74 21,64 2,62 34,43 9,51 8,85 45,25 1,97 Tipo Sinistro Número de Sinistros Não Sinistro Roubo Acidentes Vidros Incêndios Não Sinistro Sinistro Masculino 97,63 1,01 0,83 0,47 0,06 96,98 3,02 Feminino 95,74 0,98 1,97 1,31 0,00 95,08 4,92 Fonte: Dados Associação Em relação ao estado civil, em termos percentuais, entre os casados e união estável, os homens são maioria, Entre divorciados, solteiros e viúvos, as mulheres tem um percentual maior que os homens. 26 Quanto ao tipo de sinistros, sobre a ocorrência de roubo o percentual é basicamente o mesmo, O percentual de acidentes com mulheres é superior aos homens e, quanto à ocorrência de sinistros, o número de sinistros é maior entre as mulheres. Na Tabela 4, observamos a distribuição por estado civil em relação ao tipo de sinistro, número de sinistros e área. Quanto ao tipo de sinistros, os divorciados têm uma maior frequência para casos de roubo, acidentes e vidros, apenas em casos de incêndios eles não são maioria, O mesmo ocorre quanto ao número de sinistros. Tabela 4 – Distribuição Percentual por Estado Civil, Tipo de Sinistros Não Sinistro Roubo Acidentes. Vidros Incêndio Total Casado 97,63 0,83 0,71 0,83 0,00 100 União Estável 97,75 0,45 0,90 0,45 0,45 100 Divorciado 93,59 2,56 1,28 2,56 0,00 100 Solteiro 97,28 1,18 1,30 0,24 0,00 100 Viúvo 100,00 0,00 0,00 0,00 0,00 100 Número de Sinistro Não Sinistro Sinistro Total Casado 96,80 3,20 100 União Estável 97,75 2,25 100 Divorciado 92,31 7,69 100 Solteiro 96,69 3,31 100 Região Capital Metropolitana Total Casado 60,67 31,75 100 União Estável 58,56 36,04 100 Divorciado 73,08 25,64 100 Solteiro 67,10 26,63 100 Viúvo 85,71 0,00 100 Fonte: Dados Associação Na Tabela 5 temos a distribuição percentual por área em relação ao tipo de sinistro e à quantidade de sinistros. Tabela 5 – Distribuição Percentual por Região, Tipo Sinistros Não Sinistro Roubo Acidentes Vidros Incêndio Total Capital 97,48 0,94 0,86 0,63 0,08 100 Metropolitana 96,63 1,35 1,52 0,51 0,00 100 Interior 99,24 0,00 0,00 0,76 0,00 100 Total Geral 97,34 1,00 1,00 0,60 0,06 100 Número de Sinistros Não Sinistro Sinistro Total Capital 97,48 2,52 100 Metropolitana 96,63 3,37 100 Interior 99,24 0,76 100 Fonte: Dados Associação Os sinistros de roubo e acidentes por área de residência têm um percentual maior na região metropolitana em comparação com a Capital, No interior não há registro de sinistro de roubo ou acidentes, já o sinistro de vidros tem um percentual maior na Capital. 27 3.2.1 Análises de Correlação São duas as variáveis resposta que analisamos na regressão por Random Forest, Primeiro, analisamos a quantidade de sinistros que nos fornece a frequência e depois o valor do sinistro que nos fornece a severidade e, assim, analisamos a correlação dessas variáveis com as demais variáveis preditoras, foi utilizado o método de correlação Pearson. Na Figura 4, observamos que a variável valor dos sinistros não possui uma correlação forte com as demais variáveis. Porém, há uma correlação estatisticamente significativa entre a variável tipo com a importância segurada e com a franquia, o que é razoável, pois ambas aumentam ou diminuem de acordo com o tipo do veículo, O sexo tem correlação positiva fraca com a importância segurada e com a franquia, e entre importância segurada e franquia, também se verifica uma correlação forte e positiva e estatisticamente significativa. Figura 4 – Gráficos de Distribuição e Correlação entre as Variáveis Valor dos sinistros Fonte: Dados Associação Na Figura 5 observamos que a variável valor do sinistro e exposição têm uma correlação fraca negativa. Estas correlações observadas têm um p-valor significativo mesmo com uma correlação fraca, que conforme classificação de correlação segundo Dancey e Reidy (2005) assim definem, Classificação de Dancey e Reidy, em |x|, | r = 0, ➔ zero, 0,1 a 0,3 ➔ fraca, 0,4 a 0,6 ➔ moderada, 28 0,7 a 0,9 ➔ forte, 1 ➔ perfeita) | A variável área apresenta outlierspara as regiões capital e região metropolitana em relação ao valor dos sinistros, em relação ao tempo de exposição, as duas regiões tem uma distribuição semelhantes. A da variável ano do modelo, segue distribuição normal. Figura 5 – Gráficos de Distribuição e Correlação Variável Valor dos sinistros, Fonte: Dados Associação Na Figura 6 observamos a correlação quando a variável resposta é a frequência de sinistro. Não há uma correlação significativa entre a variável número de sinistro e as outras variáveis, mas há uma correlação significativa IS e tipo de veículo, franquia e tipo de veículo, franquia e sexo, franquia e IS, e IS e sexo. Figura 6 – Distribuição e Correlação da Variável Frequência de Sinistros Fonte: Dados Associação 29 Quanto à distribuição de probabilidade, a IS e franquia têm uma distribuição próxima da normal, número de sinistros é assimétrica à direita com cauda longa, tipo de veículo também é assimétrica com sua concentração nas extremidades e o núcleo vazio. Na Figura 7 não há correlação significativa entre a variável número de sinistros e as outras variáveis. A variável ano do modelo tem aparentemente uma distribuição normal, enquanto a variável exposição é assimétrica, exibindo cauda longa à esquerda. Essa assimetria da variável tempo de exposição indica que os segurados em sua maioria permanecem com sua cobertura durante toda a janela de análises. Figura 7 – Distribuição e Correlação da Variável Número de sinistros, Fonte: Dados Associação 3.3 Aplicação do Random Forest 3.3.1 Modelo Frequência 1 O conjunto de dados original foi subdividido em dois subconjuntos, com 80% das observações escolhidas aleatoriamente e designadas para o conjunto treino, enquanto os 20% restante foram alocados no conjunto teste. Não foi utilizado nenhum pré- processamento nos dados além da transformação das variáveis categóricas em variáveis dummy, Durante a execução do Random Forest foi utilizada a validação cruzada com 5 folds e a número de varáveis preditoras selecionadas aleatoriamente variando entre 1 e 7, O modelo utilizado com a seguinte composição “NUM_SIN ~ TIPO + SEXO + EST_CIVIL + ANO_MOD_CAT + AREA + IS + FRANQUIA”, pelo método backward onde iniciamos com o modelo cheio e a cada novo ajuste o modelo possui uma variável preditora retirada. O melhor modelo foi o modelo inicial, porém o diagnóstico dos erros 30 da predição indica um RSME 2,75 vezes maior do que o MAE, indicando que a distribuição dos erros preditos não está uniforme, além do R² indicar um baixo percentual de explicação do modelo. Tabela 6 – Métricas do Modelo Frequência 1 mtry RMSE Rsquared MAE 1 0,1791 0,0022 0,0651 2 0,1800 0,0026 0,0648 3 0,1815 0,0028 0,0649 4 0,1829 0,0026 0,0647 5 0,1842 0,0028 0,0648 6 0,1850 0,0030 0,0646 7 0,1860 0,0028 0,0647 RMSE was used to select the optimal model using the smallest value, The final value used for the model was mtry = 1 Fonte: Dados Associação O erro OOB (Out Of Bag) estabilizou a partir de apenas 100 arvores, com um valor do erro próximo a 0,0325 e sem apresentar oscilações significativas até o número final de árvores, de acordo com o Gráfico 1. Gráfico 1 – Taxa de erro Out Of Bag. Fonte: Dados Associação Quanto à importância das variáveis, chama atenção o estado civil viúvo ter importância maior que os estados civis divorciado, solteiro e união estável, também a área interior ter maior importância do que a área região metropolitana. Analisando a partir das Tabelas 2 e 4, onde constatamos que o estado civil viúvo não tem nenhuma ocorrência de sinistro em nenhuma das regiões analisadas, bem como a região interior ter menos de 1% das ocorrências de sinistros e mesmo assim essas ocorrências referem-se ao tipo de sinistros vidros, que é a ocorrência mais comum, por essa razão, acreditamos que essa situação não é razoável. O Gráfico 2 mostra a importância das variáveis no modelo 1 de regressão da frequência de sinistros observada. 31 Gráfico 2 – Importância das Variáveis Modelo Frequência 1 Fonte: Dados Associação Observando os dados, nota-se que a variável resposta NUM_SIN, contém apenas dois resultados, 0 e 1, onde 0 é a não ocorrência de sinistros e 1 é a quantidade de ocorrências de sinistros, o que ocorre é que nos dados da pesquisa não há mais de uma ocorrência por apólice, fazendo a variável aparentemente dicotômica, e conforme Tabela 2, há um desbalanceamento dos dados quanto a essa variável. O Random Forest tem a capacidade de lidar com problemas de small n, large p (problemas que possuem um tamanho amostral pequeno quando comparado ao número de parâmetros a serem estimados), desta forma, realizamos um ajuste, extraindo todas as ocorrências com número de sinistros iguais a 1 e através da função “createDataPartition” extraímos aproximadamente 3% dos dados com número de sinistros iguais a zero de forma proporcional. Reagrupamos os dados com e sem ocorrências de sinistros, gerando uma amostra que resultou com 113 observações e 14 variáveis. 3.3.2 Modelo Frequência 2 Com os dados balanceados nessa amostra, repetimos o processo de regressão com os mesmos parâmetros do primeiro modelo, onde o modelo utilizado foi “NUM_SIN ~ TIPO + SEXO + EST_CIVIL + ANO_MOD_CAT + AREA + IS + FRANQUIA”, nesse modelo, as métricas de RSME é basicamente a mesma do que o MAE, onde o RMSE é apenas 1,104 vezes maior que o MAE, conforme Tabela 7, indicando que o os erros estão uniformemente distribuídos e que não há presença de “outliers” alavancando o modelo, o R² diminui gradativamente a cada mtry e o valor explicado pelo R², apesar de ter melhorado significativamente, ainda é baixo. 32 Tabela 7 – Métricas do Modelo Frequência 2 mtry RMSE Rsquared MAE 1 0,4701 0,2442 0,4658 2 0,4508 0,2314 0,4335 3 0,4383 0,2571 0,4114 4 0,4371 0,2478 0,4037 5 0,4381 0,2404 0,4006 6 0,4389 0,2323 0,3976 7 0,4364 0,2435 0,3952 RMSE was used to select the optimal model using the smallest value. The final value used for the model was mtry = 7. Fonte: Dados Associação O erro OOB (Out Of Bag) estabilizou a partir de apenas 300 árvores, com um valor do erro próximo a 0,211 na última árvore com pequenas oscilações até o número final de árvores, de acordo com o Gráfico 3. Gráfico 3 – Taxa de erro Out Of Bag. Fonte: Dados Associação Chama a atenção a variável SEXO1, que refere-se ao sexo feminino, ter importância de 100% e de acordo com a Tabela 3, o número de sinistros é 4,92% em relação ao sexo feminino, também a variável ÁREA região interior, que aparece com uma importância acima de 12,43 %, e estado civil viúvo com importância de 11,58% , que conforme mencionado no Modelo Frequência 1, onde constatamos que o estado civil viúvo não tem nenhuma ocorrência de sinistro em nenhuma das regiões analisadas e a região interior tem menos de 1% das ocorrências de sinistros e mesmo assim essas ocorrências referem-se ao tipo de sinistros vidros, que é a ocorrência mais comum conforme Tabela 2, essas importâncias ainda consideramos alta, além da variável franquia com apenas 13,30% de importância média, essa importância, intuitivamente, parece não adequada, uma vez que a franquia é um limitador natural do número de ocorrência de sinistros, por esse motivo, acreditamos que essa situação não é razoável. 33 Nesse modelo foram utilizadas 91 amostras e 7 preditores, com 5 folds, reamostragem de validades cruzadas com respectivos tamanhos de 73, 73, 73 ,72 e 73 observações. O resultado pode ser observado no Gráfico 4 bem como na Tabela 8. Gráfico 4 – Importância das Variáveis Modelo Frequência2 Fonte: Dados Associação Tabela 8 – Importância das Variáveis Modelo Frequência 2 Variáveis Percentual Importância SEXO1 100,000 ANO_MOD_CAT5 62,696 AREA1 55,09 ANO_MOD_CAT11 54,02 IS 46,17 ANO_MOD_CAT8 37,13 ANO_MOD_CAT7 33,32 ANO_MOD_CAT9 27,93 ANO_MOD_CAT4 24,21 EST_CIVIL2 20,88 ANO_MOD_CAT1 18,26 ANO_MOD_CAT3 17,77 FRANQUIA 13,13 AREA2 12,43 EST_CIVIL3 12,05 ANO_MOD_CAT14 11,87 EST_CIVIL4 11,58 ANO_MOD_CAT13 11,58 ANO_MOD_CAT10 11,12 TIPO1 7,95 Fonte: Dados Associação 3.3.3 Modelo Frequência 3 Assim, realizamos uma transformação nos dados, aplicando a função PCA, sigla em inglês para Principal Components Analysis, ou simplesmente Análise de Componentes Principais. Essa transformação, através da combinação linear das variáveis, realiza um procedimento matemático que utiliza uma transformação ortogonal dos 34 vetores. Ao final, o número de componentes principais é sempre menor ou igual ao número de variáveis originais. Depois de obtidas as direções principais da variabilidade dos dados, temos as seguintes opções: • Reduzir a dimensionalidade dos dados • Capturar padrões básicos na amostra • Limpar o ruído dos dados • Compressão de informação Uma boa redução dos dados ocorre quando a variabilidade “útil” dos dados é capturada dentre as componentes selecionadas, existem diversas maneiras de escolhermos as componentes importantes i) Manter uma certa proporção (digamos 80%) da variância nos dados ii) Manter as componentes cujo λ está acima de algum valor (a média, por exemplo) iii) Criar um cutoff a partir da área plana do gráfico iv) Testar a significância de uma direção v) Métodos de reamostragem para atingir a estabilidade das direções NUNES, Marcus. Disponível em:< https://introbigdata,org/> Acesso em: 12 de agosto 2021. Através da análise no Gráfico 5, após a transformação PCA é possível visualizar que 74,35% da variância do total dos dados é explicada da dimensão PC1 até a PC4. Gráfico 5 – Variância Explicada PCA. Fonte: Dados Associação No Gráfico 6, as variáveis franquia e IS estão próximas, e tem uma correlação entre elas que contribuem mais significativamente na 1ª dimensão, as variáveis número de sinistros, valor dos sinistros, tipo de sinistro, sexo, área, ano do modelo e tipo de https://introbigdata.org/ 35 veículo contribuem menos significativamente na 2º dimensão e há uma correlação entre elas. Gráfico 6 – Contribuição das Variáveis Fonte: Dados Associação Quando transformado os dados com a PCA, rodamos novamente o modelo ajustado, “NUM_SIN ~ TIPO + SEXO + EST_CIVIL + ANO_MOD_CAT + AREA + IS + FRANQUIA”, com um conjunto de treino utilizando 80% das observações e o teste com o complementar, foram utilizadas 91 amostras e 7 preditores, com 5 folds de reamostragem de validação cruzadas com respectivos tamanhos de 73, 73, 73 ,72 e 73 observações, e avaliamos que as métricas de RSME é proporcionalmente 1,076 vezes o MAE, indicando que a distribuição dos erros está uniforme, conforme Tabela 9, o percentual explicativo do modelo R² melhorou, mas continua baixo. Tabela 9 – Métrica Modelo Frequência 3 mtry RMSE Rsquared MAE 1 0,4760 0,2599 0,4705 2 0,4584 0,2508 0,4371 3 0,4538 0,2325 0,4215 4 0,4563 0,2238 0,4139 5 0,4563 0,2245 0,4101 6 0,4605 0,2194 0,4101 7 0,4605 0,2178 0,4074 8 0,4657 0,2106 0,4103 9 0,4658 0,2116 0,4085 10 0,4657 0,2139 0,4061 11 0,4657 0,2116 0,4056 12 0,4675 0,2094 0,4057 RMSE was used to select the optimal model using the smallest value. 36 The final value used for the model was mtry = 3. Fonte: Dados Associação De maneira geral, o RMSE decai nas três primeiras variáveis e crescem com o aumento do número de variáveis aleatórias candidatas em cada divisão dos nós. Gráfico 7 Fonte: Dados Associação A taxa de erros “Out Of Bag”, tem uma variação mais acentuada até atingir as primeira 370 árvores, acima desse valor, há uma estabilização média com pequenas oscilações, inicialmente com tendência de queda mas estabilizando entre 400 e 500 árvores, o Gráfico 8 apresenta uma taxa próxima a 0,20, em um total de 505 árvores. Gráfico 8 – Taxa de erro Out Of Bag. Fonte: Dados Associação No Gráfico 9, temos o percentual médio das variáveis mais importantes pelo método de regressão do Random Forest. O resultado é aparentemente coerente com a distribuição das observações, as métricas analisadas demonstram que o modelo ajustado 37 tem um comportamento adequado, mas, o R² continua baixo, que indica baixo percentual explicativo do modelo, algumas variáveis que se destacam pela importância é a IS, franquia, sexo feminino, e a região metropolitana. Gráfico 9 – Importância das Variáveis Modelo Frequência 3 Fonte: Dados Associação Na Tabela 10, temos a importância percentual das variáveis riscos, o modelo é apropriado e suas regressão condiz com as análises dos dados pesquisado, mas o R² mantem um baixo percentual explicativo do modelo. Tabela 10 – Importância das Variáveis Modelo Frequência 3 Variável Percentual IS 100,00 FRANQUIA 81,33 SEXO1 55,01 AREA1 40,22 ANO_MOD_CAT5 30,34 ANO_MOD_CAT11 25,20 ANO_MOD_CAT9 17,68 ANO_MOD_CAT7 17,19 EST_CIVIL3 14,54 EST_CIVIL2 13,17 ANO_MOD_CAT3 12,19 ANO_MOD_CAT1 11,74 TIPO1 11,08 ANO_MOD_CAT8 9,78 ANO_MOD_CAT4 9,07 ANO_MOD_CAT10 9,02 ANO_MOD_CAT6 8,83 EST_CIVIL1 7,81 ANO_MOD_CAT2 6,01 AREA2 5,94 Fonte: Dados Associação No Gráfico 10, os valores preditos comparado com os valores originais entre os conjuntos treino e teste, observamos que a predição é razoável com metade dos dados menor que 0,5 e outra metade acima desse valor, isto porque, considerando que na 38 regressão por Random Forest o resultado é apresentado pela média, deste modo, como a variável é 0 para a não ocorrência de sinistros e 1 para ocorrência, não é possível obter uma predição com resultados 0 e 1, assim, analisamos que os pontos preditos próximos de 0, representam a não ocorrência de sinistros e os mais próximos a o número 1, como ocorrência, os pontos situados mais próximos de 0,5 consideramos como possíveis erros de predição. Gráfico 10 – Predição Variável Número de Sinistros Fonte: Dados Associação A importância da variável estado civil divorciado é significativa quando levamos em consideração que na amostra, a frequência de sinistros com esse status é 10,71% em relação ao número de sinistros ocorridos, conforme Tabela 10.1 e de apenas 0,40% em relação ao total de observações do banco de dados. Tabela 10.1 Frequência de sinistros para variável estado civil divorciado na amostra. Estado civil Não sinistro Sinistro Casado (0) 29 21 União estável (1) 4 5 Divorciado (2) 2 6 Solteiro (3) 21 24 Viúvo (4) 1 0 Realizamos um teste de hipóteses assintótico para proporção, bilateral a esquerda, onde a estatística do teste é a média obtida na regressão e a distribuição de Bernoulli é utilizada nessa estatística em que pelo teorema central do limite: �̂�~𝑁 (𝑝 𝑝(1 − 𝑝) 𝑛 ) E sob a hipóteses nula �̂�~𝑁 (𝑝0 𝑝0(1 − 𝑝0) 𝑛 ) 39 onde determinamos que: 𝐻0: 𝑝 ≥ 0,1317 Ou seja, a importância média é igual ou superior a 13,77% 𝐻1: 𝑝 < 0,1317 A importância média é inferior a 13,77% Fixado o nível de significância de 5% não rejeitamos a hipótese de que a importância média seja igual ou superior a 13,77%. Concluímos assim que para o modelo “NUM_SIN ~ TIPO + SEXO + EST_CIVIL + ANO_MOD_CAT + AREA + IS + FRANQUIA”, o melhor resultado obtido foi quando da transformação dos dados numéricos em uma PCA, contudo, o R² indica que o modelo é explicado em apenas 23,25%, desta forma, calculamos o R² também no conjunto de teste e comparamos os resultados, que apresentamos na Tabela 12. Tabela 11 – Comparativo do R² entre o conjunto de treino e testemtry Rsquared_treino Rsquared_teste Mínimo 0,2094 0,1889 1º Quartil 0,2116 0,2234 Mediana 0,2186 0,2294 Média 0,2238 0,2332 3º Quartil 0,2265 0,2449 Máximo 0,2599 0,2725 Fonte: Dados Associação A comparação entre o R² do treino e teste, apresentou uniformidade e similaridade nos valores, o desvio padrão médio de entre eles é de 0,0129, concluímos assim que esse é o melhor ajuste. 3.3.4 Modelo Severidade 1 Concluído o ajuste do modelo com a variável resposta número de sinistros, modelamos na sequência o modelo com a variável resposta para o valor dos sinistros, que na prática revela a importância média das variáveis de riscos na severidade dos sinistros. Inicialmente rodamos o modelo pelo método "backward", iniciando com o modelo “VALOR_SIN ~ TIPO + SEXO + EST_CIVIL + ANO_MOD_CAT + AREA + IS + FRANQUIA”, e ao final, esse foi o melhor modelo, porém, assim como no modelo frequência 1, houve incoerência nos resultados, onde as variáveis área 2, interior e estado civil viúvo apresentam uma importância incoerente com as observações analisadas na Tabela 4. O modelo tem 1597 amostras e 7 variáveis preditoras, sem pré-processamento, com validação cruzada em 5 folds. O resultado da reamostragem em parâmetros de ajuste é apresentado na Tabela 12. Tabela 12 - Métrica Modelo Severidade 1 Mtry RMSE Rsquared MAE 1 1088,18 0,0015 266,88 40 2 1100,11 0,0016 268,46 3 1117,23 0,0014 268,01 4 1134,78 0,0014 271,20 5 1142,94 0,0014 269,78 6 1149,60 0,0010 269,80 7 1164,10 0,0008 275,69 RMSE was used to select the optimal model using the smallest value. The final value used for the model was mtry = 2. Fonte: Dados Associação A Tabela 12 mostra que as métricas de RSME é proporcionalmente 4,077 vezes o MAE, indicando que a distribuição dos erros não está uniforme. O Gráfico 11 apresenta a variável de risco área 2 que refere-se a área interior do Estado, com importância de aproximadamente 51% e a variável de risco estado civil 4 que refere-se a condição de viúvo, com importância de aproximadamente 82%, igualmente no modelo de frequência 1, e de acordo com as Tabelas 2 e 4, a frequência dessas variáveis são irrelevantes ao ponto de apresentarem uma importância alta como no resultado da regressão e acreditamos não ser coerente esse resultado. Gráfico 11 – Importância das Variáveis Modelo Severidade 1 Fonte: Dados Associação 3.3.5 Modelo Severidade 2 Após o Modelo Severidade 1, utilizamos o banco balanceado para o Modelo de Severidade 2, tal qual utilizamos para o Modelo Frequência 2. O modelo com 91 amostras e 7 variáveis preditoras, sem pré-processamento, com validação cruzada em 5 folds. O resultado da reamostragem em parâmetros de ajuste na Tabela 13 é apresentado. Tabela 13 - Métrica Modelo Severidade 2 Mtry RMSE Rsquared MAE 1 0,4847 0,1626 0,4814 41 2 0,4732 0,1444 0,4591 3 0,4764 0,1185 0,4515 4 0,4787 0,1069 0,4474 5 0,4821 0,0994 0,4482 6 0,4876 0,0905 0,4502 7 0,4903 0,0840 0,4510 RMSE was used to select the optimal model using the smallest value. The final value used for the model was mtry = 2. Fonte: Dados Associação O resultado mostra uma relação RMSE e MAE em 1,03 vezes, o que indica que a distribuição dos erros está uniforme, o R² diminui a cada mtry, ou seja, o percentual explicativo do modelo diminui gradativamente. O erro OOB (Out Of Bag) estabilizou a partir de apenas 200 árvores, com um valor do erro próximo a 0,225 na última árvore e com oscilações até atingir o número final de árvores, de acordo com o Gráfico 12. Gráfico 12 – Taxa de erro Out Of Bag, Fonte: Dados Associação O Gráfico 13 apresenta a variável de risco área 2 que refere-se a área interior do Estado, com importância de aproximadamente 56% e a variável de risco estado civil 4 que refere-se a condição de viúvo, com importância de aproximadamente 19%, e de acordo com a Tabela 4, essas duas variáveis tem uma frequência irrelevante o que não é coerente ter uma importância tão relevante como resultado da regressão. 42 Gráfico 13 - Importância das Variáveis Modelo Severidade 1 Fonte: Dados Associação Na Tabela 14, a importância das variáveis no Modelo de Severidade 2 é apresentado. Tabela 14 - Importância das Variáveis Modelo Severidade 2 Variável Percentual EST_CIVIL2 100,000 ANO_MOD_CAT11 95,172 ANO_MOD_CAT5 91,461 SEXO1 65,834 IS 59,761 ANO_MOD_CAT4 57,441 ANO_MOD_CAT14 56,972 AREA2 56,585 ANO_MOD_CAT12 46,372 FRANQUIA 42,934 TIPO1 40,059 ANO_MOD_CAT7 37,558 AREA1 33,702 EST_CIVIL3 29,018 ANO_MOD_CAT1 27,956 ANO_MOD_CAT3 26,192 ANO_MOD_CAT13 19,071 EST_CIVIL4 19,071 ANO_MOD_CAT2 9,864 ANO_MOD_CAT10 5,582 Fonte: Dados Associação 3.3.6 Modelo Severidade 3 Desta forma utilizamos a transformação PCA e aplicamos o modelo ajustado nos dados transformados. O modelo tem 91 amostras e 7 preditores, com validação cruzada em 9 folds e os tamanhos de amostra foram de 82, 80, 82, 81, 80 e 80 respectivamente. 43 A Tabela 15 mostra que as métricas de RSME é proporcionalmente 1,30 vezes o MAE, indicando que a distribuição dos erros está uniforme, o R² indica um baixo percentual explicado no modelo. Tabela 15 - Métrica Modelo Severidade 3 Mtry RMSE Rsquared MAE 1 3743 0,2158 2892 2 3726 0,1911 2861 3 3759 0,1789 2856 4 3818 0,1696 2881 5 3820 0,1718 2865 6 3864 0,1587 2878 7 3894 0,1614 2884 8 3919 0,1456 2874 9 3939 0,1469 2877 10 3943 0,1540 2874 RMSE was used to select the optimal model using the smallest value. The final value used for the model was mtry = 2. Fonte: Dados Associação O Gráfico 14, revela que o RMSE e o MAE, após as duas primeiras variáveis, crescem com o aumento do número de variáveis amostradas aleatoriamente como candidatas em cada divisão dos nós. Gráfico 14 – Distribuição RMSE das variáveis aleatórias preditoras Fonte: Dados Associação O Gráfico 15, apresenta uma estabilização no OOB “Out Of Bag” após 400 árvores com pequenas oscilações. 44 Gráfico 15 – Taxa de erro Out Of Bag Fonte: Dados Associação No Gráfico 16, observamos que os valores dos sinistros preditos estão abaixo dos valores originais, esse resultado pode ser atribuído ao formato de regressão do Random Forest que prevê a média da importância das variáveis preditoras, o que justifica que a predição apresente esse resultado, porém esse resultado é coerente em sua forma e relação positiva, há uma concentração na origem do eixo “x” que representa os dados em que não houve despesas de sinistros, ou seja, são as observações sem ocorrência de sinistros ou com ocorrência sem indenização. Gráfico 16 – Predição Variável Valor dos Sinistros Fonte: Dados Associação No Gráfico 17, apresentamos o resultado do Modelo Severidade 3, transformado com a PCA, em que a média percentual de importância das variáveis preditoras se mostram coerentes. 45 Gráfico 17 – Importância das Variáveis Modelo Severidade 3 Fonte: Dados Associação Na Tabela 16, é possível analisar a importância atribuída a cada variável. Apenas três variáveis têm mais de 50% de importância, são elas a IS, franquia e estado civil divorciado, para nossa pesquisa, todas as importâncias das variáveis de riscos são necessárias na precificação, como pode ser demonstrado na aplicação da tabela de precificação do prêmio calculado conforme Tabela 22. Tabela 16 – Importância das Variáveis Modelo Severidade 3 Variável Percentual IS 100,00 FRANQUIA 96,60 EST_CIVIL2 81,32 ANO_MOD_CAT9 29,47 ANO_MOD_CAT11 26,94 AREA1 19,61 ANO_MOD_CAT12 19,36 TIPO1 17,91 EST_CIVIL3 17,12 ANO_MOD_CAT5 15,87 ANO_MOD_CAT3 12,61 ANO_MOD_CAT7 11,43 ANO_MOD_CAT10 9,04 ANO_MOD_CAT1 7,25 SEXO1 5,99ANO_MOD_CAT8 5,95 ANO_MOD_CAT6 5,95 ANO_MOD_CAT2 3,91 EST_CIVIL1 3,81 ANO_MOD_CAT14 3,72 Fonte: Dados Associação Concluímos que para o modelo “VALOR_SIN ~ TIPO + SEXO + EST_CIVIL + ANO_MOD_CAT + AREA + IS + FRANQUIA”, o melhor resultado obtido foi quando aplicado o conjunto com a transformação dos dados numéricos em uma PCA. 46 3.3.7 Análise dos Modelos Ajustados Na Tabela 17, demonstramos um comparativo entre os seis modelos ajustados, na frequência de sinistros o melhor ajuste foi encontrado no Modelo Frequência 3 e em relação a severidade dos sinistros o melhor ajuste foi no Modelo Severidade 3, as colunas F1, F2 e F3, representam os modelos de Frequência 1,2 e 3 respectivamente, de maneira análoga, as colunas S1, S2 e S3, para Severidade 1,2 e 3. A coluna SD_L representa o desvio padrão calculado por variável para os 6 modelos e a coluna SD_M, contém o desvio padrão calculado entre o melhor ajuste da frequência e da severidade. Tabela 17 – Comparativo entre os Modelos Frequência e Severidade. Variável F1 F2 F3 S1 S2 S3 SD_L SD_M ANO_MOD_CAT1 61,00 18,26 11,74 100,00 27,956 7,25 36,05 3,17 ANO_MOD_CAT2 53,00 0,00 6,01 76,00 9,864 3,91 31,76 1,48 ANO_MOD_CAT3 25,00 17,77 12,19 0,00 26,192 12,61 9,69 0,30 ANO_MOD_CAT4 34,00 24,21 9,07 66,00 57,441 0,00 26,14 6,41 ANO_MOD_CAT5 93,50 62,70 30,34 67,50 91,461 15,87 31,63 10,23 ANO_MOD_CAT6 40,00 0,00 8,83 56,00 0,00 5,95 23,68 2,04 ANO_MOD_CAT7 12,00 33,32 17,19 62,50 37,558 11,43 19,76 4,07 ANO_MOD_CAT8 37,50 37,13 9,78 53,00 0,00 5,95 21,45 2,71 ANO_MOD_CAT9 15,50 27,93 17,68 35,00 0,00 29,47 12,63 8,34 ANO_MOD_CAT10 0,00 11,12 9,02 40,00 5,582 9,04 14,05 0,01 ANO_MOD_CAT11 8,50 54,02 25,20 34,00 95,172 26,94 30,52 1,23 ANO_MOD_CAT12 38,50 0,00 0,00 63,50 46,372 19,36 25,89 13,69 ANO_MOD_CAT13 64,00 11,58 0,00 88,00 19,071 0,00 36,82 0,00 ANO_MOD_CAT14 24,50 11,87 0,00 17,50 56,972 3,72 20,59 2,63 AREA1 35,00 55,09 40,22 75,00 33,702 19,61 19,37 14,57 AREA2 53,00 12,43 5,94 51,00 56,585 0,00 26,32 4,20 EST_CIVIL1 74,00 0,00 7,81 35,00 0,00 3,81 29,50 2,83 EST_CIVIL2 63,00 20,88 13,17 55,00 100 81,32 33,75 48,19 EST_CIVIL3 18,00 12,05 14,54 36,00 29,018 17,12 9,33 1,82 EST_CIVIL4 94,50 11,58 0,00 80,00 19,071 0,00 41,98 0,00 FRANQUIA 100,00 13,13 81,33 98,00 42,934 96,6 35,95 10,80 IS 80,00 46,17 100,00 90,00 59,761 100 22,14 0,00 SEXO1 72,00 100,00 55,01 73,00 65,834 5,99 31,20 34,66 TIPO1 87,50 7,95 11,08 79,50 40,059 17,91 35,12 4,83 Fonte: Dados Associação A média da coluna SD_L é de 26,05 enquanto a média da coluna SD_M é de 7,43 a variação entre essas médias dos modelos ajustados e não ajustados é 3,5 vezes. As variáveis IS e franquia tem as maiores importância média nos dois modelos, o estado civil divorciado tem uma importância média na severidade de 48,19% e de acordo com a Tabela 4, esse status tem a maior frequência média, o número de divorciados é apenas 3,9% do total da amostra. 47 Entre os modelos de frequência de sinistros ajustado, o Modelo Frequência 3, tem a melhor relação entre a razão do RMSE e o MAE, entre os modelos de severidade ajustados, o Modelo Severidade 2 tem a melhor relação, como podemos observar na Tabela 18. Tabela 18 – Comparativo RMSE e MAE MODELO RMSE MAE RMSE/MAE F1 0,1791 0,0651 2,75 F2 0,4364 0,3952 1,10 F3 0,4538 0,4215 1,08 S1 1100,11 268,46 4,10 S2 0,4732 0,4591 1,03 S3 3726,00 2861,00 1,30 Fonte: Dados Associação Concluímos assim, a aplicação do método de regressão por Random Forest nos dados analisados em nossa pesquisa. O resultado da regressão aplicado na experiência de precificação contribuiu significativamente para o desenvolvimento do trabalho e a aplicação do método PCA na amostra teve o melhor desempenho no ajuste entre os três modelos de frequência e os três modelos de severidade. 3.4 Precificação Prêmio Puro 3.4.1 Prêmio de Risco e Prêmio Puro O prêmio de risco coletivo é a soma das indenizações no período de analise, em nossa pesquisa há uma variável aleatória denominada SIN_TIP, que reúne os tipos de sinistros passiveis de indenizações que são roubo, acidentes, vidros e incêndio, no modelo de precificação desenvolvido, calculamos o prêmio de risco E[S] e prêmio puro E[S](1+θ) para cada uma dessas variáveis, para efeito de cálculo, arbitrariamente definimos θ = 0,2 como carregamento de segurança, o θ a ser escolhido arbitrariamente depende da aversão ao risco, e nessa pesquisa, levamos também em consideração o desvio padrão do valor médio da despesas de sinistro. O valor do prêmio puro para cada uma das variáveis é apresentado na Tabela 19. Tabela 19 – Prêmio Puro Coletivo Variável Prêmio de Risco E[S] Prêmio Puro E[S](1+ θ) Roubo 167670,48 201204,58 Acidentes 54035,22 64842,26 Vidros 4535,00 5442,00 Incêndio 5137,51 6165,01 Fonte: Dados Associação O tempo de exposição individual é definido pelo número de dias vigentes dentro da janela de observação, que no nosso caso, é o período por apólices é de 365 dias. 48 Podemos definir a exposição individual como uma taxa feita pela razão entre os dias vigentes na janela de observação de cada apólice pelo total do período, ou seja, 365 dias. Em nossa pesquisa, calculamos a taxa pura anual, que assim é definida por Ferreira (2002, p,5) 𝐸[𝑆](1 + 𝜃) 𝑇𝑜𝑡𝑎𝑙 𝐼𝑆 𝑒𝑥𝑝𝑜𝑠𝑡𝑎 Assim, a IS exposta individual é encontrada pela razão da IS sobre a exposição individual, definido o prêmio puro coletivo E[S](1+θ), e a IS exposta individual, encontramos a taxa pura anual, conforme apresentado na Tabela 20. Tabela 20 – Taxa Pura Anual TIPO E[S](1+θ) IS exposta Taxa Pura Anual Roubo 201204,58 14069539 0,0143 Acidentes 64842,26 14069539 0,0046 Vidros 5442 9054036 0,0006 Incêndio 6165,01 14069539 0,0004 Fonte: Dados Associação A partir da Tabela 20, é possível obter o prêmio puro individual anual para cada tipo de variável de risco, fazendo o produto da taxa pura anual pela IS exposta, como exemplo, hipoteticamente um veículo com IS exposta no valor de R$ 11.340,00 que representa a IS média na amostra, temos um prêmio puro individual anual conforme Tabela 21. Tabela 21 – Prêmio Puro Individual Anual TIPO Taxa Pura Anual IS exposta Prêmio Puro Roubo 0,0143 11.340,00 162,16 Acidentes 0,0046 11.340,00 52,16 Vidros 0,0006 11.340,00 6,80 Incêndio 0,0004 11.340,00 4,97 Prêmio Puro Total 225,66 Fonte: Dados Associação Pelo método dos sinistros agregados, utilizando o princípio do valor esperado E[S], Podemos calcular o prêmio puro a partir dos dados da Associação simplesmente fazendo o produto da taxa pura anual pela importância segurada, para encontrar o prêmio comercial individual anual, basta definir o valor percentual do carregamento e fazer a razão conforme assim definido; Prêmio Comercial Anual = E[S](1+θ) (1−𝛼) , onde α é o carregamento aplicado, Porém, nosso objetivo é precificar o prêmio puro individual anual e cada associado tem seu perfil próprio e veículos diferentes, nesse ponto, utilizamos o resultado da regressão pelo método de Random Forest para obter a precificação para cada perfil de cada associado hipotético. 49 O modelo desenvolvido para o cálculo conforme o perfil do associado é um modelo multiplicativo, onde o valor do prêmio puro individual anual por tipo de risco é multiplicado pelo produto entre a importância de cada variável de risco na sua severidade média e na sua frequência média, que assim definimos; Prêmio Puro por Variável de Risco = ((1 + (𝐹𝑖, 𝑆𝑖), 𝑃𝑝𝑖), onde, 𝐹𝑖 é a frequência na variável de risco y, 𝑆𝑖 é a severidade na variável de risco y, 𝑃𝑝𝑖 é o prêmio puro anual individual na variável de risco y. Na Tabela 22, apresentamos o resultado do cálculo do prêmio puro anual por importância média para cada variável de risco, é importante observar que os valores dispostos nas colunas Frequência e Severidade representam a
Compartilhar