AplicacaoMachineLearning-Farias-2021

•
Humanas / Sociais

Estude com artigos
06/05/2023
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Trabalho de Conclusão de Curso - TCC

96.255 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE 
CENTRO DE CIÊNCIAS EXATAS E DA TERRA 
DEPARTAMENTO DE DEMOGRAFIA E CIÊNCIAS ATUARIAIS 
 
MONOGRAFIA 
 
 
 
TADEU AMORIM FARIAS 
 
 
 
 
 
APLICAÇÃO DE MACHINE LEARNING EM SEGUROS DE AUTOS 
 
 
 
 
 
 
 
 
 
 
 
NATAL 
2021 
 
 
 
 
TADEU AMORIM FARIAS 
 
MERCADO DE SEGUROS E ASSOCIAÇÕES DE PROTEÇÃO VEICULAR 
PRECIFICAÇÃO DE SEGUROS DE AUTOS 
MÉTODOS E ANALOGIA 
 
 
 
 
 
 
Monografia apresentada ao Curso de graduação em 
Ciências Atuariais da Universidade Federal do Rio 
Grande do Norte como requisito parcial à obtenção 
do título de Bacharelado em Ciências Atuariais. 
 
Orientadora: Professora Jordana Cristina de Jesus 
Coorientador: Professor Marcus Alexandre Nunes 
 
 
 
 
 
 
 
 
 
 
NATAL 
2021 
 
 
 
 
TADEU AMORIM FARIAS 
 
 
 
 
 
 Universidade Federal do Rio Grande do Norte - UFRN 
Sistema de Bibliotecas - SISBI 
Catalogação de Publicação na Fonte. UFRN - Biblioteca Setorial Prof. Ronaldo Xavier 
de Arruda - CCET 
 
 Farias, Tadeu Amorim. 
 Aplicação de Machine Learning em seguros de autos / 
Tadeu Amorim Farias. - 2021. 
 52f.: il. 
 
 Monografia (Bacharelado em Ciências Atuariais) - 
Universidade Federal do Rio Grande do Norte, Centro de 
Ciências Exatas e da Terra, Departamento de Demografia e 
Ciências Atuariais. Natal, 2021. 
 Orientadora: Profa. Dra. Jordana Cristina de Jesus. 
 Coorientador: Prof. Dr. Marcus Alexandre Nunes. 
 
 
 1. Risco - Monografia. 2. Prêmio - Monografia. 3. 
Sinistros - Monografia. 4. Machine Learning - Monografia. 
5. Random Forest - Monografia. I. Jesus, Jordana Cristina 
de. II. Título. 
 
RN/UF/CCET CDU 
368.025.6 
 
 
 
 
 
Elaborado por Joseneide Ferreira Dantas - CRB-15/324 
 
 
 
APLICAÇÃO DE MACHINE LEARNING EM SEGUROS DE AUTOS 
MERCADO DE SEGUROS E ASSOCIAÇÕES DE PROTEÇÃO VEICULAR 
PRECIFICAÇÃO DE SEGUROS DE AUTOS 
MÉTODOS E ANALOGIA 
 
Monografia apresentada ao curso de 
graduação em Ciências Atuariais, da 
Universidade Federal do Rio Grande do 
Norte, como requisito parcial à obtenção 
do título de Bacharel em Ciências 
Atuariais. 
 
 
Aprovada em 10 de setembro de 2021 
 
BANCA EXAMINADORA 
 
______________________________________ 
Profa. Dra. Jordana Cristina de Jesus 
Orientadora 
UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE 
 
______________________________________ 
Prof. Dr. Marcus Alexandre Nunes 
Coorientador 
UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE 
 
______________________________________ 
Prof. Dr. Flávio Henrique Miranda de Araújo Freire. 
Membro Interno 
UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Dedico essa monografia aos meus Pais Josa 
(in memoriam) e Socorro, a minha esposa 
Vanusa e aos meus filhos Débora, Matheus 
e Rafael e a minha nora Andréa, aos meus 
irmão, irmãs e toda minha família, bem 
como aos meus orientadores Professora 
Jordana Cristina e Marcus Nunes, a todos os 
Professores da UFRN, as amigas e amigos 
do trabalho, da universidade e da vida. 
 
 
 
 
 
6 
 
RESUMO 
 
Aplicação De Machine Learning Em Seguros De Autos 
O presente trabalho tem por objetivo precificar o valor do prêmio de seguro de 
uma associação de proteção veicular utilizando a abordagem de Machine Learning 
através dos algoritmos de Random Forest, Bootstrap aggregating com a aplicação da 
regressão por Random Forest. As principais métricas de avaliação dos resultados da 
aplicação da regressão por Random Forest foram o RSME, MAE e análises gráficas, 
também foram empregadas as técnicas de transformação dos dados e Análises de 
Componentes Principais, PCA. Duas variáveis respostas foram utilizadas para dois 
modelos diferentes, a primeira foi a variável referente a ocorrência de sinistros, que 
resulta na importância média das variáveis preditoras quanto a frequência de sinistros 
e a segunda foi variável referente a indenização dos sinistros, seu resultado trás 
importância média das variáveis preditoras quanto a severidade dos sinistros. 
O método de precificação da sinistralidade esperada foi utilizado para obtenção 
do valor do prêmio de risco coletivo e para o prêmio puro coletivo, o prêmio puro 
coletivo foi utilizado como parâmetro para o cálculo do prêmio puro individual anual, 
foi calculado o prêmio individual anual para cada risco a partir da importância das 
variáveis de risco obtidas pelo método de regressão por Random Forest e de posse 
desses valores, calculamos o prêmio individual anual para perfis diferentes com o 
mesmo valor da importância segurada, assim, foi possível fazer uma avaliação do 
método aplicado. 
 
Palavras Chave: Risco, Prêmio, Sinistros, Machine Learning, Random Forest. 
 
 
 
 
 
 
 
7 
 
ABSTRACT 
Machine Learning Application in Auto Insurance 
The present work aims to price the insurance premium value of a vehicle protection 
association using the Machine Learning approach through the Random Forest 
algorithms, Bootstrap aggregating with the application of the Random Forest regression. 
The main metrics for evaluating the results of the application of regression by Random 
Forest were RSME, MAE and graphical analysis, data transformation techniques and 
Principal Component Analysis, PCA were also used. Two response variables were used 
for two different models, the first was the variable referring to the occurrence of claims, 
which results in the average importance of the predictor variables regarding the 
frequency of claims and the second was the variable referring to the indemnity of claims, 
its result showing average importance predictor variables as to the severity of claims. 
The expected loss ratio pricing method was used to obtain the value of the 
collective risk premium and for the collective pure premium, the collective pure premium 
was used as a parameter to calculate the annual individual pure premium, the annual 
individual premium was calculated for each risk from the importance of the risk variables 
obtained by the Random Forest regression method and having these values, we calculated 
the individual annual premium for different profiles with the same value of the insured 
amount, thus, it was possible to make an evaluation of the applied method. 
 
Keywords: Risk, Prize, Claims, Machine Learning, Random Forest. 
 
8 
 
ÍNDICE 
1- Introdução ................................................................................................. 8 
1.1 -A história do seguro .......................................................................... 8 
1.2-Associações de Proteção Veicular ..................................................... 9 
1.3 - Problema............................................................................................ 12 
1.4 – Hipótese............................................................................................. 13 
1.5 - Objetivo............................................................................................. 13 
2- Fundamentação Teórica .......................................................................... 14 
2.1- Aprendizado de máquina ................................................................. 14 
2.2- Árvore de decisão .............................................................................. 14 
2.3- Random Forest .................................................................................. 15 
2.4- Classificação das variáveis ............................................................... 18 
2.5- Precificação ....................................................................................... 19 
2.5.1- Prêmio Puro a partir do histórico de sinistro agregado ............. 19 
2.5.2- Prêmio puro individual anual .......................................................20 
2.5.3- Exposição agregada ....................................................................... 20 
2.5.4- Sinistralidade ................................................................................. 20 
3- Metodologia ............................................................................................... 21 
3.1- Tratamento banco de dados ............................................................ 21 
3.2- Análises Descritiva ............................................................................ 22 
3.2.1- Análises Correlação........................................................................ 26 
3.3- Aplicação do Random Forest ........................................................... 28 
3.3.1- Modelo Frequência 1 ..................................................................... 28 
3.3.2- Modelo Frequência 2 ..................................................................... 30 
3.3.3- Modelo Frequência 3 ..................................................................... 32 
3.3.4- Modelo Severidade 1 ..................................................................... 38 
3.3.5- Modelo Severidade 2 ..................................................................... 39 
3.3.6- Modelo Severidade 3 ..................................................................... 41 
3.3.7 Analise dos Modelos Ajustados....................................................... 45 
3.4- Precificação Prêmio Puro ................................................................. 46 
3.4.1- Prêmio de Risco e Prêmio Puro .................................................... 46 
4- Conclusão .................................................................................................. 51 
5- Referências ................................................................................................ 52 
1 INTRODUÇÃO 
9 
 
 
1.1 A história do seguro 
A prática de mutualidade, um dos fundamentos da atividade seguradora, é tão 
antiga quanto a civilização. Há registro que data de 2250 a.C sobre um modelo rudimentar 
de contrato de seguro entre condutores de caravanas da Mesopotâmia para proteção das 
perdas de animais usados no transporte. O foenus nauticus – empréstimo marítimo a risco 
– era praticado entre gregos, fenícios e romanos, com o objetivo de cobrir os riscos para 
cargas lançadas ao mar em situação de perigo (CNSEG, 2019). 
Já na Idade Média, organizou-se a proteção coletiva em termos de socorros 
mútuos. Desde então, a Igreja Católica reconhece a importância do solidarismo que se 
articula em torno das formas de mutualidade. O Papa Leão X no século 16 refere-se à 
atividade seguradora (lato sensu) de proteção como assistência moralmente 
recomendável, dando um caráter social a prática do mutualismo (CNSEG, 2019) 
A mutualidade chegou ao Brasil nas primeiras décadas após o desembarque dos 
Portugueses em nosso País. O seguro e a previdência foram criação de jesuítas, e em 
especial do Padre José de Anchieta. A regulamentação mais remota da atividade 
seguradora data de 1791, quando foram promulgadas as “Regulações da Casa de Seguros 
de Lisboa”, que foram mantidas em vigor até a Proclamação da Independência, em 1822. 
Anos antes, em 1808, com a abertura dos portos brasileiros, teve início a exploração de 
seguros marítimos, através da Companhia de Seguros Boa Fé, sediada na Bahia. Foi a 
primeira seguradora a funcionar no país. 
A fiscalização da atividade seguradora teve início em 1831, com a instituição da 
Procuradoria de Seguros das Províncias Imperiais, que ainda atuava com base em leis 
portuguesas. Embora o Código Comercial de 1850 só definisse normas para o setor de 
seguros marítimos, em meados do século 19 muitas seguradoras conseguiam aprovar seus 
estatutos e davam início à operação de outros ramos de seguros elementares, e também o 
de vida. Em 1895, as empresas estrangeiras passam a ser supervisionadas com base em 
legislação nacional. Finalmente, em 1901, com a edição do Decreto 4.270 (Regulamento 
Murtinho), é criada a Superintendência Geral de Seguros, subordinada ao Ministério da 
Fazenda. Sua missão era estender a fiscalização a todas as seguradoras que operavam no 
país 
 
 
10 
 
Silva e Lamon (2013) afirmam que em 1916, com a Lei nº 3.071, foram fixados 
os princípios essenciais do contrato de seguro e disciplinados os direitos e obrigações das 
partes contratantes. Desde então, o mercado de seguros, em especial o de veículos 
automotores, denominado seguro do casco1, cresceu exponencialmente, acompanhando o 
crescimento da indústria automobilística e o consumo de veículos no mercado nacional. 
Atualmente, o mercado de seguro de autos no Brasil movimentou entre 01 de julho 
de 2018 e 30 de junho de 2019, cerca de R$ 24,25 bilhões em prêmio, com um total de 
apólice de autos de R$ 16,27 milhões, com um prêmio médio de R$ 1.488,00. Cabe 
registrar que, todo esse mercado está concentrado nas mãos de 119 seguradoras atuantes 
e 80% desse mercado está concentrado em apenas 10 Seguradoras (SUSEP, 2019). 
 
1.2 Associações de Proteção Veicular 
As associações de proteção veicular são pessoas jurídicas sem fins lucrativos, não 
há um órgão regulador do Estado sobre essas associações, além do que já está previsto a 
qualquer associação. 
O crescimento da demanda do mercado de seguros, o monopólio das seguradoras 
e a seleção adversa deram origem ao surgimento das associações de proteção veicular, 
uma forma rudimentar de proteção que surgiu, mas que cumpre também um papel social 
importante, favorecendo os excluídos por esse mercado com uma cobertura para o risco 
exposto. 
As primeiras Associações de Proteção Veicular surgiram na década de 2000. 
Inicialmente, ofereciam serviços complementares aos associados que não dispunham ou 
avaliavam como de alto custo a contratação de um seguro. Assim, associavam-se em uma 
espécie de clube de benefícios. Estas associações prestavam serviços como reboque 24 
horas e cobertura para eventos como acidentes, incêndio, roubo e furto (SANTOS; VIDA, 
2019, p.1) 
Na organização dessas associações, era comum eleger uma diretoria 
administrativa. Havia o pagamento de uma taxa mensal para manutenção da associação, 
cuja metodologia para precificação praticada era simples. Além da taxa de participação 
para manter a associação, em um eventual sinistro, havia um rateio dessas despesas entre 
os associados. O funcionamento se dava de forma simples tal que, quando um proprietário 
de um veículo se associava, o valor da importância segurada era dividido por cotas. 
 
1 Casco é o termo usado para designar o seguro de autos para danos básicos. 
11 
 
Quando sinistros eram observados em um determinado período de tempo, normalmente 
um mês, o valor da indenização era dividido pelo número de cotas de cada associado. 
Assim, por exemplo, um veículo com importância segurada de R$ 10.000,00 era 
responsável por 10 cotas, enquanto um veículo com valor de R$ 45.000,00 era 
responsável por 45 cotas e assim por diante. Desse modo, uma carteira com 10.000 cotas 
que tinha uma indenização a pagar de R$ 25.000,00, fazia-se a razão de R$ 25.000,00 por 
10.000 cotas, chegando ao resultado de R$ 2,50 por cota. Dessa forma, o associado que 
tinha um carro com 10 cotas, pagava R$ 25,00. Este regime financeiro em muito se 
assemelha a um modelo de repartição simples. Outro regime também adotado é o de 
repartição mista, onde há repartição simples e também a capitalização do saldo excedente 
em cada mês. 
A ideia das associações tomou corpo e volume, de forma que atualmente elas estão 
presentes em todo o Brasil. Essas associações inicialmente ocuparam uma faixa de 
mercado que era composta pela seleção adversa das seguradoras, em sua maioria, carros 
e motos com mais de 10 anos de uso, proprietários com restrição ao crédito, mototaxistas 
e motoboys, veículos de transportes de passageiros, tais como lotação interbairros e 
intermunicipais,entre outros, além dos que buscavam um custo menor. 
Ao tempo em que se experimentou um crescimento de comercialização do 
seguro de automóveis acima de 10% (dez por cento) ao ano, passou-se a 
estabelecer mecanismos de seleção de riscos mais rígidos. Neste ponto, foram 
desenvolvidos critérios de aceitação, inicialmente, tendo em vista o cadastro 
de crédito do público-alvo, negando aceitação para clientes com restrições 
cadastrais, ou aceitando-os com agravo no prêmio cobrado. (SANTOS; VIDA, 
2019) 
Assim, observando a história do seguro e das associações, podemos afirmar por 
analogia que seguradoras e associações de proteção veicular nasceram da mesma vontade 
em comum de proteger o património pessoal de um risco eminente. Um grupo de pessoas 
com riscos em comum, através do mutualismo, unem-se em busca de proteção. No 
contexto da seleção adversa das seguradoras, a dinâmica do mercado apresentou como 
alternativa essa nova modalidade de cobertura, composta pelo público recusado pelas 
seguradoras. 
Atualmente, além das pessoas que não conseguem contratar uma apólice de seguro 
junto às seguradoras, os consumidores buscam também o preço mais atrativo das 
associações de proteção veicular. 
12 
 
Seja em uma seguradora, seja uma associação de proteção veicular, o segurado, 
ao contratar um seguro ou uma proteção, busca transferir o risco de um eventual prejuízo 
para seguradora ou associação. Este eventual prejuízo é denominado de sinistro, que é um 
dos elementos básicos do seguro. 
É importante conhecer os elementos básicos de um contrato de seguro para autos 
e a partir desses elementos como é classificada as importâncias das variáveis. Podemos 
classificar esses elementos em: 
• Riscos são os quais o bem segurado está exposto, tais como roubo, furto, 
acidentes, incêndio, entre outros e que a seguradora ou associação cobrirá 
em caso de sinistro, de acordo com as cláusulas e condições contratadas. 
• Prêmio é o valor pago individualmente por cada segurado para cobertura 
do risco contratado. 
• Importância Segurada é o valor do bem exposto ao risco coberto na 
contratação do seguro. 
• Prazo de vigência é o tempo de duração do contrato ou apólice de seguro. 
• Sinistro é a ocorrência do risco previsto no contrato de seguro e que, 
legalmente, quando coberto, obriga a seguradora a indenizar. Ou seja, é o 
fato causador de uma perda ou prejuízo causado ao segurado e transferido 
para a seguradora através da apólice contratada. 
• Processo de sinistro é o conjunto de documentos necessários para o 
exame da cobertura e a liquidação do sinistro. É o meio pelo qual 
examinam-se a cobertura, os procedimentos, o cálculo da indenização e a 
documentação. Nos sinistros causados aos bens, geralmente o processo de 
sinistro abrange três etapas de operações interdependentes: 
1. apuração de danos – consiste basicamente no levantamento da 
causa, natureza e extensão dos danos; 
2. regulação de sinistros – análise do relatório ou certificado de 
vistoria; e 
3. liquidação de sinistros – conclusões da regulação, encerramento do 
processo com pagamento ou não de indenização, venda de 
salvados, se houver, e tentativa ou não de ressarcimento, quando 
cabível. 
13 
 
O sinistro acontece de forma repentina, involuntária e imprevista. Este 
acontecimento não pode ser previsto, mas, através do conhecimento multidisciplinar 
atuarial, podemos prever a média de ocorrências dos sinistros quanto às suas severidades 
e frequências em um determinado período do tempo. Para mensurar o prêmio de um 
seguro, é necessário conhecer as estatísticas e mensurar as probabilidades de ocorrência 
do sinistro. 
Há duas formas básicas de obter as informações necessárias para esse processo. A 
primeira é utilizar uma base de dados de terceiros, ou seja, de outras seguradoras já 
existentes e aplicar na sua precificação. A outra é utilizar sua própria base. 
O modelo subjetivo, que consiste em utilizar observações de riscos similares, 
onde a tarifa é definida pelo método “underwriter” através de comparação de 
riscos similares e o método de sinistralidade, onde a tarifa é calculada em 
função da sinistralidade observada em sua própria carteira. (Ferreira, 2002, 
p.6) 
A meta de qualquer seguradora ou associação é conhecer com a maior precisão 
possível a probabilidade de ocorrência de sinistros e, de posse dessas probabilidades, 
selecionar as variáveis quanto à sua importância na severidade desses sinistros. Assim, 
de posse dessa informação, é possível calcular o preço do prêmio a ser cobrado dos 
segurados. 
1.3 PROBLEMA 
Para uma seguradora tradicional, com precificação suficientemente precisa, a 
aplicação de métodos em função das sinistralidades observadas revela com alto grau de 
certeza quanto às variáveis de risco mais influentes na predição da ocorrência de sinistros. 
Estas variáveis de risco são utilizadas para seleção de segurados e precificação do prêmio 
comercial individual. 
As associações de proteção veicular não dispõem de estatísticas tão sofisticadas 
como as seguradoras e, na sua grande maioria, sequer usam métodos estatísticos atuariais 
para precificar sua carteira. 
A pesquisadora Silva (2013) utiliza análises de clusters para avaliar o 
agrupamento geográfico de áreas com o objetivo de classificar tais áreas na precificação 
de associações de proteção veicular usando uma base de dados de uma associação de 
proteção veicular. 
14 
 
Contudo, na literatura revisada não foram encontrados estudos ou artigos que 
tenham utilizado o banco de dados de uma associação de proteção veicular para seleção 
da importância das variáveis de risco e precificação do prêmio individual a partir da 
estatística da própria associação. 
Considerando a ausência de aplicações na literatura e o conjunto limitado de 
informações das associações, um problema se coloca: é possível, de forma empírica, 
fazer uma predição das variáveis mais importantes quanto à severidade dos sinistros 
para uma associação de proteção veicular a partir do seu próprio banco de dados? 
 
1.4 Hipóteses 
Uma hipótese é que a predição quanto a importância das variáveis para a 
severidade dos sinistros de uma associação de proteção veicular possa ser mensurada a 
partir dos dados dessa mesma associação. 
 
1.5 Objetivo 
O objetivo geral da pesquisa é realizar a precificação do seguro para uma 
hipotética associação de proteção veicular. 
Para isso, são necessários dois objetivos específicos: 
• Realizar tratamento do banco de dados 
• Mensurar a importância das variáveis de risco 
 
 
 
 
 
 
 
 
 
 
 
 
 
15 
 
2 Fundamentação teórica sobre modelagem 
2.1 Aprendizado de máquina 
É a forma como um programa computacional pode “aprender” com a experiência 
de forma a melhorar sua performance na próxima execução. 
 
“[...] Aprendizado de Máquina lida com a questão de como construir 
programas de computadores que possam “aprender” com a experiência, ou 
seja, cujo desempenho em determinada tarefa melhora com a experiência. 
Aprendizado Máquina é uma subárea de pesquisa de muita importância na 
Inteligência Artificial (IA), e engloba os estudos de métodos computacionais 
para a automação da aquisição do conhecimento e para a estruturação e acesso 
do conhecimento já existente.” (MITCHELL, 1997 apud SANTOS, 2005, 
p.31) 
Algoritmos de aprendizagem de máquina baseados em árvores de decisão são 
muito utilizados para métodos de aprendizagem supervisionada, mas também podem ser 
utilizados em métodos de aprendizagem não supervisionada. 
Aprendizagem supervisionada é aquela em que a variável resposta está com seus 
possíveis valores identificados. Ou seja, existe um conjunto de exemplos de entrada e 
saída com os quais o algoritmo pode aprender as relações existentes no conjunto de dados. 
Em geral, o conjunto de dados original é dividido em outros dois, chamados treino e teste. 
Normalmente, o conjunto de treinoé composto por proporções entre 50% e 80% das 
observações e o conjunto de teste pelo seu complementar. Desta forma, o algoritmo 
aprende as relações no conjunto de treino e seu desempenho na predição de novos dados 
é avaliado no conjunto de teste. Por outro lado, na aprendizagem não supervisionada, não 
existe conjunto de treino, pois os possíveis valores que a variável resposta pode assumir 
não estão definidos. 
 BRUNIALTI, L. F. at al.(2015) afirma que nos modelos supervisionados os 
algoritmos ajustam parâmetros de um modelo a partir do erro medido entre respostas 
obtidas e esperadas, já nos modelos não supervisionados há um uso de algoritmos híbridos 
que fazem uso dos recursos de correção de erro e de maximização de medidas de 
qualidade, conforme necessário. 
2.2 Árvores de decisão 
São métodos utilizados para mapear os possíveis resultados de uma série de 
escolhas relacionadas aos parâmetros observados de forma comum entre as variáveis, 
16 
 
através de um algoritmo que analisa de forma matemática a decisão de classificar os 
níveis da variável resposta conforme os dados observados. A Figura 1 ilustra um modelo. 
Figura 1 – Ilustração modelo de árvore de decisão 
 
Fonte Elaboração Própria 
Na Figura 1, utilizando o conjunto de dados “íris” disponível no R, temos o 
arcabouço de uma árvore de decisão. Nesse processo, cada decisão é baseada em critérios 
matemáticos, de modo a estimar o melhor critério de separação. 
 
 “[...] As árvores de decisão são representações simples do conhecimento, e 
um meio eficiente de construir classificadores que predizem ou revelam classes 
ou informações úteis baseadas nos valores de atributos de um conjunto de 
dados.” (Ávila at.al 2011, p.2). 
 
No conjunto de dados “íris” há três espécies de flor, observa-se que a classificação 
das espécies ocorreu por meio do comprimento e a largura das pétalas, classificando cada 
espécie de acordo com o seu tamanho. Esse método é aplicado em diversas áreas do 
conhecimento, no ramo de seguro não vida, pode ser aplicado para detectar fraudes nos 
sinistros, classificação de riscos, classificação de perfil dos segurados entre outras 
aplicações. 
2.3 Random Forest 
Um conjunto de árvores de decisão forma uma floresta aleatória. O método 
Random Forest tem como base essa floresta de árvores de decisão e é um método 
frequentemente usado na ciência de dados. 
17 
 
O Random Forest, em particular, foi criado por Tim Kan Ho, em 1995, e 
aperfeiçoado por Leo Breiman em 2001, esse algoritmo é base para algoritmos mais 
avançados, ele é capaz de lidar dar com problemas como ‘small n” e “large p”, esse 
método tem por base que as previsões feitas a partir de vários modelos são melhores do 
que previsões feita em um só modelo. 
Breiman (2001) define o Random forest como um classificador que consiste em 
uma coleção de árvores estruturadas. Nesse processo, os erros dos estimadores utilizados 
vão gradualmente diminuindo e consequentemente diminuí a variância. O princípio do 
Random Forest é o Bootstrap aggregating, uma técnica de reamostragem com reposição, 
utilizada para estimação dos parâmetros. 
 
Bootstrap aggregating (bagging) combina uma série de classificadores para 
melhorar o processo de mineração de dados na classificação de aprendizagem 
supervisionada. Ele é um processo de extrair informações de grande 
quantidade de dados e tem sido aplicado com sucesso a diferentes tarefas de 
classificação, incluindo, mas não se limitando, a tomada de decisão, detecção 
de falhas, reconhecimento de padrões, previsão do tempo de processamento de 
imagens. (Dewan at al, 2011, p.30, tradução nossa). 
 
O conjunto de dados é dividido em m subconjuntos de dados originais e com reposição. 
Em cada um destes conjunto é ajustado uma árvore de classificação e regressão 
(classification and regression tree )– CART 𝑓𝑖 estimado a cada subconjunto e após 
encontra-se uma estimativa para o Random Forest. 
𝑓 =
1
𝑚
 ∑ 𝑓𝑖
𝑚
𝑖=1
 
(1) 
A forma para medir a importância de cada variável é feita durante o processo de 
ajuste do modelo, o erro de ajuste em cada ponto é medido e registrado, a importância da 
j-ésima variável é medida com a troca de seus valores dentro de cada interação. Dessa 
forma, temos os valores dos erros dos ajustes normais e perturbados. 
A cada divisão da variável j, o nível de impureza dos dois nós descendentes é 
menor do que o do nó original. Uma maneira mais rápida de obter a importância da 
variável é somando os índices de Gini para cada variável sobre todas as árvores, assim, 
temos como resultado a importância da variável. O índice de pureza Gini é definido como: 
18 
 
𝐺 = ∑ 𝑃𝑖(1 − 𝑃𝑖)
𝑛𝑐
𝑖=1
 
(2) 
Onde nc é o número de classes na variável j e 𝑃𝑖 é a proporção desta classe. 
A partir disto, a importância é calculada como 
𝐼 = 𝐺𝑃𝑎𝑖 − 𝐺𝑓𝑖𝑙ℎ𝑜1 − 𝐺𝑓𝑖𝑙ℎ𝑜2 
Onde a importância é dada pela diferença entre o índice de pureza de Gini entre o nó pai 
e seus nós filhos, por fim, é calculada a média de todos os nós para todas as árvores e é 
obtida um índice de impureza global. 
A técnica de Bootstrap aplicada a regressão pelo Métodos de Random Forest 
melhora a estabilidade e a acurácia, além de reduzir a variância e evitar o sobre ajuste do 
modelo. 
No método de regressão Random Forest, buscamos a importância das variáveis 
resposta em relação as variáveis preditoras. Quando o pesquisador se depara com um 
problema “small-n”, esse método é eficaz na análise de um conjunto de dados com um 
número pequeno de observações e um grande número de parâmetros, dando robustez 
estatística às análises apresentadas. 
Biau (2012) define o modelo Random Forest como um preditor consistente de 
uma coleção de árvores aleatórias, com base na regressão em 
𝑟𝑛(𝑋, 𝐷𝑛) = 𝐸𝛳[𝑟𝑛(𝑋, 𝛳, 𝐷𝑛)] 
onde ϴ1, ϴ2, ..., ϴ𝑛, são independentes e identicamente distribuídos “iid” e são resultados 
de uma variável aleatória ϴ, uma compreensão melhor pode ser obtido em Biau (2012, 
p.1064) 
Essa poderosa ferramenta, segundo Genuer et al. (2010), é um método estatístico 
cada vez mais usado para problemas de classificação e regressão. 
Além das análises gráficas, uma métrica de avaliação de uma regressão no 
Random Forest é o RMSE (Root Mean Squared Error). Essa medida calcula a “raiz 
quadrática médias dos erros” e é definida como: 
RMSE = √
1
𝑛
∑ (𝑦𝑖 − 𝑦�̂�)²
𝑛
𝑖=1
 
(3) 
Onde 𝑛 é o tamanho da amostra, 𝑦𝑖 é valor original e �̂�𝑖 o valor predito. 
19 
 
O MAE (Mean Absolut Error) que calcula o "Erro Absoluto Médio" dos erros 
entre os valores observados e os valores preditos, pode ser definido como: 
MAE =
1
𝑁
∑ |𝑦𝑖 − 𝑦�̂�|
𝑛
𝑖=1
 
(4) 
Para ambas as métricas, quanto menor o valor, melhor. Elas expressam o erro 
médio preditivo no intervalo [0, – ∞) dos conjuntos treino e teste em relação aos dados 
primários. No RMSE, primeiro os erros são elevados ao quadrado para então se calcular 
a média. Assim, diferentes pesos são atribuídos a soma e esses erros tem uma correlação 
positiva com o RMSE. Dessa forma, outliers no conjunto de dados alavancam o RMSE, 
podendo assim elevar o seu valor e prejudicar a métrica. 
Uma maneira de diagnosticar os erros da predição é fazer a diferença entre o 
RMSE e a MAE. Se a diferença for muito grande, deve-se verificar a suposição de 
presença de outliers. Um modo prático de verificar essa suposição é: 
RMSE ≥ MAE, com pequenas diferenças, os erros estão uniformes 
RMSE > MAE, para pequenas variâncias 
RMSE 2x > MAE, há prováveis casos de outliers. 
De uma forma ampla, o RMSE penaliza os erros de maior magnitude. Porém, o 
RSME pode não descrever sozinho o erro médio e tem outras implicações que são difíceis 
de descobrir e compreender. 
MAE utiliza valores absolutos dos erros e isso não é desejável em cálculos 
matemáticos. 
2.4 Classificação das variáveis 
Na classificação das variáveis pelo método Random Forest,podemos dizer que 
esse poderoso algoritmo é eficiente em classificação supervisionada. Duro et al. (2012) 
fizeram um comparativo entre vários métodos de classificação e sobre o Random Forest, 
afirmam: 
Eles descobriram que os algoritmos em forma de árvore selecionados testado 
teve desempenho semelhante, mas o algoritmo de Random Forest superou a 
implementação padrão das Árvores de Decisão de (Breiman et al. 1984). 
Duro et al. (2012) usaram alguns algoritmos para classificar suas análises de tipos 
de solos através de pixels. Os autores concluem que não há diferença com significância 
estatística entre eles, porém ressalta que foram atribuídas as classificações por Random 
Forest e SVM as melhores definições para as terras ribeirinhas, pântanos e de cultivo. 
20 
 
No método de classificação por Random Forest, são utilizadas análises gráficas 
como ferramentas para avaliar os outputs da classificação. Além das análises gráficas, 
utilizam-se as métricas de acurácia, sensitividade e a especificidade para avaliar o quão 
bom ou ruim está o modelo, outra métrica utilizada na avaliação de classificação é a curva 
ROC, esse conjunto de métricas dizem o quão bem é a predição dos dados na 
classificação. 
2.5 Precificação. 
A precificação do prêmio é talvez a parte mais importante para uma seguradora, 
todo o processo de analises das variáveis de risco, perfil dos segurados, sinistralidade tem 
como objetivo precificar individualmente cada apólice. 
Todo o processo de seguro consiste em oferecer um método equitativo de 
transferência do risco em troca de um preço ou tarifa predeterminados. 
(David, 2015 tradução nossa) 
 
De acordo com Ferreira (2002), diversos são os conceitos e metodologias envolvidos no 
cálculo do preço pago pelo segurado, o qual denominamos prêmio. No processo de 
precificação do custo de um seguro, existem três tipos de prêmios. O primeiro destes 
prêmios é chamado de prêmio de risco, que é o valor total das indenizações de uma 
carteira em um determinado período de tempo. O prêmio puro, dado pelo prêmio de risco 
mais um carregamento de segurança estatístico e, por fim, há o prêmio comercial, que 
corresponde ao prêmio puro acrescido do carregamento para as despesas da seguradora, 
incluída a margem de lucro. 
2.5.1 Prêmio Puro a partir do histórico de sinistro agregado 
Segundo Ferreira (2002), o prêmio de risco E[S] é a soma de todas as indenizações 
de uma carteira em um determinado período de tempo. 
O prêmio puro é igual ao prêmio de risco somado a um carregamento de segurança 
estatístico, denominado θ, e assim o prêmio puro pode ser definido pela expressão: 
𝑃𝑝 = 𝐸[𝑆](1 + 𝜃) 
O prêmio comercial é o prêmio puro mais um carregamento das despesas e 
margem de lucro da seguradora, e pode ser definido pela expressão: 
𝑃𝑟ê𝑚𝑖𝑜 𝐶𝑜𝑚𝑒𝑟𝑐𝑖𝑎𝑙 = 
𝐸[𝑆](1+𝜃)
1−𝛼
 Onde, α é o percentual que representa o 
carregamento das despesas mais a margem de lucro. 
2.5.2 Prêmio puro individual anual 
21 
 
Ferreira (2002) define o prêmio puro individual anual dado pela razão 
𝑃𝑝
𝑛ú𝑚𝑒𝑟𝑜 𝑟𝑖𝑠𝑐𝑜 𝑒𝑥𝑝𝑜𝑠𝑡𝑜
, onde o número de risco exposto é o produto da média do tempo de 
exposição pelo número médio de apólices no período. 
2.5.3 Exposição agregada 
Ferreira (2002) relata que a exposição agregada de um risco é definida como a 
soma de todas as exposições individuais. De forma simples, o somatório de cada dia para 
cada apólices em vigor (𝑅𝑖) de um determinado risco, para cada dia do período de análise 
(n), sendo então, a exposição agregada igual à média do número de apólices em vigor no 
período n, que podemos definir como: 
Exposição Agregada = 
∑ 𝑅𝑖
𝑛
𝑖=1
𝑛
 
Essa formula também é válida para a Importância Segurada expostas. 
2.5.4 Sinistralidade 
A sinistralidade de uma carteira é peça-chave para análises de risco futuro. Ela é 
a estatística que embasa a probabilidade de risco futuro. Assim, na sua análise, é 
importante estar atento à equidade do valor das tarifas no período. Uma redução na tarifa 
do prêmio no período presente não tem reflexos na sinistralidade do período passado, e 
se aplicada ao prêmio comercial recente, conduz a um cálculo de prêmio de risco inferior 
ao necessário para o equilíbrio da carteira. 
A tarifa é atualizada em função da análise da sinistralidade. O prêmio de risco 
pode ser, por exemplo, calculado pela aplicação da sinistralidade (apurada sobre o prêmio 
comercial) ao prêmio comercial (Ferreira 2002, p.6). 
 
 
 
 
 
 
 
 
 
 
 
 
22 
 
3 Metodologia 
3.1 Tratamento banco de dados 
O banco de dados utilizado nessa pesquisa foi gentilmente cedido pela Associação 
de Benefícios Transporte e Serviços Terrestres e esse é a única fonte de dados utilizada 
nessa pesquisa, originalmente com 3174 observações e 34 variáveis, cada observação 
corresponde a um contrato individual. O primeiro passo foi realizar um tratamento no 
banco de dados original, descartando algumas variáveis que julgamos não serem 
necessárias para nossa pesquisa. Através das variáveis “data inicial”, “data final”, e “data 
boleto”, foi calculada o tempo de exposição em dias para cada observação, dando origem 
a uma nova variável denominada “tempo”. 
Ferreira (2002) afirma que podemos medir a exposição individual de cada risco 
pela relação entre o tempo em que o risco ficou exposto no período de análise e o tempo 
total do período de análise. Mesmo que o risco tenha iniciado antes do período de análise, 
ele é considerado no cálculo da exposição individual, desde que ele tenha alguma 
interseção de vigência no período de análise. 
Se considerarmos 1 dia como a unidade mínima de contagem de tempo, teremos: 
Exposição Individual = 
𝑁𝐼
𝑁𝐴
 , 
em que 
NI - Número de dias da vigência com interseção com o período de análise; 
NA - Número de dias do período de análise. 
Desta forma, delimitamos o período de análise entre 01 de janeiro de 2019 a 31 
de dezembro de 2019. Assim, um contrato que teve início em 01/01/2018 e manteve-se 
ativo até 01/01/2019 teve ao menos 01 dia no período de interseção, bem como um 
contrato que teve início em 30/12/2020 teve ao menos 01 dia no período de interseção. 
Em seguida, criamos uma nova variável onde os sinistros ocorridos foram separados por 
tipo e criamos a variável de exposição individual denominada de “EXP”. Também foi 
criada a variável da taxa de sinistro, calculando a razão entre a quantidade de sinistros e 
o tempo de exposição individual. A variável “CIDADE” foi agrupada em três categorias, 
chamadas capital, região metropolitana e interior, utilizando a frequência média de 
ocorrências. Na coluna “ANO DO MODELO”, alguns anos foram agrupados de acordo 
com a frequência média observada, concluindo o tratamento inicial do banco de dados, 
restando 1996 observações em 17 variáveis. 
 
23 
 
3.2 Análises Descritiva 
Como uma visão geral, na Tabela 1, temos uma descrição dos dados, onde as 
variáveis categóricas estão representadas pelos seus níveis de categoria e as variáveis 
numéricas apenas com seus significados. 
Tabela 1- Descrição da Variáveis. 
Variável Descrição Variável Descrição 
"TIPO" 
Qualitativa nominal 
0-Carro 
1-Moto 
"ÁREA" 
Qualitativa nominal 
0-Capital 
1-Região 
Metropolitana 
2-Interior 
"SEXO" 
Qualitativa nominal 
0-Masculino 
1-Feminino 
"ID” 
Quantitativa discreta 
Número de 
identificação 
"EST_CIVIL" 
Qualitativa nominal 
0-Casado 
1-União estável 
2-Divorciado 
3-Solteiro 
4-Viuvo 
"IS" 
Quantitativa continua 
Importância 
Segurada 
"SIN_TIP" 
Qualitativa nominal 
0-Não Sinistro 
1-Roubo 
2-Acidentes 
3-Vidros 
4-Incêndio 
"FRANQUIA" 
Quantitativa continua 
Franquia 
"ANO_MOD_CAT" 
Qualitativa nominal 
0-<2001 
1-2001 a 2006 
2-2007 
3-2008 
4-2009 
5-2010 
6-2011 
7-2012 
8-2013 
9-2014 
10-2015 
11-2016 
12-2017 
13-2018a 2019 
14-2020 
"NUM_SIN" 
Quantitativa discreta 
Número de 
sinistros 
0 – Não sinistro 
1 - Sinistro 
"PREMIO" 
Quantitativa continua 
Soma prêmio anual "VALOR_SIN" 
Quantitativa continua 
Valor do sinistro 
"TX_SIN" 
Quantitativa continua 
Taxa sinistro "EXP" 
Quantitativa continua 
Exposição 
período 
Fonte: Dados Associação 
Nas Figuras 2 e 3 observamos a distribuição das variáveis de acordo com o tipo 
de veículo em cada gráfico. Nas variáveis importância segurada, valor da franquia e 
prêmio é natural que os automóveis tenham um maior acúmulo que as motocicletas. Nelas 
podemos observar uma tendência a uma distribuição normal por tipo de veículo. Na 
variável NUM_SIN, o número de sinistro é muito pequeno em relação ao número de não 
sinistros. Nas despesas de sinistro acumuladas, observamos que as motocicletas 
apresentam uma frequência maior. Além disso, os automóveis têm um maior período de 
exposição em relação às motocicletas. As maiores frequências absolutas para estado civil 
24 
 
estão entre os casados e solteiros. Entre os tipos de sinistros, as motocicletas predominam 
no tipo roubo, quanto aos acidentes há um certo equilíbrio, o tipo vidros é próprio dos 
automóveis. 
Figura 2 – Distribuição da Variáveis por Tipo Veiculo 
 
Nota: 0 – Automóveis 1 Motocicletas 
Fonte: Dados Associação 
A cauda longa à esquerda no gráfico F da Figura 3, do tempo de exposição mostra 
que a maioria dos contratos permanecem ativos por quase todo período de contratação, a 
média do tempo de exposição é de 231 dias, entre as motocicletas essa média é de 238 
dias, entre os automóveis a média é de 221 dias, o usuário de motocicletas fica em média 
17 dias a mais. Um fator pode ser atribuído de maneira intuitiva a essa permanência é a 
maior frequência do uso e por isso uma maior sensação de exposição ao risco. 
Figura 3 – Distribuição da Variáveis por Tipo Veículo 
 
Nota: 0 – Automóveis 1 Motocicletas 
Fonte: Dados Associação 
25 
 
Na Tabela 2 temos a distribuição percentual por tipo de veículo em relação ao 
sexo, estado civil, tipo de sinistro, número de sinistros e área. 
Tabela 2 – Distribuição Percentual por Tipo de Veículo. 
Sexo Estado Civil 
 Masc. Fem. Total Casado União 
Estável 
Divorciado Solteiro Viúvo Total 
Automóveis 77,50 22,50 100 52,35 9,75 4,21 32,97 0,72 100 
Motocicletas 89,87 10,13 100 35,11 12,10 3,69 49,01 0,09 100 
Tipo Sinistro 
 Não Sinistro Roubo Acidentes Vidros Incêndios Total 
Automóveis 96,75 0,60 1,08 1,44 0,12 100 
Motocicletas 97,77 1,29 0,94 0,00 0,00 100 
Número de Sinistros Área 
 Não Sinistro Sinistro Total Capital Metropolitana Interior Total 
Automóveis 96,39 3,61 100 62,33 31,53 6,14 100 
Motocicletas 96,91 3,09 100 64,72 28,41 6,87 100 
Fonte: Dados Associação 
As pessoas do sexo masculino são maioria nos dois tipos de veículos, com relação 
ao estado civil, nos seguros de automóveis, a maioria dos segurados são pessoas casadas 
(52,35%), enquanto o mais frequente entre os segurados de motocicletas tem o estado 
civil de solteiro (49,01%), O percentual de roubos é maior entre as motocicletas e os 
acidentes há basicamente a mesma proporção com um percentual um pouco maior entre 
os automóveis, Em relação ao número de sinistros, os automóveis têm um percentual 
maior, mas é compreensível, uma vez que os sinistros de vidros não se aplicam a 
motocicletas, Em relação à região, automóveis e motocicletas tem distribuição 
semelhantes quanto a região. 
Na Tabela 3 temos a distribuição percentual por sexo em relação ao estado civil, 
área, tipo de sinistro e número de sinistros, 
Tabela 3 – Distribuição Percentual por Sexo, 
Área Estado Civil 
 Capital Metropolitana Interior Casado Estável Divorciado Solteiro Viúvo 
Masculino 61,56 31,16 7,27 43,70 11,41 3,02 41,81 0,06 
Feminino 75,74 21,64 2,62 34,43 9,51 8,85 45,25 1,97 
Tipo Sinistro Número de Sinistros 
 Não Sinistro 
 
Roubo Acidentes Vidros Incêndios Não Sinistro 
 
Sinistro 
Masculino 97,63 1,01 0,83 0,47 0,06 96,98 3,02 
Feminino 95,74 0,98 1,97 1,31 0,00 95,08 4,92 
Fonte: Dados Associação 
Em relação ao estado civil, em termos percentuais, entre os casados e união 
estável, os homens são maioria, Entre divorciados, solteiros e viúvos, as mulheres tem 
um percentual maior que os homens. 
26 
 
Quanto ao tipo de sinistros, sobre a ocorrência de roubo o percentual é 
basicamente o mesmo, O percentual de acidentes com mulheres é superior aos homens e, 
quanto à ocorrência de sinistros, o número de sinistros é maior entre as mulheres. 
Na Tabela 4, observamos a distribuição por estado civil em relação ao tipo de 
sinistro, número de sinistros e área. Quanto ao tipo de sinistros, os divorciados têm uma 
maior frequência para casos de roubo, acidentes e vidros, apenas em casos de incêndios 
eles não são maioria, O mesmo ocorre quanto ao número de sinistros. 
 Tabela 4 – Distribuição Percentual por Estado Civil, 
Tipo de Sinistros 
 Não Sinistro Roubo Acidentes. Vidros Incêndio Total 
Casado 97,63 0,83 0,71 0,83 0,00 100 
União Estável 97,75 0,45 0,90 0,45 0,45 100 
Divorciado 93,59 2,56 1,28 2,56 0,00 100 
Solteiro 97,28 1,18 1,30 0,24 0,00 100 
Viúvo 100,00 0,00 0,00 0,00 0,00 100 
Número de Sinistro 
 Não Sinistro Sinistro Total 
Casado 96,80 3,20 100 
União Estável 97,75 2,25 100 
Divorciado 92,31 7,69 100 
Solteiro 96,69 3,31 100 
Região 
 Capital Metropolitana Total 
Casado 60,67 31,75 100 
União Estável 58,56 36,04 100 
Divorciado 73,08 25,64 100 
Solteiro 67,10 26,63 100 
Viúvo 85,71 0,00 100 
Fonte: Dados Associação 
Na Tabela 5 temos a distribuição percentual por área em relação ao tipo de sinistro 
e à quantidade de sinistros. 
Tabela 5 – Distribuição Percentual por Região, 
Tipo Sinistros 
 Não Sinistro Roubo Acidentes Vidros Incêndio Total 
Capital 97,48 0,94 0,86 0,63 0,08 100 
Metropolitana 96,63 1,35 1,52 0,51 0,00 100 
Interior 99,24 0,00 0,00 0,76 0,00 100 
Total Geral 97,34 1,00 1,00 0,60 0,06 100 
Número de Sinistros 
 Não Sinistro Sinistro Total 
Capital 97,48 2,52 100 
Metropolitana 96,63 3,37 100 
Interior 99,24 0,76 100 
Fonte: Dados Associação 
Os sinistros de roubo e acidentes por área de residência têm um percentual maior 
na região metropolitana em comparação com a Capital, No interior não há registro de 
sinistro de roubo ou acidentes, já o sinistro de vidros tem um percentual maior na Capital. 
27 
 
3.2.1 Análises de Correlação 
São duas as variáveis resposta que analisamos na regressão por Random Forest, 
Primeiro, analisamos a quantidade de sinistros que nos fornece a frequência e depois o 
valor do sinistro que nos fornece a severidade e, assim, analisamos a correlação dessas 
variáveis com as demais variáveis preditoras, foi utilizado o método de correlação 
Pearson. 
Na Figura 4, observamos que a variável valor dos sinistros não possui uma 
correlação forte com as demais variáveis. Porém, há uma correlação estatisticamente 
significativa entre a variável tipo com a importância segurada e com a franquia, o que é 
razoável, pois ambas aumentam ou diminuem de acordo com o tipo do veículo, O sexo 
tem correlação positiva fraca com a importância segurada e com a franquia, e entre 
importância segurada e franquia, também se verifica uma correlação forte e positiva e 
estatisticamente significativa. 
Figura 4 – Gráficos de Distribuição e Correlação entre as Variáveis Valor dos sinistros 
 
Fonte: Dados Associação 
Na Figura 5 observamos que a variável valor do sinistro e exposição têm uma 
correlação fraca negativa. 
Estas correlações observadas têm um p-valor significativo mesmo com uma 
correlação fraca, que conforme classificação de correlação segundo Dancey e Reidy 
(2005) assim definem, 
Classificação de Dancey e Reidy, em |x|, 
| r = 0, ➔ zero, 
0,1 a 0,3 ➔ fraca, 
0,4 a 0,6 ➔ moderada, 
28 
 
0,7 a 0,9 ➔ forte, 
1 ➔ perfeita) | 
A variável área apresenta outlierspara as regiões capital e região metropolitana 
em relação ao valor dos sinistros, em relação ao tempo de exposição, as duas regiões tem 
uma distribuição semelhantes. A da variável ano do modelo, segue distribuição normal. 
Figura 5 – Gráficos de Distribuição e Correlação Variável Valor dos sinistros, 
 
Fonte: Dados Associação 
Na Figura 6 observamos a correlação quando a variável resposta é a frequência de 
sinistro. Não há uma correlação significativa entre a variável número de sinistro e as 
outras variáveis, mas há uma correlação significativa IS e tipo de veículo, franquia e tipo 
de veículo, franquia e sexo, franquia e IS, e IS e sexo. 
Figura 6 – Distribuição e Correlação da Variável Frequência de Sinistros 
 
Fonte: Dados Associação 
29 
 
Quanto à distribuição de probabilidade, a IS e franquia têm uma distribuição 
próxima da normal, número de sinistros é assimétrica à direita com cauda longa, tipo de 
veículo também é assimétrica com sua concentração nas extremidades e o núcleo vazio. 
Na Figura 7 não há correlação significativa entre a variável número de sinistros e 
as outras variáveis. A variável ano do modelo tem aparentemente uma distribuição 
normal, enquanto a variável exposição é assimétrica, exibindo cauda longa à esquerda. 
Essa assimetria da variável tempo de exposição indica que os segurados em sua maioria 
permanecem com sua cobertura durante toda a janela de análises. 
Figura 7 – Distribuição e Correlação da Variável Número de sinistros, 
 
Fonte: Dados Associação 
 
3.3 Aplicação do Random Forest 
3.3.1 Modelo Frequência 1 
O conjunto de dados original foi subdividido em dois subconjuntos, com 80% das 
observações escolhidas aleatoriamente e designadas para o conjunto treino, enquanto os 
20% restante foram alocados no conjunto teste. Não foi utilizado nenhum pré-
processamento nos dados além da transformação das variáveis categóricas em variáveis 
dummy, Durante a execução do Random Forest foi utilizada a validação cruzada com 5 
folds e a número de varáveis preditoras selecionadas aleatoriamente variando entre 1 e 7, 
O modelo utilizado com a seguinte composição “NUM_SIN ~ TIPO + SEXO + 
EST_CIVIL + ANO_MOD_CAT + AREA + IS + FRANQUIA”, pelo método backward 
onde iniciamos com o modelo cheio e a cada novo ajuste o modelo possui uma variável 
preditora retirada. O melhor modelo foi o modelo inicial, porém o diagnóstico dos erros 
30 
 
da predição indica um RSME 2,75 vezes maior do que o MAE, indicando que a 
distribuição dos erros preditos não está uniforme, além do R² indicar um baixo percentual 
de explicação do modelo. 
Tabela 6 – Métricas do Modelo Frequência 1 
mtry RMSE Rsquared MAE 
1 0,1791 0,0022 0,0651 
2 0,1800 0,0026 0,0648 
3 0,1815 0,0028 0,0649 
4 0,1829 0,0026 0,0647 
5 0,1842 0,0028 0,0648 
6 0,1850 0,0030 0,0646 
7 0,1860 0,0028 0,0647 
RMSE was used to select the optimal model using the smallest value, The final value used for the model 
was mtry = 1 
Fonte: Dados Associação 
O erro OOB (Out Of Bag) estabilizou a partir de apenas 100 arvores, com um 
valor do erro próximo a 0,0325 e sem apresentar oscilações significativas até o número 
final de árvores, de acordo com o Gráfico 1. 
Gráfico 1 – Taxa de erro Out Of Bag. 
 
Fonte: Dados Associação 
Quanto à importância das variáveis, chama atenção o estado civil viúvo ter 
importância maior que os estados civis divorciado, solteiro e união estável, também a área 
interior ter maior importância do que a área região metropolitana. 
Analisando a partir das Tabelas 2 e 4, onde constatamos que o estado civil viúvo 
não tem nenhuma ocorrência de sinistro em nenhuma das regiões analisadas, bem como 
a região interior ter menos de 1% das ocorrências de sinistros e mesmo assim essas 
ocorrências referem-se ao tipo de sinistros vidros, que é a ocorrência mais comum, por 
essa razão, acreditamos que essa situação não é razoável. 
O Gráfico 2 mostra a importância das variáveis no modelo 1 de regressão da 
frequência de sinistros observada. 
 
31 
 
Gráfico 2 – Importância das Variáveis Modelo Frequência 1 
 
Fonte: Dados Associação 
Observando os dados, nota-se que a variável resposta NUM_SIN, contém apenas 
dois resultados, 0 e 1, onde 0 é a não ocorrência de sinistros e 1 é a quantidade de 
ocorrências de sinistros, o que ocorre é que nos dados da pesquisa não há mais de uma 
ocorrência por apólice, fazendo a variável aparentemente dicotômica, e conforme Tabela 
2, há um desbalanceamento dos dados quanto a essa variável. O Random Forest tem a 
capacidade de lidar com problemas de small n, large p (problemas que possuem um 
tamanho amostral pequeno quando comparado ao número de parâmetros a serem 
estimados), desta forma, realizamos um ajuste, extraindo todas as ocorrências com 
número de sinistros iguais a 1 e através da função “createDataPartition” extraímos 
aproximadamente 3% dos dados com número de sinistros iguais a zero de forma 
proporcional. Reagrupamos os dados com e sem ocorrências de sinistros, gerando uma 
amostra que resultou com 113 observações e 14 variáveis. 
 
3.3.2 Modelo Frequência 2 
Com os dados balanceados nessa amostra, repetimos o processo de regressão com 
os mesmos parâmetros do primeiro modelo, onde o modelo utilizado foi “NUM_SIN ~ 
TIPO + SEXO + EST_CIVIL + ANO_MOD_CAT + AREA + IS + FRANQUIA”, nesse 
modelo, as métricas de RSME é basicamente a mesma do que o MAE, onde o RMSE é 
apenas 1,104 vezes maior que o MAE, conforme Tabela 7, indicando que o os erros estão 
uniformemente distribuídos e que não há presença de “outliers” alavancando o modelo, 
o R² diminui gradativamente a cada mtry e o valor explicado pelo R², apesar de ter 
melhorado significativamente, ainda é baixo. 
32 
 
Tabela 7 – Métricas do Modelo Frequência 2 
mtry RMSE Rsquared MAE 
1 0,4701 0,2442 0,4658 
2 0,4508 0,2314 0,4335 
3 0,4383 0,2571 0,4114 
4 0,4371 0,2478 0,4037 
5 0,4381 0,2404 0,4006 
6 0,4389 0,2323 0,3976 
7 0,4364 0,2435 0,3952 
RMSE was used to select the optimal model using the smallest value. 
The final value used for the model was mtry = 7. 
Fonte: Dados Associação 
O erro OOB (Out Of Bag) estabilizou a partir de apenas 300 árvores, com um valor do 
erro próximo a 0,211 na última árvore com pequenas oscilações até o número final de 
árvores, de acordo com o Gráfico 3. 
Gráfico 3 – Taxa de erro Out Of Bag. 
 
Fonte: Dados Associação 
Chama a atenção a variável SEXO1, que refere-se ao sexo feminino, ter 
importância de 100% e de acordo com a Tabela 3, o número de sinistros é 4,92% em 
relação ao sexo feminino, também a variável ÁREA região interior, que aparece com 
uma importância acima de 12,43 %, e estado civil viúvo com importância de 11,58% , 
que conforme mencionado no Modelo Frequência 1, onde constatamos que o estado civil 
viúvo não tem nenhuma ocorrência de sinistro em nenhuma das regiões analisadas e a 
região interior tem menos de 1% das ocorrências de sinistros e mesmo assim essas 
ocorrências referem-se ao tipo de sinistros vidros, que é a ocorrência mais comum 
conforme Tabela 2, essas importâncias ainda consideramos alta, além da variável franquia 
com apenas 13,30% de importância média, essa importância, intuitivamente, parece não 
adequada, uma vez que a franquia é um limitador natural do número de ocorrência de 
sinistros, por esse motivo, acreditamos que essa situação não é razoável. 
33 
 
Nesse modelo foram utilizadas 91 amostras e 7 preditores, com 5 folds, 
reamostragem de validades cruzadas com respectivos tamanhos de 73, 73, 73 ,72 e 73 
observações. O resultado pode ser observado no Gráfico 4 bem como na Tabela 8. 
Gráfico 4 – Importância das Variáveis Modelo Frequência2 
 
Fonte: Dados Associação 
Tabela 8 – Importância das Variáveis Modelo Frequência 2 
Variáveis Percentual Importância 
SEXO1 100,000 
ANO_MOD_CAT5 62,696 
AREA1 55,09 
ANO_MOD_CAT11 54,02 
IS 46,17 
ANO_MOD_CAT8 37,13 
ANO_MOD_CAT7 33,32 
ANO_MOD_CAT9 27,93 
ANO_MOD_CAT4 24,21 
EST_CIVIL2 20,88 
ANO_MOD_CAT1 18,26 
ANO_MOD_CAT3 17,77 
FRANQUIA 13,13 
AREA2 12,43 
EST_CIVIL3 12,05 
ANO_MOD_CAT14 11,87 
EST_CIVIL4 11,58 
ANO_MOD_CAT13 11,58 
ANO_MOD_CAT10 11,12 
TIPO1 7,95 
Fonte: Dados Associação 
3.3.3 Modelo Frequência 3 
Assim, realizamos uma transformação nos dados, aplicando a função PCA, sigla 
em inglês para Principal Components Analysis, ou simplesmente Análise de 
Componentes Principais. Essa transformação, através da combinação linear das variáveis, 
realiza um procedimento matemático que utiliza uma transformação ortogonal dos 
34 
 
vetores. Ao final, o número de componentes principais é sempre menor ou igual ao 
número de variáveis originais. 
Depois de obtidas as direções principais da variabilidade dos dados, 
temos as seguintes opções: 
• Reduzir a dimensionalidade dos dados 
• Capturar padrões básicos na amostra 
• Limpar o ruído dos dados 
• Compressão de informação 
Uma boa redução dos dados ocorre quando a variabilidade “útil” dos 
dados é capturada dentre as componentes selecionadas, existem diversas 
maneiras de escolhermos as componentes importantes 
i) Manter uma certa proporção (digamos 80%) da variância nos dados 
ii) Manter as componentes cujo λ está acima de algum valor (a média, 
por exemplo) 
iii) Criar um cutoff a partir da área plana do gráfico 
iv) Testar a significância de uma direção 
v) Métodos de reamostragem para atingir a estabilidade das direções 
NUNES, Marcus. Disponível em:< https://introbigdata,org/> Acesso em: 12 
de agosto 2021. 
Através da análise no Gráfico 5, após a transformação PCA é possível visualizar 
que 74,35% da variância do total dos dados é explicada da dimensão PC1 até a PC4. 
Gráfico 5 – Variância Explicada PCA. 
 
Fonte: Dados Associação 
No Gráfico 6, as variáveis franquia e IS estão próximas, e tem uma correlação 
entre elas que contribuem mais significativamente na 1ª dimensão, as variáveis número 
de sinistros, valor dos sinistros, tipo de sinistro, sexo, área, ano do modelo e tipo de 
https://introbigdata.org/
35 
 
veículo contribuem menos significativamente na 2º dimensão e há uma correlação entre 
elas. 
Gráfico 6 – Contribuição das Variáveis 
 
Fonte: Dados Associação 
Quando transformado os dados com a PCA, rodamos novamente o modelo 
ajustado, “NUM_SIN ~ TIPO + SEXO + EST_CIVIL + ANO_MOD_CAT + AREA + IS 
+ FRANQUIA”, com um conjunto de treino utilizando 80% das observações e o teste 
com o complementar, foram utilizadas 91 amostras e 7 preditores, com 5 folds de 
reamostragem de validação cruzadas com respectivos tamanhos de 73, 73, 73 ,72 e 73 
observações, e avaliamos que as métricas de RSME é proporcionalmente 1,076 vezes o 
MAE, indicando que a distribuição dos erros está uniforme, conforme Tabela 9, o 
percentual explicativo do modelo R² melhorou, mas continua baixo. 
Tabela 9 – Métrica Modelo Frequência 3 
mtry RMSE Rsquared MAE 
1 0,4760 0,2599 0,4705 
2 0,4584 0,2508 0,4371 
3 0,4538 0,2325 0,4215 
4 0,4563 0,2238 0,4139 
5 0,4563 0,2245 0,4101 
6 0,4605 0,2194 0,4101 
7 0,4605 0,2178 0,4074 
8 0,4657 0,2106 0,4103 
9 0,4658 0,2116 0,4085 
10 0,4657 0,2139 0,4061 
11 0,4657 0,2116 0,4056 
12 0,4675 0,2094 0,4057 
RMSE was used to select the optimal model using the smallest value. 
36 
 
The final value used for the model was mtry = 3. Fonte: Dados Associação 
De maneira geral, o RMSE decai nas três primeiras variáveis e crescem com o 
aumento do número de variáveis aleatórias candidatas em cada divisão dos nós. 
Gráfico 7 
 
Fonte: Dados Associação 
A taxa de erros “Out Of Bag”, tem uma variação mais acentuada até atingir as 
primeira 370 árvores, acima desse valor, há uma estabilização média com pequenas 
oscilações, inicialmente com tendência de queda mas estabilizando entre 400 e 500 
árvores, o Gráfico 8 apresenta uma taxa próxima a 0,20, em um total de 505 árvores. 
Gráfico 8 – Taxa de erro Out Of Bag. 
 
Fonte: Dados Associação 
No Gráfico 9, temos o percentual médio das variáveis mais importantes pelo 
método de regressão do Random Forest. O resultado é aparentemente coerente com a 
distribuição das observações, as métricas analisadas demonstram que o modelo ajustado 
37 
 
tem um comportamento adequado, mas, o R² continua baixo, que indica baixo percentual 
explicativo do modelo, algumas variáveis que se destacam pela importância é a IS, 
franquia, sexo feminino, e a região metropolitana. 
Gráfico 9 – Importância das Variáveis Modelo Frequência 3 
 
Fonte: Dados Associação 
Na Tabela 10, temos a importância percentual das variáveis riscos, o modelo é 
apropriado e suas regressão condiz com as análises dos dados pesquisado, mas o R² 
mantem um baixo percentual explicativo do modelo. 
 Tabela 10 – Importância das Variáveis Modelo Frequência 3 
Variável Percentual 
IS 100,00 
FRANQUIA 81,33 
SEXO1 55,01 
AREA1 40,22 
ANO_MOD_CAT5 30,34 
ANO_MOD_CAT11 25,20 
ANO_MOD_CAT9 17,68 
ANO_MOD_CAT7 17,19 
EST_CIVIL3 14,54 
EST_CIVIL2 13,17 
ANO_MOD_CAT3 12,19 
ANO_MOD_CAT1 11,74 
TIPO1 11,08 
ANO_MOD_CAT8 9,78 
ANO_MOD_CAT4 9,07 
ANO_MOD_CAT10 9,02 
ANO_MOD_CAT6 8,83 
EST_CIVIL1 7,81 
ANO_MOD_CAT2 6,01 
AREA2 5,94 
Fonte: Dados Associação 
No Gráfico 10, os valores preditos comparado com os valores originais entre os 
conjuntos treino e teste, observamos que a predição é razoável com metade dos dados 
menor que 0,5 e outra metade acima desse valor, isto porque, considerando que na 
38 
 
regressão por Random Forest o resultado é apresentado pela média, deste modo, como a 
variável é 0 para a não ocorrência de sinistros e 1 para ocorrência, não é possível obter 
uma predição com resultados 0 e 1, assim, analisamos que os pontos preditos próximos 
de 0, representam a não ocorrência de sinistros e os mais próximos a o número 1, como 
ocorrência, os pontos situados mais próximos de 0,5 consideramos como possíveis erros 
de predição. 
Gráfico 10 – Predição Variável Número de Sinistros 
 
Fonte: Dados Associação 
A importância da variável estado civil divorciado é significativa quando levamos 
em consideração que na amostra, a frequência de sinistros com esse status é 10,71% em 
relação ao número de sinistros ocorridos, conforme Tabela 10.1 e de apenas 0,40% em 
relação ao total de observações do banco de dados. 
Tabela 10.1 Frequência de sinistros para variável estado civil divorciado na amostra. 
Estado civil Não sinistro Sinistro 
Casado (0) 29 21 
União estável (1) 4 5 
Divorciado (2) 2 6 
Solteiro (3) 21 24 
Viúvo (4) 1 0 
 
Realizamos um teste de hipóteses assintótico para proporção, bilateral a esquerda, 
onde a estatística do teste é a média obtida na regressão e a distribuição de Bernoulli é 
utilizada nessa estatística em que pelo teorema central do limite: 
�̂�~𝑁 (𝑝
𝑝(1 − 𝑝)
𝑛
) 
E sob a hipóteses nula 
�̂�~𝑁 (𝑝0
𝑝0(1 − 𝑝0)
𝑛
) 
39 
 
onde determinamos que: 
𝐻0: 𝑝 ≥ 0,1317 Ou seja, a importância média é igual ou superior a 13,77% 
𝐻1: 𝑝 < 0,1317 A importância média é inferior a 13,77% 
Fixado o nível de significância de 5% não rejeitamos a hipótese de que a importância 
média seja igual ou superior a 13,77%. 
Concluímos assim que para o modelo “NUM_SIN ~ TIPO + SEXO + EST_CIVIL 
+ ANO_MOD_CAT + AREA + IS + FRANQUIA”, o melhor resultado obtido foi quando 
da transformação dos dados numéricos em uma PCA, contudo, o R² indica que o modelo 
é explicado em apenas 23,25%, desta forma, calculamos o R² também no conjunto de 
teste e comparamos os resultados, que apresentamos na Tabela 12. 
Tabela 11 – Comparativo do R² entre o conjunto de treino e testemtry Rsquared_treino Rsquared_teste 
Mínimo 0,2094 0,1889 
1º Quartil 0,2116 0,2234 
Mediana 0,2186 0,2294 
Média 0,2238 0,2332 
3º Quartil 0,2265 0,2449 
Máximo 0,2599 0,2725 
Fonte: Dados Associação 
A comparação entre o R² do treino e teste, apresentou uniformidade e similaridade 
nos valores, o desvio padrão médio de entre eles é de 0,0129, concluímos assim que esse 
é o melhor ajuste. 
3.3.4 Modelo Severidade 1 
Concluído o ajuste do modelo com a variável resposta número de sinistros, 
modelamos na sequência o modelo com a variável resposta para o valor dos sinistros, que 
na prática revela a importância média das variáveis de riscos na severidade dos sinistros. 
Inicialmente rodamos o modelo pelo método "backward", iniciando com o modelo 
“VALOR_SIN ~ TIPO + SEXO + EST_CIVIL + ANO_MOD_CAT + AREA + IS + 
FRANQUIA”, e ao final, esse foi o melhor modelo, porém, assim como no modelo 
frequência 1, houve incoerência nos resultados, onde as variáveis área 2, interior e estado 
civil viúvo apresentam uma importância incoerente com as observações analisadas na 
Tabela 4. 
 O modelo tem 1597 amostras e 7 variáveis preditoras, sem pré-processamento, 
com validação cruzada em 5 folds. O resultado da reamostragem em parâmetros de ajuste 
é apresentado na Tabela 12. 
Tabela 12 - Métrica Modelo Severidade 1 
Mtry RMSE Rsquared MAE 
1 1088,18 0,0015 266,88 
40 
 
2 1100,11 0,0016 268,46 
3 1117,23 0,0014 268,01 
4 1134,78 0,0014 271,20 
5 1142,94 0,0014 269,78 
6 1149,60 0,0010 269,80 
7 1164,10 0,0008 275,69 
RMSE was used to select the optimal model using the smallest value. 
The final value used for the model was mtry = 2. 
Fonte: Dados Associação 
A Tabela 12 mostra que as métricas de RSME é proporcionalmente 4,077 vezes o MAE, 
indicando que a distribuição dos erros não está uniforme. 
O Gráfico 11 apresenta a variável de risco área 2 que refere-se a área interior do 
Estado, com importância de aproximadamente 51% e a variável de risco estado civil 4 
que refere-se a condição de viúvo, com importância de aproximadamente 82%, 
igualmente no modelo de frequência 1, e de acordo com as Tabelas 2 e 4, a frequência 
dessas variáveis são irrelevantes ao ponto de apresentarem uma importância alta como no 
resultado da regressão e acreditamos não ser coerente esse resultado. 
Gráfico 11 – Importância das Variáveis Modelo Severidade 1 
 
Fonte: Dados Associação 
3.3.5 Modelo Severidade 2 
Após o Modelo Severidade 1, utilizamos o banco balanceado para o Modelo de 
Severidade 2, tal qual utilizamos para o Modelo Frequência 2. 
O modelo com 91 amostras e 7 variáveis preditoras, sem pré-processamento, com 
validação cruzada em 5 folds. O resultado da reamostragem em parâmetros de ajuste na 
Tabela 13 é apresentado. 
Tabela 13 - Métrica Modelo Severidade 2 
Mtry RMSE Rsquared MAE 
1 0,4847 0,1626 0,4814 
41 
 
2 0,4732 0,1444 0,4591 
3 0,4764 0,1185 0,4515 
4 0,4787 0,1069 0,4474 
5 0,4821 0,0994 0,4482 
6 0,4876 0,0905 0,4502 
7 0,4903 0,0840 0,4510 
RMSE was used to select the optimal model using the smallest value. 
The final value used for the model was mtry = 2. 
Fonte: Dados Associação 
O resultado mostra uma relação RMSE e MAE em 1,03 vezes, o que indica que a 
distribuição dos erros está uniforme, o R² diminui a cada mtry, ou seja, o percentual 
explicativo do modelo diminui gradativamente. 
O erro OOB (Out Of Bag) estabilizou a partir de apenas 200 árvores, com um 
valor do erro próximo a 0,225 na última árvore e com oscilações até atingir o número 
final de árvores, de acordo com o Gráfico 12. 
Gráfico 12 – Taxa de erro Out Of Bag, 
 
Fonte: Dados Associação 
O Gráfico 13 apresenta a variável de risco área 2 que refere-se a área interior do 
Estado, com importância de aproximadamente 56% e a variável de risco estado civil 4 
que refere-se a condição de viúvo, com importância de aproximadamente 19%, e de 
acordo com a Tabela 4, essas duas variáveis tem uma frequência irrelevante o que não é 
coerente ter uma importância tão relevante como resultado da regressão. 
 
 
 
 
 
42 
 
Gráfico 13 - Importância das Variáveis Modelo Severidade 1 
 
Fonte: Dados Associação 
Na Tabela 14, a importância das variáveis no Modelo de Severidade 2 é 
apresentado. 
Tabela 14 - Importância das Variáveis Modelo Severidade 2 
Variável Percentual 
EST_CIVIL2 100,000 
ANO_MOD_CAT11 95,172 
ANO_MOD_CAT5 91,461 
SEXO1 65,834 
IS 59,761 
ANO_MOD_CAT4 57,441 
ANO_MOD_CAT14 56,972 
AREA2 56,585 
ANO_MOD_CAT12 46,372 
FRANQUIA 42,934 
TIPO1 40,059 
ANO_MOD_CAT7 37,558 
AREA1 33,702 
EST_CIVIL3 29,018 
ANO_MOD_CAT1 27,956 
ANO_MOD_CAT3 26,192 
ANO_MOD_CAT13 19,071 
EST_CIVIL4 19,071 
ANO_MOD_CAT2 9,864 
ANO_MOD_CAT10 5,582 
Fonte: Dados Associação 
3.3.6 Modelo Severidade 3 
Desta forma utilizamos a transformação PCA e aplicamos o modelo ajustado nos 
dados transformados. O modelo tem 91 amostras e 7 preditores, com validação cruzada 
em 9 folds e os tamanhos de amostra foram de 82, 80, 82, 81, 80 e 80 respectivamente. 
43 
 
A Tabela 15 mostra que as métricas de RSME é proporcionalmente 1,30 vezes o 
MAE, indicando que a distribuição dos erros está uniforme, o R² indica um baixo 
percentual explicado no modelo. 
Tabela 15 - Métrica Modelo Severidade 3 
Mtry RMSE Rsquared MAE 
1 3743 0,2158 2892 
2 3726 0,1911 2861 
3 3759 0,1789 2856 
4 3818 0,1696 2881 
5 3820 0,1718 2865 
6 3864 0,1587 2878 
7 3894 0,1614 2884 
8 3919 0,1456 2874 
9 3939 0,1469 2877 
10 3943 0,1540 2874 
RMSE was used to select the optimal model using the smallest value. 
The final value used for the model was mtry = 2. 
Fonte: Dados Associação 
O Gráfico 14, revela que o RMSE e o MAE, após as duas primeiras variáveis, 
crescem com o aumento do número de variáveis amostradas aleatoriamente como 
candidatas em cada divisão dos nós. 
Gráfico 14 – Distribuição RMSE das variáveis aleatórias preditoras 
 
Fonte: Dados Associação 
O Gráfico 15, apresenta uma estabilização no OOB “Out Of Bag” após 400 
árvores com pequenas oscilações. 
 
 
 
 
 
 
 
 
44 
 
Gráfico 15 – Taxa de erro Out Of Bag 
 
Fonte: Dados Associação 
No Gráfico 16, observamos que os valores dos sinistros preditos estão abaixo dos 
valores originais, esse resultado pode ser atribuído ao formato de regressão do Random 
Forest que prevê a média da importância das variáveis preditoras, o que justifica que a 
predição apresente esse resultado, porém esse resultado é coerente em sua forma e relação 
positiva, há uma concentração na origem do eixo “x” que representa os dados em que não 
houve despesas de sinistros, ou seja, são as observações sem ocorrência de sinistros ou 
com ocorrência sem indenização. 
Gráfico 16 – Predição Variável Valor dos Sinistros 
 
Fonte: Dados Associação 
No Gráfico 17, apresentamos o resultado do Modelo Severidade 3, transformado 
com a PCA, em que a média percentual de importância das variáveis preditoras se 
mostram coerentes. 
45 
 
Gráfico 17 – Importância das Variáveis Modelo Severidade 3 
 
Fonte: Dados Associação 
Na Tabela 16, é possível analisar a importância atribuída a cada variável. Apenas 
três variáveis têm mais de 50% de importância, são elas a IS, franquia e estado civil 
divorciado, para nossa pesquisa, todas as importâncias das variáveis de riscos são 
necessárias na precificação, como pode ser demonstrado na aplicação da tabela de 
precificação do prêmio calculado conforme Tabela 22. 
Tabela 16 – Importância das Variáveis Modelo Severidade 3 
Variável Percentual 
IS 100,00 
FRANQUIA 96,60 
EST_CIVIL2 81,32 
ANO_MOD_CAT9 29,47 
ANO_MOD_CAT11 26,94 
AREA1 19,61 
ANO_MOD_CAT12 19,36 
TIPO1 17,91 
EST_CIVIL3 17,12 
ANO_MOD_CAT5 15,87 
ANO_MOD_CAT3 12,61 
ANO_MOD_CAT7 11,43 
ANO_MOD_CAT10 9,04 
ANO_MOD_CAT1 7,25 
SEXO1 5,99ANO_MOD_CAT8 5,95 
ANO_MOD_CAT6 5,95 
ANO_MOD_CAT2 3,91 
EST_CIVIL1 3,81 
ANO_MOD_CAT14 3,72 
Fonte: Dados Associação 
Concluímos que para o modelo “VALOR_SIN ~ TIPO + SEXO + EST_CIVIL + 
ANO_MOD_CAT + AREA + IS + FRANQUIA”, o melhor resultado obtido foi quando 
aplicado o conjunto com a transformação dos dados numéricos em uma PCA. 
46 
 
3.3.7 Análise dos Modelos Ajustados 
Na Tabela 17, demonstramos um comparativo entre os seis modelos ajustados, na 
frequência de sinistros o melhor ajuste foi encontrado no Modelo Frequência 3 e em 
relação a severidade dos sinistros o melhor ajuste foi no Modelo Severidade 3, as colunas 
F1, F2 e F3, representam os modelos de Frequência 1,2 e 3 respectivamente, de maneira 
análoga, as colunas S1, S2 e S3, para Severidade 1,2 e 3. A coluna SD_L representa o 
desvio padrão calculado por variável para os 6 modelos e a coluna SD_M, contém o 
desvio padrão calculado entre o melhor ajuste da frequência e da severidade. 
Tabela 17 – Comparativo entre os Modelos Frequência e Severidade. 
Variável F1 F2 F3 S1 S2 S3 SD_L SD_M 
ANO_MOD_CAT1 61,00 18,26 11,74 100,00 27,956 7,25 36,05 3,17 
ANO_MOD_CAT2 53,00 0,00 6,01 76,00 9,864 3,91 31,76 1,48 
ANO_MOD_CAT3 25,00 17,77 12,19 0,00 26,192 12,61 9,69 0,30 
ANO_MOD_CAT4 34,00 24,21 9,07 66,00 57,441 0,00 26,14 6,41 
ANO_MOD_CAT5 93,50 62,70 30,34 67,50 91,461 15,87 31,63 10,23 
ANO_MOD_CAT6 40,00 0,00 8,83 56,00 0,00 5,95 23,68 2,04 
ANO_MOD_CAT7 12,00 33,32 17,19 62,50 37,558 11,43 19,76 4,07 
ANO_MOD_CAT8 37,50 37,13 9,78 53,00 0,00 5,95 21,45 2,71 
ANO_MOD_CAT9 15,50 27,93 17,68 35,00 0,00 29,47 12,63 8,34 
ANO_MOD_CAT10 0,00 11,12 9,02 40,00 5,582 9,04 14,05 0,01 
ANO_MOD_CAT11 8,50 54,02 25,20 34,00 95,172 26,94 30,52 1,23 
ANO_MOD_CAT12 38,50 0,00 0,00 63,50 46,372 19,36 25,89 13,69 
ANO_MOD_CAT13 64,00 11,58 0,00 88,00 19,071 0,00 36,82 0,00 
ANO_MOD_CAT14 24,50 11,87 0,00 17,50 56,972 3,72 20,59 2,63 
AREA1 35,00 55,09 40,22 75,00 33,702 19,61 19,37 14,57 
AREA2 53,00 12,43 5,94 51,00 56,585 0,00 26,32 4,20 
EST_CIVIL1 74,00 0,00 7,81 35,00 0,00 3,81 29,50 2,83 
EST_CIVIL2 63,00 20,88 13,17 55,00 100 81,32 33,75 48,19 
EST_CIVIL3 18,00 12,05 14,54 36,00 29,018 17,12 9,33 1,82 
EST_CIVIL4 94,50 11,58 0,00 80,00 19,071 0,00 41,98 0,00 
FRANQUIA 100,00 13,13 81,33 98,00 42,934 96,6 35,95 10,80 
IS 80,00 46,17 100,00 90,00 59,761 100 22,14 0,00 
SEXO1 72,00 100,00 55,01 73,00 65,834 5,99 31,20 34,66 
TIPO1 87,50 7,95 11,08 79,50 40,059 17,91 35,12 4,83 
Fonte: Dados Associação 
A média da coluna SD_L é de 26,05 enquanto a média da coluna SD_M é de 7,43 a 
variação entre essas médias dos modelos ajustados e não ajustados é 3,5 vezes. As 
variáveis IS e franquia tem as maiores importância média nos dois modelos, o estado 
civil divorciado tem uma importância média na severidade de 48,19% e de acordo com 
a Tabela 4, esse status tem a maior frequência média, o número de divorciados é apenas 
3,9% do total da amostra. 
47 
 
Entre os modelos de frequência de sinistros ajustado, o Modelo Frequência 3, tem 
a melhor relação entre a razão do RMSE e o MAE, entre os modelos de severidade 
ajustados, o Modelo Severidade 2 tem a melhor relação, como podemos observar na 
Tabela 18. 
Tabela 18 – Comparativo RMSE e MAE 
MODELO RMSE MAE RMSE/MAE 
F1 0,1791 0,0651 2,75 
F2 0,4364 0,3952 1,10 
F3 0,4538 0,4215 1,08 
S1 1100,11 268,46 4,10 
S2 0,4732 0,4591 1,03 
S3 3726,00 2861,00 1,30 
Fonte: Dados Associação 
Concluímos assim, a aplicação do método de regressão por Random Forest nos 
dados analisados em nossa pesquisa. O resultado da regressão aplicado na experiência de 
precificação contribuiu significativamente para o desenvolvimento do trabalho e a 
aplicação do método PCA na amostra teve o melhor desempenho no ajuste entre os três 
modelos de frequência e os três modelos de severidade. 
3.4 Precificação Prêmio Puro 
3.4.1 Prêmio de Risco e Prêmio Puro 
O prêmio de risco coletivo é a soma das indenizações no período de analise, em 
nossa pesquisa há uma variável aleatória denominada SIN_TIP, que reúne os tipos de 
sinistros passiveis de indenizações que são roubo, acidentes, vidros e incêndio, no modelo 
de precificação desenvolvido, calculamos o prêmio de risco E[S] e prêmio puro 
E[S](1+θ) para cada uma dessas variáveis, para efeito de cálculo, arbitrariamente 
definimos θ = 0,2 como carregamento de segurança, o θ a ser escolhido arbitrariamente 
depende da aversão ao risco, e nessa pesquisa, levamos também em consideração o desvio 
padrão do valor médio da despesas de sinistro. 
 O valor do prêmio puro para cada uma das variáveis é apresentado na Tabela 19. 
Tabela 19 – Prêmio Puro Coletivo 
Variável Prêmio de Risco E[S] Prêmio Puro E[S](1+ θ) 
Roubo 167670,48 201204,58 
Acidentes 54035,22 64842,26 
Vidros 4535,00 5442,00 
Incêndio 5137,51 6165,01 
Fonte: Dados Associação 
O tempo de exposição individual é definido pelo número de dias vigentes dentro 
da janela de observação, que no nosso caso, é o período por apólices é de 365 dias. 
48 
 
Podemos definir a exposição individual como uma taxa feita pela razão entre os dias 
vigentes na janela de observação de cada apólice pelo total do período, ou seja, 365 dias. 
Em nossa pesquisa, calculamos a taxa pura anual, que assim é definida por 
Ferreira (2002, p,5) 
𝐸[𝑆](1 + 𝜃)
𝑇𝑜𝑡𝑎𝑙 𝐼𝑆 𝑒𝑥𝑝𝑜𝑠𝑡𝑎
 
Assim, a IS exposta individual é encontrada pela razão da IS sobre a exposição 
individual, definido o prêmio puro coletivo E[S](1+θ), e a IS exposta individual, 
encontramos a taxa pura anual, conforme apresentado na Tabela 20. 
Tabela 20 – Taxa Pura Anual 
TIPO E[S](1+θ) IS exposta Taxa Pura Anual 
Roubo 201204,58 14069539 0,0143 
Acidentes 64842,26 14069539 0,0046 
Vidros 5442 9054036 0,0006 
Incêndio 6165,01 14069539 0,0004 
Fonte: Dados Associação 
A partir da Tabela 20, é possível obter o prêmio puro individual anual para cada 
tipo de variável de risco, fazendo o produto da taxa pura anual pela IS exposta, como 
exemplo, hipoteticamente um veículo com IS exposta no valor de R$ 11.340,00 que 
representa a IS média na amostra, temos um prêmio puro individual anual conforme 
Tabela 21. 
Tabela 21 – Prêmio Puro Individual Anual 
TIPO Taxa Pura Anual IS exposta Prêmio Puro 
Roubo 0,0143 11.340,00 162,16 
Acidentes 0,0046 11.340,00 52,16 
Vidros 0,0006 11.340,00 6,80 
Incêndio 0,0004 11.340,00 4,97 
 Prêmio Puro Total 225,66 
 Fonte: Dados Associação 
Pelo método dos sinistros agregados, utilizando o princípio do valor esperado E[S], 
Podemos calcular o prêmio puro a partir dos dados da Associação simplesmente fazendo 
o produto da taxa pura anual pela importância segurada, para encontrar o prêmio 
comercial individual anual, basta definir o valor percentual do carregamento e fazer a 
razão conforme assim definido; 
Prêmio Comercial Anual = 
E[S](1+θ)
(1−𝛼)
, onde α é o carregamento aplicado, 
 Porém, nosso objetivo é precificar o prêmio puro individual anual e cada 
associado tem seu perfil próprio e veículos diferentes, nesse ponto, utilizamos o resultado 
da regressão pelo método de Random Forest para obter a precificação para cada perfil de 
cada associado hipotético. 
49 
 
O modelo desenvolvido para o cálculo conforme o perfil do associado é um 
modelo multiplicativo, onde o valor do prêmio puro individual anual por tipo de risco é 
multiplicado pelo produto entre a importância de cada variável de risco na sua severidade 
média e na sua frequência média, que assim definimos; 
Prêmio Puro por Variável de Risco = ((1 + (𝐹𝑖, 𝑆𝑖), 𝑃𝑝𝑖), onde, 
 𝐹𝑖 é a frequência na variável de risco y, 
𝑆𝑖 é a severidade na variável de risco y, 
𝑃𝑝𝑖 é o prêmio puro anual individual na variável de risco y. 
Na Tabela 22, apresentamos o resultado do cálculo do prêmio puro anual por 
importância média para cada variável de risco, é importante observar que os valores 
dispostos nas colunas Frequência e Severidade representam a