Baixe o app para aproveitar ainda mais
Prévia do material em texto
Universidade Federal do Piauí Centro de Ciências da Natureza Departamento de Estatística Curso de Bacharelado em Estatística TÁCITO TORRES NETO MÉTODOS DE CLASSIFICAÇÃO E REAMOSTRAGEM APLICADOS A ANÁLISE DE RISCO NO SETOR BANCÁRIO Teresina-PI 2020 ii TÁCITO TORRES NETO MÉTODOS DE CLASSIFICAÇÃO APLICADOS A ANÁLISE DE RISCO NO SETOR BANCÁRIO Monografia apresentada ao departamento de Estatística do Centro de Ciências da Natureza da Universidade Federal do Piauí, como requi- sito parcial para a obtenção do grau de Bacharel em Estatística. Orientador: Prof. Dr. FILIPE RIBEIRO FORMIGA TEIXEIRA Teresina-PI 2020 iii TÁCITO TORRES NETO MÉTODOS DE CLASSIFICAÇÃO E REAMOSTRAGEM APLICADOS A ANÁLISE DE RISCO NO SETOR BANCÁRIO Monografia apresentada ao departamento de Estatística do Centro de Ciências da Natureza da Universidade Federal do Piauí, como requi- sito parcial para a obtenção do grau de Bacharel em Estatística. Aprovada em setembro de 2020. BANCA EXAMINADORA Prof. Dr. FILIPE RIBEIRO FORMIGA TEIXEIRA - Orientador UFPI Prof. Ma. DANIELA BANDEIRA DE CARVALHO UFPI Me. ITHALO COELHO DE SOUSA UFV Teresina-PI 2020 iv "Parte da jornada é o fim" (Tony Stark) v Agradecimentos Agradeço primeiramente aos meus pais, Marcela Maria Araújo Magalhaes Torres e Odivan Fortes Torres, pelos ensinamentos, amor e por nunca medir esforços para me oferecer as melhores oportunidades de estudo e de vida. A minha tia Alexandra Silva Araújo, que sempre esteve presente, tornando-se minha segunda mãe. A minha irmã Tássia Rafaela que mesmo com os nossos desentendimentos, sempre me apoiou e confiou no meu potencial. A meu irmão Arthur que com sua ingenuidade de criança me estimula a aprender cada vez mais para ensiná-lo. Agradeço minha amada companheira Deiane Soares que esteve presente desde o início desta árdua caminhada, me ajudando continuamente durante todos estes anos. Ao meu orientador Dr. Filipe Ribeiro Formiga Teixeira pelos seus ensinamentos, colaborações e conselhos valiosos e essenciais para este trabalho, além de todo o incentivo e motivação. A Ma. Daniela Bandeira de Carvalho e Me. Ithalo Coelho de Sousa por aceitarem participar deste projeto, assim contribuindo para o aprimoramento do estudo. A todos amigos e professores do curso de Estatística da Universidade Federal do Piauí, que fizeram parte da minha vida durante todos estes anos de curso. Obrigado a todos que me ajudaram nessa longa caminhada, vocês foram importantes na cons- trução de quem sou tanto na vida pessoal, quanto profissional. vi Lista de Figuras 2.1 Gráfico do MPL. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.2 Gráfico do modelo logit. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.3 Ilustração da Árvore de Decisão. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.4 Validação cruzada k-Fold. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.5 Sobreposição de duas distribuições hipotéticas. . . . . . . . . . . . . . . . . . . . . . . . . 13 2.6 Gráfico ROC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 4.1 Categorização dos Clientes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 4.2 Correlação de Spearman das variáveis numéricas . . . . . . . . . . . . . . . . . . . . . . . 22 4.3 Acurácia nos métodos de reamostragem. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 4.4 Tempo gasto para execução dos métodos de reamostragem em segundos. . . . . . . . . . . 24 4.5 Resíduos vs Alavancagem. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.6 Curvas ROC – Regressão Logística. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.7 Curvas ROC – Árvore de Decisão. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 vii Lista de Tabelas 2.1 Distribuição de Y. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.2 Matriz de contingência. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3.1 Descrição do banco de dados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.2 Discriminação das variáveis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 4.1 Descrição das Variáveis Quantitativas do estudo. . . . . . . . . . . . . . . . . . . . . . . . 20 4.2 Descrição das Variáveis Qualitativas do estudo. . . . . . . . . . . . . . . . . . . . . . . . . 21 4.3 Comparativo da acurácia e tempo computacional gasto do LOOCV e k-Fold. . . . . . . . 23 4.4 Teste Qui-quadrado de Pearson. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.5 Tabela de Contingência - Regressão Logística. . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.6 Qualidade de classificação - Regressão Logística. . . . . . . . . . . . . . . . . . . . . . . . 26 4.7 Comparativo entre autores – Regressão Logística. . . . . . . . . . . . . . . . . . . . . . . . 27 4.8 Tabela de Contingência (k-Fold) - Árvore de Decisão. . . . . . . . . . . . . . . . . . . . . 28 4.9 Tabela de Contingência (LOOCV) - Árvore de Decisão. . . . . . . . . . . . . . . . . . . . 28 4.10 Qualidade de classificação - Árvore de Decisão. . . . . . . . . . . . . . . . . . . . . . . . . 28 4.11 Comparativo entre autores – Árvore de Decisão. . . . . . . . . . . . . . . . . . . . . . . . 29 Sumário Agradecimentos v Lista de Figuras vi Lista de Tabelas vii Resumo x Abstract xi 1 Introdução 1 2 Material e Métodos 3 2.1 Análise de Crédito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.2 Métodos de Classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.3 Regressão Logística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.3.1 Modelo de Probabilidade Linear (MPL) . . . . . . . . . . . . . . . . . . . . . . . . 4 2.3.2 Modelo Logit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.3.3 Qualidade do ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.4 Critério de Informação Akaike para Seleção de Variáveis . . . . . . . . . . . . . . . . . . . 9 2.4.1 Método de Seleção de Variáveis Stepwise . . . . . . . . . . . . . . . . . . . . . . . . 9 2.5 Árvore de Decisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.6 Validação cruzada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.6.1 Validação Cruzada pelo método k-Fold . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.6.2 Validação Cruzada Leave-one-out (LOOCV) . . . . . . . . . . . . . . . . . . . . . . 11 2.7 Qualidade de classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.7.1 Taxa de Acerto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.7.2 Análise ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.8 Comparação entre autores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 3 Dados e Software 17 viii ix 4 Resultados e Discurssão 19 4.1 Análise descritiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 4.2 Seleção das variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 4.3 Comparação entre métodos de reamostragem . . . . . . . . . . . . . . . . . . . . . . . . . 23 4.4 Comparação dos métodos de classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.4.1 Regressão logística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.4.2 Árvore de Decisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 5 Conclusão 30 Referências Bibliográficas 31 6 Anexos 34 6.1 Anexo I: Descriçãodos itens da Tabela 4.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 x Resumo Neste estudo foi analisado dois diferentes métodos de classificação, sendo eles: Regressão Logística e Árvore de Decisão, aplicados aos dados dos clientes de um banco alemão para classifica-los como bons ou maus pagadores. Para a medir a qualidade dos modelos foi utilizado Técnicas de Reamostragem, sendo elas: Leave-one-out e k-Fold, desempenhando um papel importante no treinamento e medição de quali- dade dos modelos. Os métodos de reamostragem foram aplicados nos dados referentes a clientes de um banco alemão e empregados algumas métricas para verificação da qualidade do treinamento, tendo como principal o tempo computacional utilizado, e a qualidade da previsão, que seria: Acurácia, sensibilidade, especificidade e a análise ROC. Os métodos de reamostragem apresentaram resultados semelhantes em termos de medidas de qualidade de ajuste, no entanto o k-folds apresentou um tempo computacional 27 vezes inferior. A melhor metodologia para a classificação dos clientes foi a Regressão Logística pois apre- sentou as melhores métricas na qualidade de previsão, dando ênfase no alto valor de acurácia e área ROC. Palavras-chave: Validação Cruzada, Regressão Logistica, Árvore de Decisão, LOOCV, K-fold. xi Abstract In this study, two different classification methods were analyzed, namely: Logistic Regression and Decision Tree, applied to customer data from a German bank to classify them as good or bad payers. To measure the quality of the models were used Techniques of Resampling: Leave-one-out and k-Fold, playing an important role in the training and measurement of quality of the models. The resampling methods were applied to the data referring to customers of a German bank and applied to verify the quality of the training, having as main the computational time , and the quality of the forecast, which would be: accuracy, sensitivity, specificity and the ROC analysis. The reshuffling methods showed similar results in terms of adjustment quality measures, however the k-fold presented a computational time 27 times lower. The best methodology for customer classification was Logistic Regression because it presen- ted the best metrics in predictive quality, emphasizing the high accuracy value and ROC area. Keywords: Cross Validation, Logistic Regression, Decision Tree, LOOCV, K-fold. Capítulo 1 Introdução Diante do atual mercado financeiro é perceptível a importância dos bancos, empresas e instituições financeira na economia de um país. Segundo Paula (2014), as instituições financeiras possuem uma importância fundamental no financiamento e crescimento econômico, evidenciando que não apenas fazem o intermédio financeiro, mas também podem contribuir diretamente com o crescimento econômico. Com a simplificação para o acesso ao crédito, objetivando a adesão de novos clientes e manutenção dos que já possuem em sua base de financiamento, muitas instituições financeiras acumulam inadimplên- cias de seus fiadores. Em um estudo desenvolvido pela área de análise de decisões do Serasa Express, uma empresa irlandesa criada a partir de uma parceria entre associações bancárias, em junho de 2018 no Brasil o número de inadimplentes totalizava 61,8 milhões de pessoas, o maior desde o início da série, realizado em 2016. Comparando com o mesmo mês em 2017 houve um aumento de 1,98%. O valor total em dívida acumulou R$273,4 bilhões, e média de quatro dividas por CPF, totalizando R$4.426 por cliente. Já a nível mundial, o Relatório Global de Estabilidade Financeira (GFSR) do outono de 2017 do FMI constatou que, desde 2008, a dívida das famílias continua a crescer significativamente em uma amostra de 80 países. Entre as economias avançadas, a razão da mediana da dívida aumentou de 52% do produto interno bruto (PIB) em 2008 para 63% em 2016. Entre as economias emergentes, aumentou de 15% do PIB para 21% no mesmo período. Levando em consideração um mercado aberto e competitivo e uma crescente nas inadimplências dos fiadores, as instituições financeiras devem encontrar o equilíbrio entre os riscos de perdas e ofertas de crédito. Segundo Gartner (2009), o fator crítico dessa equação está na identificação e quantificação de forma correta dos riscos de uma operação de crédito atribuída ao credor. A gestão de risco de crédito destaca-se como uma forma de redução dos riscos, fundamentando-se em analises subjetivas e objetivas (análise estatística), como um mecanismo para a correta seleção, análise, precificação e monitoramento do risco de inadimplência (SANTOS; FAMÁ, 2007,p.107). Para controlar o risco de crédito pode-se aplicar uma vasta gama de metodologias para medir os riscos sujeitos em uma concessão (LIMA et al., 2009). Segundo Samejima et al.(2003) , a regressão logística, as árvores de decisão e dentre outros métodos tem destaque como metodologias utilizadas para 2 construção de modelos de riscos de créditos. Segundo James (2013), o uso de uma determinada técnica de classificação estatística é confiável se resultar em um baixo erro, quando calculado usando o conjunto de teste. Geralmente em análises os dados não possuem um volume para divisão dos dados em conjunto de treinamentos e validação, mantendo as características principais dos dados. Na ausência de um conjunto dados grande o suficiente para que seja usado para estimar cor- retamente a taxa de erro de teste, várias técnicas podem ser usadas para estimar usando os dados de treinamento disponíveis. Dentre as existentes, no estudo será abordado o k-fold e leave-one-out (LOOCV). O k-fold tendo como procedimento dividir o total das observações em k subconjuntos mutuamente exclu- sivos do mesmo tamanho e serão utilizados para teste, já os k-1 restantes são utilizados para estimação dos métodos de classificação, assim gerando a acurácia do modelo proposto. Já o LOOCV é um caso particular do k-fold, onde k=n, sendo n o tamanho do conjunto de informações utilizados. Este estudo abordará conhecimentos de Machine Learning empregado a Métodos de Classificação através de uma comparação entre os métodos de Regressão Logística e Árvore de Decisão e utilizará os dados simulados financeiros cedidos pelo Prof. Hofmann do Instituto de Estatística e Econometria da Universidade de Hamburgo, Alemanha. Com objetivo de aplicar modelos que não apenas tenham capaci- dade de classificar novos clientes como bom ou mau pagador de forma correta, mas também apresentem bons resultados na aplicação dos métodos de reamostragem, não oferecendo um alto custo computacional em sua execução, assim reduzido os riscos de perdas das financeiras que será melhor detalhado nas seções seguintes. Capítulo 2 Material e Métodos 2.1 Análise de Crédito Segundo Schrikel (1998), a análise de crédito em uma instituição financeira tem como objetivo: identificar riscos em uma concessão de crédito, verificar a capacidade do cliente saldar o valor solicitado e melhor tipo de empréstimo a conceder, atendendo as necessidades do solicitante, dos riscos identificados e mantendo a potencialização dos resultados da financeira. Silva (1993) entende risco de crédito como a probabilidade do não recebimento do valor repassado a um terceiro mediante a um acordo de pagamento, tendo como vários possíveis fatores que possam influenciar quem cedeu o crédito não consiga retomar de seus clientes o pagamento dentro do prazo firmado. Para uma boa análise é necessário que a instituição financeira tenha posse de informações confiáveis sobre o cliente, pois segundo Silva (2008), a matéria-prima para a decisão de crédito é a informação. A consecução de informações corretas e o tratamento adequado das mesmas formam uma base sólida para uma decisão de crédito segura. Devido ao mercado competitivo e uma maior facilidade ao acesso a créditos estão influenciando muitas organizações bancárias a terem um diferencial e como uma forma para evitar inadimplências é utilizado análisede crédito, assim destacando a sua importância no processo de concessão de crédito (SCHERR, 1989). Os métodos de Classificação podem ser utilizados no tratamento das informações obtidas para análise, assim poderá fornecer confiáveis informações para análise de novas solicitações de créditos. 2.2 Métodos de Classificação Para a utilização de modelos de regressão linear ou não linear, por exemplo, a variável resposta deve ser quantitativa. No entanto, em muitas situações a variável resposta é qualitativa. Nesses casos é conveniente a utilização dos métodos de classificação, assim possibilitando previsões de respostas qua- litativas para os objetos em estudo. Constantemente os métodos de classificação utilizados inicialmente estimam a probabilidade de cada uma das categorias, logo o seu comportamento se assemelha aos métodos 4 de regressão (JAMES et al.,2013). Nas classificações das observações, assim como na regressão, têm-se um conjunto de observações que é utilizada na elaboração do classificador (ou modelo de regressão). O ideal é que o classificador possua um bom desempenho não apenas nos teste dos dados, mas também em observações que não foram utilizadas nos testes de melhoria do classificador. (JAMES et al.,2013). Existem vários métodos de classificação, mas nesse estudo serão abordadas a regressão logística e árvores de decisões e suas peculiaridades como classificadores das observações. 2.3 Regressão Logística Segundo Gujarati et al.(2008), em modelos em que a variável resposta é quantitativa, o objetivo é estimar seu valor médio ou esperado a partir das variáveis explicativas. Já nesse estudo o modelo que será utilizado para Y sendo qualitativo, assim o objetivo da regressão se diferencia dos modelos de regressão linear. Neste caso, a intenção é encontrar a probabilidade de o cliente ser um bom ou mau pagador, logo será feito um modelo de probabilidade linear ou MPL. O alvo desse estudo é classificar clientes de um banco como bons ou maus pagadores, sendo atribuído 1 para quando se tratar de um bom pagador e 0 quando mau pagador. Em outras palavras, a variável resposta é binária ou dicotômica. 2.3.1 Modelo de Probabilidade Linear (MPL) Considerando um modelo de regressão, onde a variável resposta é binária e possui apenas uma variável explicativa, assim teremos o seguinte modelo de variável resposta binária: Yi = β0 + xiβ1 + Ei (2.1) E(Yi|Xi) = β0 + xiβ1 (2.2) Considerando Pi = probabilidade de que Yi = 1 (de que o cliente seja um bom pagador) e (1− Pi) = probabilidade de que Yi = 0 (de o cliente não seja um bom pagador), logo: Tabela 2.1: Distribuição de Y. Yi Probabilidade 0 1− P(Yi) 1 P(Yi) Total 1 Assim podemos perceber que Yi segue uma distribuição de probabilidade de Bernoulli. Utilizando as informações da tabela 2.1: 5 E(Yi) = 0(1− Pi) + 1(Pi) = Pi (2.3) Igualando E(Yi | Xi) e E(Yi), encontraremos: E(Yi | Xi) = β0 + Xiβ1 = Pi (2.4) assim, a esperança condicional do MPL poderá ser considerada a probabilidade condicional de Yi. Apesar de possuírem a ideia simples dos modelos de regressão linear, os modelos de probabilidade linear apresentam problemas em sua execução, e são eles: • Ausência de normalidade dos resíduos Hipótese de normalidade é rejeitada pois se trata de uma variável resposta dicotômica, logo os termos do erro assumiram apenas dois valores, assim seguindo distribuição Bernoulli. • As variâncias dos resíduos não são homocedásticas Como dito anteriormente, os MPL seguem distribuição Bernoulli, sabendo que a variância desta distribuição está em função da média, logo a variância dos resíduos depende dos valores de X devido a isso não é homocedástica. • A probabilidade de ocorrência do evento pode não está no intervalo de 0 a 1 Como sabemos Pi ( ou E(Yi | Xi)) mede a probabilidade condicional da variável Y em relação a X, devendo situar-se entre 0 e 1. Mas como o MPL está sendo estimado através dos mínimos quadrados ponderados e o mesmo não possui nenhuma restrição no intervalo mencionado. Segundo Gujarati et al.(2008), os modelos logit e probit garantirão que as probabilidades estejam dentro do intervalo 0 e 1. • O valor de R2 do MPL não é uma medida de qualidade confiável O R2 obtido da regressão linear convencional não será eficaz para expressar o total que a variável X pode explicar da variável resposta, já que Y trata-se de uma variável dicotômica com seus valores podendo assumir apenas 0 ou 1. Logo os valores referente a Y estarão dispostos ao longo do eixo X ( quando Y for igual a 0) ou da linha correspondente a 1. Sendo demonstrado na Figura 2.1. Figura 2.1: Gráfico do MPL. 6 Portanto é necessário um MPL que os valores de Pi estejam contidos no intervalo 0-1; e que a relação entre Pi e Xi não seja linear, ou seja, os valores de Pi aproxima-se de zero quando o Xi fica menor e aproxima-se de 1 quando Xi cresce bastante (Gujarati et al.,2008). Segundo Gujarati et al.(2008), os valores de Pi comportam-se como uma curva sigmoide, forma de S, assemelhando a uma função de distribuição acumulada (FDA) de uma variável aleatória. Dentre as FDA existentes, a escolhida para estimar os valores de Pi é a função de distribuição acumulada logística, a mesma da origem ao modelo logit. 2.3.2 Modelo Logit O modelo logit pode ser aplicado em diversos campos de pesquisa, até mesmo em áreas da engenharia, pesquisa de mercado e em economia. Para associar a variável resposta, quando for categórica, aos preditores do modelo transforma-se as probabilidades nos níveis da variável resposta em uma escala contínua sendo limitada no intervalor 0 e 1. A distribuição utilizada do modelo logit é a logarítmica, possuindo a seguinte função acumulada: F(Zi) = 1 1+ e−Zi = eZi 1+ eZi = Pi (2.5) Em que Zi = β0 +β1Xi1 + ...+β(p)X(ip), sendo p a quantidade de parâmetros. A função acima apresenta a probabilidade de sucesso em relação aos valores de z. Pode-se verificar que Zi pode variar em de −∞ a +∞, com Pi variando entre 0 e 1; além de Pi não está relacionada linearmente a Zi (ou seja Xi), assim atendendo dois requisitos considerados anteriormente. Mesmo atendendo os requisitos originou problemas na estimação, pois Pi é não linear só em X, mas também em β. Com isso não poderá ser utilizado o método dos mínimos quadrados ordinários na estimação dos parâmetros. A equação anterior pode ser linearizada e será mostrada a seguir. Se Pi é a probabilidade de sucesso, que em nosso estudo trata-se o cliente ser um bom pagador, então (1− Pi) é a probabilidade do cliente não ser um bom pagador, é dada por: (1− Pi) = 1− eZi 1+ eZi = 1 1+ eZi (2.6) Portanto, podemos fazer Pi (1− Pi) = eZi (2.7) A equação acima é a razão de chance do cliente ser classificado como bom pagador em relação ao mau pagador. Aplicando o logaritmo natural na equação anterior, tornaremos Pi linear em relação a β (vetor dos parâmetros) 7 ln ( Pi (1− Pi) ) = Zi = β0 + β1Xi1 + ...+ β(p)X(ip) (2.8) Como os dados utilizados no estudo tratam-se em nível individual o método utilizado é o de má- xima verossimilhança. A Figura 2.2 demonstra como o ajuste do modelo logit se comporta na classificação dos dados. Figura 2.2: Gráfico do modelo logit. Como representado na Figura 2.2, o modelo constrói uma curva no formato de ’S’, ajustando-se bem aos valores observados. 2.3.3 Qualidade do ajuste Resíduos Para avaliar se o modelo ajustado possue resultados confiáveis, é comum a utilização da análise de resíduos. No estudo foi abordado dois tipos de análise de resíduos, sendo os resíduos de Pearson e o resíduo Deviance. Os resíduos de Pearson são utilizados como auxílio na identificação de outliers que prejudiquem a estimação do modelo. Na regressão logística o mesmo é definido por: (rp)i = yi − π̂i√ π̂i(1− π̂i) , (2.9) em caso dos valores de (rp)i forem próximos de zero, isto indica que o modelo possui um bom ajuste. Já para os resíduos Deviance tem como objetivo detectar os erros no modelo ajustado, medinho a disparidade entre omodelo contendo todas as variáveis e o modelo proposto para análise, sendo definido por: di = si √ −2{yi log(π̂i) + (1− yi) log(1− π̂i)}, (2.10) onde, 8 • i = 1, 2, ...,n; • π̂i = g(xiβ̂); β̂ sendo o vetor dos parâmetros estimados; • si = 1 se yi = 1 ou si = −1 se yi = 0. Alavancagem (Leverage) É definida como a diagonal da matriz de projeção de H, que possui tal nome, pois projeta o vetor de observações no vetor dos valores ajustados. Os componentes da diagonal são utilizados para medir a alavancagem do observado em relação ao ponto previsto. Na regressão logística a matriz de projeção pode ser definida como: H = Q 1 2X(XTQX)−1XTQ 1 2 (2.11) Os valores resultantes da matriz de projeção H expressam quão extremas são as observações no espaço das covariáveis,ou seja, quanto mais distinto de zero mais extremos são os pontos. Distância de Cook É utilizada para apontar valores extremos e medir a influência das observações nos parâmetros estimados. Essa estatística é definida como: Di = {β̂− β̂(i)}TXTQX{β̂− β̂(i)} ps2 (2.12) sendo: • X é a matriz de variáveis; • β é um vetor de parâmetros estimados; • β̂(i) é um vetor de parâmetros estimados sem a i-ésima observação; • p é o número de atributos acrescidos de um; • s2 é a estimativa da variância obtida no modelo com todas as observações; • Q é a matriz diagonal com i-ésima entrada π̂i(1− π̂i). Para identificação de pontos influentes é utilizado os valores deDi, sendo os valores mais distantes de zero os pontos influentes. Teste Qui-Quadrado Para verificar se o modelo utilizado é significativo é necessário a aplicação do teste de razão de verossimilhança. Neste estudo o teste será utilizado para comparação da verossimilhança do modelo saturado com o modelo reduzido. A estatística do teste é definida como: G2 = 2log L Lr (2.13) 9 em que L a verossimilhança do modelo saturado e Lr a verossimilhança do modelo reduzido. A estatística do teste de razão de verossimilhança (TRV) possui distribuição aproximada ao Qui-Quadrado com k graus de liberdade, sendo k igual ao número de variáveis do modelo completo. Para a interpretação do teste, a hipótese nula trata os modelos como equivalentes. Nesse caso o interessante é a rejeição da hipótese nula, assim há indícios que pelo menos um dos coeficientes contribuem na predição da variável resposta. 2.4 Critério de Informação Akaike para Seleção de Variáveis Segundo Junior (2006), variáveis desnecessárias, sem significância para o modelo, também redu- zem a precisão da predição. Pensando em qualidade de ajuste e menos complexidade pode ser utilizado o Critério de informação Akaike (AIC) (WASSERMAN, 2003). O critério AIC tem como definição AIC = −log(Lp) + 2p (2.14) Onde p é a quantidade de variáveis explicativas utilizada e Lp é a função de verossimilhança do modelo. É perceptível que o critério penaliza modelos com muitas variáveis, pois tal método define que o melhor modelo é aquele que possua o menor AIC. No estudo foi aplicado o método de seleção de variáveis stepwise e usado o AIC como avaliação na seleção do modelo que possua a menor quantidade de variáveis e o menor AIC. 2.4.1 Método de Seleção de Variáveis Stepwise Em um conjunto de variáveis explicativas pode conter variáveis que possuem um baixo nível de explicação da variável resposta. Segundo Montgomery (2009), dentre os métodos de seleção de variáveis utilizadas stepwise é a abordagem provavelmente o mais utilizado no contexto de regressão. Na aplicação o método consiste em adicionar e retirar atributos, reduzindo a quantidade de variáveis do modelo sem perca na explicação da variável resposta (MONTGOMERY; RUNGER, 2009). 2.5 Árvore de Decisão Como uma forma de simplificar ao acesso as informações desejadas e também uma alternativa para identificar classes e outras informações valiosas para o estudo será utilizado o método de Árvore de Decisão (AD). Além de sua simplicidade o que mais chama atenção nesse método de classificação é sua alta capacidade de aprendizado. Segundo Gama (2000), As AD utilizam a estratégia dividir-e-conquistar (divide-and-conquer), ou seja, uma informação complexa é dividida em subconjuntos de informações mais simples. Segundo Sousa (2018), a Árvore de Decisão possui como método a divisão em sub-regiões através de critérios previamente estabelecidos. A Figura 2.3 ilustra como é feita a árvore de decisão. 10 Figura 2.3: Ilustração da Árvore de Decisão. De acordo com a Figura 2.2 cada sub-região criada é atribuído um valor que será utilizado com predito para indivíduos que não foram utilizados na criação do modelo. A estrutura desse método possui nós internos, onde de acordo com certa condição a informação é dividida em dois novos grupos de dados ligados ao grupo antigo, os novos grupos originados são chamados de ramos e os nós externos são onde não ocorre mais divisões de grupos, ou seja, na extremidade dos ramos. 2.6 Validação cruzada No processo de modelagem o principal interesse do pesquisador é encontrar um modelo que seja capaz de predizer os dados que não passaram pelo treinamento do algoritmo, ou seja, é desejado um modelo que possua o menor erro de generalização. Uma das maiores dificuldades é que a amostra geralmente é pequena, assim impedindo fazer a validação com informações não utilizadas na modelagem do método de classificação escolhido. Fazer a verificação do erro de previsão utilizando os dados no treinamento do algoritmo pode subestimar o erro de generalização. Uma forma de reduzir o erro no procedimento de validação é utilizar a validação cruzada, que tem como objetivo estimar o erro de previsão associado aos métodos de classificação utilizados. Segundo Hastie et al. (2009), a validação cruzada é provavelmente o método mais simples e mais amplamente usado para estimar o erro de previsão. Nesse estudo será abordado o método k-Fold’s e o Leave-One-Out Cross Validation (LOOCV) os mesmos possuem uma aplicação semelhante, mas se diferenciam em suas técnicas. 11 2.6.1 Validação Cruzada pelo método k-Fold Figura 2.4: Validação cruzada k-Fold. O exemplo da Figura 2.4 representa um conjunto de dados onde o mesmo foi dividido em k partes, o modelo é ajustado com a i - 1 partes e a parte restante é utilizada para a predição do modelo. Este processo é repetido k vezes até completar todas as combinações das partes. Por fim é feito uma média dos erros de previsão e o mesmo será utilizado para medir a qualidade do ajuste do algoritmo. 2.6.2 Validação Cruzada Leave-one-out (LOOCV) Este método é considerado um caso especial do K-fold, onde k=n, logo o tamanho da amostra é igual a quantidade de grupos utilizados na validação. Para o treino do método será utilizado n-1 em cada grupo e será testado o modelo produzido com a observação que ficou de fora. Segundo Borra e Ciaccio (2010), Leave-one-out é um estimador possivelmente não viesado do erro, devido a amostra de treino ser quase o banco completo, principalmente quando n é grande. Tal situação afeta o custo computacional deste método, pelo modo de aplicação que consiste em teinar n vezes o modelo assim elevando tal custo e especialmente com uma amostra muito grande (Kim, 2009). 2.7 Qualidade de classificação Para avaliar a qualidade de diferentes modelos, é interessante que sejam abordadas medidas de qualidade de classificação para cada uma das k predições. As metodologias que serão utilizadas são expostas a seguir. 2.7.1 Taxa de Acerto A taxa de acertos demonstra a porcentagem dos clientes classificados de modo correto em relação ao total da amostra, indicando a confiabilidade dos modelos propostos (MALUCELLI et al., 2010). Como trata-se de um classificador binário, que é utilizado para classificar observações em positivas ou negativas, 12 ao predizer as classes de cada exemplo desse conjunto de dados e comparar com a classe verdadeira, pode- se dividir quatro diferentes situações: 1. verdadeiro positivo : bom pagador predito como bom pagador 2. falso positivo: mau pagador predito como bom pagador 3. verdadeiro negativo : mau pagador predito como mau pagador 4. falso negativo : bom pagador predito como mau pagador Quando os exemplos ou observações foram classificadas, poderá contar-se quantos condizem com cada uma das categorias ilustradas acima a partir da contagem é possível construir uma matriz de con- tingência, onde são estimadas os verdadeiros positivos (VP), falsos positivos (FP), verdadeiros negativos (VN) e os falsos negativos (FN). Tais medidas estão apresentadas conforme a Tabela 2.2. PPos é o total de preditos positivos, PNeg é o total de preditos negativos, Pos é o total de observações positivas e Neg é o total de observações negativas. Tabela 2.2: Matriz de contingência. Preditos positivos Preditos negativos Exemplos positivo VP FN Pos Exemplos negativo FP VN Neg PPos PNeg Total Conhecendo as medidas representada na tabela 2.2 será possível determinar a fração de verda- deiros positivos (FVP) e a fração de falso positivo (FFP): FVP = VP Pos (2.15) FFP = FP Neg (2.16) Acurácia = VP PPos (2.17) Taxadeacerto = VP + VN Total (2.18) Taxadeerro = 1− taxadeacerto (2.19) Como representado acima, pode-se calcular a taxa de acertos dos maus e bons pagadores. Segundo Gonçalves et al. (2013), em algumas circunstâncias, é mais interessante identificar um cliente bom do que um cliente mau (ou vice-versa); nessas situações, é habitual dar um peso para a taxa de acertos mais relevante ao estudo do pesquisador e se calcular uma média ponderada da taxa de acertos. 13 2.7.2 Análise ROC A análise ROC (Receiver Operating Characteristic) é uma ferramenta gráfica para organização, análise e seleção de predição e/ou classificadores com base em seu desempenho. Segundo Prati et al. (2008), os gráficos ROC inicialmente eram utilizados em detecção de sinais, para se analisar a qualidade de transmissão de um sinal em um canal com ruído. Recentemente, a análise ROC foi inserida em Aprendizagem de Máquina e Mineração de Da- dos como um método válido e poderoso para a avaliação de modelos de classificação (PRATI et. al., 2008). Esta análise é especialmente adequado em domínios que possuem uma excessiva diferença entre as classes ou quando é necessário considerar distintos custos/benefícios para diferentes erros/ acertos de classificação. Análise ROC pode ser utilizada também para a estruturação e aprimoramentos de modelos. Análise de diagnóstico Considere um estudo com a variável representada por X e que valores baixos de X favorecem a decisão normal T− e valores excessivos de x favorecem a decisão anômala T+. Adotando-se f(x | A) como sendo a distribuição dos valores de x para os casos anômalos e f(x | N) como a distribuição dos valores de x para os casos normais, logo a distribuição de xa está centralizada a direita de xn. A Figura 2.5 representa a sobreposição de duas distribuições hipotéticas idealizada anteriormente. Figura 2.5: Sobreposição de duas distribuições hipotéticas. Através da Figura 2.5, podemos verificar que em uma região as distribuições xa e xn sobrepõem- se, ou seja, em alguns dos casos que inicialmente foram identificados como normais poderão ter sido identificados como anômalos, por outro lado alguns dos casos tratados inicialmente como anômalas po- derão ser identificados como normais. 14 Segundo Braga (2000), para qualquer teste de diagnóstico é firmado um valor de corte para a variável em estudo, este valor que determina a classificação dos indivíduos como anômalo ou normais. Assim, qualquer teste é avaliado pela comparação relativa da fração de verdadeiros positivos (FVP), fração de falsos positivos (FFP), fração de verdadeiros negativos (FVN) e fração de falsos negativos (FFN). Adotando-se que em todos os casos poderá ser diagnosticado como negativo e positivo, logo, o número de decisões certas somados com o número de decisões incorretas resultará no total de casos com esse estado de referência. Assim, nota-se que: FVP + FFN = 1 (2.20) e FVN+ FFP = 1 (2.21) Comumente, nos diagnósticos propende a ser avaliado por duas destas medidas, FVP (sensibi- lidade) e FVN (especificidade). Segundo Metz (1986), define sensibilidade como sendo a probabilidade de classificar como positivo quando de fato seja positivo, e especificidade como sendo a probabilidade de classificar como negativo quando de fato seja negativo. Para efeito de diagnóstico, poderá definir-se a sensibilidade como a aptidão que um teste tem para constatar os positivos, e a especificidade como a capacidade que o teste tem para excluir os negativos. Assim, valores de corte elevados, Indicam a um teste com baixa sensibilidade e muito específico, por outro lado, valores de corte baixos, conduzem a um teste muito sensível e pouco específico. Curvas ROC A curva ROC é a representação gráfica dos pares sensibilidade (FVP) (ordenadas) e 1 - especifici- dade (FFP), resultantes da variação do valor de corte ao longo de um eixo de decisão, x, a representação gráfica é designada por curva ROC no plano unitário. Para a análise gráfica ROC utiliza-se das TVP e TFP para a construção dos gráficos, sendo elas X e Y respectivamente. A Figura 2.6 ilustra o gráfico ROC, onde o mesmo é um gráfico bidimensional e possui quatro importantes regiões e a linha dos valores representada como uma reta diagonal que se trata de um classificador aleatório: 15 Figura 2.6: Gráfico ROC. As regiões apresentadas no gráfico pode ser descritas como: Céu ROC: O ponto (0,1) representa uma classificação perfeita, na qual todos os exemplos positivos e negativos são rotulados corretamente. Inferno ROC: Região localizada no lado oposto ao Céu, pode ser considerada uma região na qual são encontrados os resultados “ruins”. Quase Sempre Neg: Classificadores que são representados nessa região rotulam quase sempre os exemplos como negativos. Assim, o número de exemplos negativos rotulados errados normalmente é baixo (TFP próximo de 0) e número de exemplos positivos rotulados corretamente também é baixo (TVP próximo de 0). Quase Sempre Pos: Classificadores que são representados nessa região rotulam quase sempre os exemplos como positivos. Assim, quase todos os exemplos positivos são rotulados corretamente (TVP próximo de 1), e quase todos os exemplos negativos incorretamente (TFP próximo de 1). Area Under the Curve (AUC) Em uma tradução literal significa “área sob a curva”, tratando-se da área que fica abaixo da curva ROC. O seu valor varia de 0 a 1, sendo as previsões realizadas como boa quando a AUC se aproxima de 1. Tal método de qualidade de previsão vem gradativamente ganhando espaço como medida de avaliação de modelos em aprendizado de máquina e mineração de dados (PRATI; BATISTA; MONARD,2008). Mesmo sendo uma ótima forma de quantificar o acerto da previsão é interessante manter as análises das curvas ROC, pois segundo PRATI et al. (2008), mesmo o AUC tendo menos falhas que a taxa de erro de classificação, é indicado a análise das curvas do modelo estudado. 16 2.8 Comparação entre autores Para efeito de comparação de desempenho dos modelos selecionados, foi utilizado a dissertação de mestrado de Caetano (2018). O estudo apresentou o mesmo banco de dados e dentre as técnicas de classificação utilizadas, abordou regressão logística e árvore de decisão. Já sobre as técnicas de reamos- tragem foi utilizado o k-fold com k = 10. Objetivo da comparação é verificar o desempenho das técnicas apresentada neste estudo quando analisado sob óticas distintas. Capítulo 3 Dados e Software O banco de dados utilizado possui 1000 observações com 20 atributos categoriais, sendo cada observação uma pessoa, descritos por um conjunto de variáveis que classifica cada observação como riscos de créditos bons ou ruins, conforme os seus atributos. O mesmo foi preparado e cedido pelo professor Prof. Hofmann do Instituto de Estatística e Econometria da Universidade de Hamburgo, Alemanha para o site Data Sets - UCI Machine Learning Repositoryno ano de 1994. A descrição dos dados está disposta de acordo o tabela 3.1. Tabela 3.1: Descrição do banco de dados. Tipo de banco de dados: Multivariada Tipo de variáveis: Categóricas, inteiro Número de observações: 1000 Número de variáveis: 20 Número de variáveis quantitativas: 7 Número de variáveis qualitativas: 13 Dados Faltantes? Não As variáveis do estudo estão discriminadas em tipo e sua descrição na tabela 3.2. https://archive.ics.uci.edu/ml/datasets/statlog+(german+credit+data) 18 Tabela 3.2: Discriminação das variáveis. Variável Tipo Descrição X1 Nominal Estado da conta X2 Numérico Duração em meses X3 Nominal Histórico de crédito X4 Nominal Finalidade do empréstimo X5 Numérico Valor do empréstimo X6 Nominal Poupança/Investimentos X7 Nominal Tempo no Trabalho atual X8 Numérico Valor percentual das parcelas em relação à renda X9 Nominal Estado civil e sexo X10 Nominal Outro aplicante/garantidor X11 Numérico Tempo na residência atual X12 Nominal Propriedades X13 Numérico Idade X14 Nominal Outros empréstimos X15 Nominal Moradia X16 Numérico Número de créditos neste banco X17 Nominal Trabalho X18 Numérico Quantidade de Dependentes X19 Nominal Tem telefone X20 Nominal Trabalhador estrangeiro Y Binário Classificação do Cliente (Mau pagador = 0) Para a análise foi utilizado o software estatístico livre R Project aplicado no computador de 8gb de Memória RAM da tecnologia DDR3 com frequência de 1600 MHz, processador de 2 núcleos físicos e 4 lógicos com frequência base de 3.3 GHz, placa gráfica com 32 unidades computacionais e frequência base de 1168 MHz. Diante do exposto, tornou-se oportuno a utilização de métodos de classificação para se analisar os dados obtidos no presente estudo. https://www.R-project.org/ Capítulo 4 Resultados e Discurssão 4.1 Análise descritiva Fazendo uma análise exploratória constatamos que o banco de dados possui um desbalancea- mento em sua categorização, onde do total de clientes inseridos possui uma maior quantidades que foram identificados como bons pagadores como é representado na figura 4.1. Figura 4.1: Categorização dos Clientes. Mesmo sendo 70% classificados como bons pagadores, tal situação não inviabiliza a aplicação dos métodos, segundo Batista (2003) dados com classificações desbalanceadas na maior parte dos casos possuem um menor erro de classificação na classe majoritária. Na tabela 4.1 é descrita as variáveis quantitativas do estudo para identificarmos a quantidade mínima, mediana, média e máxima . 20 Tabela 4.1: Descrição das Variáveis Quantitativas do estudo. Variáveis Min. Mediana Média Máx. Período de conta (meses) 4 18 20,9 72 Valor do empréstimo (DM) 250 2320 3271 18424 Percentual das parcelas em relação à renda (%) 1 3 3 4 Tempo na residência atual (anos) 1 3 2,8 4 Idade (anos) 19 33 36 75 Número de créditos neste banco 1 1 1,4 4 Quantidade de Dependentes 1 1 1,2 2 De acordo com a Tabela 4.1 os clientes possuem em média 20,9 meses de conta corrente aberta no banco em estudo, com o valor médio solicitado de empréstimo de 3271 Marco Alemão (DM), com média de valores percentuais das parcelas em relação à renda de 3%, possuindo em média de 2,8 anos na atual residência, com 36 anos de idade, dispondo de aproximadamente 1 crédito neste banco e cerca de 1 dependente. Já em relação as variáveis qualitativas, os dados descritos estão representados na Tabela 4.2 e cada item está especificado como anexo ao estudo. 21 Tabela 4.2: Descrição das Variáveis Qualitativas do estudo. Variável N % Variável N % Estado da conta Estado civil e sexo A11 274 27,4 A91 50 5 A12 269 26,9 A92 310 31 A13 63 6,3 A93 548 54,8 A14 394 39,4 A94 92 9,2 Histórico de crédito Outro aplicante/garantidor A30 40 4 A101 907 90,7 A31 49 4,9 A102 41 4,1 A32 530 53 A103 52 5,2 A33 88 8,8 Propriedades A34 293 29,3 A121 282 28,2 Finalidade do empréstimo A122 232 23,2 A43 280 28 A123 332 33,2 A40 234 23,4 A124 154 15,4 A42 181 18,1 Outros empréstimos A41 103 10,3 A141 139 13,9 A49 97 9,7 A142 47 4,7 A46 50 5 A143 814 81,4 Outros 55 5,5 Moradia Poupança/Investimentos A151 179 17,9 A61 603 60,3 A152 713 71,3 A62 103 10,3 A153 108 10,8 A63 63 6,3 Trabalho A64 48 4,8 A171 22 2,2 A65 183 18,3 A172 200 20 Tempo no Trabalho atual A173 630 63 A71 62 6,2 A174 148 14,8 A72 172 17,2 Tem telefone A73 339 33,9 A191 596 59,6 A74 174 17,4 A192 404 40,4 A75 253 25,3 Trabalhador estrangeiro A201 963 96,3 A202 37 3,7 De acordo com a tabela 4.2 em 39,4% dos observados não possuía conta corrente aberta no banco em estudo (A14), mas 29,3% possuía uma conta crítica ou créditos existentes em outros bancos (A34), 22 em 28,4% dos casos a finalidade do empréstimo foi para compra de rádio/televisão (A43), os clientes em sua maioria possuíam valores menores do que 100 DM (A61) em suas poupanças ou investimentos realizados, em 33,9% dos solicitantes estavam no trabalho atual variando de 1 a valores menores que 4 anos (A73), majoritariamente os clientes são do sexo masculino e solteiro (A93) sendo 54,8% dos registrados, 90,7% dos clientes não possuem um garantidor ou fiador (A101), em 81,4% dos clientes não possui outros empréstimos (A143), 71,3% dos clientes possuem casa própria (A152). Na Figura 4.2 foi utilizada a correlação de Spearman para uma demonstração visual da correlação dos dados. Figura 4.2: Correlação de Spearman das variáveis numéricas Dentre as correlações da Figura 4.2, podemos destacar as variáveis V5 (Valor do empréstimo) e V2 (Duração de vínculo com o banco em meses) possui correlação positiva de 0.62 e as variáveis V5 (Valor do empréstimo) e V8 (Valor percentual das parcelas em relação à renda) possui correlação negativa de -0.31. 4.2 Seleção das variáveis Dando início a análise probabilística, foi dividido os dados em amostra de treinamentos e testes mantendo a proporção de bons e maus pagadores do banco de dados original e escolhidas as linhas de forma aleatória. Em números, a amostra de treinamento consta com dados de 900 clientes e foi utilizada para o aprendizado dos modelos aplicados, já a amostra de teste foi utilizada para verificar do desempenho dos métodos de classificação. Com a aplicação do AIC utilizando o stepwise para seleção do modelo que melhor classifique os clientes chegamos as seguintes variáveis: 23 P[Y = 1] = (X1,X2,X3,X4,X5,X6,X8,X9,X10,X13,X14,X16,X19,X20) (4.1) As variáveis selecionadas foram utilizadas na regressão logística, já para o método de Árvore de Decisão foi utilizada todas as variáveis do banco. 4.3 Comparação entre métodos de reamostragem Após a aplicação dos métodos de reamostragem nos deparamos com os resultados demonstrados na Tabela 4.3. Tabela 4.3: Comparativo da acurácia e tempo computacional gasto do LOOCV e k-Fold. Medidas LOOCV k = 5 k = 10 Regressão logistica Acurácia 0,76 0,75 0,76 Tempo de execução (seg) 23,32 0,76 0,89 Árvore de decisão Acurácia 0,74 0,73 0,72 Tempo de execução (seg) 32,87 1,07 1,77 Na regressão logística a diferença da acurácia no treinamento do modelo foi mínima, ou seja, mesmo o LOOCV tendo acesso a mais informações dos clientes não ocorreu uma grande diferença do informado nos fold’s de k = 5 e k = 10 (Tabela 4.3). No entanto, em relação ao tempo computacional gasto pelo LOOCV, a média foi 28 vezes maior que o utilizado pelos folds. O resultado para o método de Árvores de decisão seguiu do mesmo modo da logística, com uma pequena redução na acurácia e em relação ao tempo computacional gasto no LOOCV foi em média 27 vezes maior que o realizado nos fold’s. A diferença de tempos computacionais dos métodos de reamostragem se dá pelo nível de detalha- mento em cada um. Segundo James et al (2013), essa vantagem demonstrada pelos k= 5 e k=10 ocorre devido ao LOOCV precisar ser ajustado n vezes e quando utilizado para n extremamente grande pode demonstrar problemas devido aos ajustes computacionalmente intensivos. Trazendo a situação para a atual realidade dos Bancos ou financeiras,efetuar o LOOCV em um banco de dados que possui informa- ções de milhares clientes poderia ser inviabilizada devido à alta carga computacional que seria necessária para ajustar o modelo n vezes, logo o k-fold seria uma ótima alternativa já que os valores encontrados assemelham-se aos do LOOCV para n extremamente grande As Figuras 4.3 e 4.4 demonstram graficamente a acurácia e o tempo de execução em cada método de reamostragem. 24 Figura 4.3: Acurácia nos métodos de reamostragem. Figura 4.4: Tempo gasto para execução dos métodos de reamostragem em segundos. 25 4.4 Comparação dos métodos de classificação Dando inicio da comparação dos resultados obtidos em cada método de classificação quando aplicado no grupo de teste dos dados. 4.4.1 Regressão logística Aplicando o teste Qui-Quadrado com H0 tratando-se do modelo completo e H1 o modelo resul- tante da seleção de variáveis é representado pela tabela 4.4. Tabela 4.4: Teste Qui-quadrado de Pearson. Modelo Graus de liberdade Deviance p-valor H0 899 1100 H1 865 812,5 <0,01 Ao nível de significância de 0,05 foi rejeitada H0, logo indicando que a redução no valor da Deviance devido a retirada de algumas variáveis ainda manteve o modelo com o melhor AIC. Já tratando em relação aos resíduos do modelo, a Figura 4.5 é demonstrado os resíduos vs a alavancagem. Figura 4.5: Resíduos vs Alavancagem. A figura 4.5 não indica pontos influentes, assim poderemos considerar que os resíduos apontam um modelo bem ajustado. 26 Os resultados da regressão logística aplicado no grupo de teste são: Tabela 4.5: Tabela de Contingência - Regressão Logística. Real Predito Bom Mal Bom 62 18 Mal 8 12 A Tabela 4.5 demonstra que o modelo cometeu apenas 8 erros tipo I (classificou como mal pagador quando na verdade o cliente é um bom pagador), já para o erro tipo II (classificou como bom pagador quando na verdade o cliente é um mal pagador) foi identificado 18. A Tabela 4.6 apresenta as principais métricas de qualidade da previsão quando utilizado a re- gressão logística. Tabela 4.6: Qualidade de classificação - Regressão Logística. Medidas % Acurácia (Teste) 74 Sensibilidade 88,6 Especificidade 40 Pos Pred Value 78,1 Neg Pred Value 60 AUC 75,3 A Tabela 4.6 apresenta as principais métricas de qualidade da previsão quando utilizado a re- gressão logistica. O modelo apresentou uma boa acurácia totalizando 74%, a sensibilidade informada foi de 88, 6%, ou seja, o modelo possui uma alta capacidade de classificar os clientes como bons pagadores, já a especificidade alcançada foi de apenas 40%, assim tendo uma baixa na precisão na classificação dos clientes mal pagadores. A Figura 4.6 apresenta as curvas ROC referente a performance na previsão do grupo de teste da Regressão Logística. 27 Figura 4.6: Curvas ROC – Regressão Logística. A Regressão Logística obteve ótimos resultados nas curvas ROC, permanecendo sempre acima da linha de classificador aleatório e aproximando-se do céu ROC (Figura 4.6). Na tabela 4.7 é demonstrado o comparativo entre o modelo estudado e o de Caetano (2015) utilizando a acurácia e o AUC. Tabela 4.7: Comparativo entre autores – Regressão Logística. Modelos Acurácia AUC Modelo estudado 74 75,3 Caetano 71,5 76,9 A regressão logística apresentou ótimos resultados na classificação dos clientes, ao comparar com os resultados encontrados por Caetano (2018). Como é demostrado na tabela 4.7 foi obtido uma melhor acurácia, mas houve uma pequena redução na AUC. 4.4.2 Árvore de Decisão Diferente da Regressão Logística, a Árvore de Decisão gerou valores distintos em relação ao método de reamostragem utilizados no treinamento do modelo. As tabelas 4.8 e 4.9 apresentam respec- tivamente a tabela de contingência da Árvore de Decisão com a utilização do K-fold e do LOOCV 28 Tabela 4.8: Tabela de Contingência (k-Fold) - Árvore de Decisão. Real Predito Bom Mal Bom 59 17 Mal 11 13 Tabela 4.9: Tabela de Contingência (LOOCV) - Árvore de Decisão. Real Predito Bom Mal Bom 59 19 Mal 11 11 De acordo com as tabelas de contingência (Tabela 4.8 e 4.9), o k-fold os melhores resultados, mantendo igual a quantidade do erro tipo I e ocorrendo uma redução de 2 no erro tipo II. A Tabela 4.10 apresenta as principais métricas de qualidade da previsão quando utilizado a Árvore de Decisão. Tabela 4.10: Qualidade de classificação - Árvore de Decisão. Medidas LOOCV k-Fold % % Acurácia (Teste) 70,0 72,0 Sensibilidade 84,3 84,3 Especificidade 36,7 78,0 Pos Pred Value 75,6 75,6 Neg Pred Value 50,0 54,0 AUC 64,2 65,7 Entre os dois resultados apresentados na Árvore de Decisão, o k-fold obteve as melhores medidas de qualidade de previsão (Tabela 4.10), totalizando 72% de acurácia, possuindo uma alta sensibilidade (84,3%), uma melhora expressiva na especificidade quando comparado com o LOOCV, totalizando um aumento de 41% na especificidade com a utilização do k-fold. A Figura 4.7 apresenta as curvas ROC referente a performance na previsão do grupo de teste da Árvore de Decisão. 29 Figura 4.7: Curvas ROC – Árvore de Decisão. A Árvore de Decisão não obteve bons resultados nas curvas ROC, permanecendo sempre bem próxima da linha de classificador aleatório e no ponto (0.8,0.8) ficou a baixo da linha (Figura 4.7). A tabela 4.11 é demonstrado o comparativo entre o modelo estudado e o de Caetano (2015) utilizando acurácia e o AUC . Tabela 4.11: Comparativo entre autores – Árvore de Decisão. Modelos Acurácia AUC LOOCV k-Fold LOOCV k-Fold Modelo estudado 70,0 72,0 64,2 65,7 Caetano 65,5 68,2 Em comparação aos métodos utilizados por Caetano (2018), dando uma atenção especial ao k-fold, a Árvore de Decisão proposta no estudo obteve melhores resultados em relação a acurácia, já em relação a AUC os resultados estão bem semelhantes ocorrendo uma pequena vantagem no modelo proposto por Caetano (Tabela 4.11). Capítulo 5 Conclusão Os melhores resultados em termos de precisão foram obtidos com a aplicação da regressão logística para sua classificação e no treinamento do modelo. Já para as técnicas de reamostragem a utilização do k-fold apresentou um menor custo computacional, sendo em média 27 vezes mais rápido em comparação ao LOOCV e mantendo as acurácias dos treinos bem próximos. Portanto, em termos de performance juntamente com o tempo computacional, o método k-folds se mostrou uma metodologia eficiente e mais rápida para avaliação dos métodos de classificação aqui estudados. Para trabalhos futuros seria indicado analisar o comportamento das técnicas de validação cruzada quando aplicado ao número de observações extremamente grande, verificando o impacto computacional e a sua acurácia, assim indicando se a utilização do k-fold permanecerá a melhor opção dentre as apresentadas neste estudo. 31 Bibliografia [1] BRAGA, A. C. Curvas ROC: aspectos funcionais e aplicações. Orientador: Oliveira, Pedro Nuno Ferreira Pinto de. 2001. 267 p. Tese de Doutorado (Doutorando em Produção e Sistemas) - Univer- sidade do Minho: Braga, PT, 2000. Disponível em: http://hdl.handle.net/1822/195. Acesso em: 26 set. 2019. [2] BORRA, S. Measuring the prediction error. A comparison of cross-validation, bootstrap and covari- ance penalty methods. Computational Statistics & Data Analysis , 54, issue 12, p. 2976-2989, 2010. [3] CAETANO, M. Modelos de classificação: aplicações no setor bancário, 2015. 94 p. Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Matemática Estatística e Computação Científica, Campinas, SP. Disponível em: <http://www.repositorio.unicamp.br/handle/REPOSIP/306286>. Acesso em: 10 set. 2020. [4] GAMA, J. Pré-processamento de dados em aprendizado de máquina supervisionado, Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2003. doi:10.11606/T.55.2003.tde-06102003-160219. Acesso em: 10 set. 2020. [5] GARTNER, I.; MOREIRA, T.; GALVES, H. Análise do risco setorial como instrumento de controle gerencial em instituições financeiras.Revista de Administração Mackenzie.São Paulo, v. 10, n. 5, p. 107-129, out. 2009. [6] Global Financial Stability Report October 2017: Is Growth at Risk?. International Monetary Fund, Washington, DC, 2017. Available in <https://www.imf.org/en/Publications/GFSR/Issues/2017/09/27/global-financial-stability-report- october-2017> Accessed on: November 12th, 2019. [7] GONÇALVES, E.; GOUVÊA, M.; MANTOVANI, D. Análise de risco de crédito com o uso de regressão logística. Revista Contemporânea de Contabilidade, Florianópolis, v. 10, n. 20, p. 139-160, ago. 2013 [8] GUJARATI, D.; PORTER, D. Basic Econometrics. 5th ed. New York, NY: The McGraw-Will Companies, 2008. [9] HASTIE, T.; TIBSHIRANI, R.; FRIEDMAN, J. The Elements of Statistical Learning Data Mining, Inference, and Prediction. 2st ed. Stanford, CA: Springer, 2009. 241p. 32 [10] Inadimplência do consumidor bate recorde e atinge 61,8 milhões, revela Serasa. Serasa Experian, São Paulo, 19 de jul. de 2018. Disponível em: < https://www.serasaexperian.com.br/sala-de- imprensa/inadimplencia-do-consumidor-bate-recorde-e-atinge-618-milhoes-revela-serasa>. Acesso em: 11 de nov. de 2019. [11] JAMES, G.; WITTEN, D.; HASTIE, T.; TIBSHIRANI, R. An Introduction to Statistical Learning with Applications in R. 1st ed. New York, NY: Springer, 2013. 126p. [12] JUNIOR, F.P. Seleção de Variáveis e Características como Aplicação Paralela para Cluster MPI. Dissertação de Mestrado. Maringá, 2006. [13] Kim, J. Estimating classification error rate: Repeated cross-validation, repeated hold-out and bo- otstrap. Computational Statistics & Data Analysis , 53, issue 11, p. 3735-3745, 2009. [14] MADDALA, G. S.; Limited-Dependent and Qualitative Variables in Economics, New York: Cam- bridge University Press, 1983. [15] MALUCELLI, A. Classificação de microáreas de risco com uso de mineração de dados. Rev. Saúde Pública, São Paulo, v. 44, n. 2, p. 292-300, Apr. 2010. [16] MONARD, M.; BATISTA, G. “Learning whit Skewed Class Distributions.” Cadernos de Com- putação XX, 2003. [17] MATSUBARA, et. al. (2008). Relações entre Ranking, Análise ROC e Calibração em Aprendizado de Máquina. Tese de Doutorado, Instituto d Ciências Matemáticas e de Computação, Universi- dade de São Paulo.<http://www.teses.usp.br/teses/disponiveis/55/ 55134/tde-04032009-114050/pt- br.php>. [18] Metz, C. E. “Statistical Analysis of ROC Data in Evaluating Diagnostic Performance.” Multiple Regression Analysis: Applications in the Health Sciences, number 13, edited by Donald E. Herbert and Raymond H. Myers. 365–384. American Institute of Physics, 1986. [19] MONTGOMERY, D. C.; RUNGER, G. C. Estatística aplicada e probabilidade para enge- nheiros. 4. ed. Rio de Janeiro, LTC – Livros Técnicos e Científicos Editora S.A., 2009. 493 p. [20] PAULA, L. F. Sistema Financeiro, bancos e financiamento da economia: uma abordagem keynesiana. Rio de Janeiro: Campus/Elsevier, 2014. [21] PRATI, R. C., BATISTA, G. E. A. P. A., MONARD, M. C. Curvas ROC para a Avaliação de Classificadores. Revista IEEE América Latina, 2008. [22] R Core Team (2019). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL https://www.R-project.org/. [23] SAMEJIMA, K.; DOYA, K.; KAWATO, M. Inter-module Credit Assignment in Modular Reinforcement Learning. Neural Networks, n. 16, p. 985-994, 2003. 33 [24] SANTOS, J.; FAMÁ, R. Avaliação da aplicabilidade de um modelo de credit scoring com variáveis sistêmicas e não sistêmicas em carteiras de 39 crédito bancário rotativo de pessoas físicas. Revista Contabilidade & Finanças. São Paulo, v. 2, n. 44, p. 105–117, ago. 2007. [25] SCHERR, F. Modern Working Capital Management. New Jersey: Prentice-Hall, 1989. [26] SCHRICKEL, W.Análise de crédito: concessão e gerência de empréstimos. 4. ed. São Paulo: Atlas, 1998. [27] SILVA, J. Análise e decisão de crédito. São Paulo: Atlas, 1993. [28] SILVA, J. Gestão e análise de risco de crédito. 6 ed. São Paulo: Atlas, 2008 [29] SOUSA, I. C. Predição genômica da resistência à ferrugem alaranjada em café arábica via algoritmos de aprendizagem de máquina, 2018. Disponível em:< http://www.locus.ufv.br/handle/123456789/20584 > Acesso em: 13 nov. 2019. [30] Statlog (German Credit Data) Data Set. Data Sets - UCI Machine Learning Repository. Disponível em: < https://archive.ics.uci.edu/ml/datasets/statlog+(german+credit+data)> . Acesso em: 21 ago. 2019. [31] WASSERMAN, L.All of Statistics: A Concise Course in Statistical Inference. 1st ed. Pennsylvania: Springer, 2003, 219p. Capítulo 6 Anexos 6.1 Anexo I: Descrição dos itens da Tabela 4.2 Estado da conta A11: V1 < 0 DM A12: 0 6V1 < 200 DM A13: V1 > 200 DM A14: Não possui conta corrente Histórico de crédito A30: Nenhum crédito solicitado/ todos os créditos reembolsados devidamente A31: Todos os créditos neste banco reembolsados devidamente A32: Créditos existentes reembolsados devidamente até agora A33 : Atraso no pagamento no passado A34: Conta crítica / outros créditos existentes (não neste banco) Finalidade do empréstimo A40: carro (novo) A41: carro (usado) A42: móveis / equipamentos A43: rádio / televisão A46: educação A49: negócios Poupança/Investimentos A62: 100 6 V6 < 500 DM A63: 500 6 V6 < 1000 DM A64: V6 > 1000 DM 34 35 A65: Desconhecido / sem conta poupança Tempo no Trabalho atual A71: Desempregado A72: V7 < 1 ano A73: 1 6 V7 < 4 anos A74: 4 6 V7 < 7 anos A75 : V7 > 7 anos Estado civil e sexo A91: Masculino e divorciado / separado A92: Feminino e divorciado / separado / casado A93: Masculino e solteiro A94: Masculino e casado / viúvo A95: Feminino e solteiro Outro aplicante/garantidor A101: Nenhum A102: Co-requerente A103: Fiador Propriedades A121: imóvel A122: Poupança da sociedade de construção contrato / seguro de vida A123: Carro ou outro A124: Desconhecido / sem propriedade Outros empréstimos A141: Banco A142: Lojas A143: Nenhum Moradia A151: Aluguel A152: Próprio A153: Gratuito Trabalho A171: Desempregado / não qualificado - não residente 36 A172 : Não qualificado – residente A173: Funcionário qualificado / oficial A174: Gerência / autônomo / funcionário altamente qualificado / oficial Telefone A191: Nenhum A192: Sim, registrado sob o nome do cliente Trabalhador estrangeiro A201: Sim A202: Não Agradecimentos Lista de Figuras Lista de Tabelas Resumo Abstract Introdução Material e Métodos Análise de Crédito Métodos de Classificação Regressão Logística Modelo de Probabilidade Linear (MPL) Modelo Logit Qualidade do ajuste Critério de Informação Akaike para Seleção de Variáveis Método de Seleção de Variáveis Stepwise Árvore de Decisão Validação cruzada Validação Cruzada pelo método k-Fold Validação Cruzada Leave-one-out (LOOCV) Qualidade de classificação Taxa de Acerto Análise ROC Comparação entre autores Dados e Software Resultados e Discurssão Análise descritiva Seleção das variáveis Comparação entre métodos de reamostragem Comparação dos métodos de classificação Regressão logística Árvore de Decisão Conclusão Referências Bibliográficas Anexos Anexo I: Descrição dos itens da Tabela 4.2
Compartilhar