TCC-Tácito Torres

•
UFPI

Tácito Torres
17/05/2022
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 47 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 47 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 47 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Estatística I

57.397 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
Universidade Federal do Piauí
Centro de Ciências da Natureza
Departamento de Estatística
Curso de Bacharelado em Estatística
TÁCITO TORRES NETO
MÉTODOS DE CLASSIFICAÇÃO E REAMOSTRAGEM
APLICADOS A ANÁLISE DE RISCO NO SETOR
BANCÁRIO
Teresina-PI
2020
ii
TÁCITO TORRES NETO
MÉTODOS DE CLASSIFICAÇÃO APLICADOS A ANÁLISE DE RISCO NO SETOR BANCÁRIO
Monografia apresentada ao departamento de
Estatística do Centro de Ciências da Natureza
da Universidade Federal do Piauí, como requi-
sito parcial para a obtenção do grau de Bacharel
em Estatística.
Orientador: Prof. Dr. FILIPE RIBEIRO FORMIGA TEIXEIRA
Teresina-PI
2020
iii
TÁCITO TORRES NETO
MÉTODOS DE CLASSIFICAÇÃO E REAMOSTRAGEM APLICADOS A ANÁLISE DE RISCO NO
SETOR BANCÁRIO
Monografia apresentada ao departamento de
Estatística do Centro de Ciências da Natureza
da Universidade Federal do Piauí, como requi-
sito parcial para a obtenção do grau de Bacharel
em Estatística.
Aprovada em setembro de 2020.
BANCA EXAMINADORA
Prof. Dr. FILIPE RIBEIRO FORMIGA TEIXEIRA - Orientador
UFPI
Prof. Ma. DANIELA BANDEIRA DE CARVALHO
UFPI
Me. ITHALO COELHO DE SOUSA
UFV
Teresina-PI
2020
iv
"Parte da jornada é o fim"
(Tony Stark)
v
Agradecimentos
Agradeço primeiramente aos meus pais, Marcela Maria Araújo Magalhaes Torres e Odivan Fortes
Torres, pelos ensinamentos, amor e por nunca medir esforços para me oferecer as melhores oportunidades
de estudo e de vida. A minha tia Alexandra Silva Araújo, que sempre esteve presente, tornando-se
minha segunda mãe. A minha irmã Tássia Rafaela que mesmo com os nossos desentendimentos, sempre
me apoiou e confiou no meu potencial. A meu irmão Arthur que com sua ingenuidade de criança me
estimula a aprender cada vez mais para ensiná-lo.
Agradeço minha amada companheira Deiane Soares que esteve presente desde o início desta árdua
caminhada, me ajudando continuamente durante todos estes anos.
Ao meu orientador Dr. Filipe Ribeiro Formiga Teixeira pelos seus ensinamentos, colaborações e
conselhos valiosos e essenciais para este trabalho, além de todo o incentivo e motivação.
A Ma. Daniela Bandeira de Carvalho e Me. Ithalo Coelho de Sousa por aceitarem participar
deste projeto, assim contribuindo para o aprimoramento do estudo.
A todos amigos e professores do curso de Estatística da Universidade Federal do Piauí, que
fizeram parte da minha vida durante todos estes anos de curso.
Obrigado a todos que me ajudaram nessa longa caminhada, vocês foram importantes na cons-
trução de quem sou tanto na vida pessoal, quanto profissional.
vi
Lista de Figuras
2.1 Gráfico do MPL. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Gráfico do modelo logit. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3 Ilustração da Árvore de Decisão. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4 Validação cruzada k-Fold. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.5 Sobreposição de duas distribuições hipotéticas. . . . . . . . . . . . . . . . . . . . . . . . . 13
2.6 Gráfico ROC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.1 Categorização dos Clientes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.2 Correlação de Spearman das variáveis numéricas . . . . . . . . . . . . . . . . . . . . . . . 22
4.3 Acurácia nos métodos de reamostragem. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.4 Tempo gasto para execução dos métodos de reamostragem em segundos. . . . . . . . . . . 24
4.5 Resíduos vs Alavancagem. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.6 Curvas ROC – Regressão Logística. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.7 Curvas ROC – Árvore de Decisão. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
vii
Lista de Tabelas
2.1 Distribuição de Y. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2 Matriz de contingência. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.1 Descrição do banco de dados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2 Discriminação das variáveis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.1 Descrição das Variáveis Quantitativas do estudo. . . . . . . . . . . . . . . . . . . . . . . . 20
4.2 Descrição das Variáveis Qualitativas do estudo. . . . . . . . . . . . . . . . . . . . . . . . . 21
4.3 Comparativo da acurácia e tempo computacional gasto do LOOCV e k-Fold. . . . . . . . 23
4.4 Teste Qui-quadrado de Pearson. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.5 Tabela de Contingência - Regressão Logística. . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.6 Qualidade de classificação - Regressão Logística. . . . . . . . . . . . . . . . . . . . . . . . 26
4.7 Comparativo entre autores – Regressão Logística. . . . . . . . . . . . . . . . . . . . . . . . 27
4.8 Tabela de Contingência (k-Fold) - Árvore de Decisão. . . . . . . . . . . . . . . . . . . . . 28
4.9 Tabela de Contingência (LOOCV) - Árvore de Decisão. . . . . . . . . . . . . . . . . . . . 28
4.10 Qualidade de classificação - Árvore de Decisão. . . . . . . . . . . . . . . . . . . . . . . . . 28
4.11 Comparativo entre autores – Árvore de Decisão. . . . . . . . . . . . . . . . . . . . . . . . 29
Sumário
Agradecimentos v
Lista de Figuras vi
Lista de Tabelas vii
Resumo x
Abstract xi
1 Introdução 1
2 Material e Métodos 3
2.1 Análise de Crédito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2 Métodos de Classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.3 Regressão Logística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.3.1 Modelo de Probabilidade Linear (MPL) . . . . . . . . . . . . . . . . . . . . . . . . 4
2.3.2 Modelo Logit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.3.3 Qualidade do ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4 Critério de Informação Akaike para Seleção de Variáveis . . . . . . . . . . . . . . . . . . . 9
2.4.1 Método de Seleção de Variáveis Stepwise . . . . . . . . . . . . . . . . . . . . . . . . 9
2.5 Árvore de Decisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.6 Validação cruzada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.6.1 Validação Cruzada pelo método k-Fold . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.6.2 Validação Cruzada Leave-one-out (LOOCV) . . . . . . . . . . . . . . . . . . . . . . 11
2.7 Qualidade de classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.7.1 Taxa de Acerto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.7.2 Análise ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.8 Comparação entre autores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3 Dados e Software 17
viii
ix
4 Resultados e Discurssão 19
4.1 Análise descritiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.2 Seleção das variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.3 Comparação entre métodos de reamostragem . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.4 Comparação dos métodos de classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.4.1 Regressão logística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.4.2 Árvore de Decisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5 Conclusão 30
Referências Bibliográficas 31
6 Anexos 34
6.1 Anexo I: Descriçãodos itens da Tabela 4.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
x
Resumo
Neste estudo foi analisado dois diferentes métodos de classificação, sendo eles: Regressão Logística
e Árvore de Decisão, aplicados aos dados dos clientes de um banco alemão para classifica-los como bons
ou maus pagadores. Para a medir a qualidade dos modelos foi utilizado Técnicas de Reamostragem, sendo
elas: Leave-one-out e k-Fold, desempenhando um papel importante no treinamento e medição de quali-
dade dos modelos. Os métodos de reamostragem foram aplicados nos dados referentes a clientes de um
banco alemão e empregados algumas métricas para verificação da qualidade do treinamento, tendo como
principal o tempo computacional utilizado, e a qualidade da previsão, que seria: Acurácia, sensibilidade,
especificidade e a análise ROC. Os métodos de reamostragem apresentaram resultados semelhantes em
termos de medidas de qualidade de ajuste, no entanto o k-folds apresentou um tempo computacional 27
vezes inferior. A melhor metodologia para a classificação dos clientes foi a Regressão Logística pois apre-
sentou as melhores métricas na qualidade de previsão, dando ênfase no alto valor de acurácia e área ROC.
Palavras-chave: Validação Cruzada, Regressão Logistica, Árvore de Decisão, LOOCV, K-fold.
xi
Abstract
In this study, two different classification methods were analyzed, namely: Logistic Regression
and Decision Tree, applied to customer data from a German bank to classify them as good or bad payers.
To measure the quality of the models were used Techniques of Resampling: Leave-one-out and k-Fold,
playing an important role in the training and measurement of quality of the models. The resampling
methods were applied to the data referring to customers of a German bank and applied to verify the
quality of the training, having as main the computational time , and the quality of the forecast, which
would be: accuracy, sensitivity, specificity and the ROC analysis. The reshuffling methods showed similar
results in terms of adjustment quality measures, however the k-fold presented a computational time 27
times lower. The best methodology for customer classification was Logistic Regression because it presen-
ted the best metrics in predictive quality, emphasizing the high accuracy value and ROC area.
Keywords: Cross Validation, Logistic Regression, Decision Tree, LOOCV, K-fold.
Capítulo 1
Introdução
Diante do atual mercado financeiro é perceptível a importância dos bancos, empresas e instituições
financeira na economia de um país. Segundo Paula (2014), as instituições financeiras possuem uma
importância fundamental no financiamento e crescimento econômico, evidenciando que não apenas fazem
o intermédio financeiro, mas também podem contribuir diretamente com o crescimento econômico.
Com a simplificação para o acesso ao crédito, objetivando a adesão de novos clientes e manutenção
dos que já possuem em sua base de financiamento, muitas instituições financeiras acumulam inadimplên-
cias de seus fiadores. Em um estudo desenvolvido pela área de análise de decisões do Serasa Express,
uma empresa irlandesa criada a partir de uma parceria entre associações bancárias, em junho de 2018
no Brasil o número de inadimplentes totalizava 61,8 milhões de pessoas, o maior desde o início da série,
realizado em 2016. Comparando com o mesmo mês em 2017 houve um aumento de 1,98%. O valor
total em dívida acumulou R$273,4 bilhões, e média de quatro dividas por CPF, totalizando R$4.426 por
cliente.
Já a nível mundial, o Relatório Global de Estabilidade Financeira (GFSR) do outono de 2017
do FMI constatou que, desde 2008, a dívida das famílias continua a crescer significativamente em uma
amostra de 80 países. Entre as economias avançadas, a razão da mediana da dívida aumentou de 52%
do produto interno bruto (PIB) em 2008 para 63% em 2016. Entre as economias emergentes, aumentou
de 15% do PIB para 21% no mesmo período.
Levando em consideração um mercado aberto e competitivo e uma crescente nas inadimplências
dos fiadores, as instituições financeiras devem encontrar o equilíbrio entre os riscos de perdas e ofertas
de crédito. Segundo Gartner (2009), o fator crítico dessa equação está na identificação e quantificação
de forma correta dos riscos de uma operação de crédito atribuída ao credor. A gestão de risco de crédito
destaca-se como uma forma de redução dos riscos, fundamentando-se em analises subjetivas e objetivas
(análise estatística), como um mecanismo para a correta seleção, análise, precificação e monitoramento
do risco de inadimplência (SANTOS; FAMÁ, 2007,p.107).
Para controlar o risco de crédito pode-se aplicar uma vasta gama de metodologias para medir
os riscos sujeitos em uma concessão (LIMA et al., 2009). Segundo Samejima et al.(2003) , a regressão
logística, as árvores de decisão e dentre outros métodos tem destaque como metodologias utilizadas para
2
construção de modelos de riscos de créditos.
Segundo James (2013), o uso de uma determinada técnica de classificação estatística é confiável
se resultar em um baixo erro, quando calculado usando o conjunto de teste. Geralmente em análises
os dados não possuem um volume para divisão dos dados em conjunto de treinamentos e validação,
mantendo as características principais dos dados.
Na ausência de um conjunto dados grande o suficiente para que seja usado para estimar cor-
retamente a taxa de erro de teste, várias técnicas podem ser usadas para estimar usando os dados de
treinamento disponíveis. Dentre as existentes, no estudo será abordado o k-fold e leave-one-out (LOOCV).
O k-fold tendo como procedimento dividir o total das observações em k subconjuntos mutuamente exclu-
sivos do mesmo tamanho e serão utilizados para teste, já os k-1 restantes são utilizados para estimação
dos métodos de classificação, assim gerando a acurácia do modelo proposto. Já o LOOCV é um caso
particular do k-fold, onde k=n, sendo n o tamanho do conjunto de informações utilizados.
Este estudo abordará conhecimentos de Machine Learning empregado a Métodos de Classificação
através de uma comparação entre os métodos de Regressão Logística e Árvore de Decisão e utilizará os
dados simulados financeiros cedidos pelo Prof. Hofmann do Instituto de Estatística e Econometria da
Universidade de Hamburgo, Alemanha. Com objetivo de aplicar modelos que não apenas tenham capaci-
dade de classificar novos clientes como bom ou mau pagador de forma correta, mas também apresentem
bons resultados na aplicação dos métodos de reamostragem, não oferecendo um alto custo computacional
em sua execução, assim reduzido os riscos de perdas das financeiras que será melhor detalhado nas seções
seguintes.
Capítulo 2
Material e Métodos
2.1 Análise de Crédito
Segundo Schrikel (1998), a análise de crédito em uma instituição financeira tem como objetivo:
identificar riscos em uma concessão de crédito, verificar a capacidade do cliente saldar o valor solicitado e
melhor tipo de empréstimo a conceder, atendendo as necessidades do solicitante, dos riscos identificados
e mantendo a potencialização dos resultados da financeira.
Silva (1993) entende risco de crédito como a probabilidade do não recebimento do valor repassado
a um terceiro mediante a um acordo de pagamento, tendo como vários possíveis fatores que possam
influenciar quem cedeu o crédito não consiga retomar de seus clientes o pagamento dentro do prazo
firmado. Para uma boa análise é necessário que a instituição financeira tenha posse de informações
confiáveis sobre o cliente, pois segundo Silva (2008), a matéria-prima para a decisão de crédito é a
informação. A consecução de informações corretas e o tratamento adequado das mesmas formam uma
base sólida para uma decisão de crédito segura.
Devido ao mercado competitivo e uma maior facilidade ao acesso a créditos estão influenciando
muitas organizações bancárias a terem um diferencial e como uma forma para evitar inadimplências é
utilizado análisede crédito, assim destacando a sua importância no processo de concessão de crédito
(SCHERR, 1989).
Os métodos de Classificação podem ser utilizados no tratamento das informações obtidas para
análise, assim poderá fornecer confiáveis informações para análise de novas solicitações de créditos.
2.2 Métodos de Classificação
Para a utilização de modelos de regressão linear ou não linear, por exemplo, a variável resposta
deve ser quantitativa. No entanto, em muitas situações a variável resposta é qualitativa. Nesses casos
é conveniente a utilização dos métodos de classificação, assim possibilitando previsões de respostas qua-
litativas para os objetos em estudo. Constantemente os métodos de classificação utilizados inicialmente
estimam a probabilidade de cada uma das categorias, logo o seu comportamento se assemelha aos métodos
4
de regressão (JAMES et al.,2013).
Nas classificações das observações, assim como na regressão, têm-se um conjunto de observações
que é utilizada na elaboração do classificador (ou modelo de regressão). O ideal é que o classificador
possua um bom desempenho não apenas nos teste dos dados, mas também em observações que não foram
utilizadas nos testes de melhoria do classificador. (JAMES et al.,2013).
Existem vários métodos de classificação, mas nesse estudo serão abordadas a regressão logística
e árvores de decisões e suas peculiaridades como classificadores das observações.
2.3 Regressão Logística
Segundo Gujarati et al.(2008), em modelos em que a variável resposta é quantitativa, o objetivo é
estimar seu valor médio ou esperado a partir das variáveis explicativas. Já nesse estudo o modelo que será
utilizado para Y sendo qualitativo, assim o objetivo da regressão se diferencia dos modelos de regressão
linear. Neste caso, a intenção é encontrar a probabilidade de o cliente ser um bom ou mau pagador, logo
será feito um modelo de probabilidade linear ou MPL.
O alvo desse estudo é classificar clientes de um banco como bons ou maus pagadores, sendo
atribuído 1 para quando se tratar de um bom pagador e 0 quando mau pagador. Em outras palavras, a
variável resposta é binária ou dicotômica.
2.3.1 Modelo de Probabilidade Linear (MPL)
Considerando um modelo de regressão, onde a variável resposta é binária e possui apenas uma
variável explicativa, assim teremos o seguinte modelo de variável resposta binária:
Yi = β0 + xiβ1 + Ei (2.1)
E(Yi|Xi) = β0 + xiβ1 (2.2)
Considerando Pi = probabilidade de que Yi = 1 (de que o cliente seja um bom pagador) e
(1− Pi) = probabilidade de que Yi = 0 (de o cliente não seja um bom pagador), logo:
Tabela 2.1: Distribuição de Y.
Yi Probabilidade
0 1− P(Yi)
1 P(Yi)
Total 1
Assim podemos perceber que Yi segue uma distribuição de probabilidade de Bernoulli. Utilizando
as informações da tabela 2.1:
5
E(Yi) = 0(1− Pi) + 1(Pi) = Pi (2.3)
Igualando E(Yi | Xi) e E(Yi), encontraremos:
E(Yi | Xi) = β0 + Xiβ1 = Pi (2.4)
assim, a esperança condicional do MPL poderá ser considerada a probabilidade condicional de
Yi.
Apesar de possuírem a ideia simples dos modelos de regressão linear, os modelos de probabilidade
linear apresentam problemas em sua execução, e são eles:
• Ausência de normalidade dos resíduos
Hipótese de normalidade é rejeitada pois se trata de uma variável resposta dicotômica, logo os
termos do erro assumiram apenas dois valores, assim seguindo distribuição Bernoulli.
• As variâncias dos resíduos não são homocedásticas
Como dito anteriormente, os MPL seguem distribuição Bernoulli, sabendo que a variância desta
distribuição está em função da média, logo a variância dos resíduos depende dos valores de X devido a
isso não é homocedástica.
• A probabilidade de ocorrência do evento pode não está no intervalo de 0 a 1
Como sabemos Pi ( ou E(Yi | Xi)) mede a probabilidade condicional da variável Y em relação a
X, devendo situar-se entre 0 e 1. Mas como o MPL está sendo estimado através dos mínimos quadrados
ponderados e o mesmo não possui nenhuma restrição no intervalo mencionado. Segundo Gujarati et
al.(2008), os modelos logit e probit garantirão que as probabilidades estejam dentro do intervalo 0 e 1.
• O valor de R2 do MPL não é uma medida de qualidade confiável
O R2 obtido da regressão linear convencional não será eficaz para expressar o total que a variável
X pode explicar da variável resposta, já que Y trata-se de uma variável dicotômica com seus valores
podendo assumir apenas 0 ou 1. Logo os valores referente a Y estarão dispostos ao longo do eixo X (
quando Y for igual a 0) ou da linha correspondente a 1. Sendo demonstrado na Figura 2.1.
Figura 2.1: Gráfico do MPL.
6
Portanto é necessário um MPL que os valores de Pi estejam contidos no intervalo 0-1; e que a
relação entre Pi e Xi não seja linear, ou seja, os valores de Pi aproxima-se de zero quando o Xi fica menor
e aproxima-se de 1 quando Xi cresce bastante (Gujarati et al.,2008).
Segundo Gujarati et al.(2008), os valores de Pi comportam-se como uma curva sigmoide, forma
de S, assemelhando a uma função de distribuição acumulada (FDA) de uma variável aleatória. Dentre as
FDA existentes, a escolhida para estimar os valores de Pi é a função de distribuição acumulada logística,
a mesma da origem ao modelo logit.
2.3.2 Modelo Logit
O modelo logit pode ser aplicado em diversos campos de pesquisa, até mesmo em áreas da
engenharia, pesquisa de mercado e em economia. Para associar a variável resposta, quando for categórica,
aos preditores do modelo transforma-se as probabilidades nos níveis da variável resposta em uma escala
contínua sendo limitada no intervalor 0 e 1.
A distribuição utilizada do modelo logit é a logarítmica, possuindo a seguinte função acumulada:
F(Zi) =
1
1+ e−Zi
=
eZi
1+ eZi
= Pi (2.5)
Em que Zi = β0 +β1Xi1 + ...+β(p)X(ip), sendo p a quantidade de parâmetros. A função acima
apresenta a probabilidade de sucesso em relação aos valores de z. Pode-se verificar que Zi pode variar em
de −∞ a +∞, com Pi variando entre 0 e 1; além de Pi não está relacionada linearmente a Zi (ou seja Xi),
assim atendendo dois requisitos considerados anteriormente. Mesmo atendendo os requisitos originou
problemas na estimação, pois Pi é não linear só em X, mas também em β. Com isso não poderá ser
utilizado o método dos mínimos quadrados ordinários na estimação dos parâmetros. A equação anterior
pode ser linearizada e será mostrada a seguir.
Se Pi é a probabilidade de sucesso, que em nosso estudo trata-se o cliente ser um bom pagador,
então (1− Pi) é a probabilidade do cliente não ser um bom pagador, é dada por:
(1− Pi) = 1−
eZi
1+ eZi
=
1
1+ eZi
(2.6)
Portanto, podemos fazer
Pi
(1− Pi)
= eZi (2.7)
A equação acima é a razão de chance do cliente ser classificado como bom pagador em relação
ao mau pagador.
Aplicando o logaritmo natural na equação anterior, tornaremos Pi linear em relação a β (vetor
dos parâmetros)
7
ln
(
Pi
(1− Pi)
)
= Zi = β0 + β1Xi1 + ...+ β(p)X(ip) (2.8)
Como os dados utilizados no estudo tratam-se em nível individual o método utilizado é o de má-
xima verossimilhança. A Figura 2.2 demonstra como o ajuste do modelo logit se comporta na classificação
dos dados.
Figura 2.2: Gráfico do modelo logit.
Como representado na Figura 2.2, o modelo constrói uma curva no formato de ’S’, ajustando-se
bem aos valores observados.
2.3.3 Qualidade do ajuste
Resíduos
Para avaliar se o modelo ajustado possue resultados confiáveis, é comum a utilização da análise
de resíduos. No estudo foi abordado dois tipos de análise de resíduos, sendo os resíduos de Pearson e
o resíduo Deviance. Os resíduos de Pearson são utilizados como auxílio na identificação de outliers que
prejudiquem a estimação do modelo. Na regressão logística o mesmo é definido por:
(rp)i =
yi − π̂i√
π̂i(1− π̂i)
, (2.9)
em caso dos valores de (rp)i forem próximos de zero, isto indica que o modelo possui um bom ajuste. Já
para os resíduos Deviance tem como objetivo detectar os erros no modelo ajustado, medinho a disparidade
entre omodelo contendo todas as variáveis e o modelo proposto para análise, sendo definido por:
di = si
√
−2{yi log(π̂i) + (1− yi) log(1− π̂i)}, (2.10)
onde,
8
• i = 1, 2, ...,n;
• π̂i = g(xiβ̂); β̂ sendo o vetor dos parâmetros estimados;
• si = 1 se yi = 1 ou si = −1 se yi = 0.
Alavancagem (Leverage)
É definida como a diagonal da matriz de projeção de H, que possui tal nome, pois projeta o vetor
de observações no vetor dos valores ajustados. Os componentes da diagonal são utilizados para medir
a alavancagem do observado em relação ao ponto previsto. Na regressão logística a matriz de projeção
pode ser definida como:
H = Q
1
2X(XTQX)−1XTQ
1
2 (2.11)
Os valores resultantes da matriz de projeção H expressam quão extremas são as observações no
espaço das covariáveis,ou seja, quanto mais distinto de zero mais extremos são os pontos.
Distância de Cook
É utilizada para apontar valores extremos e medir a influência das observações nos parâmetros
estimados. Essa estatística é definida como:
Di =
{β̂− β̂(i)}TXTQX{β̂− β̂(i)}
ps2
(2.12)
sendo:
• X é a matriz de variáveis;
• β é um vetor de parâmetros estimados;
• β̂(i) é um vetor de parâmetros estimados sem a i-ésima observação;
• p é o número de atributos acrescidos de um;
• s2 é a estimativa da variância obtida no modelo com todas as observações;
• Q é a matriz diagonal com i-ésima entrada π̂i(1− π̂i).
Para identificação de pontos influentes é utilizado os valores deDi, sendo os valores mais distantes
de zero os pontos influentes.
Teste Qui-Quadrado
Para verificar se o modelo utilizado é significativo é necessário a aplicação do teste de razão
de verossimilhança. Neste estudo o teste será utilizado para comparação da verossimilhança do modelo
saturado com o modelo reduzido. A estatística do teste é definida como:
G2 = 2log
L
Lr
(2.13)
9
em que L a verossimilhança do modelo saturado e Lr a verossimilhança do modelo reduzido. A
estatística do teste de razão de verossimilhança (TRV) possui distribuição aproximada ao Qui-Quadrado
com k graus de liberdade, sendo k igual ao número de variáveis do modelo completo.
Para a interpretação do teste, a hipótese nula trata os modelos como equivalentes. Nesse caso o
interessante é a rejeição da hipótese nula, assim há indícios que pelo menos um dos coeficientes contribuem
na predição da variável resposta.
2.4 Critério de Informação Akaike para Seleção de Variáveis
Segundo Junior (2006), variáveis desnecessárias, sem significância para o modelo, também redu-
zem a precisão da predição. Pensando em qualidade de ajuste e menos complexidade pode ser utilizado
o Critério de informação Akaike (AIC) (WASSERMAN, 2003).
O critério AIC tem como definição
AIC = −log(Lp) + 2p (2.14)
Onde p é a quantidade de variáveis explicativas utilizada e Lp é a função de verossimilhança do
modelo. É perceptível que o critério penaliza modelos com muitas variáveis, pois tal método define que
o melhor modelo é aquele que possua o menor AIC.
No estudo foi aplicado o método de seleção de variáveis stepwise e usado o AIC como avaliação
na seleção do modelo que possua a menor quantidade de variáveis e o menor AIC.
2.4.1 Método de Seleção de Variáveis Stepwise
Em um conjunto de variáveis explicativas pode conter variáveis que possuem um baixo nível de
explicação da variável resposta. Segundo Montgomery (2009), dentre os métodos de seleção de variáveis
utilizadas stepwise é a abordagem provavelmente o mais utilizado no contexto de regressão.
Na aplicação o método consiste em adicionar e retirar atributos, reduzindo a quantidade de
variáveis do modelo sem perca na explicação da variável resposta (MONTGOMERY; RUNGER, 2009).
2.5 Árvore de Decisão
Como uma forma de simplificar ao acesso as informações desejadas e também uma alternativa
para identificar classes e outras informações valiosas para o estudo será utilizado o método de Árvore de
Decisão (AD). Além de sua simplicidade o que mais chama atenção nesse método de classificação é sua
alta capacidade de aprendizado. Segundo Gama (2000), As AD utilizam a estratégia dividir-e-conquistar
(divide-and-conquer), ou seja, uma informação complexa é dividida em subconjuntos de informações mais
simples.
Segundo Sousa (2018), a Árvore de Decisão possui como método a divisão em sub-regiões através
de critérios previamente estabelecidos. A Figura 2.3 ilustra como é feita a árvore de decisão.
10
Figura 2.3: Ilustração da Árvore de Decisão.
De acordo com a Figura 2.2 cada sub-região criada é atribuído um valor que será utilizado com
predito para indivíduos que não foram utilizados na criação do modelo. A estrutura desse método possui
nós internos, onde de acordo com certa condição a informação é dividida em dois novos grupos de dados
ligados ao grupo antigo, os novos grupos originados são chamados de ramos e os nós externos são onde
não ocorre mais divisões de grupos, ou seja, na extremidade dos ramos.
2.6 Validação cruzada
No processo de modelagem o principal interesse do pesquisador é encontrar um modelo que
seja capaz de predizer os dados que não passaram pelo treinamento do algoritmo, ou seja, é desejado
um modelo que possua o menor erro de generalização. Uma das maiores dificuldades é que a amostra
geralmente é pequena, assim impedindo fazer a validação com informações não utilizadas na modelagem
do método de classificação escolhido. Fazer a verificação do erro de previsão utilizando os dados no
treinamento do algoritmo pode subestimar o erro de generalização.
Uma forma de reduzir o erro no procedimento de validação é utilizar a validação cruzada, que
tem como objetivo estimar o erro de previsão associado aos métodos de classificação utilizados. Segundo
Hastie et al. (2009), a validação cruzada é provavelmente o método mais simples e mais amplamente
usado para estimar o erro de previsão.
Nesse estudo será abordado o método k-Fold’s e o Leave-One-Out Cross Validation (LOOCV) os
mesmos possuem uma aplicação semelhante, mas se diferenciam em suas técnicas.
11
2.6.1 Validação Cruzada pelo método k-Fold
Figura 2.4: Validação cruzada k-Fold.
O exemplo da Figura 2.4 representa um conjunto de dados onde o mesmo foi dividido em k partes,
o modelo é ajustado com a i - 1 partes e a parte restante é utilizada para a predição do modelo. Este
processo é repetido k vezes até completar todas as combinações das partes. Por fim é feito uma média
dos erros de previsão e o mesmo será utilizado para medir a qualidade do ajuste do algoritmo.
2.6.2 Validação Cruzada Leave-one-out (LOOCV)
Este método é considerado um caso especial do K-fold, onde k=n, logo o tamanho da amostra
é igual a quantidade de grupos utilizados na validação. Para o treino do método será utilizado n-1 em
cada grupo e será testado o modelo produzido com a observação que ficou de fora.
Segundo Borra e Ciaccio (2010), Leave-one-out é um estimador possivelmente não viesado do
erro, devido a amostra de treino ser quase o banco completo, principalmente quando n é grande. Tal
situação afeta o custo computacional deste método, pelo modo de aplicação que consiste em teinar n
vezes o modelo assim elevando tal custo e especialmente com uma amostra muito grande (Kim, 2009).
2.7 Qualidade de classificação
Para avaliar a qualidade de diferentes modelos, é interessante que sejam abordadas medidas de
qualidade de classificação para cada uma das k predições. As metodologias que serão utilizadas são
expostas a seguir.
2.7.1 Taxa de Acerto
A taxa de acertos demonstra a porcentagem dos clientes classificados de modo correto em relação
ao total da amostra, indicando a confiabilidade dos modelos propostos (MALUCELLI et al., 2010). Como
trata-se de um classificador binário, que é utilizado para classificar observações em positivas ou negativas,
12
ao predizer as classes de cada exemplo desse conjunto de dados e comparar com a classe verdadeira, pode-
se dividir quatro diferentes situações:
1. verdadeiro positivo : bom pagador predito como bom pagador
2. falso positivo: mau pagador predito como bom pagador
3. verdadeiro negativo : mau pagador predito como mau pagador
4. falso negativo : bom pagador predito como mau pagador
Quando os exemplos ou observações foram classificadas, poderá contar-se quantos condizem com
cada uma das categorias ilustradas acima a partir da contagem é possível construir uma matriz de con-
tingência, onde são estimadas os verdadeiros positivos (VP), falsos positivos (FP), verdadeiros negativos
(VN) e os falsos negativos (FN). Tais medidas estão apresentadas conforme a Tabela 2.2. PPos é o total
de preditos positivos, PNeg é o total de preditos negativos, Pos é o total de observações positivas e Neg
é o total de observações negativas.
Tabela 2.2: Matriz de contingência.
Preditos positivos Preditos negativos
Exemplos positivo VP FN Pos
Exemplos negativo FP VN Neg
PPos PNeg Total
Conhecendo as medidas representada na tabela 2.2 será possível determinar a fração de verda-
deiros positivos (FVP) e a fração de falso positivo (FFP):
FVP =
VP
Pos
(2.15)
FFP =
FP
Neg
(2.16)
Acurácia =
VP
PPos
(2.17)
Taxadeacerto =
VP + VN
Total
(2.18)
Taxadeerro = 1− taxadeacerto (2.19)
Como representado acima, pode-se calcular a taxa de acertos dos maus e bons pagadores. Segundo
Gonçalves et al. (2013), em algumas circunstâncias, é mais interessante identificar um cliente bom do
que um cliente mau (ou vice-versa); nessas situações, é habitual dar um peso para a taxa de acertos mais
relevante ao estudo do pesquisador e se calcular uma média ponderada da taxa de acertos.
13
2.7.2 Análise ROC
A análise ROC (Receiver Operating Characteristic) é uma ferramenta gráfica para organização,
análise e seleção de predição e/ou classificadores com base em seu desempenho. Segundo Prati et al.
(2008), os gráficos ROC inicialmente eram utilizados em detecção de sinais, para se analisar a qualidade
de transmissão de um sinal em um canal com ruído.
Recentemente, a análise ROC foi inserida em Aprendizagem de Máquina e Mineração de Da-
dos como um método válido e poderoso para a avaliação de modelos de classificação (PRATI et. al.,
2008). Esta análise é especialmente adequado em domínios que possuem uma excessiva diferença entre
as classes ou quando é necessário considerar distintos custos/benefícios para diferentes erros/ acertos de
classificação. Análise ROC pode ser utilizada também para a estruturação e aprimoramentos de modelos.
Análise de diagnóstico
Considere um estudo com a variável representada por X e que valores baixos de X favorecem a
decisão normal T− e valores excessivos de x favorecem a decisão anômala T+. Adotando-se f(x | A) como
sendo a distribuição dos valores de x para os casos anômalos e f(x | N) como a distribuição dos valores
de x para os casos normais, logo a distribuição de xa está centralizada a direita de xn. A Figura 2.5
representa a sobreposição de duas distribuições hipotéticas idealizada anteriormente.
Figura 2.5: Sobreposição de duas distribuições hipotéticas.
Através da Figura 2.5, podemos verificar que em uma região as distribuições xa e xn sobrepõem-
se, ou seja, em alguns dos casos que inicialmente foram identificados como normais poderão ter sido
identificados como anômalos, por outro lado alguns dos casos tratados inicialmente como anômalas po-
derão ser identificados como normais.
14
Segundo Braga (2000), para qualquer teste de diagnóstico é firmado um valor de corte para a
variável em estudo, este valor que determina a classificação dos indivíduos como anômalo ou normais.
Assim, qualquer teste é avaliado pela comparação relativa da fração de verdadeiros positivos (FVP),
fração de falsos positivos (FFP), fração de verdadeiros negativos (FVN) e fração de falsos negativos
(FFN).
Adotando-se que em todos os casos poderá ser diagnosticado como negativo e positivo, logo, o
número de decisões certas somados com o número de decisões incorretas resultará no total de casos com
esse estado de referência. Assim, nota-se que:
FVP + FFN = 1 (2.20)
e
FVN+ FFP = 1 (2.21)
Comumente, nos diagnósticos propende a ser avaliado por duas destas medidas, FVP (sensibi-
lidade) e FVN (especificidade). Segundo Metz (1986), define sensibilidade como sendo a probabilidade
de classificar como positivo quando de fato seja positivo, e especificidade como sendo a probabilidade
de classificar como negativo quando de fato seja negativo. Para efeito de diagnóstico, poderá definir-se
a sensibilidade como a aptidão que um teste tem para constatar os positivos, e a especificidade como a
capacidade que o teste tem para excluir os negativos. Assim, valores de corte elevados, Indicam a um
teste com baixa sensibilidade e muito específico, por outro lado, valores de corte baixos, conduzem a um
teste muito sensível e pouco específico.
Curvas ROC
A curva ROC é a representação gráfica dos pares sensibilidade (FVP) (ordenadas) e 1 - especifici-
dade (FFP), resultantes da variação do valor de corte ao longo de um eixo de decisão, x, a representação
gráfica é designada por curva ROC no plano unitário.
Para a análise gráfica ROC utiliza-se das TVP e TFP para a construção dos gráficos, sendo elas
X e Y respectivamente. A Figura 2.6 ilustra o gráfico ROC, onde o mesmo é um gráfico bidimensional
e possui quatro importantes regiões e a linha dos valores representada como uma reta diagonal que se
trata de um classificador aleatório:
15
Figura 2.6: Gráfico ROC.
As regiões apresentadas no gráfico pode ser descritas como:
Céu ROC: O ponto (0,1) representa uma classificação perfeita, na qual todos os exemplos positivos
e negativos são rotulados corretamente.
Inferno ROC: Região localizada no lado oposto ao Céu, pode ser considerada uma região na qual
são encontrados os resultados “ruins”.
Quase Sempre Neg: Classificadores que são representados nessa região rotulam quase sempre
os exemplos como negativos. Assim, o número de exemplos negativos rotulados errados normalmente é
baixo (TFP próximo de 0) e número de exemplos positivos rotulados corretamente também é baixo (TVP
próximo de 0).
Quase Sempre Pos: Classificadores que são representados nessa região rotulam quase sempre os
exemplos como positivos. Assim, quase todos os exemplos positivos são rotulados corretamente (TVP
próximo de 1), e quase todos os exemplos negativos incorretamente (TFP próximo de 1).
Area Under the Curve (AUC)
Em uma tradução literal significa “área sob a curva”, tratando-se da área que fica abaixo da curva
ROC. O seu valor varia de 0 a 1, sendo as previsões realizadas como boa quando a AUC se aproxima de
1. Tal método de qualidade de previsão vem gradativamente ganhando espaço como medida de avaliação
de modelos em aprendizado de máquina e mineração de dados (PRATI; BATISTA; MONARD,2008).
Mesmo sendo uma ótima forma de quantificar o acerto da previsão é interessante manter as
análises das curvas ROC, pois segundo PRATI et al. (2008), mesmo o AUC tendo menos falhas que a
taxa de erro de classificação, é indicado a análise das curvas do modelo estudado.
16
2.8 Comparação entre autores
Para efeito de comparação de desempenho dos modelos selecionados, foi utilizado a dissertação
de mestrado de Caetano (2018). O estudo apresentou o mesmo banco de dados e dentre as técnicas de
classificação utilizadas, abordou regressão logística e árvore de decisão. Já sobre as técnicas de reamos-
tragem foi utilizado o k-fold com k = 10. Objetivo da comparação é verificar o desempenho das técnicas
apresentada neste estudo quando analisado sob óticas distintas.
Capítulo 3
Dados e Software
O banco de dados utilizado possui 1000 observações com 20 atributos categoriais, sendo cada
observação uma pessoa, descritos por um conjunto de variáveis que classifica cada observação como riscos
de créditos bons ou ruins, conforme os seus atributos. O mesmo foi preparado e cedido pelo professor
Prof. Hofmann do Instituto de Estatística e Econometria da Universidade de Hamburgo, Alemanha para
o site Data Sets - UCI Machine Learning Repositoryno ano de 1994. A descrição dos dados está disposta
de acordo o tabela 3.1.
Tabela 3.1: Descrição do banco de dados.
Tipo de banco de dados: Multivariada
Tipo de variáveis: Categóricas, inteiro
Número de observações: 1000
Número de variáveis: 20
Número de variáveis quantitativas: 7
Número de variáveis qualitativas: 13
Dados Faltantes? Não
As variáveis do estudo estão discriminadas em tipo e sua descrição na tabela 3.2.
https://archive.ics.uci.edu/ml/datasets/statlog+(german+credit+data)
18
Tabela 3.2: Discriminação das variáveis.
Variável Tipo Descrição
X1 Nominal Estado da conta
X2 Numérico Duração em meses
X3 Nominal Histórico de crédito
X4 Nominal Finalidade do empréstimo
X5 Numérico Valor do empréstimo
X6 Nominal Poupança/Investimentos
X7 Nominal Tempo no Trabalho atual
X8 Numérico Valor percentual das parcelas em relação à renda
X9 Nominal Estado civil e sexo
X10 Nominal Outro aplicante/garantidor
X11 Numérico Tempo na residência atual
X12 Nominal Propriedades
X13 Numérico Idade
X14 Nominal Outros empréstimos
X15 Nominal Moradia
X16 Numérico Número de créditos neste banco
X17 Nominal Trabalho
X18 Numérico Quantidade de Dependentes
X19 Nominal Tem telefone
X20 Nominal Trabalhador estrangeiro
Y Binário Classificação do Cliente (Mau pagador = 0)
Para a análise foi utilizado o software estatístico livre R Project aplicado no computador de 8gb
de Memória RAM da tecnologia DDR3 com frequência de 1600 MHz, processador de 2 núcleos físicos e 4
lógicos com frequência base de 3.3 GHz, placa gráfica com 32 unidades computacionais e frequência base
de 1168 MHz. Diante do exposto, tornou-se oportuno a utilização de métodos de classificação para se
analisar os dados obtidos no presente estudo.
https://www.R-project.org/
Capítulo 4
Resultados e Discurssão
4.1 Análise descritiva
Fazendo uma análise exploratória constatamos que o banco de dados possui um desbalancea-
mento em sua categorização, onde do total de clientes inseridos possui uma maior quantidades que foram
identificados como bons pagadores como é representado na figura 4.1.
Figura 4.1: Categorização dos Clientes.
Mesmo sendo 70% classificados como bons pagadores, tal situação não inviabiliza a aplicação
dos métodos, segundo Batista (2003) dados com classificações desbalanceadas na maior parte dos casos
possuem um menor erro de classificação na classe majoritária.
Na tabela 4.1 é descrita as variáveis quantitativas do estudo para identificarmos a quantidade
mínima, mediana, média e máxima .
20
Tabela 4.1: Descrição das Variáveis Quantitativas do estudo.
Variáveis Min. Mediana Média Máx.
Período de conta (meses) 4 18 20,9 72
Valor do empréstimo (DM) 250 2320 3271 18424
Percentual das parcelas em relação à renda (%) 1 3 3 4
Tempo na residência atual (anos) 1 3 2,8 4
Idade (anos) 19 33 36 75
Número de créditos neste banco 1 1 1,4 4
Quantidade de Dependentes 1 1 1,2 2
De acordo com a Tabela 4.1 os clientes possuem em média 20,9 meses de conta corrente aberta
no banco em estudo, com o valor médio solicitado de empréstimo de 3271 Marco Alemão (DM), com
média de valores percentuais das parcelas em relação à renda de 3%, possuindo em média de 2,8 anos na
atual residência, com 36 anos de idade, dispondo de aproximadamente 1 crédito neste banco e cerca de
1 dependente.
Já em relação as variáveis qualitativas, os dados descritos estão representados na Tabela 4.2 e
cada item está especificado como anexo ao estudo.
21
Tabela 4.2: Descrição das Variáveis Qualitativas do estudo.
Variável N % Variável N %
Estado da conta Estado civil e sexo
A11 274 27,4 A91 50 5
A12 269 26,9 A92 310 31
A13 63 6,3 A93 548 54,8
A14 394 39,4 A94 92 9,2
Histórico de crédito Outro aplicante/garantidor
A30 40 4 A101 907 90,7
A31 49 4,9 A102 41 4,1
A32 530 53 A103 52 5,2
A33 88 8,8 Propriedades
A34 293 29,3 A121 282 28,2
Finalidade do empréstimo A122 232 23,2
A43 280 28 A123 332 33,2
A40 234 23,4 A124 154 15,4
A42 181 18,1 Outros empréstimos
A41 103 10,3 A141 139 13,9
A49 97 9,7 A142 47 4,7
A46 50 5 A143 814 81,4
Outros 55 5,5 Moradia
Poupança/Investimentos A151 179 17,9
A61 603 60,3 A152 713 71,3
A62 103 10,3 A153 108 10,8
A63 63 6,3 Trabalho
A64 48 4,8 A171 22 2,2
A65 183 18,3 A172 200 20
Tempo no Trabalho atual A173 630 63
A71 62 6,2 A174 148 14,8
A72 172 17,2 Tem telefone
A73 339 33,9 A191 596 59,6
A74 174 17,4 A192 404 40,4
A75 253 25,3 Trabalhador estrangeiro
A201 963 96,3
A202 37 3,7
De acordo com a tabela 4.2 em 39,4% dos observados não possuía conta corrente aberta no banco
em estudo (A14), mas 29,3% possuía uma conta crítica ou créditos existentes em outros bancos (A34),
22
em 28,4% dos casos a finalidade do empréstimo foi para compra de rádio/televisão (A43), os clientes
em sua maioria possuíam valores menores do que 100 DM (A61) em suas poupanças ou investimentos
realizados, em 33,9% dos solicitantes estavam no trabalho atual variando de 1 a valores menores que 4 anos
(A73), majoritariamente os clientes são do sexo masculino e solteiro (A93) sendo 54,8% dos registrados,
90,7% dos clientes não possuem um garantidor ou fiador (A101), em 81,4% dos clientes não possui outros
empréstimos (A143), 71,3% dos clientes possuem casa própria (A152).
Na Figura 4.2 foi utilizada a correlação de Spearman para uma demonstração visual da correlação
dos dados.
Figura 4.2: Correlação de Spearman das variáveis numéricas
Dentre as correlações da Figura 4.2, podemos destacar as variáveis V5 (Valor do empréstimo) e
V2 (Duração de vínculo com o banco em meses) possui correlação positiva de 0.62 e as variáveis V5 (Valor
do empréstimo) e V8 (Valor percentual das parcelas em relação à renda) possui correlação negativa de
-0.31.
4.2 Seleção das variáveis
Dando início a análise probabilística, foi dividido os dados em amostra de treinamentos e testes
mantendo a proporção de bons e maus pagadores do banco de dados original e escolhidas as linhas de
forma aleatória. Em números, a amostra de treinamento consta com dados de 900 clientes e foi utilizada
para o aprendizado dos modelos aplicados, já a amostra de teste foi utilizada para verificar do desempenho
dos métodos de classificação. Com a aplicação do AIC utilizando o stepwise para seleção do modelo que
melhor classifique os clientes chegamos as seguintes variáveis:
23
P[Y = 1] = (X1,X2,X3,X4,X5,X6,X8,X9,X10,X13,X14,X16,X19,X20) (4.1)
As variáveis selecionadas foram utilizadas na regressão logística, já para o método de Árvore de
Decisão foi utilizada todas as variáveis do banco.
4.3 Comparação entre métodos de reamostragem
Após a aplicação dos métodos de reamostragem nos deparamos com os resultados demonstrados
na Tabela 4.3.
Tabela 4.3: Comparativo da acurácia e tempo computacional gasto do LOOCV e k-Fold.
Medidas LOOCV k = 5 k = 10
Regressão logistica
Acurácia 0,76 0,75 0,76
Tempo de execução (seg) 23,32 0,76 0,89
Árvore de decisão
Acurácia 0,74 0,73 0,72
Tempo de execução (seg) 32,87 1,07 1,77
Na regressão logística a diferença da acurácia no treinamento do modelo foi mínima, ou seja,
mesmo o LOOCV tendo acesso a mais informações dos clientes não ocorreu uma grande diferença do
informado nos fold’s de k = 5 e k = 10 (Tabela 4.3). No entanto, em relação ao tempo computacional
gasto pelo LOOCV, a média foi 28 vezes maior que o utilizado pelos folds.
O resultado para o método de Árvores de decisão seguiu do mesmo modo da logística, com uma
pequena redução na acurácia e em relação ao tempo computacional gasto no LOOCV foi em média 27
vezes maior que o realizado nos fold’s.
A diferença de tempos computacionais dos métodos de reamostragem se dá pelo nível de detalha-
mento em cada um. Segundo James et al (2013), essa vantagem demonstrada pelos k= 5 e k=10 ocorre
devido ao LOOCV precisar ser ajustado n vezes e quando utilizado para n extremamente grande pode
demonstrar problemas devido aos ajustes computacionalmente intensivos. Trazendo a situação para a
atual realidade dos Bancos ou financeiras,efetuar o LOOCV em um banco de dados que possui informa-
ções de milhares clientes poderia ser inviabilizada devido à alta carga computacional que seria necessária
para ajustar o modelo n vezes, logo o k-fold seria uma ótima alternativa já que os valores encontrados
assemelham-se aos do LOOCV para n extremamente grande
As Figuras 4.3 e 4.4 demonstram graficamente a acurácia e o tempo de execução em cada método
de reamostragem.
24
Figura 4.3: Acurácia nos métodos de reamostragem.
Figura 4.4: Tempo gasto para execução dos métodos de reamostragem em segundos.
25
4.4 Comparação dos métodos de classificação
Dando inicio da comparação dos resultados obtidos em cada método de classificação quando
aplicado no grupo de teste dos dados.
4.4.1 Regressão logística
Aplicando o teste Qui-Quadrado com H0 tratando-se do modelo completo e H1 o modelo resul-
tante da seleção de variáveis é representado pela tabela 4.4.
Tabela 4.4: Teste Qui-quadrado de Pearson.
Modelo Graus de liberdade Deviance p-valor
H0 899 1100
H1 865 812,5 <0,01
Ao nível de significância de 0,05 foi rejeitada H0, logo indicando que a redução no valor da
Deviance devido a retirada de algumas variáveis ainda manteve o modelo com o melhor AIC.
Já tratando em relação aos resíduos do modelo, a Figura 4.5 é demonstrado os resíduos vs a
alavancagem.
Figura 4.5: Resíduos vs Alavancagem.
A figura 4.5 não indica pontos influentes, assim poderemos considerar que os resíduos apontam
um modelo bem ajustado.
26
Os resultados da regressão logística aplicado no grupo de teste são:
Tabela 4.5: Tabela de Contingência - Regressão Logística.
Real
Predito Bom Mal
Bom 62 18
Mal 8 12
A Tabela 4.5 demonstra que o modelo cometeu apenas 8 erros tipo I (classificou como mal pagador
quando na verdade o cliente é um bom pagador), já para o erro tipo II (classificou como bom pagador
quando na verdade o cliente é um mal pagador) foi identificado 18.
A Tabela 4.6 apresenta as principais métricas de qualidade da previsão quando utilizado a re-
gressão logística.
Tabela 4.6: Qualidade de classificação - Regressão Logística.
Medidas %
Acurácia (Teste) 74
Sensibilidade 88,6
Especificidade 40
Pos Pred Value 78,1
Neg Pred Value 60
AUC 75,3
A Tabela 4.6 apresenta as principais métricas de qualidade da previsão quando utilizado a re-
gressão logistica. O modelo apresentou uma boa acurácia totalizando 74%, a sensibilidade informada foi
de 88, 6%, ou seja, o modelo possui uma alta capacidade de classificar os clientes como bons pagadores,
já a especificidade alcançada foi de apenas 40%, assim tendo uma baixa na precisão na classificação dos
clientes mal pagadores.
A Figura 4.6 apresenta as curvas ROC referente a performance na previsão do grupo de teste da
Regressão Logística.
27
Figura 4.6: Curvas ROC – Regressão Logística.
A Regressão Logística obteve ótimos resultados nas curvas ROC, permanecendo sempre acima da
linha de classificador aleatório e aproximando-se do céu ROC (Figura 4.6). Na tabela 4.7 é demonstrado
o comparativo entre o modelo estudado e o de Caetano (2015) utilizando a acurácia e o AUC.
Tabela 4.7: Comparativo entre autores – Regressão Logística.
Modelos Acurácia AUC
Modelo estudado 74 75,3
Caetano 71,5 76,9
A regressão logística apresentou ótimos resultados na classificação dos clientes, ao comparar com
os resultados encontrados por Caetano (2018). Como é demostrado na tabela 4.7 foi obtido uma melhor
acurácia, mas houve uma pequena redução na AUC.
4.4.2 Árvore de Decisão
Diferente da Regressão Logística, a Árvore de Decisão gerou valores distintos em relação ao
método de reamostragem utilizados no treinamento do modelo. As tabelas 4.8 e 4.9 apresentam respec-
tivamente a tabela de contingência da Árvore de Decisão com a utilização do K-fold e do LOOCV
28
Tabela 4.8: Tabela de Contingência (k-Fold) - Árvore de Decisão.
Real
Predito Bom Mal
Bom 59 17
Mal 11 13
Tabela 4.9: Tabela de Contingência (LOOCV) - Árvore de Decisão.
Real
Predito Bom Mal
Bom 59 19
Mal 11 11
De acordo com as tabelas de contingência (Tabela 4.8 e 4.9), o k-fold os melhores resultados,
mantendo igual a quantidade do erro tipo I e ocorrendo uma redução de 2 no erro tipo II. A Tabela 4.10
apresenta as principais métricas de qualidade da previsão quando utilizado a Árvore de Decisão.
Tabela 4.10: Qualidade de classificação - Árvore de Decisão.
Medidas
LOOCV k-Fold
% %
Acurácia (Teste) 70,0 72,0
Sensibilidade 84,3 84,3
Especificidade 36,7 78,0
Pos Pred Value 75,6 75,6
Neg Pred Value 50,0 54,0
AUC 64,2 65,7
Entre os dois resultados apresentados na Árvore de Decisão, o k-fold obteve as melhores medidas
de qualidade de previsão (Tabela 4.10), totalizando 72% de acurácia, possuindo uma alta sensibilidade
(84,3%), uma melhora expressiva na especificidade quando comparado com o LOOCV, totalizando um
aumento de 41% na especificidade com a utilização do k-fold.
A Figura 4.7 apresenta as curvas ROC referente a performance na previsão do grupo de teste da
Árvore de Decisão.
29
Figura 4.7: Curvas ROC – Árvore de Decisão.
A Árvore de Decisão não obteve bons resultados nas curvas ROC, permanecendo sempre bem
próxima da linha de classificador aleatório e no ponto (0.8,0.8) ficou a baixo da linha (Figura 4.7). A
tabela 4.11 é demonstrado o comparativo entre o modelo estudado e o de Caetano (2015) utilizando
acurácia e o AUC .
Tabela 4.11: Comparativo entre autores – Árvore de Decisão.
Modelos
Acurácia AUC
LOOCV k-Fold LOOCV k-Fold
Modelo estudado 70,0 72,0 64,2 65,7
Caetano 65,5 68,2
Em comparação aos métodos utilizados por Caetano (2018), dando uma atenção especial ao
k-fold, a Árvore de Decisão proposta no estudo obteve melhores resultados em relação a acurácia, já
em relação a AUC os resultados estão bem semelhantes ocorrendo uma pequena vantagem no modelo
proposto por Caetano (Tabela 4.11).
Capítulo 5
Conclusão
Os melhores resultados em termos de precisão foram obtidos com a aplicação da regressão logística
para sua classificação e no treinamento do modelo. Já para as técnicas de reamostragem a utilização do
k-fold apresentou um menor custo computacional, sendo em média 27 vezes mais rápido em comparação
ao LOOCV e mantendo as acurácias dos treinos bem próximos. Portanto, em termos de performance
juntamente com o tempo computacional, o método k-folds se mostrou uma metodologia eficiente e mais
rápida para avaliação dos métodos de classificação aqui estudados.
Para trabalhos futuros seria indicado analisar o comportamento das técnicas de validação cruzada
quando aplicado ao número de observações extremamente grande, verificando o impacto computacional e a
sua acurácia, assim indicando se a utilização do k-fold permanecerá a melhor opção dentre as apresentadas
neste estudo.
31
Bibliografia
[1] BRAGA, A. C. Curvas ROC: aspectos funcionais e aplicações. Orientador: Oliveira, Pedro Nuno
Ferreira Pinto de. 2001. 267 p. Tese de Doutorado (Doutorando em Produção e Sistemas) - Univer-
sidade do Minho: Braga, PT, 2000. Disponível em: http://hdl.handle.net/1822/195. Acesso em: 26
set. 2019.
[2] BORRA, S. Measuring the prediction error. A comparison of cross-validation, bootstrap and covari-
ance penalty methods. Computational Statistics & Data Analysis , 54, issue 12, p. 2976-2989,
2010.
[3] CAETANO, M. Modelos de classificação: aplicações no setor bancário, 2015.
94 p. Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de
Matemática Estatística e Computação Científica, Campinas, SP. Disponível em:
<http://www.repositorio.unicamp.br/handle/REPOSIP/306286>. Acesso em: 10 set. 2020.
[4] GAMA, J. Pré-processamento de dados em aprendizado de máquina supervisionado,
Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2003.
doi:10.11606/T.55.2003.tde-06102003-160219. Acesso em: 10 set. 2020.
[5] GARTNER, I.; MOREIRA, T.; GALVES, H. Análise do risco setorial como instrumento de controle
gerencial em instituições financeiras.Revista de Administração Mackenzie.São Paulo, v. 10, n.
5, p. 107-129, out. 2009.
[6] Global Financial Stability Report October 2017: Is Growth at Risk?.
International Monetary Fund, Washington, DC, 2017. Available in
<https://www.imf.org/en/Publications/GFSR/Issues/2017/09/27/global-financial-stability-report-
october-2017> Accessed on: November 12th, 2019.
[7] GONÇALVES, E.; GOUVÊA, M.; MANTOVANI, D. Análise de risco de crédito com o uso de
regressão logística. Revista Contemporânea de Contabilidade, Florianópolis, v. 10, n. 20, p.
139-160, ago. 2013
[8] GUJARATI, D.; PORTER, D. Basic Econometrics. 5th ed. New York, NY: The McGraw-Will
Companies, 2008.
[9] HASTIE, T.; TIBSHIRANI, R.; FRIEDMAN, J. The Elements of Statistical Learning Data
Mining, Inference, and Prediction. 2st ed. Stanford, CA: Springer, 2009. 241p.
32
[10] Inadimplência do consumidor bate recorde e atinge 61,8 milhões, revela Serasa. Serasa Experian,
São Paulo, 19 de jul. de 2018. Disponível em: < https://www.serasaexperian.com.br/sala-de-
imprensa/inadimplencia-do-consumidor-bate-recorde-e-atinge-618-milhoes-revela-serasa>. Acesso
em: 11 de nov. de 2019.
[11] JAMES, G.; WITTEN, D.; HASTIE, T.; TIBSHIRANI, R. An Introduction to Statistical
Learning with Applications in R. 1st ed. New York, NY: Springer, 2013. 126p.
[12] JUNIOR, F.P. Seleção de Variáveis e Características como Aplicação Paralela para Cluster MPI.
Dissertação de Mestrado. Maringá, 2006.
[13] Kim, J. Estimating classification error rate: Repeated cross-validation, repeated hold-out and bo-
otstrap. Computational Statistics & Data Analysis , 53, issue 11, p. 3735-3745, 2009.
[14] MADDALA, G. S.; Limited-Dependent and Qualitative Variables in Economics, New York: Cam-
bridge University Press, 1983.
[15] MALUCELLI, A. Classificação de microáreas de risco com uso de mineração de dados. Rev. Saúde
Pública, São Paulo, v. 44, n. 2, p. 292-300, Apr. 2010.
[16] MONARD, M.; BATISTA, G. “Learning whit Skewed Class Distributions.” Cadernos de Com-
putação XX, 2003.
[17] MATSUBARA, et. al. (2008). Relações entre Ranking, Análise ROC e Calibração em Aprendizado
de Máquina. Tese de Doutorado, Instituto d Ciências Matemáticas e de Computação, Universi-
dade de São Paulo.<http://www.teses.usp.br/teses/disponiveis/55/ 55134/tde-04032009-114050/pt-
br.php>.
[18] Metz, C. E. “Statistical Analysis of ROC Data in Evaluating Diagnostic Performance.” Multiple
Regression Analysis: Applications in the Health Sciences, number 13, edited by Donald E. Herbert
and Raymond H. Myers. 365–384. American Institute of Physics, 1986.
[19] MONTGOMERY, D. C.; RUNGER, G. C. Estatística aplicada e probabilidade para enge-
nheiros. 4. ed. Rio de Janeiro, LTC – Livros Técnicos e Científicos Editora S.A., 2009. 493 p.
[20] PAULA, L. F. Sistema Financeiro, bancos e financiamento da economia: uma abordagem keynesiana.
Rio de Janeiro: Campus/Elsevier, 2014.
[21] PRATI, R. C., BATISTA, G. E. A. P. A., MONARD, M. C. Curvas ROC para a Avaliação de
Classificadores. Revista IEEE América Latina, 2008.
[22] R Core Team (2019). R: A language and environment for statistical computing. R Foundation for
Statistical Computing, Vienna, Austria. URL https://www.R-project.org/.
[23] SAMEJIMA, K.; DOYA, K.; KAWATO, M. Inter-module Credit Assignment in Modular
Reinforcement Learning. Neural Networks, n. 16, p. 985-994, 2003.
33
[24] SANTOS, J.; FAMÁ, R. Avaliação da aplicabilidade de um modelo de credit scoring com variáveis
sistêmicas e não sistêmicas em carteiras de 39 crédito bancário rotativo de pessoas físicas. Revista
Contabilidade & Finanças. São Paulo, v. 2, n. 44, p. 105–117, ago. 2007.
[25] SCHERR, F. Modern Working Capital Management. New Jersey: Prentice-Hall, 1989.
[26] SCHRICKEL, W.Análise de crédito: concessão e gerência de empréstimos. 4. ed. São Paulo:
Atlas, 1998.
[27] SILVA, J. Análise e decisão de crédito. São Paulo: Atlas, 1993.
[28] SILVA, J. Gestão e análise de risco de crédito. 6 ed. São Paulo: Atlas, 2008
[29] SOUSA, I. C. Predição genômica da resistência à ferrugem alaranjada em
café arábica via algoritmos de aprendizagem de máquina, 2018. Disponível em:<
http://www.locus.ufv.br/handle/123456789/20584 > Acesso em: 13 nov. 2019.
[30] Statlog (German Credit Data) Data Set. Data Sets - UCI Machine Learning Repository. Disponível
em: < https://archive.ics.uci.edu/ml/datasets/statlog+(german+credit+data)> . Acesso em: 21 ago.
2019.
[31] WASSERMAN, L.All of Statistics: A Concise Course in Statistical Inference. 1st ed. Pennsylvania:
Springer, 2003, 219p.
Capítulo 6
Anexos
6.1 Anexo I: Descrição dos itens da Tabela 4.2
Estado da conta
A11: V1 < 0 DM
A12: 0 6V1 < 200 DM
A13: V1 > 200 DM
A14: Não possui conta corrente
Histórico de crédito
A30: Nenhum crédito solicitado/ todos os créditos reembolsados devidamente
A31: Todos os créditos neste banco reembolsados devidamente
A32: Créditos existentes reembolsados devidamente até agora
A33 : Atraso no pagamento no passado
A34: Conta crítica / outros créditos existentes (não neste banco)
Finalidade do empréstimo
A40: carro (novo)
A41: carro (usado)
A42: móveis / equipamentos
A43: rádio / televisão
A46: educação
A49: negócios
Poupança/Investimentos
A62: 100 6 V6 < 500 DM
A63: 500 6 V6 < 1000 DM
A64: V6 > 1000 DM
34
35
A65: Desconhecido / sem conta poupança
Tempo no Trabalho atual
A71: Desempregado
A72: V7 < 1 ano
A73: 1 6 V7 < 4 anos
A74: 4 6 V7 < 7 anos
A75 : V7 > 7 anos
Estado civil e sexo
A91: Masculino e divorciado / separado
A92: Feminino e divorciado / separado / casado
A93: Masculino e solteiro
A94: Masculino e casado / viúvo
A95: Feminino e solteiro
Outro aplicante/garantidor
A101: Nenhum
A102: Co-requerente
A103: Fiador
Propriedades
A121: imóvel
A122: Poupança da sociedade de construção contrato / seguro de vida
A123: Carro ou outro
A124: Desconhecido / sem propriedade
Outros empréstimos
A141: Banco
A142: Lojas
A143: Nenhum
Moradia
A151: Aluguel
A152: Próprio
A153: Gratuito
Trabalho
A171: Desempregado / não qualificado - não residente
36
A172 : Não qualificado – residente
A173: Funcionário qualificado / oficial
A174: Gerência / autônomo / funcionário altamente qualificado / oficial
Telefone
A191: Nenhum
A192: Sim, registrado sob o nome do cliente
Trabalhador estrangeiro
A201: Sim
A202: Não
	Agradecimentos
	Lista de Figuras
	Lista de Tabelas
	Resumo
	Abstract
	Introdução
	Material e Métodos
	Análise de Crédito
	Métodos de Classificação 
	Regressão Logística
	Modelo de Probabilidade Linear (MPL)
	Modelo Logit
	Qualidade do ajuste
	Critério de Informação Akaike para Seleção de Variáveis 
	Método de Seleção de Variáveis Stepwise
	Árvore de Decisão
	Validação cruzada
	Validação Cruzada pelo método k-Fold
	Validação Cruzada Leave-one-out (LOOCV)
	Qualidade de classificação
	Taxa de Acerto
	Análise ROC
	 Comparação entre autores
	Dados e Software
	Resultados e Discurssão
	Análise descritiva
	Seleção das variáveis 
	Comparação entre métodos de reamostragem
	Comparação dos métodos de classificação
	Regressão logística
	Árvore de Decisão
	Conclusão
	Referências Bibliográficas
	Anexos
	Anexo I: Descrição dos itens da Tabela 4.2