TCC FINAL - José Vitor

Vitor Frizarin
em 25/04/2021
Conteúdos escolhidos para você

45 pág.
Modelagem de Processos Produtivos - Simulação e Otimização

ESTÁCIO
5 pág.
ESTATÍSTICA APLICADA AO DATA SCIENCE - Prova N2

UAM
78 pág.
Livro-Texto 2 - Ciência de Dados

UNIP
32 pág.
machine learning aula4

103 pág.
APOSTILA

ESTÁCIO
Perguntas dessa disciplina

1. Variável é toda característica que, observada em uma unidade da população ou amostra, pode variar de um indivíduo para outro (Callegari-Jacques...

UNILAVRAS
Assinale a alternativa que apresenta uma desvantagem do Método das Matrizes de Interação: A São dados pesos aos atributos ambientais, sem garantia...

CSV
A utilização de dados no setor produtivo exige atenção desde o momento da coleta até as etapas de análise e comunicação. Em ambientes organizacionais

ESTÁCIO EAD
Uma empresa de e-commerce deseja criar um modelo preditivo para prever o número de vendas em determinado período. Para isso, a equipe de análise de...

UNISUAM
descritiva deles antes do desenvolvimento do modelo. Os dados cedidos pelo gerente do banco estavam bem organizados e livres de erros. A nossa jovem c

Anhanguera
Material
Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Conteúdos escolhidos para você

45 pág.
Modelagem de Processos Produtivos - Simulação e Otimização

ESTÁCIO
5 pág.
ESTATÍSTICA APLICADA AO DATA SCIENCE - Prova N2

UAM
78 pág.
Livro-Texto 2 - Ciência de Dados

UNIP
32 pág.
machine learning aula4

103 pág.
APOSTILA

ESTÁCIO
Perguntas dessa disciplina

1. Variável é toda característica que, observada em uma unidade da população ou amostra, pode variar de um indivíduo para outro (Callegari-Jacques...

UNILAVRAS
Assinale a alternativa que apresenta uma desvantagem do Método das Matrizes de Interação: A São dados pesos aos atributos ambientais, sem garantia...

CSV
A utilização de dados no setor produtivo exige atenção desde o momento da coleta até as etapas de análise e comunicação. Em ambientes organizacionais

ESTÁCIO EAD
Uma empresa de e-commerce deseja criar um modelo preditivo para prever o número de vendas em determinado período. Para isso, a equipe de análise de...

UNISUAM
descritiva deles antes do desenvolvimento do modelo. Os dados cedidos pelo gerente do banco estavam bem organizados e livres de erros. A nossa jovem c

Anhanguera
Prévia do material em texto
UNIVERSIDADE ESTADUAL PAULISTA
"JÚLIO DE MESQUITA FILHO"
Faculdade de Ciências e Tecnologia
Campus de Presidente Prudente
JOSÉ VITOR FRIZARIN DOS SANTOS
ESTRATÉGIAS PARA O TRATAMENTO DE
DADOS INCOMPLETOS EM MODELOS DE
REGRESSÃO LOGÍSTICA
Revisado pelo(a) Orientador(a)
Assinatura do(a) Orientador(a)
Data: __/__/ 2018
Presidente Prudente - SP
2018
JOSÉ VITOR FRIZARIN DOS SANTOS
ESTRATÉGIAS PARA O TRATAMENTO DE DADOS
INCOMPLETOS EM MODELOS DE REGRESSÃO
LOGÍSTICA
Relatório Final para Trabalho de Conclusão
de Curso apresentado ao Curso de Estatística
da FCT/UNESP para aproveitamento da dis-
ciplina Trabalho de Conclusão do Curso.
Orientador(a): Profa. Dra. Vilma Mayumi
Tachibana.
Presidente Prudente - SP
2018
TERMO DE APROVAÇÃO
JOSÉ VITOR FRIZARIN DOS SANTOS
ESTRATÉGIAS PARA O TRATAMENTO DE DADOS
INCOMPLETOS EM MODELOS DE REGRESSÃO
LOGÍSTICA
Relatório de Final de Trabalho de Conclusão de Curso aprovado como requisito para obten-
ção de créditos na disciplina Trabalho de Conclusão do curso de graduação em Estatística
da Faculdade de Ciências e Tecnologia da Unesp, pela seguinte banca examinadora:
Presidente Prudente - SP, 1 de fevereiro de 2018.
AGRADECIMENTOS
Ser incomparável, justo e amoroso é este o Deus que eu acredito, digno de todo
agradecimento. Grato por me proporcionar esta oportunidade e permitir que eu pudesse
concluir com êxito mais uma importante etapa da minha vida.
À minha família, em especial, aos meus pais, José e Silvia, e ao meu irmão
Wellington, que me ampararam em todos os momentos difíceis e muitas vezes abdicarem
dos seus próprios sonhos para que eu realizasse o meu. Muito obrigado pelo apoio, incentivo
e amor incondicional!
À minha namorada Maria, companheira de todas as horas. Agradeço por superar
comigo todas as dificuldades enfrentadas até aqui e também por compartilhar experiências
e momentos inesquecíveis. Com ela, aprendi o quão importante é o companheirismo e
cumplicidade.
À Profa. Dra. Vilma Mayumi Tachibana, pela dedicação, paciência, exigência
durante todo esse período de convívio, e acima de tudo por me orientar durante a realização
deste trabalho. É uma pessoa admirável e em quem me espelho quanto profissional.
Aos membros da banca, Profa. Dra. Aparecida Donizete Pires de Souza e Prof. Dr.
Edilson Ferreira Flores, pelas valiosas sugestões e comentários feitos durante a apresentação
deste trabalho.
Aos demais professores do Departamento de Estatística da FCT/UNESP, por todo
o conhecimento compartilhado no decorrer do curso de graduação.
Aos meus amigos e companheiros de turma Filipe, Luan, Alan e André pela
convivência agradável e também por sempre estarem dispostos a me ajudar. Tenho enorme
prazer de tê-los conhecido, obrigado pela amizade!
À Pró-Reitoria de Extensão Universitária, PROEX, e também à Pró-Reitoria de
Pesquisa, PROPe, pelo apoio financeiro.
"Todos querem o perfume das flores, mas poucos sujam as suas mãos para
cultivá-las"
Augusto Cury
RESUMO
Uma das maiores dificuldades com o desenvolvimento de modelos preditivos,
especificamente o modelo de regressão logística, é a ocorrência de dados 𝑚𝑖𝑠𝑠𝑖𝑛𝑔.
Os software estatísticos mantém como padrão a análise de casos completos, onde
simplesmente são descartados todos os casos com um ou mais valores ausentes nas
variáveis. Este procedimento reduz o tamanho da base de dados e pode resultar
em estimativas tendenciosas. Para contornar tal problema, aplicam-se métodos
de imputação simples ou múltipla que estimam os valores ausentes a partir dos
dados disponíveis. A ideia básica é substituir estes dados por valores verossímeis,
possibilitando realizar a análise estatística com a base de dados completa. Sendo
assim, este trabalho trata de um estudo do modelo de regressão logística na presença
de dados incompletos em que o objetivo principal é comparar diferentes métodos e
abordagens de imputação de dados propostas na literatura que viabilizam a estimação
consistente dos parâmetros deste modelo. Ao todo são abordados seis métodos de
imputação. Um estudo de simulação utilizando dados reais de crédito foi conduzido
para comparar o desempenho dos modelos construídos para cada um destes métodos
com o modelo de regressão logística padrão ajustado para a base dados completa
em dois cenários de dados incompletos. Como era esperado, o modelo desenvolvido
eliminando as observações com dados faltantes nas variáveis foi o que apresentou
pior desempenho. Já os métodos de imputação 𝑘-NN e Random Forest tiveram a
melhor performance, resultando em modelos que apresentam comportamento de
predição muito semelhante ao modelo padrão.
Palavras-chave: Regressão logística. Dados incompletos. Métodos de imputação.
ABSTRACT
One of the greatest difficulties with the development of predictive models,
specifically the logistic regression model, is the occurrence of missing data. Statistical
software keep as default the complete case analysis, where all cases with one or
more missing values in the variables are simply discarded. This procedure reduces
the size of the data set and can result in biased estimates. To work around this
problem, single or multiple imputation methods that estimate missing values from
the available data are applied. The basic idea is to replace these data with plausible
values, allowing the statistical analysis with the complete data set. Thus, this work
deals with a study of the logistic regression model in the presence of incomplete data
in which the main objective is to compare different methods and data imputation
approaches proposed in the literature that enable the consistent estimation of the
model parameters. In general, six methods of imputation will be considered. A
simulation study using real credit data was conducted to compare the performance of
the constructed models for each of these methods with the default logistic regression
model fitted for the complete data set in two incomplete data scenarios. As expected,
the model developed eliminating the observations with missing data in the variables
was the that presented worst performance. On the other hand, the methods of
imputation 𝑘-NN and Random Forest had the best performance, resulting in models
that present prediction behavior very similar to the default model.
Keywords: Logistic regression. Incomplete data. Imputation methods.
LISTA DE ILUSTRAÇÕES
Figura 1 – Funções densidade de probabilidade e acumulada da distribuição Logís-
tica para diferentes valores de 𝜇 e 𝜏 . . . . . . . . . . . . . . . . . . . . 17
Figura 2 – Exemplo de curva ROC. . . . . . . . . . . . . . . . . . . . . . . . . . . 34
Figura 3 – Gráfico de sensibilidade versus especificidade. . . . . . . . . . . . . . . 35
Figura 4 – Funções distribuições empíricas para os 𝑏𝑜𝑛𝑠 e 𝑚𝑎𝑢𝑠 clientes e a esta-
tística KS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
Figura 5 – Padrão univariado de dados incompletos. . . . . . . . . . . . . . . . . . 43
Figura 6 – Padrão monótomo de dados incompletos. . . . . . . . . . . . . . . . . . 43
Figura 7 – Padrão especial de dados incompletos. . . . . . . . . . . . . . . . . . . 44
Figura 8 – Padrão geral de dados incompletos. . . . . . . . . . . . . . . . . . . . . 44
Figura 9 – Esquema da imputação múltipla. . . . . . . . . . . . . . . . . . . . . . 51
Figura 10 –Gráfico de correlação mista . . . . . . . . . . . . . . . . . . . . . . . . . 59
Figura 11 –Gráfico da seleção de variáveis pelo algoritmo Boruta. . . . . . . . . . . 64
Figura 12 –Curva ROC para o modelo de regressão logística padrão nas bases de
treinamento e teste. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
Figura 13 –Gráficos dos resíduos de Pearson e 𝐷𝑒𝑣𝑖𝑎𝑛𝑐𝑒 padronizados do modelo
de regressão logística padrão. . . . . . . . . . . . . . . . . . . . . . . . 68
Figura 14 –Resíduos 𝐷𝑒𝑣𝑖𝑎𝑛𝑐𝑒 padronizados 𝑣𝑒𝑟𝑠𝑢𝑠 valores ajustado do modelo
de regressão logística padrão. . . . . . . . . . . . . . . . . . . . . . . . 68
Figura 15 –Medida de Leverage e distânciade Cook para o modelo de regressão
logística padrão. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
Figura 16 –Padrão dos dados incompletos com 5% de 𝑚𝑖𝑠𝑠𝑖𝑛𝑔. . . . . . . . . . . . 71
Figura 17 –Estimativas dos modelos ajustados para dados incompletos com 5% de
𝑚𝑖𝑠𝑠𝑖𝑛𝑔. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
Figura 18 –Padrão dos dados incompletos com 20% de 𝑚𝑖𝑠𝑠𝑖𝑛𝑔. . . . . . . . . . . 74
Figura 19 –Estimativas dos modelos ajustados para dados incompletos com 20%
de 𝑚𝑖𝑠𝑠𝑖𝑛𝑔. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
LISTA DE TABELAS
Tabela 1 – Valores de 𝜋 no modelo de regressão logística com variável explicativa
dicotômica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Tabela 2 – Codificação de variável explicativa politômica. . . . . . . . . . . . . . . 28
Tabela 3 – Matriz de classificação. . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
Tabela 4 – Classificação do poder de discriminação do modelo segunda a área
abaixo da curva ROC. . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
Tabela 5 – Métodos de imputação disponíveis no pacote 𝑚𝑖𝑐𝑒. . . . . . . . . . . . 52
Tabela 6 – Caracterização das variáveis em estudo. . . . . . . . . . . . . . . . . . 56
Tabela 7 – Exemplo do cálculo das medidas descritivas 𝑅𝑅 e 𝑊𝑂𝐸. . . . . . . . . 58
Tabela 8 – Categorização das variáveis quantitativas do conjunto de dados. . . . . 60
Tabela 9 – Recategorização das variáveis qualitativas do conjunto de dados. . . . . 61
Tabela 10 –Distribuição dos clientes nas bases de treinamento e teste. . . . . . . . 62
Tabela 11 –Seleção de variáveis 𝑠𝑡𝑒𝑝𝑤𝑖𝑠𝑒 utilizando como critério o teste da razão
de verossimilhança. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Tabela 12 –Resultados do modelo de regressão logística múltipla padrão ajustado. 65
Tabela 13 –Partição da base para o teste de Hosmer-Lemeshow. . . . . . . . . . . 66
Tabela 14 –Métricas de desempenho para o modelo de regressão logística padrão. . 66
Tabela 15 –Avaliação da multicolinearidade. . . . . . . . . . . . . . . . . . . . . . 69
Tabela 16 –Métodos de imputação comparados. . . . . . . . . . . . . . . . . . . . 70
Tabela 17 –Resultados dos modelos de regressão logística para dados completos e
incompletos com 5% de 𝑚𝑖𝑠𝑠𝑖𝑛𝑔. . . . . . . . . . . . . . . . . . . . . . 72
Tabela 18 –Métricas de desempenho dos modelos de regressão logística para dados
completos e incompletos com 5% de 𝑚𝑖𝑠𝑠𝑖𝑛𝑔. . . . . . . . . . . . . . . 74
Tabela 19 –Resultados dos modelos de regressão logística para dados completos e
incompletos com 20% de 𝑚𝑖𝑠𝑠𝑖𝑛𝑔. . . . . . . . . . . . . . . . . . . . . 75
Tabela 20 –Métricas de desempenho dos modelos de regressão logística para dados
completos e incompletos com 20% de 𝑚𝑖𝑠𝑠𝑖𝑛𝑔. . . . . . . . . . . . . . 76
Tabela 21 –Código da natureza de ocupação. . . . . . . . . . . . . . . . . . . . . . 85
Tabela 22 –Recategorização da variável UF. . . . . . . . . . . . . . . . . . . . . . . 85
SUMÁRIO
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2 REGRESSÃO LOGÍSTICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.1 Modelos Lineares Generalizados . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2 Modelo de Regressão Logística . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.1 Estimação dos Parâmetros . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.2 Testes para a Significância do Modelo . . . . . . . . . . . . . . . . . 23
2.2.3 Estimação por Intervalos . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.3.1 Intervalo de Confiança para os Parâmetros . . . . . . . . . 25
2.2.3.2 Intervalo de Confiança para o Logito . . . . . . . . . . . . 25
2.2.3.3 Intervalo de Confiança para os Valores Ajustados . . . . . 26
2.2.4 Interpretação dos Coeficientes . . . . . . . . . . . . . . . . . . . . . 26
2.3 Avaliação do Ajuste do Modelo . . . . . . . . . . . . . . . . . . . . . . . . 29
2.3.1 Estatísticas Qui-Quadrado de Pearson e Deviance . . . . . . . . . . 29
2.3.2 Teste de Hosmer-Lemeshow . . . . . . . . . . . . . . . . . . . . . . 31
2.3.3 Métricas de Desempenho . . . . . . . . . . . . . . . . . . . . . . . . 31
2.3.3.1 Matriz de Classificação . . . . . . . . . . . . . . . . . . . . 31
2.3.3.2 Área Sob a Curva ROC . . . . . . . . . . . . . . . . . . . 33
2.3.3.3 Estatística de Kolmogorov-Smirnov (KS) . . . . . . . . . . 35
2.3.3.4 Coeficiente de Gini . . . . . . . . . . . . . . . . . . . . . . 36
2.4 Diagnóstico do Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.4.1 Análise dos Resíduos . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.4.1.1 Resíduo de Pearson . . . . . . . . . . . . . . . . . . . . . . 38
2.4.1.2 Resíduo Deviance . . . . . . . . . . . . . . . . . . . . . . . 38
2.4.2 Observações Influentes . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.4.2.1 Diagonal da Matriz 𝐻 (𝑙𝑒𝑣𝑒𝑟𝑎𝑔𝑒) . . . . . . . . . . . . . . 39
2.4.2.2 Distância de Cook . . . . . . . . . . . . . . . . . . . . . . 39
2.4.2.3 𝐶 e 𝐶 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.4.2.4 DIFCHISQ e DIFDEV . . . . . . . . . . . . . . . . . . . . 40
2.4.3 Multicolinearidade . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3 DADOS INCOMPLETOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.1 Padrões de Dados Incompletos . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.1.1 Padrão Univariado . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.1.2 Padrão Monótomo . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.1.3 Padrão Especial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.1.4 Padrão Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.2 Mecanismos de Dados Incompletos . . . . . . . . . . . . . . . . . . . . . . 45
3.2.1 MCAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.2.2 MAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.2.3 MNAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.3 Mecanismo Ignorável e Não-Ignorável . . . . . . . . . . . . . . . . . . . . . 46
3.4 Teste para Mecanismos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.4.1 Teste-𝑡 Univariado . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.4.2 Teste MCAR de Little . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.5 Métodos para o Tratamento de Dados Incompletos . . . . . . . . . . . . . 48
3.5.1 Deleção de Dados Incompletos . . . . . . . . . . . . . . . . . . . . . 48
3.5.1.1 Análise de Caso Completo . . . . . . . . . . . . . . . . . . 49
3.5.2 Imputação Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.5.2.1 Imputação por Medidas de Tendência Central . . . . . . . 49
3.5.2.2 Imputação pelo Vizinho Mais Próximo . . . . . . . . . . . 50
3.5.2.3 Imputação por Random Forest . . . . . . . . . . . . . . . 50
3.5.3 Imputação Múltipla . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.5.3.1 Algoritmo 𝑚𝑖𝑐𝑒 . . . . . . . . . . . . . . . . . . . . . . . . 52
4 APLICAÇÃO A DADOS DE CRÉDITO . . . . . . . . . . . . . . . . . . . . 54
4.1 Modelagem de Risco de Crédito . . . . . . . . . . . . . . . . . . . . . . . . 54
4.2 Descrição e Apresentação dos Dados . . . . . . . . . . . . . . . . . . . . . 55
4.3 Tratamento das Variáveis Explicativas . . . . . . . . . . . . . . . . . . . . 57
4.4 Partição do Conjunto de Dados . . . . . . . . . . . . . . . . . . . . . . . . 62
4.5 Seleção de Variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.6 Modelo de Regressão Logística para Dados Completos . . . . . . . . . . . . 64
4.7 Estudo de Simulação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.7.1 Resultados e Discussões . . . . . . . . . . . . . . . . . . . . . . . . 70
5 CONSIDERAÇÕES FINAIS E PERSPECTIVAS FUTURAS. . . . . . . . . 77
REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
APÊNDICES 81
APÊNDICE A Método Stepwise . . . . . . . . . . . . . . . . . . . . . . . . . 82
APÊNDICE B Tabelas Complementares . . . . . . . . . . . . . . . . . . . . . 85
11
1 INTRODUÇÃO
Em muitos experimentos deseja-se investigar como as mudanças ocorridas em
uma ou mais variáveis explicativas, também denominadas como variáveis independentes
ou covariáveis, afetam uma outra variável, geralmente designada por variável resposta
ou dependente. A análise estatística necessita encontrar uma relação funcional entre as
variáveis ou aproximá-las por uma relação matemática que seja semelhante a função
verdadeira, limitando o campo de variação das variáveis envolvidas. Para obter esta relação
utiliza-se um modelo matemático específico que envolve a suposição inicial de que um
certo tipo de relação linear com parâmetros desconhecidos seja verdadeira.
Aplicações do modelo de regressão linear são inúmeras e ocorrem em várias áreas
do conhecimento sob a condição de que a variável resposta é de natureza contínua. No
entanto, quando a variável resposta não for contínua, mas politômica com poucas categorias,
normalmente binária, a regressão linear não oferece estimadores plausíveis, sendo então
necessário utilizar um outro tipo de modelo que permite calcular a probabilidade de
ocorrência dos resultados dessa variável resposta, em geral, representada pelos termos
sucesso e fracasso.
Embora o pesquisador disponha de várias abordagens, a regressão logística é
seguramente o procedimento de modelagem mais utilizado na área de epidemiologia,
quando a medida da doença é dicotômica, ou na área financeira, quando há interesse em
avaliar o risco dos atuais clientes honrarem o empréstimo cedido pelo banco dentro do
prazo previsto e dos futuros clientes potenciais mais propensos à adesão de produtos ou
serviços. Esta técnica é ainda a base da Análise do Controle de Qualidade Seis Sigma e
desempenha um papel fundamental na área de mineração de dados, em português, ou data
mining, em inglês. Segundo Hosmer e Lemeshow (2000), não apenas essas áreas utilizam
regressão logística, também ela é muito explorada na criminologia, ecologia, engenharia,
entre outras. Aspectos teóricos e práticos do modelo de regressão logística são amplamente
discutidos na literatura, com destaque para os trabalhos de Kleinbaum e Klein (2010),
Agresti (2007), Hilbe (2009) e Paula (2004), além de Hosmer e Lemeshow (2000) citado
anteriormente.
Uma das dificuldades com o desenvolvimento de modelos preditivos, especificamente
o modelo de regressão logística, é a perda de várias observações por falta de informações
sobre elas. Os software estatísticos mantém como padrão um procedimento denominado
Análise de Casos Completos, onde simplesmente são descartados todos os casos com um
ou mais valores ausentes nas variáveis, restringindo a análise apenas aos casos completa-
mente observados (ENDERS, 2010). Portanto, a inferência estatística em bases de dados
Capítulo 1. INTRODUÇÃO 12
incompletas é uma importante área de pesquisa, sobretudo porque dados com ausência de
informação são comumente encontrados na prática.
Vale ressaltar que os dados incompletos, ou também dados missing, existem e são
de grande interesse para o estudo, mas devido alguma circunstância específica não foi
possível observá-los. A falta de informação, razões acidentais, erro na transcrição dos dados
ou até mesmo a exclusão intencional de dados pelo próprio pesquisador, são, em geral,
situações que podem acarretar dados incompletos. Entre alguns casos comuns que ocorrem
com certa frequência, podem ser citados os seguintes exemplos:
∙ Em uma pesquisa de campo, um indivíduo pode se recusar a responder uma determi-
nada pergunta do questionário aplicado. Neste caso, a resposta referente à questão
não respondida de interesse do pesquisador é o dado incompleto.
∙ No experimento para testar a eficácia de um determinado tratamento, indivíduos
podem desistir antes do estudo ser concluído. Consequentemente, as respostas não
obtidas de cada um dos indivíduos também constituem dados incompletos.
∙ Em um experimento industrial, alguns resultados podem ser dados incompletos
devido a ocorrência de algum acidente mecânico não esperado. Então, é comum
considerar os dados que não são observados como sendo missing, posto que seriam
observados caso o acidente não tivesse ocorrido (LITTLE; RUBIN, 1987).
∙ Uma pesquisa sobre famílias com muitas variáveis socioeconômicas é realizada
durante um certo período, e uma pesquisa de acompanhamento é conduzida com as
mesmas famílias em um período posterior. É provável a presença de muitos dados
incompletos no último conjunto de dados coletados, já que muitas famílias estudadas
na pesquisa inicial podem não ser localizadas na pesquisa subsequente (RUBIN,
1976).
Tendo em consideração que a regressão logística é uma abordagem adequada apenas
para dados completos nas variáveis explicativas e o tratamento padrão de dados missing
utilizado em software estatísticos é a Análise de Casos Completos, em geral, a decisão
do pesquisador é desconsiderar do modelo os elementos amostrais que não apresentam
resposta em uma ou mais variáveis explicativas. Contudo, a exclusão destes dados não é a
melhor solução, visto que se os elementos retirados da amostra possuem características
distintas dos demais, as estimativas obtidas para os parâmetros do modelo de regressão
logística podem ser viesadas e, consequentemente, a inferência fica prejudicada. Seria
ideal nestes casos a repetição do estudo para obter novos dados que suprem os dados
incompletos, porém na prática esse recurso é inviável, em razão do custo financeiro e
tempo limitado.
Capítulo 1. INTRODUÇÃO 13
Para contornar tal problema, aplicam-se métodos de imputação simples ou múltipla
que estimam os valores ausentes a partir dos dados disponíveis, levando em conta o padrão
e o mecanismo gerador dos dados incompletos. A ideia básica é substituir estes dados por
valores verossímeis, possibilitando assim realizar a análise estatística com a base de dados
completa.
Diante da recorrência frequente à questão de dados incompletos por pesquisadores
da área de modelagem, é notória a importância de estudar, entender e popularizar a
metodologia correta a ser adotada. Sendo assim, este trabalho trata de um estudo minucioso
do modelo de regressão logística na presença de dados incompletos em que o objetivo
principal é comparar diferentes métodos e abordagens de imputação de dados propostas
na literatura que viabilizam a estimação consistente dos parâmetros deste modelo. Em
síntese, espera-se que o trabalho seja utilizado não apenas como base para propostas de
pesquisas futuras, mas também para promover maior flexibilidade quanto à aplicação dos
modelos de regressão logística.
Neste relatório, o conteúdo se encontra organizado da seguinte forma: no Capítulo
2, é apresentado o modelo de regressão logística e todas as etapas necessárias para obter o
melhor ajuste. No Capítulo 3, é feita uma introdução sobre a teoria de dados incompletos,
enfatizando-se os principais padrões e mecanismos de perda. No Capítulo 4, são abordados
os métodos de imputação a serem aplicados. No Capítulo 5, é feita aplicação da metodologia
estudada no trabalho a uma base real de dados de crédito. Por fim, no Capítulo 6, as
considerações finais e perspectivas futuras são apresentadas.
14
2 REGRESSÃO LOGÍSTICA
Neste capítulo, é apresentado o modelo de regressão logística, suas suposições, o
procedimento de estimação dos parâmetros e algumas medidas para avaliar o ajuste do
modelo. A fim de sintetizar o capítulo e evitar trivialidades, optou-se por abordar apenas
o modelo de regressão logística múltiplo, que é uma generalização do modelo de regressão
logística simples para o caso em que uma variável resposta dicotômica é uma função de
mais do que uma variável explicativa.
2.1 Modelos Lineares Generalizados
A classe dos modelos lineares normaisdominou a modelagem estatística durante
muitos anos. Paula (2004) destaca que mesmo quando o fenômeno sob estudo não apresen-
tava uma resposta para a qual fosse razoável a suposição de normalidade, transformações
eram propostas com a finalidade de alcançar a normalidade desejada. Box e Cox (1964)
sugeriram uma família de transformações.
Os modelos lineares normais têm a forma
𝑦 = 𝑋𝛽 + 𝜖,
em que 𝑦 é o vetor de observações, 𝑋 é a matriz de variáveis explicativas, 𝛽 é o vetor de
parâmetros desconhecidos e 𝜖 é o erro estocástico do modelo.
Embora vários modelos não lineares ou não normais tenham sido desenvolvidos para
descrever fenômenos aleatórios que não eram adequadamente explicados pelos modelos
lineares normais, a proposta mais inovadora foi apresentada por Nelder e Wedderburn
(1972), que definiram os Modelos Lineares Generalizados (Generalized Linear Models -
GLM). A ideia destes modelos é ampliar as opções para a distribuição da variável resposta,
que deve pertencer à família exponencial de distribuição. Além disso, como nos modelos
lineares normais, as observações também devem ser independentes e os dados são analisados
em sua forma original, sem que seja necessário utilizar transformações.
Um modelo linear generalizado é especificado por dois componentes e uma função
de ligação que descreve a relação funcional entre eles (CORDEIRO; DEMÉTRIO, 2008):
∙ Componente aleatório: refere-se à variável resposta 𝑌 que segue uma distribui-
ção de probabilidade contínua ou discreta pertencente à família exponencial de
distribuições, que pode ser escrita como
𝑓 (𝑦|𝜃, 𝜑) = exp
{︁
𝜑−1 [𝑦𝜃 − 𝑏(𝜃)] + 𝑐(𝑦, 𝜑)
}︁
, (2.1)
Capítulo 2. REGRESSÃO LOGÍSTICA 15
sendo 𝑏(·) e 𝑐(·) funções conhecidas, 𝜃 o parâmetro canônico e 𝜑 o parâmetro de
dispersão. Se 𝜑 é conhecido, então a família de distribuições descrita em (2.1) é
equivalente à família exponencial na forma canônica, dada por
𝑓(𝑦|𝜃) = ℎ(𝑦) [𝑦𝜃 − 𝑏(𝜃)] , (2.2)
enquanto que para 𝜑 desconhecido, a família (2.1) pode, ou não, pertencer à família
exponencial biparamétrica (McCULLAGH; NELDER, 1989).
Sob condições usuais de regularidade, é possível mostrar que o valor esperado e a
variância de 𝑌 com distribuição na família (2.1) são
𝐸(𝑌 ) = 𝜇 = 𝑏′(𝜃)
e
𝑉 𝑎𝑟(𝑌 ) = 𝜎2 = 𝜑𝑏′′(𝜃)
em que
𝑏
′′(𝜃) = 𝑣(𝜇) = 𝑑𝜇
𝑑𝜃
é denominada de função de variância.
∙ Componente sistemático: é definido por um preditor linear 𝜂 = (𝜂1, 𝜂2, . . . , 𝜂𝑛)𝑇
que está associado ao conjunto de variáveis explicativas tal que
𝜂 = 𝑋𝛽
sendo 𝑋 = (𝑥1,𝑥2, . . . ,𝑥𝑛)𝑇 a matriz do modelo com 𝑥𝑇𝑖 = (𝑥𝑖1, 𝑥𝑖2, . . . , 𝑥𝑖𝑝) e
𝛽 = (𝛽1, 𝛽2, . . . , 𝛽𝑝)𝑇 o vetor de parâmetros.
∙ Função de ligação: associa o componente aleatório ao componente sistemático, ou
seja,
𝑔(𝜇𝑖) = 𝜂𝑖 =
𝑝∑︁
𝑗=1
𝑥𝑖𝑗𝛽𝑗, (2.3)
em que 𝑔(·) é uma função monótona e diferenciável. A escolha da função de ligação
depende do tipo de variável resposta e do problema em particular abordado no
estudo.
Convém destacar o caso em que o parâmetro canônico coincide com o preditor linear,
isto é, 𝜃𝑖 = 𝜂𝑖, o que notoriamente implica 𝜃𝑖 = 𝑥𝑇𝑖 𝛽. Dessa forma, o preditor linear modela
diretamente o parâmetro canônico 𝜃𝑖 e, portanto, a função de ligação correspondente é
denominada como função de ligação canônica.
Pode-se demonstrar facilmente que as distribuições Bernoulli, Binomial, Poisson,
Rayleigh, Normal e Gama pertencem à família exponencial na forma canônica (CORDEIRO;
Capítulo 2. REGRESSÃO LOGÍSTICA 16
DEMÉTRIO, 2008). Como exemplo, considere que a variável aleatória 𝑌 tem distribuição de
Bernoulli, com probabilidade de sucesso 𝑃 (𝑌 = 1) = 𝜋, então sua função de probabilidade
é dada por
𝑝(𝑦|𝜋) = 𝜋𝑦 (1 − 𝜋)1−𝑦 , (2.4)
para 𝑦 ∈ {0, 1} e 0 ≤ 𝜋 ≤ 1.
Por cálculo direto é possível verificar que o valor esperado e a variância de 𝑌 são
𝐸(𝑌 ) = 𝜋
e
𝑉 𝑎𝑟(𝑌 ) = 𝜋(1 − 𝜋).
Desenvolvendo (2.4), obtém-se
𝑝(𝑦|𝜋) = exp [𝑦 log (𝜋) + (1 − 𝑦)log (1 − 𝜋)]
= exp
[︂
𝑦 log
(︂
𝜋
1 − 𝜋
)︂
+ log (1 − 𝜋)
]︂
,
com
𝜃 = log
[︂
𝜋
1 − 𝜋
]︂
= log
[︃
𝜇
1 − 𝜇
]︃
,
𝜇 = 𝑒
𝜃
1 + 𝑒𝜃 ,
𝑏(𝜃) = log (1 − 𝜋) = log (1 + 𝜇)
e
ℎ(𝑦) = 1,
sendo, portanto, um membro da família exponencial (2.2).
2.2 Modelo de Regressão Logística
Seja um conjunto com 𝑝 variáveis explicativas independentes denotado por 𝑋 =
[𝑋1, 𝑋2, . . . , 𝑋𝑝]𝑇 , sendo 𝑥𝑇𝑖 = [𝑥𝑖0, 𝑥𝑖1, . . . , 𝑥𝑖𝑝] com 𝑥𝑖0 = 1 e 𝑖 = 1, . . . , 𝑛, o vetor da
𝑖-ésima linha da matriz 𝑋 e 𝛽 = [𝛽0, 𝛽1, . . . , 𝛽𝑝]𝑇 o vetor de parâmetros desconhecidos do
modelo, tal que 𝛽𝑗 é o parâmetro referente à 𝑗-ésima variável explicativa, com 𝑗 = 1, . . . , 𝑝.
Denota-se por 𝑦 = [𝑌1, 𝑌2, . . . , 𝑌𝑛]𝑇 o vetor da variável resposta em que 𝑌𝑖 tem distribuição
de Bernoulli, com probabilidade de sucesso 𝑃 (𝑌𝑖 = 1|𝑥𝑖) = 𝜋𝑖, ou seja, 𝑌𝑖 ∼ 𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖(𝜋𝑖)
e é definida como
𝑌𝑖 =
⎧⎨⎩ 1, se o 𝑖-ésimo elemento amostral apresenta o evento de interesse0, caso contrário.
Em qualquer problema de regressão, a quantidade de interesse a ser modelada é o
valor médio da variável resposta dado os valores das variáveis explicativas, isto é, 𝐸 (𝑌𝑖|𝑥𝑖).
Capítulo 2. REGRESSÃO LOGÍSTICA 17
Na regressão logística, devido à natureza da variável resposta, 0 ≤ 𝐸 (𝑌𝑖|𝑥𝑖) = 𝜋𝑖 ≤ 1.
Neste caso, uma função de resposta linear para 𝜋𝑖 não é apropriada, uma vez que na
regressão linear tem-se −∞ ≤ 𝐸(𝑌𝑖|𝑥𝑖) = 𝑥𝑇𝑖 𝛽 ≤ ∞.
Em geral, é utilizada a função de distribuição Logística, que é similar à distribuição
Normal, com caudas um pouco mais longas (CORDEIRO; DEMÉTRIO, 2008). Se 𝑈 tem
distribuição Logística com parâmetros 𝜇 ∈ R e 𝜏 > 0, então sua função densidade de
probabilidade é dada por
𝑓(𝑢|𝜇, 𝜏) = 1
𝜏
exp
(︁
𝑢−𝜇
𝜏
)︁
[︁
1 + exp
(︁
𝑢−𝜇
𝜏
)︁]︁2 ,
e a função de distribuição acumulada dada por
𝐹 (𝑢|𝜇, 𝜏) =
exp
(︁
𝑢−𝜇
𝜏
)︁
1 + exp
(︁
𝑢−𝜇
𝜏
)︁ ,
sendo 𝑢 ∈ R, 𝜇 e 𝜏 os parâmetros de locação e escala, respectivamente.
A Figura 1 apresenta gráficos das funções densidade de probabilidade e acumulada
para diferentes valores de 𝜇 e 𝜏 .
Figura 1 – Funções densidade de probabilidade e acumulada da distribuição Logística para
diferentes valores de 𝜇 e 𝜏 .
−6 −4 −2 0 2 4 6
0.
0
0.
1
0.
2
0.
3
0.
4
0.
5
u
f(
u)
µ = − 1, τ = 0.5
µ = 0, τ = 0.5
µ = 0, τ = 1
µ = 2, τ = 2
−6 −4 −2 0 2 4 6
0.
0
0.
2
0.
4
0.
6
0.
8
1.
0
u
F
(u
)
µ = − 1, τ = 0.5
µ = 0, τ = 0.5
µ = 0, τ = 1
µ = 2, τ = 2
A média e a variância da distribuição Logística, são dadas respectivamente, por
𝐸(𝑈) = 𝜇
e
𝑉 𝑎𝑟(𝑈) = 𝜋
2𝜏 2
3 .
No modelo de regressão logística, 𝜋𝑖 tem a forma
𝜋𝑖 = 𝐹 (·),
Capítulo 2. REGRESSÃO LOGÍSTICA 18
sendo 𝐹 (·) a função acumulada da distribuição Logística (AGRESTI, 2007). Assim, para
facilitar os cálculos, considere a função acumulada de U em sua forma padrão, dada por
𝐹 (𝑢) = 𝑒
𝑢
1 + 𝑒𝑢 , (2.5)
em que 𝑢 ∈ R.
Para obter o modelo de regressão logística a partir de (2.5), usa-se a função de
ligação logito definida como
𝑔(𝜋𝑖) = log
[︂
𝜋𝑖
1 − 𝜋𝑖
]︂
= 𝛽0 +
𝑝∑︁
𝑗=1
𝛽𝑗𝑥𝑖𝑗 = 𝑥𝑇𝑖 𝛽, (2.6)
que é conhecida como o logaritmo da chance do 𝑖-ésimo elemento amostral apresentar
o evento de interesse. Segundo Hosmer e Lemeshow (2000), esta função tem muitas
propriedades desejáveis de um modelo de regressão linear. O logito 𝑔(𝜋𝑖) é linear em seus
parâmetros, pode ser contínuo e variar de −∞ a ∞.
Substituindo a função de ligação (2.6) na função acumulada (2.5), obtém-se
𝐹 [𝑔(𝜋𝑖)] =
𝑒𝑔(𝜋𝑖)
1 + 𝑒𝑔(𝜋𝑖) =
𝜋𝑖
1−𝜋𝑖
1 + 𝜋𝑖1−𝜋𝑖
= 𝜋𝑖.
Deste modo, a probabilidade de sucesso do modelo de regressão logística múltipla
para o 𝑖-ésimo elemento amostral é dada por
𝜋𝑖 = 𝜋(𝑥𝑖) = 𝑃 (𝑌𝑖 = 1|𝑋 = 𝑥𝑖)
=
exp
(︂
𝛽0 +
𝑝∑︀
𝑗=1
𝛽𝑗𝑥𝑖𝑗
)︂
1 + exp
(︂
𝛽0 +
𝑝∑︀
𝑗=1
𝛽𝑗𝑥𝑖𝑗
)︂
=
exp
(︁
𝑥𝑇𝑖 𝛽
)︁
1 + exp
(︁
𝑥𝑇𝑖 𝛽
)︁. (2.7)
Vale ressaltar que o modelo de regressão logística é denominadosimples quando
𝑝 = 1, ou seja, quando o modelo é composto por apenas uma variável explicativa.
Em regressão logística, uma observação da variável resposta pode ser representada
como
𝑦𝑖 = 𝜋𝑖 + 𝜖𝑖,
em que 𝜖𝑖 é o erro do modelo. Assume-se que os erros 𝜖𝑖 são não correlacionados, isto é,
𝐶𝑜𝑣(𝜖𝑖, 𝜖𝑗) = 0, para todo 𝑖 ̸= 𝑗 com 𝑖, 𝑗 = 1, . . . , 𝑛. Além disso, se 𝑦 = 1 então 𝜖𝑖 = 1 − 𝜋𝑖
com probabilidade 𝜋𝑖, e se 𝑦 = 0 então 𝜖𝑖 = −𝜋𝑖 com probabilidade 1 − 𝜋𝑖.
O modelo de regressão logística também pode conter variáveis explicativas discretas
do tipo escala nominal. Contudo, é inapropriado incluí-las no modelo como se fossem
Capítulo 2. REGRESSÃO LOGÍSTICA 19
de escala intervalar. Os valores usados para representar os vários níveis destas variáveis
explicativas são apenas indicadores e não possuem significado numérico (HOSMER; LE-
MESHOW, 2000). Neste caso, utiliza-se um grupo de variáveis de planejamento ou variáveis
𝑑𝑢𝑚𝑚𝑖𝑒𝑠. Se a 𝑗-ésima variável explicativa é qualitativa com 𝑘 categorias, deverá ser
codificada em 𝑘 − 1 variáveis de planejamento. Então, o logito do modelo apresentado em
(2.6) pode ser reescrito como
𝑔(𝜋𝑖) = 𝛽0 + 𝛽1𝑥𝑖1 + · · · +
𝑘𝑗−1∑︁
𝑙=1
𝛽𝑗𝑙𝐷𝑗𝑙 + · · · + 𝛽𝑝𝑥𝑖𝑝,
sendo cada uma das 𝑘𝑗 −1 variáveis de planejamento denotada por 𝐷𝑗𝑙 e 𝛽𝑗𝑙 seu coeficiente,
para 𝑙 = 1, . . . , 𝑘𝑗 − 1.
Outros modelos para dados binários têm sido propostos na literatura além da
regressão logística, em que os mais comuns são o modelo probito cuja função de ligação é a
inversa da distribuição acumulada da Normal e o modelo de valores extremos com função
de ligação complementar log-log, obtida através da função acumulada de uma distribuição
Gumbel de valor extremo.
2.2.1 Estimação dos Parâmetros
O método mais utilizado para estimar os parâmetros desconhecidos de um modelo
de regressão linear é o de mínimos quadrados. Sob suposições usuais este método fornece
estimadores não viciados e consistentes. No entanto, quando o método de mínimos quadra-
dos é aplicado a um modelo com variável resposta binária, os estimadores não apresentam
as mesmas propriedades estatísticas desejáveis.
Um possível método de estimação para modelos de regressão logística é o de máxima
verossimilhança. Para aplicar o método, a princípio, é necessário construir a função de
verossimilhança. Do ponto de vista clássico, esta função expressa a probabilidade dos
dados observados como função dos parâmetros desconhecidos. Desse modo, as estimativas
de máxima verossimilhança dos parâmetros são os valores que maximizam a função
de verossimilhança, isto é, maximizam a probabilidade de obter o conjunto de dados
observados.
A função de probabilidade de cada observação 𝑦𝑖 da amostra é dada por
𝑓(𝑦𝑖|𝜋𝑖) = 𝜋𝑦𝑖𝑖 (1 − 𝜋𝑖)
1−𝑦𝑖 ,
em que 𝑦𝑖 ∈ {0, 1} e 0 ≤ 𝜋𝑖 ≤ 1. Assim, para uma amostra de tamanho 𝑛, assumindo
Capítulo 2. REGRESSÃO LOGÍSTICA 20
independência das observações, a função de verossimilhança é dada por
𝑙(𝛽) = 𝑙(𝛽0, 𝛽1, . . . , 𝛽𝑝; 𝑦1, . . . , 𝑦𝑛)
=
𝑛∏︁
𝑖=1
𝑓(𝑦𝑖|𝜋𝑖)
=
𝑛∏︁
𝑖=1
𝜋𝑦𝑖𝑖 (1 − 𝜋𝑖)
1−𝑦𝑖 . (2.8)
É mais conveniente, matematicamente, trabalhar com o logaritmo da função de
verossimilhança. Então, aplicando o logaritmo em (2.8), obtém-se
𝐿(𝛽) = log
[︃
𝑛∏︁
𝑖=1
𝜋𝑦𝑖𝑖 (1 − 𝜋𝑖)
1−𝑦𝑖
]︃
=
𝑛∑︁
𝑖=1
[𝑦𝑖log (𝜋𝑖) + log (1 − 𝜋𝑖) − 𝑦𝑖log (1 − 𝜋𝑖)]
=
𝑛∑︁
𝑖=1
[︂
𝑦𝑖log
(︂
𝜋𝑖
1 − 𝜋𝑖
)︂
+ log (1 − 𝜋𝑖)
]︂
=
𝑛∑︁
𝑖=1
[︂
𝑦𝑖𝑥
𝑇
𝑖 𝛽 − log
(︂
1 + 𝑒𝑥𝑇𝑖 𝛽
)︂]︂
. (2.9)
O vetor escore 𝑈(𝛽) do modelo de regressão logística é formado pelas derivadas
parciais de primeira ordem do logaritmo da função de verossimilhança. Derivando a equação
(2.9) em relação a cada um dos parâmetros, tem-se que
𝑈𝑗 =
𝜕𝐿(𝛽)
𝜕𝛽𝑗
=
𝑛∑︁
𝑖=1
⎡⎣𝑥𝑖𝑗𝑦𝑖 − 𝑥𝑖𝑗𝑒𝑥𝑇𝑖 𝛽
1 + 𝑒𝑥𝑇𝑖 𝛽
⎤⎦ = 𝑛∑︁
𝑖=1
𝑥𝑖𝑗 (𝑦𝑖 − 𝜋𝑖) , (2.10)
para 𝑗 = 0, 1, . . . , 𝑝. Logo, o vetor escore pode ser escrito na forma matricial como
𝑈 (𝛽) = 𝑋𝑇 (𝑦 − 𝜋) .
A estimativa de máxima verossimilhança 𝛽 do vetor de parâmetros 𝛽 é obtida
igualando-se 𝑈 (𝛽) a zero. Como a equação 𝑈 (𝛽) não é linear em 𝛽, o sistema é resolvido
numericamente através de métodos iterativos do gradiente1 (KHURI, 2003). Um dos
procedimentos mais utilizados é o algoritmo de Newton-Raphson, que além de estimar o
vetor 𝛽 de parâmetros desconhecidos do modelo, também fornece diretamente a matriz
de variâncias e covariâncias das estimativas dos parâmetros. Amemiya (1985) demonstra
que o logaritmo da função de verossimilhança é côncavo, assim o algoritmo de Newton-
Raphson converge para um único máximo (os estimadores de máxima verossimilhança)
independentemente das estimativas inicias adotadas. Uma abordagem mais detalhada
sobre este e outros métodos iterativos com aplicação em regressão logística é apresentada
em Hilbe (2009).
1 A classe de algoritmos do gradiente compreende métodos iterativos que requerem a avaliação expressa
das derivadas parciais da função de verossimilhança.
Capítulo 2. REGRESSÃO LOGÍSTICA 21
O algoritmo de Newton-Raphson para a solução do sistema de equações 𝑈 (𝛽) = 0
é baseado na série de Taylor para o vetor escore 𝑈(𝛽) em torno de um valor inicial 𝛽(0),
tal que
𝑈
(︁
𝛽(0)
)︁
+ 𝐽
(︁
𝛽(0)
)︁ (︁
𝛽 − 𝛽(0)
)︁
= 0,
obtendo-se
𝛽 = 𝛽(0) +
𝑈
(︁
𝛽(0)
)︁
𝐽
(︁
𝛽(0)
)︁ , (2.11)
em que 𝐽(𝛽) é a matriz de informação observada de Fisher, com elemento típico dado por
𝐽𝑗𝑘(𝛽) = −
𝜕2𝐿(𝛽)
𝜕𝛽𝑗𝜕𝛽𝑘
,
para 𝑗, 𝑘 = 0, 1, . . . , 𝑝.
Assim, repetindo o procedimento (2.11), tem-se o processo iterativo
𝛽(𝑟+1) = 𝛽(𝑟) +
[︁
𝐽
(︁
𝛽(𝑟)
)︁]︁−1
𝑈
(︁
𝛽(𝑟)
)︁
, 𝑟 = 0, 1, 2, . . . , (2.12)
sendo 𝛽(𝑟) e 𝛽(𝑟+1) os vetores de parâmetros estimados nos passos (𝑟) e (𝑟 + 1), respectiva-
mente, 𝑈
(︁
𝛽(𝑟)
)︁
o vetor escore avaliado no passo (𝑟) e
[︁
𝐽
(︁
𝛽(𝑟)
)︁]︁−1
a inversa da matriz de
Fisher observada também avaliada no passo (𝑟).
De acordo com Cordeiro e Demétrio (2008), o método de Newton-Raphson é
bastante útil quando a matriz 𝐽(𝛽) é definida positiva e as derivadas parciais de segunda
ordem são avaliadas facilmente. Acontece, porém, que isso nem sempre ocorre, e no caso
dos modelos lineares generalizados, o algoritmo escore de Fisher pode ser mais adequado.
Os software R, na função glm e SAS, no procedimento proc logistic, por exemplo, utilizam
este método que, em geral, é mais simples, coincidindo apenas com o método de Newton-
Raphson para funções de ligação canônicas. Basicamente, o algoritmo escore de Fisher
consiste em substituir a matriz de informação observada, 𝐽(𝛽), pela matriz de informação
esperada de Fisher, 𝐼(𝛽). Logo, o processo iterativo é dado por
𝛽(𝑟+1) = 𝛽(𝑟) +
[︁
𝐼
(︁
𝛽(𝑟)
)︁]︁−1
𝑈
(︁
𝛽(𝑟)
)︁
, 𝑟 = 0, 1, 2, . . . (2.13)
em que 𝐼(𝛽) tem elemento típico dado por
𝐼𝑗𝑘 = −𝐸
[︃
𝜕2𝐿(𝛽)
𝜕𝛽𝑗𝜕𝛽𝑘
]︃
= 𝐸
[︃
𝜕𝐿(𝛽)
𝜕𝛽𝑗
𝜕𝐿(𝛽)
𝜕𝛽𝑘
]︃
,
que é a matriz de covariâncias do vetor escore 𝑈(𝛽).
Multiplicando-se ambos os membros de (2.13) por 𝐼
(︁
𝛽(𝑟)
)︁
, tem-se
𝐼
(︁
𝛽(𝑟)
)︁
𝛽(𝑟+1) = 𝐼
(︁
𝛽(𝑟)
)︁
𝛽(𝑟) +𝑈
(︁
𝛽(𝑟)
)︁
. (2.14)
Capítulo 2. REGRESSÃO LOGÍSTICA 22
Utilizando o resultado (2.10), obtém-se o elemento típico 𝐼𝑗𝑘 de 𝐼(𝛽) como
𝐼𝑗𝑘 = 𝐸 (𝑈𝑗𝑈𝑘)
=
𝑛∑︁
𝑖=1
𝑥𝑖𝑗𝑥𝑖𝑘𝐸 (𝑦𝑖 − 𝜋𝑖)2
=
𝑛∑︁
𝑖=1
𝑥𝑖𝑗𝑥𝑖𝑘
[︁
𝜋2𝑖 + 𝜋𝑖 (1 − 𝜋𝑖) − 2𝜋2𝑖 + 𝜋2𝑖
]︁
=
𝑛∑︁
𝑖=1
𝑥𝑖𝑗𝑥𝑖𝑘𝜋𝑖 (1 − 𝜋𝑖) ,
e, portanto, a matriz de informação esperada de Fisher tem a forma
𝐼(𝛽) = 𝑋𝑇𝑊𝑋, (2.15)
sendo 𝑊 = 𝑑𝑖𝑎𝑔{𝑤1, 𝑤2, . . . , 𝑤𝑛}, a matriz diagonal de pesos com elementos 𝑤𝑖 =
𝜋𝑖 (1 − 𝜋𝑖).
O vetor escore 𝑈(𝛽) pode, então, ser reescrito na forma
𝑈 (𝛽) = 𝑋𝑇𝑊𝐾 (𝑦 − 𝜋) ,
em que 𝐾 é uma matriz diagonal de ordem 𝑛 cujo 𝑖-ésimo elemento é dado por
𝑘𝑖 =
𝜕𝜂𝑖
𝜕𝜋𝑖
= 1
𝜋𝑖 (1 − 𝜋𝑖)
.
Substituindo 𝐼(𝛽) e 𝑈(𝛽) em (2.14), tem-se
𝑋𝑇𝑊 (𝑟)𝑋𝛽(𝑟+1) = 𝑋𝑇𝑊 (𝑟)𝑋𝛽(𝑟) +𝑋𝑇𝑊 (𝑟)𝐾(𝑟)
(︁𝑦 − 𝜋(𝑟)
)︁
,
ou, ainda,
𝑋𝑇𝑊 (𝑟)𝑋𝛽(𝑟+1) = 𝑋𝑇𝑊 (𝑟)
[︁
𝜂(𝑟) +𝐾(𝑟)
(︁
𝑦 − 𝜋(𝑟)
)︁]︁
.
Definindo a variável dependente ajustada 𝑧 = 𝜂 +𝐾 (𝑦 − 𝜋), tem-se
𝑋𝑇𝑊 (𝑟)𝑋𝛽(𝑟+1) = 𝑋𝑇𝑊 (𝑟)𝑧(𝑟),
e, assim
𝛽(𝑟+1) =
(︁
𝑋𝑇𝑊 (𝑟)𝑋
)︁−1
𝑋𝑇𝑊 (𝑟)𝑧(𝑟), (2.16)
é um processo iterativo de mínimos quadrados reponderados.
Dentre os muitos existentes, um critério para assegurar a convergência do algoritmo
pode ser
𝑝∑︁
𝑗=1
⎛⎝𝛽(𝑟+1)𝑗 − 𝛽(𝑟)𝑗
𝛽
(𝑟)
𝑗
⎞⎠2 < 𝜉,
Capítulo 2. REGRESSÃO LOGÍSTICA 23
em que 𝜉 é um valor suficientemente pequeno. O processo (2.16) é executado até que seja
satisfeito o critério adotado, estabelecendo-se, então, 𝛽 = 𝛽(𝑟+1).
Para se fazer inferências, usa-se o fato de que 𝛽 tem distribuição aproximadamente
𝑁𝑝 (𝛽, 𝐼(𝛽)−1), sob certas condições de regularidade para a função de verossimilhança e
com 𝑛 → ∞. Desta forma, a matriz de variâncias e covariâncias estimada dos coeficientes,
denotada por ^𝑉 𝑎𝑟(𝛽), é obtida de 𝑉 𝑎𝑟(𝛽) em 𝛽. Em geral, são utilizados apenas os erros
padrão estimados dos coeficientes, definidos como
𝐸𝑃 (𝛽𝑗) =
[︁
^𝑉 𝑎𝑟(𝛽𝑗)
]︁ 1
2 ,
para 𝑗 = 0, 1, . . . , 𝑝. Esta mesma notação será mantida em métodos desenvolvidos para
testar coeficientes e estimar intervalos de confiança.
2.2.2 Testes para a Significância do Modelo
Uma vez ajustado o modelo de regressão logística, faz-se necessário avaliá-lo, e
um dos primeiros passos é a formulação e teste de hipóteses estatísticos que permitem
determinar se as variáveis explicativas presentes no modelo são significativas em relação à
variável resposta. De modo geral, deseja-se comparar os valores observados da variável
reposta com os valores ajustados por dois modelos, um contendo o conjunto de variáveis
explicativas, e outro, sem este conjunto de variáveis. Em regressão logística, esta comparação
é feita através do logaritmo da função de verossimilhança dado por (2.9).
A significância de todos os 𝑝 parâmetros associados às variáveis explicativas no
modelo pode ser avaliada com base na estatística da razão de verossimilhança. Supondo
que o interesse é testar as hipóteses⎧⎪⎨⎪⎩𝐻0 : 𝛽 = 0𝐻1 : 𝛽 ̸= 0 (∃ 𝛽𝑗 ̸= 0) ,
a estatística do teste é dada por
𝐺 = −2 log
[︃
(verossimilhança do modelo sem as 𝑝 variáveis explicativas)
(verossimilhança do modelo com as 𝑝 variáveis explicativas)
]︃
,
ou ainda,
𝐺 = 2
[︁
𝐿(𝛽) − 𝐿(𝛽0)
]︁
,
em que 𝐿(𝛽) é o logaritmo da função de verossimilhança do modelo ajustado e 𝐿(𝛽0) é o
logaritmo da função de verossimilhança do modelo apenas com o intercepto. A estatística
𝐺 tem distribuição 𝜒2 com 𝑝 graus de liberdade, e rejeita-se a hipótese 𝐻0 se 𝐺 > 𝜒2𝑝. Ao
rejeitar 𝐻0 conclui-se que pelo menos um coeficiente ou talvez todos os coeficientes são
estatisticamente diferentes de zero.
Capítulo 2. REGRESSÃO LOGÍSTICA 24
Segundo Neto e Diniz (2002), outros dois testes são ainda frenquentemente utilizados
como alternativas ao teste da razão de verossimilhança. São eles, o teste de Wald e o teste
Escore.
A estatística do teste de Wald é dada por
𝑊 = 𝛽𝑇𝐼(𝛽)𝛽, (2.17)
em que 𝐼(𝛽) é a matriz de informação de Fisher esperada avaliada em 𝛽. Sob a hipótese
nula de que 𝛽 é igual ao vetor nulo 0, esta estatística segue uma distribuição 𝜒2 com 𝑝
graus de liberdade. Como o teste de Wald exige a execução de operações entre matrizes e
a obtenção de 𝛽, então não apresenta vantagens computacionais sobre o teste da razão de
verossimilhança para se testar a significância do modelo de regressão logística. Enquanto,
a estatística do teste Escore é dada por
𝐸 = 𝑈(𝛽)𝐼(𝛽)−1𝑈(𝛽), (2.18)
em que 𝐼(𝛽)−1 é a inversa da matriz de informação de Fisher esperada avaliada em 𝛽.
Como nos demais testes, a estatística 𝐸 também possui uma distribuição 𝜒2 com 𝑝 graus
de liberdade sob a hipótese de que os 𝑝 + 1 coeficientes são iguais a zero. Além disso, as
dificuldades computacionais para a aplicação deste teste são as mesmas do teste de Wald.
De acordo com Hosmer e Lemeshow (2000), após concluir que pelo menos um
parâmetro é diferente de zero, pode-se calcular a estatística do teste univariado de Wald
para testar se cada parâmetro é diferente de zero individualmente. Neste caso, admitindo
como hipóteses ⎧⎪⎨⎪⎩𝐻0 : 𝛽𝑗 = 0𝐻1 : 𝛽𝑗 ̸= 0 ,
calcula-se a seguinte estatística
𝑊𝑗 =
𝛽𝑗
𝐸𝑃 (𝛽𝑗)
,
para 𝑗 = 0, 1, . . . , 𝑝. Sob a hipótese nula de que 𝛽𝑗 é igual a zero, a estatística 𝑊𝑗 segue
uma distribuição Normal Padrão. Sendo assim, rejeita-se 𝐻0 se |𝑊𝑗| > 𝑍𝛼2 , sendo 𝛼 um
nível de significância pré definido ou, de forma equivalente, conclui-se por meio do p-valor,
que se for maior que 𝛼, a 𝑗-ésima variável explicativa não é significativa para o modelo.
Sempre que uma variável explicativa do tipo categórica é incluída ou excluída
do modelo, necessariamente todas as variáveis de planejamento associadas devem ser
incluídas ou excluídas. Logo, se 𝑘 é o número de categorias da variável explicativa, então
ela contribui com 𝑘 − 1 graus de liberdade para o teste de significância.
Em regressão logística também é comum utilizar o teste da razão de verossimilhança
para a seleção de variáveis. Embora existam vários procedimentos para realizar tal tarefa,
Capítulo 2. REGRESSÃO LOGÍSTICA 25
um método muito utilizado é o 𝑠𝑡𝑒𝑝𝑤𝑖𝑠𝑒 que se consolida como uma ferramenta eficaz
na seleção ou exclusão de variáveis baseado em um algoritmo que verifica a importância
das mesmas para o modelo com base em uma regra de decisão preestabelecida. Para mais
informações a respeito deste algoritmo ver Apêndice A. No entanto, segundo Paula (2004),
este método é uma forma puramente mecânica de seleção que pode levar a um modelo
sem sentido e de difícil interpretação. Muitas vezes, variáveis consideradas relevantes para
o pesquisador não devem ser desconsideradas do modelo pela sua falta de significância
estatística. Assim, a seleção de um modelo logístico deve ser um processo conjugado de
seleção estatística de modelos e bom senso.
2.2.3 Estimação por Intervalos
Uma outra análise importante para testar a significância do modelo é o cálculo e
a interpretação dos intervalos de confiança para os parâmetros de interesse. No caso da
regressão logística, pode-se obter os intervalos de confiança para 𝛽𝑗, 𝑔(𝜋𝑖) e 𝜋𝑖. A base
teórica estatística para a construção dos estimadores intervalares é a mesma utilizada na
formulação dos testes de significância do modelo, conforme é apresentado a seguir.
2.2.3.1 Intervalo de Confiança para os Parâmetros
Os intervalos de confiança para os parâmetros do modelo de regressão logística são
baseados em seus respectivos testes de Wald. Assim sendo, o intervalo com 100(1 − 𝛼)%
de confiança para 𝛽𝑗, 𝑗 = 0, 1, . . . , 𝑝, é dado por
𝛽𝑗 ± 𝑧𝛼2 𝐸𝑃 (𝛽𝑗),
em que 𝑧𝛼
2
é o percentil de uma distribuição normal padrão.
2.2.3.2 Intervalo de Confiança para o Logito
Para se obter o intervalo de confiança da transformação logito é necessário saber a
soma das variâncias para cada variável explicativa. Como ^𝑉 𝑎𝑟(𝛽) =
(︁
𝑋𝑇�̂�𝑋
)︁−1
, então
^𝑉 𝑎𝑟 [𝑔(�̂�𝑖)] = ^𝑉 𝑎𝑟(𝑥𝑇𝑖 𝛽) = 𝑥𝑇𝑖 ^𝑉 𝑎𝑟(𝛽)𝑥𝑖 = 𝑥𝑇𝑖
(︁
𝑋𝑇�̂�𝑋
)︁−1
𝑥𝑖. (2.19)
Logo, o intervalo com 100(1 − 𝛼)% de confiança para 𝑔(𝜋𝑖), 𝑖 = 1, . . . , 𝑛, é dado por
𝑔(�̂�𝑖) ± 𝑧𝛼2 𝐸𝑃 [𝑔(�̂�𝑖)] ,
em que 𝐸𝑃 [𝑔(�̂�𝑖)] é a raiz quadrada do estimador da variância de 𝑔(�̂�𝑖) dado em (2.19).
Capítulo 2. REGRESSÃO LOGÍSTICA 26
2.2.3.3 Intervalo de Confiança para os Valores Ajustados
O estimador do logito e seu intervalo de confiança também fornece o intervalo com
100(1 − 𝛼)% de confiança para o valores ajustados 𝜋𝑖, dado por
exp
{︁
𝑔(�̂�𝑖) ± 𝑧𝛼2 𝐸𝑃 [𝑔(�̂�𝑖)]
}︁
1 + exp
{︁
𝑔(�̂�𝑖) ± 𝑧𝛼2 𝐸𝑃 [𝑔(�̂�𝑖)]
}︁ .
2.2.4 Interpretação dos Coeficientes
Sabe-se que é imprescindível verificar se o ajuste do modelo está adequado e esta
etapa deve acontecer antes mesmo da interpretação de seus coeficientes. No entanto,
como ressalta Hosmer e Lemeshow(2000), no caso da regressão logística os métodos para
verificação do ajuste são de natureza técnica e, portanto, serão vistos posteriormente.
Um dos maiores interesses na aplicação de qualquer modelo de regressão é avaliar
o que os coeficientes estimados informam sobre as questões da pesquisa que motivaram o
estudo. De um modo geral, estes coeficientes representam a inclinação ou taxa de alteração
na função da variável resposta a cada unidade de mudança nas variáveis explicativas.
Antes de iniciar a discussão dos coeficientes do modelo logístico, faz-se necessário
introduzir uma medida de associação denominada razão de chances (em inglês, odds ratio).
A razão de chances pode ser interpretada como a comparação da probabilidade de sucesso
de um evento com sua probabilidade de fracasso ou, ainda, como a chance de ocorrência
de um evento entre indivíduos que têm um fator de risco, comparados com indivíduos não
expostos, sujeitos ao evento.
Para interpretar os valores associados aos coeficientes do modelo de regressão logís-
tica, é conveniente proceder à análise de acordo com a natureza das variáveis explicativas.
Inicialmente, a fim de simplificar, será demonstrada a situação na qual existe apenas
uma única variável explicativa dicotômica codificada como 0 ou 1 levando a que 𝜋𝑖 possa
assumir apenas os valores 𝜋(0) e 𝜋(1). Segundo Hosmer e Lemeshow (2000), esta situação
pode ser representada conforme a Tabela 1.
Tabela 1 – Valores de 𝜋 no modelo de regressão logística com variável explicativa dicotômica.
Variável resposta 𝑌 Variável explicativa 𝑋
𝑥 = 1 𝑥 = 0
𝑦 = 1 𝜋(1) =
𝑒𝛽0+𝛽1
1 + 𝑒𝛽0+𝛽1 𝜋(0) =
𝑒𝛽0
1 + 𝑒𝛽0
𝑦 = 0 1 − 𝜋(1) =
1
1 + 𝑒𝛽0+𝛽1 1 − 𝜋(0) =
1
1 + 𝑒𝛽0
Total 1 1
A chance da resposta quando 𝑥 = 1 é definida como 𝜋(1)1−𝜋(1) . Da mesma forma, a
Capítulo 2. REGRESSÃO LOGÍSTICA 27
chance da resposta quando 𝑥 = 0 é 𝜋(0)1−𝜋(0) . Sendo assim, a razão de chances, denotada
como Ψ, é definida por
Ψ(1, 0) =
𝜋(1)
1 − 𝜋(1)
𝜋(0)
1 − 𝜋(0)
=
𝑒𝛽0+𝛽1
𝑒𝛽0
= 𝑒𝛽1 .
Como o logito é
𝑔 [𝜋(1)] = log
[︃
𝜋(1)
1 − 𝜋(1)
]︃
e 𝑔 [𝜋(0)] = log
[︃
𝜋(0)
1 − 𝜋(0)
]︃
,
então o logaritmo da razão de chances ou diferença no logito é
log [Ψ(1, 0)] = 𝑔 [𝜋(1)] − 𝑔 [𝜋(0)] = log
⎡⎢⎢⎢⎢⎢⎣
𝜋(1)
1 − 𝜋(1)
𝜋(0)
1 − 𝜋(0)
⎤⎥⎥⎥⎥⎥⎦ = log
(︁
𝑒𝛽1
)︁
= 𝛽1.
A razão de chances é uma medida comumente utilizada em diferentes áreas do
conhecimento. Considere como exemplo um estudo do tipo caso-controle sobre tabagismo
como fator de risco e a ocorrência de câncer de pulmão. Neste caso, uma razão de chances
igual a 1 indica ausência de relação associativa entre o tabagismo e a ocorrência de câncer
de pulmão. Uma razão de chances maior que 1 sugere que indivíduos expostos ao fator
de risco (tabagistas) apresentam maior probabilidade de serem atingidos pelo câncer de
pulmão do que os não-expostos (não-tabagistas). Enquanto, uma razão de chances menor
que 1 indica que o hábito de fumar é um fator de proteção para o câncer no pulmão.
Devido sua fácil interpretação, a razão de chances é uma medida de grande interesse
no modelo logístico. A distribuição assimétrica de Ψ̂ se deve ao fato de seus limites tenderem
a zero. No entanto, para grandes amostras, a distribuição de Ψ̂ será Normal e portanto
simétrica. Assim, um intervalo com 100(1 − 𝛼)% para Ψ é dado por
exp
[︁
𝛽𝑗 ± 𝑧 1
2
𝐸𝑃 (𝛽𝑗)
]︁
.
Suponha agora que uma das variáveis explicativas em estudo, tem mais do que duas
categorias distintas. Neste caso, para interpretar os coeficientes estimados, é necessário
considerar uma categoria como grupo de referência com o qual as outras categorias serão
comparadas. Deve-se então fazer todas as variáveis de planejamento iguais a zero para o
grupo de referência, conforme a Tabela 2.
Capítulo 2. REGRESSÃO LOGÍSTICA 28
Tabela 2 – Codificação de variável explicativa politômica.
Categorias de 𝑋 Variáveis de Planejamento
𝐷1 𝐷2 · · · 𝐷𝑘−1
𝐶1 0 0 · · · 0
𝐶2 1 0 · · · 0
... ... ... . . . ...
𝐶𝑘 0 0 · · · 1
Em seguida, qualquer grupo 𝐶𝑙, 𝑙 = 2, 3, . . . , 𝑘, pode ser comparado com a casela
ou grupo de referência 𝐶1. O intervalo de confiança para Ψ é obtido exatamente da mesma
forma que no caso das variáveis dicotômicas.
Se uma variável explicativa contínua, por exemplo 𝑋1, for acrescida em uma unidade,
mantendo as demais variáveis do modelo fixas, a chance do evento fica
𝜋*𝑖
1 − 𝜋*𝑖
= exp [𝛽0 + 𝛽1(𝑥𝑖1 + 1) + · · · + 𝛽𝑝𝑥𝑖𝑝]
= exp(𝛽0 + 𝛽1𝑥𝑖1 + · · · + 𝛽𝑝𝑥𝑖𝑝 + 𝛽1)
= exp(𝛽0 + 𝛽1𝑥𝑖1 + · · · + 𝛽𝑝𝑥𝑖𝑝) exp(𝛽1)
= 𝜋𝑖1 − 𝜋𝑖
exp(𝛽1).
A diferença no logito é 𝑔(𝜋*𝑖 ) − 𝑔(𝜋𝑖) = 𝛽1 e a razão de chances de (𝑋1 + 1) em
relação a 𝑋1 é dada por
Ψ(1) =
𝜋*𝑖
1−𝜋*𝑖
𝜋𝑖
1−𝜋𝑖
= exp(𝛽1),
ou seja, a chance do evento de interesse ocorrer entre os indivíduos que diferem na variável
𝑋1 em 1 unidade é igual a exp(𝛽1). Neste caso, a estimativa da razão de chances é
Ψ̂(1) = exp(𝛽1). De uma forma geral, com um acréscimo de 𝑐 unidades em 𝑋1, a estimativa
da diferença no logito é 𝑔(�̂�*𝑖 ) − 𝑔(�̂�𝑖) = 𝑐𝛽1 e da razão de chances é dada por
Ψ̂(𝑐) = exp(𝑐𝛽1).
O intervalo com 100(1 − 𝛼)% de confiança para a razão de chances Ψ(𝑐) é definido
por
exp
[︁
𝑐𝛽1 ± 𝑧𝛼2 𝑐𝐸𝑃 (𝛽1)
]︁
.
A interpretação do coeficiente estimado para uma variável explicativa contínua
é similar ao de uma variável discreta. A principal diferença é que se deve definir qual
quantidade 𝑐 acarreta uma mudança significativa nas variáveis contínuas.
Capítulo 2. REGRESSÃO LOGÍSTICA 29
2.3 Avaliação do Ajuste do Modelo
Em praticamente toda tarefa de modelagem, apenas estimar o modelo e confrontá-lo
com novos dados não é suficiente, pois é necessário avaliar a aderência do modelo ao
evento que pretende-se descrever. Para determinar se esta aderência alcançou padrões
aceitáveis, pode-se utilizar testes estatísticos e métricas de desempenho que buscam testar
a qualidade de ajuste do modelo estimado.
Existem, na literatura, testes estatísticos apropriados para aferir se o modelo
de regressão logística ajustado é o mais indicado, sendo o interesse testar as seguintes
hipóteses: ⎧⎪⎨⎪⎩𝐻0 : O modelo é adequado𝐻1 : O modelo não é adequado .
O esperado é que as distâncias entre o vetor da variável resposta 𝑦 e o vetor dos valores
ajustados �̂� sejam pequenas. Caso contrário, haverá uma evidente indicação da existência
de problemas com o modelo.
2.3.1 Estatísticas Qui-Quadrado de Pearson e Deviance
Na regressão logística, segundo Hosmer e Lemeshow (2000), existem várias formas
de medir a diferença entre os valores observados e valores ajustados. Uma forma comum
é calcular os valores ajustados para cada combinação de níveis diferentes das variáveis
explicativas, denominada padrão de covariável (em inglês, covariate pattern). Assim sendo,
o valor ajustado para o 𝑘-ésimo padrão de covariável é dado por
𝑦𝑘 = 𝑚𝑘𝜋𝑘 = 𝑚𝑘
⎡⎣ 𝑒𝑔(𝜋𝑘)
1 + 𝑒𝑔(𝜋𝑘)
⎤⎦ ,
em que 𝑚𝑘 é o número de observações com valores iguais 𝑥 = 𝑥𝑘, para 𝑘 = 1, . . . , 𝐾, 𝐾 ≤ 𝑛,
sendo 𝐾 o número distinto de valores que 𝑥 assume na amostra, 𝜋𝑘 é a probabilidade
condicional da variável resposta e 𝑔(𝜋𝑘) é a transformação logito estimada. Em outras
palavras, é como tivessem sido formados grupos, onde as observações são idênticas (ver
exemplo no Apêndice B).
Sabendo-se como calcular 𝑦𝑘, a qualidade do ajuste pode ser avaliada através do
teste qui-quadrado de Pearson, que compara as probabilidades observadas e esperadas de
sucesso e fracasso em cada grupo de observações. Para um particular padrão de covariável,
o resíduo de Pearson é definido como
𝑟𝑝(𝑦𝑘, �̂�𝑘) =
(𝑦𝑘 − 𝑚𝑘�̂�𝑘)√︁
𝑚𝑘�̂�𝑘(1 − �̂�𝑘)
,
em que 𝑦𝑘 é o número de indivíduos em 𝑘 com 𝑦 = 1.
Capítulo 2. REGRESSÃO LOGÍSTICA 30
Assim, a estatística do teste qui-quadrado de Pearson baseada nos resíduos é dada
por
𝜒2 =
𝐾∑︁
𝑘=1
𝑟𝑝(𝑦𝑘, �̂�𝑘)2,
que tem uma distribuição assintótica Qui-quadrado com 𝐾 − (𝑝 + 1) graus de liberdade.
Um pequeno valor para a estatísticado teste ou, de maneira análoga, grande p-valor
associado implica que o modelo está ajustado de forma satisfatória aos dados.
Outra possibilidade é avaliar a qualidade do ajuste utilizando o resíduo deviance. A
estatística deviance, proposta por Nelder e Wedderburn (1972), compara o valor da função
de verossimilhança para o modelo proposto com 𝑝 + 1 parâmetros ao seu valor no modelo
saturado. Para esta comparação é conveniente tomar menos duas vezes o logaritmo do
quociente destes valores. Assim, a deviance é definida por
Λ = −2 log
[︃
verossimilhança do modelo atual
verossimilhança do modelo saturado
]︃
ou, equivalente,
Λ = −2 log
⎡⎣ 𝑙(𝛽0, 𝛽1, . . . , 𝛽𝑝)
𝑙 (𝑦1, 𝑦2, . . . , 𝑦𝑛)
⎤⎦ .
Na prática, o modelo saturado é aquele no qual o número de variáveis é igual ao número
de observações, uma vez que não resume estes dados, somente os reproduz.
Considerando o modelo logístico com as probabilidades estimadas �̂�𝑖, tem-se que a
deviance pode ainda ser escrita como
Λ = −2
𝑛∑︁
𝑖=1
[𝑦𝑖log(�̂�𝑖) + (1 − 𝑦𝑖)log(1 − �̂�𝑖) − 𝑦𝑖log(𝑦𝑖) − (1 − 𝑦𝑖)log(1 − 𝑦𝑖)]
= −2
𝑛∑︁
𝑖=1
[︃
𝑦𝑖log
(︃
�̂�𝑖
𝑦𝑖
)︃
+ (1 − 𝑦𝑖)log
(︃
1 − �̂�𝑖
1 − 𝑦𝑖
)︃]︃
= 2
𝑛∑︁
𝑖=1
[︂
𝑦𝑖log
(︂
𝑦𝑖
�̂�𝑖
)︂
+ (1 − 𝑦𝑖)log
(︂1 − 𝑦𝑖
1 − �̂�𝑖
)︂]︂
.
Note que a deviance Λ é sempre positiva e quanto menor, melhor é o ajuste do modelo.
Para um padrão de covariável 𝑘, o componente da deviance, chamado de resíduo
deviance, é definido por
𝑑(𝑦𝑘, �̂�𝑘) = ±
⎯⎸⎸⎷2{︃𝑦𝑘log
(︃
𝑦𝑘
𝑚𝑗�̂�𝑘
)︃
+ (𝑚𝑘 − 𝑦𝑘)log
[︃
𝑚𝑘 − 𝑦𝑘
𝑚𝑘(1 − �̂�𝑘)
]︃}︃
, (2.20)
em que o sinal é o mesmo de (𝑦𝑘 − 𝑚𝑘�̂�𝑘).
Por conseguinte, a estatística do teste 𝑑𝑒𝑣𝑖𝑎𝑛𝑐𝑒 baseada no resíduo (2.20) é dada
por
𝐷 =
𝐾∑︁
𝑘=1
𝑑(𝑦𝑘, �̂�𝑘)2,
Capítulo 2. REGRESSÃO LOGÍSTICA 31
que segue uma distribuição assintótica Qui-quadrado com 𝐾 − (𝑝 + 1) sob a suposição de
que o modelo ajustado é adequado.
2.3.2 Teste de Hosmer-Lemeshow
Como os testes apresentados na subseção anterior apenas são válidos quando existe
uma quantidade suficiente de réplicas nas variáveis explicativas, Hosmer e Lemeshow (1980)
e Lemeshow e Hosmer (1982) propuseram um teste adicional para verificar a bondade de
ajuste do modelo quando os dados são muito esparsos.
O teste é baseado em um procedimento que consiste na divisão da amostra segundo
suas probabilidades ajustadas de sucesso com base nos parâmetros estimados do modelo de
regressão logística. Em síntese, estas probabilidades são ordenadas da menor para a maior
e, posteriormente, separadas em 𝐺 grupos de tamanho aproximadamente igual. Hosmer e
Lemeshow (1980) recomendam utilizar 𝐺 = 10 grupos, que são chamados de decis de risco.
O número de sucessos observados 𝑜𝑔 e fracassos 𝑛𝑔 − 𝑜𝑔 são comparadas com a frequência
esperada dentro de cada grupo, 𝑛𝑔�̄�𝑔 e 𝑛𝑔(1 − �̄�𝑔), em que 𝑛𝑔 é o número de observações
em cada grupo e �̄�𝑔 =
∑︀
𝑖∈𝑔
�̂�𝑖
𝑛𝑔
é a probabilidade média de sucesso estimada para o 𝑔-ésimo
grupo.
Tendo as frequências esperadas, calcula-se a estatística do teste de Hosmer e
Lemeshow, que é dada por
𝐶 =
𝐺∑︁
𝑔=1
(𝑜𝑔 − 𝑛𝑔�̄�𝑔)2
𝑛𝑔�̄�𝑔(1 − �̄�𝑔)
.
Se o modelo logístico está correto, pode-se demonstrar através de simulações que a
estatística 𝐶 segue uma distribuição Qui-quadrado com 𝐺 − 2 graus de liberdade quando
a amostra é grande.
2.3.3 Métricas de Desempenho
Nesta subseção são apresentadas algumas métricas de desempenho que representam
basicamente a capacidade de acerto do modelo proposto. Dentre as principais métricas
discutidas na literatura, o presente trabalho abordará quatro a seguir, são elas: métricas
obtidas a partir da matriz de classificação, Curva ROC, estatística KS e coeficiente de
Gini.
2.3.3.1 Matriz de Classificação
Uma forma de avaliar a capacidade preditiva do modelo ajustado é através de
métricas calculadas a partir de uma matriz que armazena as observações que foram classifi-
cadas corretamente e incorretamente para cada categoria da variável resposta, denominada
matriz de classificação ou confusão. Segundo Hilbe (2009), essa matriz é baseada em um
Capítulo 2. REGRESSÃO LOGÍSTICA 32
ponto de corte, que responde qual a probabilidade ótima para separar o sucesso do fracasso
dentre os valores preditos, e nos conceitos de sensibilidade e especificidade, a serem vistos
posteriormente.
O ponto de corte usual é 0,5, que representa a média da distribuição logística. No
entanto, este não é um valor adequado para a maioria dos modelos de regressão logística.
O interesse então é definir o melhor ponto de corte levando em consideração os dados
e o modelo. Pensando desta forma, um bom candidato para este valor é o ponto que
maximiza simultaneamente as curvas de sensibilidade e especificidade, ou seja, é o ponto
de cruzamento de ambas as curvas, pois parte-se do pressuposto de que classificar uma
observação como sucesso dado que ela é fracasso e classificar uma observação como fracasso
dado que ela é sucesso acarreta prejuízos equivalentes para o pesquisador.
A classificação das observações é feita da seguinte forma
𝑦𝑖 =
⎧⎪⎨⎪⎩1 se 𝑦𝑖 ≥ �̄�0 se 𝑦𝑖 < �̄� ,
em que �̄� é o ponto de corte. Desse modo, para um problema de classificação binária, isto
é, que possui somente duas categorias, a matriz de classificação é como apresenta a Tabela
3.
Tabela 3 – Matriz de classificação.
Valor predito Valor observado
𝑦𝑖 = 1 𝑦𝑖 = 0
𝑦𝑖 = 1 VP FP
𝑦𝑖 = 0 FN VN
Em problemas desta natureza, costuma-se denotar uma categoria como positiva e a
outra como negativa. Assim, define-se os quatro tipos de ocorrência ao se tentar classificar
observações de uma amostra:
∙ Verdadeiro Positivo (VP): Número de observações que foram classificadas correta-
mente como pertencentes à categoria positiva;
∙ Verdadeiro Negativo (VN): Número de observações que foram classificadas correta-
mente como pertencentes à categoria negativa;
∙ Falso Positivo (FP): Número de observações que foram classificadas como pertencentes
à categoria positiva, mas pertencem à categoria negativa;
∙ Falso Negativo (FN): Número de observações que foram classificadas como perten-
centes à categoria negativa, mas pertencem à categoria positiva.
Capítulo 2. REGRESSÃO LOGÍSTICA 33
Pode-se então apresentar algumas métricas de desempenho a partir das ocorrências
elencadas acima. A métrica mais utilizada é a taxa de acerto (TA), também conhecida
como acurácia, que avalia o quão efetivo o modelo é, por meio da proporção total de
predições corretas, estimada como
𝑇𝐴 = 𝑉 𝑃 + 𝑉 𝑁
𝑉 𝑃 + 𝑉 𝑁 + 𝐹𝑃 + 𝐹𝑁 .
A métrica complementar à TA é a taxa de erro (TE), que mede a probabilidade do
modelo realizar falsas predições, ou seja,
𝑇𝐸 = 𝐹𝑃 + 𝐹𝑁
𝑉 𝑃 + 𝑉 𝑁 + 𝐹𝑃 + 𝐹𝑁 .
Em suma, a TA e a TE são métricas de desempenho mais gerais e podem ser
facilmente adaptadas para problemas com variável resposta politômica, isto é, problemas
que consideram mais de duas categorias. Outras métricas, tais como a sensibilidade e a
especificidade, são mais apropriadas para problemas em que a resposta é dicotômica.
As métricas de sensibilidade (S) e especificidade (E) avaliam a capacidade preditiva
do modelo para uma única categoria. O cálculo da sensibilidade estima a probabilidade de
uma observação pertencente à categoria positiva ser predita como positiva, enquanto que
o cálculo da especifidade é o oposto, isto é, estima a probabilidade de uma observação
pertencente à categoria negativa ser predita corretamente como negativa. Os valores destas
métricas são dados, respectivamente, por
𝑆 = 𝑉 𝑃
𝑉 𝑃 + 𝐹𝑁
e
𝐸 = 𝑉 𝑁
𝑉 𝑁 + 𝐹𝑃 .
No geral, quanto mais próximo do valor 1 as métricas de desempenho se aproximam,
melhor será considerado o ajuste do modelo.
2.3.3.2 Área Sob a Curva ROC
Uma forma mais eficiente de demonstrar a relação entre sensibilidade e especificidade
é a curva ROC, um acrônimo de Receiver Operating Characteristic Curve, ou curva Lorenz.
Esta curva é um gráfico em que é plotado a sensibilidade versus um menos a especificidade,permitindo estudar a variação destas métricas para diversos valores de corte. O ideal é
tomar como valor de corte o ponto que mais se aproxima do canto superior esquerdo da
curva, já que é este o ponto que conjuntamente maximiza a sensibilidade e minimiza o
complementar da especificidade, conforme apresenta a Figura 2.
Capítulo 2. REGRESSÃO LOGÍSTICA 34
Figura 2 – Exemplo de curva ROC.
Fonte: Adaptado de Hilbe (2009).
A área abaixo da curva ROC, que pode variar entre 0 e 1, é a medida de discrimi-
nação, ou seja, a capacidade preditiva do modelo classificar corretamente as observações,
pois quanto maior a área, melhor é o seu desempenho. De acordo com Hosmer e Lemeshow
(2000), pode-se definir o poder de discriminação do modelo como mostrado na Tabela 4.
Tabela 4 – Classificação do poder de discriminação do modelo segunda a área abaixo da
curva ROC.
Valor da área abaixo da curva ROC Discriminação do modelo
ROC = 0,5 Não discrimina
0,5 < ROC < 0,7 Baixa
0,7 ≤ ROC < 0,8 Aceitável
0,8 ≤ ROC < 0,9 Muito bom
ROC ≥ 0,9 Excelente
Fonte: Adaptado de Hosmer e Lemeshow (2000).
Para auxiliar a escolha do ponto de corte também sugere-se a análise do gráfico
de sensibilidade 𝑣𝑒𝑟𝑠𝑢𝑠 especificidade, tal como apresenta a Figura 3. Com efeito, este
gráfico é o intervalo dos valores da sensibilidade e especificidade que seriam observados
caso fosse calculada uma tabela de classificação para valores de corte de 0 a 1.
Capítulo 2. REGRESSÃO LOGÍSTICA 35
Figura 3 – Gráfico de sensibilidade versus especificidade.
Fonte: Adaptado de Hilbe (2009).
Um ponto levantado no uso da curva ROC é sobre os modelos que atingem níveis de
alto padrão na métrica ROC, ou seja, têm, segundo ela, poder de discriminação excelente.
Quando um modelo atinge tal patamar de resultado, deve-se aprofundar as análises - e
buscar novas métricas e validações - para verificar se houve super ajuste dos dados (em
inglês, overfitting).
2.3.3.3 Estatística de Kolmogorov-Smirnov (KS)
Uma outra métrica muito utilizada, sobretudo na área de risco de crédito, é a
estatística de Kolmogorov-Smirnov (KS), que mede o quão bem os escores estimados pelo
modelo discriminam as categorias da variável resposta. Esta estatística tem origem no
teste de hipótese não-paramétrico de Kolmogorov-Smirnov em que se deseja, a partir de
duas amostras selecionadas de populações possivelmente distintas, testar se as funções de
distribuições associadas às estas populações são iguais ou não (DINIZ; LOUZADA, 2013).
Em risco de crédito, área na qual se trata a aplicação deste trabalho, espera-se
que aos 𝑏𝑜𝑛𝑠 clientes sejam atribuídos prevalentemente altos escores, enquanto que os
𝑚𝑎𝑢𝑠 clientes estejam concentrados entre os escores mais baixos ou vice-versa. Neste caso,
definindo 𝐹𝑏(𝑒) =
∑︀
𝑥≤𝑒 𝐹𝑏(𝑥) e 𝐹𝑚(𝑒) =
∑︀
𝑥≤𝑒 𝐹𝑚(𝑥) como as funções de distribuições
empíricas dos 𝑏𝑜𝑛𝑠 e 𝑚𝑎𝑢𝑠 pagadores, respectivamente, a estatística de Kolmogorov-
Smirnov é dada por
Capítulo 2. REGRESSÃO LOGÍSTICA 36
𝐾𝑆 = 𝑚á𝑥|𝐹𝑏(𝑒) − 𝐹𝑚(𝑒)|,
tal que 𝐹𝑏(𝑒) e 𝐹𝑚(𝑒) correspondem às proporções de clientes 𝑏𝑜𝑛𝑠 e 𝑚𝑎𝑢𝑠 com escore
menor ou igual a 𝑒 , com 𝑒 variando do menor ao maior valor possível de escore. Sendo
assim, a estatística KS é obtida através da distância máxima entre essas duas proporções
acumuladas dos escores gerados pelo modelo, como mostra a Figura 4.
Figura 4 – Funções distribuições empíricas para os 𝑏𝑜𝑛𝑠 e 𝑚𝑎𝑢𝑠 clientes e a estatística KS.
Fonte: Elaborado pelo autor.
O valor da estatística KS pode variar de 0% a 100%, sendo que o valor mínimo
indica a sobreposição total das distribuições dos escores dos 𝑏𝑜𝑛𝑠 e 𝑚𝑎𝑢𝑠 clientes e o valor
máximo sugere a separação total destes dois grupos. Conforme Diniz e Louzada (2013),
a interpretação do KS para modelos de risco de crédito segue, em algumas instituições
financeiras, a seguinte regra:
∙ KS < 10%: indica que não há discriminação entre os perfis de 𝑏𝑜𝑛𝑠 e 𝑚𝑎𝑢𝑠 clientes;
∙ 10% < KS < 20%: indica que a discriminação é baixa;
∙ KS > 20%: indica que o modelo discrimina o perfil de 𝑏𝑜𝑛𝑠 e 𝑚𝑎𝑢𝑠.
2.3.3.4 Coeficiente de Gini
O coeficiente de Gini, também chamado de razão de acurácia, é uma métrica de
desempenho que pode ser determinada diretamente da curva ROC da seguinte forma
𝐺𝑖𝑛𝑖 = 2 × (𝑅𝑂𝐶 − 0, 5) ,
Capítulo 2. REGRESSÃO LOGÍSTICA 37
sendo ROC, neste caso, o valor obtido do cálculo da área sob a curva ROC. Desse modo,
quanto mais a curva se distanciar da diagonal (reta 𝑦 = 𝑥), maior será o coeficiente de
Gini e, consequentemente, melhor será a performance do modelo. Em razão da área sob a
curva ROC variar entre 0,5 e 1, é mais adequado utilizar o coeficiente de Gini que, assim
como a estatística KS, varia entre 0 e 1.
2.4 Diagnóstico do Modelo
Depois de terem sido realizados os testes de significância dos parâmetros e ter
obtido um modelo adequadamente ajustado em que todas as variáveis explicativas são
relevantes na predição da variável resposta, passa-se então a verificar possíveis afastamentos
das suposições feitas para o modelo. Tal etapa, conhecida como diagnóstico do modelo,
permite detectar problemas de erros ou anomalias nos dados e potenciais violações dos
pressupostos que envolvem a formulação do modelo e às estimativas dos seus parâmetros,
tais como:
∙ Presença de observações discrepantes (outliers);
∙ Inadequação das pressuposições para os erros;
∙ Forma funcional do modelo inadequada;
∙ Colinearidade e multicolinearidade entre variáveis explicativas;
∙ Presença de observações influentes.
Pregibon (1981) propôs medidas para definir quanto a eliminação de uma observação
em particular influencia no ajuste do modelo de regressão logística, autodefinidas como
estatísticas de influência. As principais medidas utilizadas para o diagnóstico do modelo
são sequencialmente abordadas.
2.4.1 Análise dos Resíduos
Um resíduo corresponde a discrepância entre o valor observado e o valor ajustado
pelo modelo. Segundo Cordeiro e Demétrio (2008), esses termos representam a variação
natural dos dados, mas podem, também, ser interpretados como o efeito cumulativo de
fatores que não foram considerados no modelo.
A análise de resíduos é útil, não apenas para a verificação do ajuste de um modelo
no que se refere à escolha da distribuição, da função de ligação e de termos do preditor
linear, como também para auxiliar na identificação de observações mal ajustadas, isto
é, que não são adequadamente explicadas pelo modelo. Vários tipos de resíduos foram
propostos na literatura, mas no caso dos modelos lineares generalizados, e do modelo de
Capítulo 2. REGRESSÃO LOGÍSTICA 38
regressão logística em particular, faz mais sentido considerar os resíduos de Pearson e
Deviance.
2.4.1.1 Resíduo de Pearson
O resíduo de Pearson contribui principalmente na classificação de observações que
podem ser consideradas como 𝑜𝑢𝑡𝑙𝑖𝑒𝑟𝑠. Na regressão logística, tal resíduo para a diferença
entre os valores observados e os valores preditos é da forma
𝑟𝑝𝑖 =
(𝑦𝑖 − �̂�𝑖)√︁
�̂�𝑖(1 − �̂�𝑖)
,
para 𝑖 = 1, 2, . . . , 𝑛. Levando em consideração que se tem 𝑉 𝑎𝑟(𝑌𝑖 − 𝜋𝑖) ≈ 𝑉 𝑎𝑟(𝑌𝑖)(1 − ℎ𝑖𝑖),
em que ℎ𝑖𝑖 é o 𝑖-ésimo elemento da diagonal principal da matriz de projeção a ser definida
posteriormente, o correspondente resíduo de Pearson, convenientemente padronizado é
𝑟𝑝*𝑖 =
𝑟𝑝𝑖√︁
1 − ℎ̂𝑖𝑖
Na circunstância dos resíduos serem pequenos, tem-se a indicação de que o modelo está
bem ajustado.
2.4.1.2 Resíduo Deviance
Outro resíduo bastante utilizado para detectar erros no ajuste do modelo é o resíduo
deviance, dado por
𝑑𝑖 = ±
√︁
−2 [𝑦𝑖log (�̂�𝑖) + (1 − 𝑦𝑖)log (1 − �̂�𝑖)],
para 𝑖 = 1, . . . , 𝑛, em que o sinal é positivo se 𝑦𝑖 ≥ �̂�𝑖 e negativo caso contrário. Como no
resíduo de Pearson, também pode-se utilizar o resíduo Deviance padronizado, dado por
𝑑*𝑖 =
𝑑𝑖√︁
1 − ℎ̂𝑖𝑖
.
Em geral, é preferível o uso do resíduo padronizado, pois sua variação é constante, o que,
consequentemente, facilitaa identificação de outliers.
2.4.2 Observações Influentes
Em modelagem uma observação é considerada influente se a sua exclusão provoca
alterações significativas nas estimativas dos parâmetros do modelo. Dependendo da influên-
cia que esta observações exerce sobre o modelo, a sua presença pode levar a conclusões que
não correspondem à realidade. A seguir, apresentam-se algumas medidas para detectar se
uma observação é, ou não, influente.
Capítulo 2. REGRESSÃO LOGÍSTICA 39
2.4.2.1 Diagonal da Matriz 𝐻 (𝑙𝑒𝑣𝑒𝑟𝑎𝑔𝑒)
Os elementos da matriz 𝐻 são utilizados para diagnosticar pontos extremos no
espaço das variáveis explicativas. Estes pontos desempenham um papel importante na
condição de ajuste final dos parâmetros de um modelo estatístico, no sentido de que sua
eliminação pode implicar em mudanças substanciais dentro de uma análise estatística.
Como ^𝑉 𝑎𝑟(𝛽) =
(︁
𝑋𝑇�̂�𝑋
)︁−1
Na análise de regressão linear, a matriz𝐻 é definida
por
𝐻 = 𝑋
(︁
𝑋𝑇𝑋
)︁−1
𝑋𝑇 ,
conhecida também como matriz de projeção ou matriz ℎ𝑎𝑡. Acontece, porém, que no caso
da regressão logística, os erros não apresentam variância constante como na regressão
linear. Então, utilizando a definição de mínimos quadrados ponderados, Pregibon (1981)
derivou uma aproximação linear para os valores ajustados, que produz uma matriz de
projeção para o modelo logístico, dada por
𝐻 = 𝑊 12𝑋
(︁
𝑋𝑇𝑊𝑋
)︁−1
𝑋𝑇𝑊
1
2 ,
o que sugere a utilização dos elementos da diagonal principal de 𝐻 para detectar pontos
de alavanca. Dessa forma, o 𝑖-ésimo elemento diagonal da matriz �̂� , denotado por ℎ̂𝑖𝑖, é
ℎ̂𝑖𝑖 = �̂�𝑖(1 − �̂�𝑖)𝑥𝑇𝑖
[︁
𝐼(𝛽)
]︁−1
𝑥𝑖,
para 𝑖 = 1, . . . , 𝑛 e com 0 ≤ ℎ̂𝑖𝑖 ≤ 1. Hosmer e Lemeshow (2000) ressaltam, contudo,
que a análise da diagonal da matriz de projeção deve ser feita com cautela na regressão
logística e que as interpretações não são as mesmas daquelas da regressão linear. Em geral,
no modelo de regressão logística consideram-se influentes as observações em que ℎ̂𝑖𝑖 > 2,
sendo 𝑝 o número de variáveis presentes no modelo (DOMINGUES, 2016).
2.4.2.2 Distância de Cook
A distância de Cook, originalmente desenvolvida para modelos lineares normais,
foi rapidamente assimilada e estendida para diversas classes de modelos. Para o seu
cálculo utilizam-se tanto a base de dados sem a observação que se acredita ser influente
quanto a base com esta observação. Se a distância estimada for elevada, considera-se que a
observação pode ser influente. No caso dos modelos lineares normais o cálculo da distância
de Cook é dado por
Δ𝛽𝑖 =
(︁
𝛽 − 𝛽(−𝑖)
)︁𝑇 (︁
𝑋𝑇𝑋
)︁ (︁
𝛽 − 𝛽(−𝑖)
)︁
(𝑝 + 1)𝑠2 ,
em que 𝛽 e 𝛽(−𝑖) representam, respectivamente, as estimativas dos parâmetros do modelo
com e sem a observação 𝑖 que se considera influente.
Capítulo 2. REGRESSÃO LOGÍSTICA 40
Dado que, em modelos lineares generalizados ^𝑉 𝑎𝑟(𝛽) =
(︁
𝑋𝑇�̂�𝑋
)︁−1
, é natural
considerar como generalização da distância de Cook a seguinte medida de influência
Δ𝛽𝑖 =
(︁
𝛽 − 𝛽(−𝑖)
)︁𝑇 (︁
𝑋𝑇𝑊𝑋
)︁ (︁
𝛽 − 𝛽(−𝑖)
)︁
𝑝 + 1 .
Existem diversos critérios para se considerar a distância de Cook elevada. Na
literatura, alguns autores defendem que Δ𝛽𝑖 > 1 é suficiente enquanto outros sugerem que
o valor desta distância deve ser ponderada pelo número de observações usadas para fazer
o ajuste do modelo, através do critério Δ𝛽𝑖 > 4𝑛 (PORTUGAL, 2013). Para este trabalho
será considerado o primeiro critério.
2.4.2.3 𝐶 e 𝐶
Os diagnósticos 𝐶 e 𝐶 calculados com base no intervalo de confiança, medem a
influência das observações individuas sob 𝛽, e possuem a mesma ideia da Distância de
Cook na teoria de regressão linear. A partir de aproximações lineares, Pregibon (1981)
demonstra que 𝐶𝑖 pode ser escrita como
𝐶𝑖 =
(𝑟𝑝𝑖)2ℎ𝑖𝑖
(1 − ℎ𝑖𝑖)2
, 𝑖 = 1, . . . , 𝑛.
Definida em termos de 𝐶𝑖, a medida 𝐶𝑖, também chamada de 𝐶𝐵𝑎𝑟, é dada por
𝐶𝑖 =
(𝑟𝑝𝑖)2ℎ𝑖𝑖
(1 − ℎ𝑖𝑖)
, 𝑖 = 1, . . . , 𝑛.
2.4.2.4 DIFCHISQ e DIFDEV
A medida DIFCHISQ é útil para detectar observações mal ajustadas, isto é,
observações que contribuem no incremento dos resíduos do modelo. Com o auxilio de
aproximações lineares, pode-se demonstrar que esta medida tem a forma
DIFCHISQ𝑖 =
(𝑟𝑝𝑖)2
(1 − ℎ𝑖𝑖)
, 𝑖 = 1, . . . , 𝑛.
Do mesmo modo, a medida DIFDEV é utilizada para detectar observações que são
influentes na estimação do modelo logístico, definida como
DIFDEV𝑖 = 𝑑2𝑖 +
(𝑟𝑝𝑖)2
ℎ𝑖𝑖(1 − ℎ𝑖𝑖)
, 𝑖 = 1, . . . , 𝑛.
As medidas de diagnóstico apresentadas nesta seção são conceitualmente interes-
santes na análise, pois permitem identificar as observações que contribuem para um mal
ajuste do modelo, assim como aquelas que também apresentam grande influência nas
estimativas dos parâmetros. Depois de identificadas, cabe ao pesquisador a decisão sobre a
sua permanência ou não no estudo.
Capítulo 2. REGRESSÃO LOGÍSTICA 41
2.4.3 Multicolinearidade
Um dos pressupostos da regressão logística é que as variáveis explicativas conti-
das no modelo sejam não correlacionadas. Quando existe uma relação linear exata ou
aproximada entre estas variáveis, tem-se o problema de multicolinearidade, fazendo com
que os parâmetros deste modelo não sejam estimados com precisão e apresentem baixos
níveis de significância. Como consequência deste fato, as conclusões e a inferência sobre os
parâmetros baseados no modelo podem ficar seriamente comprometidas.
Uma forma de detectar a multicolinearidade é calculando o Fator de Inflação da
Variância (VIF - Variance Inflance Factor), que mede quanto é que a variância de um
coeficiente do modelo aumenta devido à multicolinearidade, sendo dado por
𝑉 𝐼𝐹𝑗 =
1
1 − 𝑅2𝑗
,
em que 𝑅2𝑗 é o coeficiente de determinação não ajustado da regressão de 𝑋𝑗, 𝑗 = 1, . . . , 𝑝,
sobre as demais variáveis explicativas. Na presença de multicolinearidade, o valor de
𝑅2𝑗 será muito próximo de 1, o que torna a variância das estimativas do parâmetros
inflacionada. Uma regra prática aceitável é a de que valores de 𝑉 𝐼𝐹 maiores do que 5
indicam multicolinearidade moderada e valores de 𝑉 𝐼𝐹 maiores do que 10 implicam em
multicolinearidade elevada. No caso de haver variáveis explicativas no modelo com 𝑉 𝐼𝐹
superior ao patamar admissível, a solução é retirar uma destas variáveis e refazer a análise.
42
3 DADOS INCOMPLETOS
De acordo com Buuren (2012), existe uma ampla distinção entre dois tipos de dados
incompletos, classificados como intencionais e não intencionais. Os dados incompletos
intencionais são projetados pelo próprio pesquisador. Por exemplo, os dados de um
elemento podem estar ausentes devido sua exclusão da amostra, bem como dados de
sobrevivência que são censurados porque o evento de interesse não ocorreu até o término
do experimento. Outra forma de dados incompletos intencionais é o uso de diferentes
versões do mesmo instrumento de pesquisa para subamostras da amostra principal, uma
abordagem denominada amostragem matricial. Para uma visão geral sobre esta técnica de
amostragem ver Gonzalez e Eltinge (2007).
Os dados incompletos não intencionais, ainda que muitas vezes sejam previstos,
não são planejados e nem mesmo controlados pelo pesquisador. Podem ser citados, como
exemplos, o entrevistado ignorar um item do questionário, erros na transcrição dos dados,
indivíduos abandonarem o estudo antes de ser concluído ou ainda o entrevistado se recursar
a cooperar com a pesquisa.
Buuren (2012) apresenta uma outra importante distinção no que se refere ao item
não respondido e unidade não respondida. De uma forma geral, item não respondido
concerne à situação em que o entrevistado ignora um ou mais itens da pesquisa. Enquanto
que unidade não respondida ocorre quando o entrevistado se recusa a participar, ficando
assim todos os dados em falta para este indivíduo.
Além destes conceitos, para determinar o melhor método de imputação a ser uti-
lizado também é imprescindível analisar o padrão e o mecanismo que levou o conjunto
de dados a ter valores ausentes,visto que uma imputação sem fundamentos pode afetar
negativamente os resultados obtidos. Nas próximas seções serão abordados os principais pa-
drões e mecanismos para a ausência de dados, assim como testes utilizados na identificação
de mecanismos.
3.1 Padrões de Dados Incompletos
Os padrões de dados incompletos se referem à configuração com que os itens
ausentes ocorrem em uma base de dados. Dentre os diversos tipos de padrões existentes,
citam-se a seguir os quatro mais frequentes, conforme Little (1992). Para isso, considere
as variáveis aleatórias 𝑋1, 𝑋2, . . . , 𝑋𝑝 com presença de 𝑚𝑖𝑠𝑠𝑖𝑛𝑔 ou não e 𝑌 a variável
resposta de interesse.
Capítulo 3. DADOS INCOMPLETOS 43
3.1.1 Padrão Univariado
O padrão univariado apresenta ausência de dados isoladamente em apenas uma
variável, de acordo com a Figura 5.
Figura 5 – Padrão univariado de dados incompletos.
Fonte: Little (1992).
Note que todas as variáveis, à exceção de 𝑋1, são completamente observadas, o
que é comum em estudos experimentais.
3.1.2 Padrão Monótomo
No padrão monótomo, as colunas podem ser dispostas de modo que 𝑋𝑗+1 é observado
para todos os casos em que 𝑋𝑗 é observado, para 𝑗 = 1, . . . , 𝑝, como mostra a Figura 6.
Figura 6 – Padrão monótomo de dados incompletos.
Fonte: Little (1992).
Segundo Enders (2010), o padrão monótomo de dados incompletos tem sido discu-
tido na literatura por reduzir consideravelmente a complexidade matemática da função de
verossimilhança e do processo de imputação múltipla, podendo, ainda, não mais necessitar
da utilização de algoritmos de estimação iterativos. Este tipo de padrão é característico de
experimentos longitudinais, em que as variáveis são medidas repetidamente ao longo do
tempo.
Capítulo 3. DADOS INCOMPLETOS 44
3.1.3 Padrão Especial
No padrão especial nunca se observa a ocorrência de duas variáveis simultaneamente.
Isto é, considerando as variáveis 𝑋1, 𝑋2 e 𝑋3, sendo 𝑋1 e 𝑋2 variáveis incompletas, tem-se
a seguinte distribuição dos dados apresentada na Figura 7.
Figura 7 – Padrão especial de dados incompletos.
Fonte: Little (1992).
Este padrão é, em geral, observado nos estudos em que se faz uso da técnica de
amostragem matricial.
3.1.4 Padrão Geral
O padrão geral não apresenta estrutura especial, ou seja, os itens ausentes ocorrem
arbitrariamente por todo o conjunto de dados, conforme mostra a Figura 8.
Figura 8 – Padrão geral de dados incompletos.
Fonte: Little (1992).
Ainda que este tipo de padrão seja aparentemente aleatório, a ausência de dados
em uma variável pode estar relacionada à tendência da falta de dados referente às demais
variáveis.
Capítulo 3. DADOS INCOMPLETOS 45
3.2 Mecanismos de Dados Incompletos
Em uma base de dados reais, a ocorrência de dados incompletos normalmente
obedece a um mecanismo que descreve possíveis relações entre as variáveis mensuradas e a
probabilidade dos dados em falta, indicando a causa da ausência, embora não forneça uma
explicação casual (ENDERS, 2010). Então, cabe ao pesquisador avaliar este mecanismo,
identificá-lo e considerá-lo na análise dos dados, caso contrário os resultados podem ser
temerários. A principal terminologia de classificação dos mecanismos foi originalmente des-
crita por Rubin (1976), na qual são sugeridos três mecanismos teóricos gerais amplamente
utilizados na literatura:
∙ Ausência Completamente Aleatória (Missing Completely at Random - MCAR)
∙ Ausência Aleatória (Missing at Random - MAR)
∙ Ausência Não-Aleatória (Not Missing at Random - NMAR)
Para representar matematicamente cada mecanismo, considere 𝑍 = {𝑧𝑖𝑗} uma
matriz de dados coletados com 𝑛 linhas, as quais correspondem aos indivíduos, e 𝑝 colunas,
que representam as variáveis observadas. Segundo a teoria de Rubin (1978), pode-se dividir
𝑍 em dois subconjuntos 𝑍 = {𝑍𝑜𝑏𝑠,𝑍𝑖𝑛𝑐}, sendo 𝑍𝑜𝑏𝑠 os dados observados e 𝑍𝑖𝑛𝑐 os dados
incompletos. Define-se também uma matriz indicadora de dados incompletos associada a
𝑍, denotada por 𝑅, tal que 𝑅 tem a mesma dimensão de 𝑍, com elementos 𝑟𝑖𝑗 = 1, se 𝑧𝑖𝑗
é observado, e 𝑟𝑖𝑗 = 0, caso contrário. Desta forma, os mecanismos de dados incompletos
podem ser obtidos através da distribuição condicional de 𝑅 dado 𝑍, indexada por um
vetor de parâmetros desconhecidos 𝜓, ou seja, 𝑃 (𝑅|𝑍𝑜𝑏𝑠,𝑍𝑖𝑛𝑐,𝜓).
3.2.1 MCAR
O mecanismo que gera os dados incompletos é MCAR se a distribuição de 𝑅 não
depende de qualquer das quantidades de 𝑍, observadas ou incompletas, isto é
𝑃 (𝑅|𝑍𝑜𝑏𝑠,𝑍𝑖𝑛𝑐,𝜓) = 𝑃 (𝑅|𝜓) .
Veja que a probabilidade de um dado ter valor ausente no mecanismo MCAR
mantém-se a mesma para todos os casos, sendo, portanto, diferente dos demais mecanismos,
em que os valores ausentes não estão distribuídos aleatoriamente. Ainda que o MCAR não
seja um mecanismo comum, existem muitas possibilidades para tratar os dados neste caso.
3.2.2 MAR
No mecanismo MAR a distribuição de 𝑅 depende das informações disponíveis na
matriz de dados 𝑍. Em outras palavras, a probabilidade de um dado estar incompleto é
Capítulo 3. DADOS INCOMPLETOS 46
definida através do conjunto de dados observados, e esta relação pode ser descrita como
𝑃 (𝑅|𝑍𝑜𝑏𝑠,𝑍𝑖𝑛𝑐,𝜓) = 𝑃 (𝑅|𝑍𝑜𝑏𝑠,𝜓) .
Como na maioria dos experimentos científicos quase sempre existe algum grau de
relação entre os valores em falta e as informações das variáveis explicativas, o mecanismo
MAR é o mais utilizado na prática. Alguns autores, como Didelez (2002), usam MAR-X
para especificar que os dados incompletos dependem somente dos valores observados nas
variáveis explicativas, assim como MAR-Y para indicar que os dados incompletos são
previsíveis a partir das observações da variável resposta.
3.2.3 MNAR
O mecanismo dos dados incompletos é referido como MNAR se a distribuição de
𝑅 não é aleatória e pode depender tanto de informações observadas, como também de
informações em 𝑍 que não foram observadas. Assim, a probabilidade de se ter um dado
ausente varia por razões que são desconhecidas, ou seja,
𝑃 (𝑅|𝑍𝑜𝑏𝑠,𝑍𝑖𝑛𝑐,𝜓) ̸= 𝑃 (𝑅|𝑍𝑜𝑏𝑠,𝜓) .
Em contradição ao mecanismo MAR, o dado ausente no caso MNAR não pode
ser imputado apenas levando em consideração os dados disponíveis, o que torna este o
mecanismo mais difícil de ser reconhecido e analisado. Na literatura, a maior parte das
pesquisas envolvendo esta temática, assume que os dados incompletos foram gerados pelos
mecanismos MCAR ou MAR.
Uma situação que elucida cada mecanismo é apresentada por Bergamo (2007),
tendo como base uma pesquisa que estuda o peso de pessoas. Se a ausência de dados
na variável peso, por exemplo, não está associada com o próprio peso do entrevistado e
nem com qualquer outra variável mensurada para a pesquisa, como idade ou sexo, então
o mecanismo gerador de dados incompletos para o peso é MCAR. Se as pessoas com
sobrepeso tendem a não informar seu peso, então a ausência de resposta sobre o peso
depende da própria variável peso, caracterizando assim o mecanismo MNAR. Entretanto,
se a ausência de resposta sobre o peso, não depende do próprio peso do entrevistado,
porém pode depender de outras variáveis (pessoas do sexo feminino tendem a não informar
seu peso), diz-se que o mecanismo de ausência de dados para a variável peso é MAR.
3.3 Mecanismo Ignorável e Não-Ignorável
Conforme a literatura recente em análise de dados incompletos, pode-se adicional-
mente classificar qualquer mecanismo de não respostas como ignorável ou não-ignorável. O
Capítulo 3. DADOS INCOMPLETOS 47
termo ignorável é utilizado para indicar que não é necessário especificar um modelo para o
dado ausente. A função da densidade conjunta de 𝑍𝑜𝑏𝑠 e 𝑅, 𝑓 (𝑍𝑜𝑏𝑠,𝑅|𝜃,𝜓), depende dos
parâmetros 𝜃 para o banco de dados completo 𝑍. A densidade conjunta é proporcional a
verossimilhança de 𝜃 e 𝜓, isto é, 𝐿 (𝜃,𝜓|𝑍𝑜𝑏𝑠,𝑅) ∝ 𝑓 (𝑍𝑜𝑏𝑠,𝑅|𝜃,𝜓).
O mecanismo é dito ignorável para os casos MCAR e MAR, ou seja, os dados
incompletos ocorrem aleatoriamente e os parâmetros 𝜃 e 𝜓 são distintos, no sentido deque
o conjunto de espaços dos parâmetros (𝜃,𝜓) é igual ao produto do espaço do parâmetro 𝜃
e do espaço do parâmetro 𝜓. A última condição sugere que 𝜃 e 𝜓 devem ser independentes,
isto é, 𝑝 (𝜃,𝜓) = 𝑝(𝜃)𝑝(𝜓). O mecanismo MCAR envolve uma suposição muito forte e
dificilmente é satisfeito na prática, enquanto que o MNAR é não-ignorável devido à falta
de aleatoriedade do dado ausente. Portanto, nesta situação torna-se necessário especificar
um modelo para o dado ausente.
O resultado de cada mecanismo nas análises produzidas por diferentes métodos tem
sido avaliado constantemente por estudos de simulação, como em Little (1992), Schafer e
Graham (2002) e Collins, Schafer e Kam (2001). Muitos métodos de tratamento de dados
incompletos vêm sendo aplicados para os mecanismos MCAR e MAR, contudo, para o
mecanismo MNAR ainda não se tem métodos apropriados devidamente definidos.
3.4 Teste para Mecanismos
Identificar o mecanismo de ausência de dados não é uma tarefa simples. Vários
testes têm sido sugeridos para testar se cada variável é consistente com MCAR e em sua
maioria possuem como base os dois testes apresentados a seguir.
Pode-se questionar, no entanto, o motivo de se testar especificamente o mecanismo
MCAR. Enders (2010) afirma que além de ser o único mecanismo que produz proposições
testáveis, identificar variáveis que não são MCAR é potencialmente útil porque pode haver
uma relação entre estas variáveis e a probabilidade de ausência de dados. Em Jamshidian,
Jalal e Jansen (2014) é apresentado o pacote MissMech disponível no software R, no
qual estão implementados os métodos para testar a hipótese de MCAR, propostos por
Jamshidian e Jalal (2010).
3.4.1 Teste-𝑡 Univariado
O método mais simples de avaliar MCAR é utilizar uma série de Testes-𝑡 indepen-
dentes para comparar subgrupos com dados incompletos, descrito por Brown (1983). Esta
abordagem separa os casos omissos e completos em uma mesma variável e usa o teste para
verificar se existe diferença significativa dos grupos nas demais variáveis do conjunto de
dados.
Capítulo 3. DADOS INCOMPLETOS 48
O mecanismo MCAR pressupõe que os casos com dados incompletos pertencem
à mesma população dos casos com dados completos e, portanto, têm o mesmo vetor de
médias e matriz de covariância. Por conseguinte, um Teste-𝑡 não significativo fornece
evidências de que os dados são MCAR, enquanto que uma estatística 𝑡 significativa (ou,
alternativamente, uma grande diferença média) sugere que os dados são MAR ou MNAR.
3.4.2 Teste MCAR de Little
Little (1988) propôs uma extensão multivariada da abordagem do Teste-𝑡 que se
aplica para todo o conjunto de dados. Em suma, o teste de Little avalia diferenças médias
entre os subgrupos de casos que compartilham o mesmo padrão de dados incompletos. A
estatística do teste é uma soma ponderada das diferenças padronizadas entre as médias
dos subgrupos e as grandes médias, dada por
𝑑2 =
𝐽∑︁
𝑗=1
𝑛𝑗
(︁
�̂�𝑗 − �̂�
(𝑀𝐿)
𝑗
)︁𝑇
Σ̂−1𝑗
(︁
�̂�𝑗 − �̂�
(𝑀𝐿)
𝑗
)︁
,
em que 𝑛𝑗 é o número de casos com padrão de dados incompletos 𝑗, �̂�𝑗 é o vetor de
médias da variável para os casos com padrão de dados incompletos 𝑗, 𝜇(𝑀𝐿)𝑗 é o vetor de
estimativas de máxima verossimilhança das grandes médias e Σ̂𝑗 é a estimativa de máxima
verossimilhança da matriz de covariância.
Quando a hipótese 𝐻0 é verdadeira, isto é, os dados são MCAR, 𝑑2 é aproximada-
mente distribuída como uma distribuição Qui-quadrado com ∑︀ 𝑝𝑗 − 𝑝 graus de liberdade,
sendo 𝑝𝑗 o número de variáveis completas para o padrão 𝑗 e 𝑝 o número total de variáveis.
Coerente com a abordagem do Teste-𝑡 univariado, uma estatística significativa 𝑑2 fornece
evidências contra MCAR.
3.5 Métodos para o Tratamento de Dados Incompletos
Depois de identificar o mecanismo gerador dos dados incompletos e o seu padrão, de
modo a evitar enviesamentos graves na análise estatística e em sua interpretação, pode-se
fazer o tratamento destes dados através dos métodos de imputação simples e múltipla
apresentados a seguir. Certamente existem inúmeros métodos que poderiam ser aplicados,
no entanto este trabalho limitou-se a testar cinco metodologias, as quais foram escolhidas
pela sua praticidade de aplicação, disponibilidade em ferramentas estatísticas e também
por serem de mais amplo conhecimento.
3.5.1 Deleção de Dados Incompletos
A simplicidade é, sem dúvidas, a principal vantagem dos métodos de imputação
baseados na deleção dos dados incompletos. No entanto, têm sérias limitações que impedem
Capítulo 3. DADOS INCOMPLETOS 49
seu uso na maioria das situações. Devido a potencial perda de informação, esta abordagem
é viável somente nos casos em que os dados incompletos constituem uma porcentagem
ignorável do total de dados e nenhum viés significativo é introduzido por sua eliminação.
Além disso, os métodos de deleção assumem que o mecanismo de perda dos dados é MCAR,
o que pode distorcer as estimativas dos parâmetros quando esta suposição não é válida
(ENDERS, 2010).
3.5.1.1 Análise de Caso Completo
A Análise de Caso Completo (ACC), conhecida também como exclusão listwise,
elimina todas as observações com qualquer quantidade de dados incompletos nas variáveis,
ou seja, apenas são considerados os casos para os quais todas variáveis foram observadas.
Veja que, o intuito deste método não é estimar os dados faltantes, mas sim gerar uma matriz
de dados que possa ser analisada por meio de procedimentos analíticos convencionais, a
fim de se obter as estimativas dos parâmetros de interesse.
Segundo Enders (2010), o principal problema da ACC é que requer dados MCAR
e pode produzir viés grave quando o mecanismo em questão é o MAR. Além do possível
viés encontrado nos resultados, pode-se ter um número extremamente reduzido de casos
completos se existirem muitas variáveis a incluir no modelo. A redução do número de
observações na base leva a que os desvios amostrais aumentem, os intervalos de confiança
dos parâmetros apresentem uma amplitude elevada e a eficiência dos testes de ajuste
diminua.
3.5.2 Imputação Simples
O princípio básico dos métodos de imputação simples ou única é gerar um único
valor para cada dado ausente na base de dados, analisando-a posteriormente como se não
houvesse dados incompletos. A conveniência é uma das maiores vantagens de qualquer
método de imputação simples, sobretudo porque faz uso dos dados que seriam descartados
caso fosse utilizada alguma abordagem de deleção. Apesar destas vantagens aparentes, este
tipo de imputação apresenta limitações, conforme Enders (2010), pelo fato do dado ausente
ser preenchido uma única vez, não agregando a incerteza associada à estimativa gerada.
Este problema acaba fazendo com que as estimativas dos parâmetros sejam tendenciosas,
mesmo em uma situação ideal onde o mecanismo dos dados incompletos é MCAR.
3.5.2.1 Imputação por Medidas de Tendência Central
A imputação por medidas de tendência central é uma solução rápida e simples para
os dados em falta. Tal método é não condicional, uma vez que se substitui o dado faltante
pela média, mediana ou moda dos valores observados na mesma variável de interesse. Aqui,
o termo não condicional refere-se ao fato de que o pesquisador não usa informações acerca
Capítulo 3. DADOS INCOMPLETOS 50
da observação para a qual a imputação é feita. Vale ressaltar que, embora as medidas
de tendência central amostrais continuem após o tratamento dos dados, este método de
imputação altera outras características da distribuição e faz com que a variância seja
subestimada.
A imputação pela média às vezes pode conduzir os dados imputados a resultados
razoáveis, exceto quando existe uma grande quantidade de dados faltantes. A mediana
é sempre recomendada para os casos em que a variável de interesse tem distribuição
assimétrica. Além disso, por não ser afetada pela presença de valores extremos (𝑜𝑢𝑡𝑙𝑖𝑒𝑟𝑠),
geralmente tem um bom desempenho como medida de tendência central. Agora, quando
se tem 𝑚𝑖𝑠𝑠𝑖𝑛𝑔 em variáveis qualitativas, é mais indicadoimputar os dados pela moda.
3.5.2.2 Imputação pelo Vizinho Mais Próximo
Os algoritmos baseados na imputação pelo vizinho mais próximo (𝑘-NN, 𝑘-Nearest
Neighbors) utiliza um conjunto de observações mais similares à observação com valores
ausentes para o propósito de imputação. Estes algoritmos lidam com variáveis quantitativas
e qualitativas, e podem levar em consideração a estrutura de correlação dos dados. Além
disso, tais algoritmos têm capacidade de tratar variáveis contento vários valores ausentes.
Devido a essas características, o 𝑘-NN é um dos métodos mais difundidos na literatura e
amplamente usados na prática.
Neste trabalho, é aplicado o algoritmo de imputação 𝑘𝑛𝑛𝐼𝑚𝑝𝑢𝑡𝑎𝑡𝑖𝑜𝑛 disponível no
pacote 𝐷𝑀𝑤𝑅 do 𝑠𝑜𝑓𝑡𝑤𝑎𝑟𝑒 R. Por padrão, este método usa os valores observados dos
𝑘 vizinhos mais próximos ao item ausente e obtém uma média ponderada (baseada na
distância) para imputá-lo. Caso seja conveniente, pode-se ainda imputar o dado 𝑚𝑖𝑠𝑠𝑖𝑛𝑔
pela mediana, no caso de variáveis quantitativas, ou pelo valor mais frequente, no caso de
variáveis qualitativas.
3.5.2.3 Imputação por Random Forest
A imputação por Random Forest consiste em um método iterativo não paramétrico,
que pode ser aplicado tanto em dados contínuos quanto em categóricos, simultaneamente.
Ser não paramétrico implica que não é necessário verificar a suposição de que os dados
estejam distribuídos de acordo com uma distribuição particular, de tal forma que sua
estimação é feita para que esteja próxima dos dados sem se tornar impraticável.
Os conjuntos de dados, em sua maior parte, contêm interações complexas e não
lineares que podem gerar muitas dificuldades em serem captadas através de procedimentos
paramétricos e o Random Forest por sua vez, devido a sua acurácia e robustez, é apropri-
ado para contornar tais condições. O algoritmo de imputação por Random Forest está
implementado e disponível no pacote 𝑚𝑖𝑠𝑠𝐹𝑜𝑟𝑒𝑠𝑡 do 𝑠𝑜𝑓𝑡𝑤𝑎𝑟𝑒 R. Tal algoritmo ajusta
iterativamente um modelo de Random Forest para os dados observados em cada variável e
Capítulo 3. DADOS INCOMPLETOS 51
então prediz o dado incompleto. Estes dois passos são executados até que se atinja um
critério de parada pré-determinado.
3.5.3 Imputação Múltipla
Com a necessidade de controlar o viés associado à imputação simples, será estudada
outra técnica proposta por Rubin (1978), a imputação múltipla, que consiste em substituir o
dado incompleto por um conjunto de valores prováveis, incorporando assim a incerteza sobre
o dado a ser imputado. Qualquer método de imputação múltipla se resume basicamente
a três etapas principais, imputação, análise e combinação. Um esquema resumido destas
etapas é apresentado na Figura 9.
A primeira etapa começa substituindo os dados ausentes por valores plausíveis
através de métodos adequados de imputação, ao passo que cria 𝑚 > 1 versões completas
destes dados. Os conjuntos de dados imputados são idênticos para as entradas de dados
observados, mas diferem nos valores imputados. A amplitude destas diferenças reflete a
incerteza do pesquisador sobre o dado a ser imputado. Na segunda etapa, separadamente,
os 𝑚 conjuntos de dados imputados são analisados por meio da aplicação de métodos
de análises padrão para dados completos. Por fim, na terceira etapa os 𝑚 resultados
encontrados são combinados para obter uma estimativa pontual final.
Figura 9 – Esquema da imputação múltipla.
Fonte: Adaptado de Enders (2010).
Dentre todas as etapas mencionadas, a primeira é a que requer maior atenção, pois
é decisiva para a validade dos resultados produzidos nas análises posteriores. Outro ponto
importante a ser considerado na imputação múltipla é a escolha do número imputações 𝑚.
Tomar um valor para 𝑚 pequeno pode inflacionar o intervalo de confiança das estimativas
Capítulo 3. DADOS INCOMPLETOS 52
e consequentemente reduzir o poder das análises. Contudo, em razão da alta eficiência
apresentada pela imputação múltipla, considera-se de 3 a 5 imputações para obter resultados
satisfatórios. Para este trabalho serão consideradas 10 imputações.
3.5.3.1 Algoritmo 𝑚𝑖𝑐𝑒
O algoritmo 𝑚𝑖𝑐𝑒 (Multivariate Imputation by Chained Equation), é um método de
imputação baseado no método de Monte Carlo via cadeias de Markov (MCMC), em que
o espaço de estado é o conjunto de todos os valores imputados. Sob certas condições de
compatibilidade das distribuições condicionais, o algoritmo 𝑚𝑖𝑐𝑒 é um amostrador de Gibbs,
uma técnica de simulação Bayesiana que gera uma sequência de amostras das distribuições
condicionais com o propósito de obter uma aproximação da distribuição conjunta. Uma
das suposições do 𝑚𝑖𝑐𝑒 assume que o mecanismo gerador dos dados incompletos é MAR.
Implementado no pacote 𝑚𝑖𝑐𝑒 do 𝑠𝑜𝑓𝑡𝑤𝑎𝑟𝑒 R, o algoritmo 𝑚𝑖𝑐𝑒 é um dos métodos
de imputação mais utilizados pelos usuários desta ferramenta. Pela função do algoritmo
pode-se especificar um método de imputação para cada variável com dados incompletos.
Logo, um conjunto de dados por ter 𝑚𝑖𝑠𝑠𝑖𝑛𝑔 tanto em variáveis quantitativas como
qualitativas. O pacote 𝑚𝑖𝑐𝑒 dispõe de vários métodos de imputação univariados, sendo os
principais apresentados na Tabela 5.
Tabela 5 – Métodos de imputação disponíveis no pacote 𝑚𝑖𝑐𝑒.
Método Descrição Tipo de Variável
𝑛𝑜𝑟𝑚 Regressão linear Bayesiana Quantitativa
𝑛𝑜𝑟𝑚.𝑝𝑟𝑒𝑑𝑖𝑐𝑡 Valores preditos Quantitativa
𝑛𝑜𝑟𝑚.𝑛𝑜𝑏 Regressão estocástica Quantitativa
𝑛𝑜𝑟𝑚.𝑏𝑜𝑜𝑡 Imputação normal com bootstrap Quantitativa
2𝐿.𝑛𝑜𝑟𝑚 Modelo normal multinível Quantitativa
𝑝𝑚𝑚 Média preditiva correspondente Quantitativa
𝑚𝑒𝑎𝑛 Incondicional imputação média Quantitativa
𝑙𝑜𝑔𝑟𝑒𝑔 Regressão logística Quantitativa/Binária
𝑙𝑜𝑔𝑟𝑒𝑔.𝑏𝑜𝑜𝑡 Regressão logística com 𝑏𝑜𝑜𝑡𝑠𝑡𝑟𝑎𝑝 Quantitativa/Binária
𝑝𝑜𝑙𝑦𝑟𝑒𝑔 Regressão logística multinomial Quantitativa/Nominal
𝑙𝑑𝑎 Análise discriminante Quantitativa/Nominal
𝑠𝑎𝑚𝑝𝑙𝑒 Amostra aleatória Quantitativa ou Qualitativa
𝑝𝑜𝑙𝑟 Modelo logito ordenado Quantitativa/Ordinal
Capítulo 3. DADOS INCOMPLETOS 53
A ideia por trás do algoritmo 𝑚𝑖𝑐𝑒 é muito simples. Começa com um sorteio a
partir dos dados observados, e imputa os dados incompletos variável por variável. Cada
iteração percorre todas as variáveis 𝑌𝑗 . O número de iterações 𝑁 em geral é baixo, 5 ou 10.
O algoritmo gera desta forma várias imputações executando o processo a seguir 𝑚 vezes
paralelas:
1. Especifica um método de imputação 𝑃
(︁
𝑌 𝑖𝑛𝑐𝑗 |𝑌 𝑜𝑏𝑠𝑗 , 𝑌−𝑗,𝑅
)︁
para a variável 𝑌𝑗 com
𝑗 = 1, . . . , 𝑝;
2. Para cada 𝑗, começa o preenchimento das imputações 𝑌 0𝑗 a partir de 𝑌 𝑜𝑏𝑠𝑗 ;
3. Repete para 𝑛 = 1, . . . , 𝑁 e, posteriormente, 𝑗 = 1, . . . , 𝑝;
4. Define 𝑌 𝑛−𝑗 =
(︁
𝑌 𝑛1 , . . . , 𝑌
𝑛
𝑗−1, 𝑌
𝑛−1
𝑗+1 , . . . , 𝑌
𝑛−1
𝑝
)︁
como os dados atualmente completos
exceto 𝑌𝑗;
5. 𝜑𝑛𝑗 ∼ 𝑃
(︁
𝜑𝑛𝑗 |𝑌 𝑜𝑏𝑠𝑗 , 𝑌 𝑛−𝑗,𝑅
)︁
;
6. Retira imputações 𝑌 𝑛𝑗 ∼ 𝑃
(︁
𝑌 𝑖𝑛𝑐𝑗 |𝑌 𝑜𝑏𝑠𝑗 , 𝑌 𝑛−𝑗,𝑅, 𝜑𝑛𝑗
)︁
;
7. Repete 𝑗 e depois 𝑛.
54
4 APLICAÇÃO A DADOS DE CRÉDITO
Neste capítulo são apresentados e discutidos os resultados obtidos com a aplicação
dos métodos de imputação, descritos no Capítulo 4, para o ajuste do modelo de regressão
logística a um conjunto de dados de crédito. Para garantir organização, a aplicação deste
trabalho será desenvolvida em algumas etapas. Primeiramente, tratamentos exploratórios
são realizados para que uma maior familiarização com os dados possa ser obtida. Esta
análise inicial tem como objetivos identificar eventuais inconsistências nos dados, além de
definir possíveis transformações de variáveis e a criação de novas a serem utilizadas nos
modelos. Em seguida, utilizando uma abordagem de um problema de risco de crédito, é
feito o ajuste do modelo de regressão logística para a base de dados completa que será
considerado padrão ouro. Por fim, num estudo de simulação, avalia-se o desempenho
dos modelos construídos para cada métodode imputação em dois cenários de dados
incompletos, apontando as principais diferenças entre eles e utilizando como referência
o modelo padrão. Toda a análise estatística foi realizada no 𝑠𝑜𝑓𝑡𝑤𝑎𝑟𝑒 R (R Core Team,
2017).
4.1 Modelagem de Risco de Crédito
Os métodos tradicionais de decisão fundamentados apenas em critérios julgamentais
têm perdido espaço nas operações de crédito das instituições financeiras, que buscam
técnicas mais eficientes para mensurar o risco dos tomadores e das carteiras de crédito. Tal
risco, popularmente chamado de risco de crédito, pode ser entendido como a probabilidade
de um cliente ou tomador de crédito faltar com os pagamentos de qualquer tipo de dívida
ou, mais formalmente, como uma medida da variabilidade dos retornos esperados associados
a ativos financeiros.
Neste contexto, verifica-se uma maior ênfase das instituições na utilização e apri-
moramento de modelos estatísticos como suporte às decisões de concessão de crédito e à
gestão de carteiras (BRITO; NETO, 2008). Na realidade, estes modelos passaram a ser um
importante instrumento para auxiliar os gestores na tomada de decisões que atendam às
diretrizes estabelecidas nas políticas de crédito de instituições. Em especial, a concessão de
crédito ganhou força na rentabilidade das empresas do setor financeiro, se tornando uma
das principais fontes de receita e, por isso, rapidamente, este setor percebeu a necessidade
da modelagem estatística.
De um modo geral, os modelos aplicados em risco de crédito procuram resumir
através de um escore possíveis perdas inesperadas de uma carteira de créditos em de-
Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 55
corrência de mudanças na qualidade do cliente, isto é, estima a probabilidade de um
cliente proponente ao crédito se tornar inadimplente, em determinado período, dadas
suas informações cadastrais e comportamentais de mercado que podem influenciar na
capacidade de pagamento do mesmo. Segundo Diniz e Louzada (2013), em operações de
cobrança, destacam-se os seguintes tipos de modelos de escore:
∙ Modelo de Credit Scoring: baseado em dados cadastrais dos clientes, e é utilizado
nas decisões de aceitação de proponentes a créditos;
∙ Modelo deBehaviour Scoring: baseado em dados transacionais, utilizado nas decisões
de manutenção ou renovação de linhas e produtos para os já clientes;
∙ Modelo de Collection Scoring: baseado em dados transacionais de clientes inadim-
plentes, utilizado nas decisões de priorização de estratégias de cobranças.
Diferentes modelos podem ser utilizados na análise de crédito, a fim de alcançar
melhorias na redução do risco e/ou no aumento de rentabilidade. Entre os quais, podem ser
citados, a regressão logística e linear, árvore de classificação e análise discriminante. Mais
recentemente, outras técnicas têm sido utilizadas no desenvolvimento de modelos de risco
de crédito, como redes neurais, algoritmos genéticos, random forest e redes bayesianas.
4.2 Descrição e Apresentação dos Dados
A base de dados utilizada neste trabalho refere-se a clientes inadimplentes ou
adimplentes (classificação como 𝑏𝑜𝑚 ou 𝑚𝑎𝑢 cliente) no pagamento de um produto de
crédito cedido por uma instituição financeira. A partir deste conjunto de dados esta
instituição tem como objetivo mensurar o risco de inadimplência de possíveis clientes que
possam adquirir o produto. Como os dados contém informações sigilosas e de contribuintes,
a marca da instituição não é veiculada neste trabalho.
A classificação dos clientes de acordo com seu risco de crédito é a variável resposta,
assumindo valor 0, se o cliente foi previamente classificado como 𝑏𝑜𝑚 pagador (adimplente),
e valor 1, se o cliente foi classificado como 𝑚𝑎𝑢 pagador (inadimplente). Em geral, a
segmentação da situação de crédito em 𝑏𝑜𝑚 e 𝑚𝑎𝑢 pagador está associada principalmente
ao número de dias em atraso do cliente num determinado período de tempo.
Dentre os 3355 clientes contidos no conjunto de dados, 274 estão classificados
como 𝑚𝑎𝑢𝑠 pagadores. Para predizer o risco de crédito, são disponibilizados uma série
de informações cadastrais e comportamentais de mercado dos clientes. Na Tabela 6 é
apresentada a caracterização das variáveis presentes no conjunto de dados.
Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 56
Tabela 6 – Caracterização das variáveis em estudo.
Variável Tipo deVariável Categoria Descrição
Dívida Contínua -
Valor financiado pelo cliente em reais,
já incluindo impostos, tarifas, segu-
ros e descontado o valor de entrada
(se houver)
Contrato Contínua - Valor do contrato dado pela soma dovalor das prestações em reais
Principal Contínua - Valor da compra do cliente menos ovalor de entrada
Entrada Contínua - Valor de entrada em reais
Tarifa Contínua - Valor da tarifa do cadastro em reaiscobrado do cliente
Prestação Contínua - Valor da prestação em reais
Seguro Nominal SimNão Seguro do financiamento
IOF Contínua - Valor do imposto sobre operações fi-nanceiras
Parcela Discreta - Quantidade de parcelas do financia-mento
Mensal Contínua -
Valor da Prestação sobre Renda, des-
considerando as casas decimais (não
é arredondamento)
Farol do Bureau
(Fr Bur) Nominal
Amarelo
Vermelho
Verde
Farol do Bureu de crédito. O amarelo
identifica excesso de passagens no Se-
rasa, o vermelho restrição e o verde
indica que o CPF está com nome
limpo
Farol de Alerta
(Fr Aler) Nominal
Amarelo
Verde
Farol de alerta de telefone ou ende-
reço. O amarelo indica que existe vá-
rios endereços para o mesmo telefone
ou vários telefones para o mesmo en-
dereço do cliente e o verde ausência
de problemas
Farol de Dados
(Fr Dad) Nominal
Amarelo
Vermelho
Cinza
Verde
Farol de mudança de dados cadas-
trais. As cores amarelo e vermelho in-
dicam que houve mudança dos dados
coletados a fim de driblar a aprova-
ção de crédito, enquanto que cinza ou
verde representam a ausência deste
problema
Farol do Modelo
(Fr Mod) Nominal
Amarelo
Vermelho
Verde
Farol do modelo de crédito. As co-
res amarelo e vermelho indicam que
houve desenquadramento da política
de crédito, sendo necessária uma aná-
lise manual, enquanto que verde re-
presenta a ausência deste problema
Continua na próxima página
Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 57
Tabela 6 – Caracterização das variáveis em estudo.
Variável Tipo deVariável Categoria Descrição
Idade Contínua - Idade em anos do cliente no momentoda proposta
Gênero Nominal FemininoMasculino Gênero do cliente
UF Nominal - Unidade Federativa de endereço docliente
CEP1 Nominal - O primeiro dígito do CEP - repre-senta a região de endereço do cliente
CEP2 Nominal -
Os dois primeiros dígitos do CEP -
representa a sub-região de endereço
do cliente
Renda Contínua - Renda declarada pelo cliente
Emprego Contínua - Tempo em meses que o cliente estáno atual emprego
Ocupação Nominal - Código de natureza de ocupação (vertabela no Apêndice C)
Outras Rendas
(Out Ren) Nominal
Sim
Não
Outras rendas informadas pelo cli-
ente (segundo emprego, rendimentos
de capitais, etc)
Tempo C/C Contínua - Tempo em anos de abertura de contacorrente
Contratos Liquidados
(Cont Liq) Discreta -
Quantidade histórica de contratos li-
quidados na instituição
Contratos Aberto
(Cont Aber) Discreta -
Quantidade histórica de contratos em
aberto na instituição
Atraso Contínua -
Tempo de atraso em dias do contrato
visto a 1 anos depois. Como é utili-
zada para a marcação da Resposta,
não deve entrar no modelo
Resposta Nominal BomMau
Marcação como bom e mau cliente
para a modelagem
4.3 Tratamento das Variáveis Explicativas
Conforme Diniz e Louzada (2013), uma prática muito comum, sobretudo quando
se desenvolve modelos para risco de crédito, é tratar as variáveis explicativas como
qualitativas, independente da natureza contínua ou discreta, e buscando, sempre que
possível, simplicidade na interpretação dos resultados obtidos. Como o conjunto de dados
contém variáveis quantitativas, então será adotado para este trabalho o procedimento de
categorização destas variáveis.
A categorização ourecategorização deve ser feita tanto para variáveis originalmente
quantitativas como para as qualitativas. No caso das variáveis de origem qualitativa, a ideia
é que se construa uma quantidade não muito excessiva de categorias com números suficientes
Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 58
de indivíduos para que a análise seja robusta. Enquanto que as variáveis quantitativas,
uma vez transformadas em qualitativas, ganham com relação a interpretabilidade dos
parâmetros. Para as variáveis contínuas, Thomas, Edelman e Crook (2002) relatam que
este tipo de transformação pode trazer ganhos também no poder preditivo do modelo,
principalmente quando a relação entre a variável explicativa em questão e o evento de
interesse é não-linear.
Existem diversas medidas descritivas que auxiliam na identificação de categorias
das variáveis com alto ou baixo poder de discriminação dos clientes 𝑏𝑜𝑛𝑠 e 𝑚𝑎𝑢𝑠 pagadores.
Uma delas é através do cálculo do risco relativo (RR - Relative Risk), o qual pode ser
definida em risco de crédito como a razão de riscos entre clientes 𝑏𝑜𝑛𝑠 e 𝑚𝑎𝑢𝑠 ou vice-versa.
Outra medida bastante utilizada é o peso de evidências (WOE - Weights of Evidence),
obtido a partir do logaritmo do risco relativo e tem a vantagem de ter o valor 0 como
ponto de referência. O cálculo do 𝑅𝑅 e 𝑊𝑂𝐸 está exemplificado na Tabela 7.
Tabela 7 – Exemplo do cálculo das medidas descritivas 𝑅𝑅 e 𝑊𝑂𝐸.
Categoria 𝑛𝑚𝑎𝑢𝑠 Π𝑚𝑎𝑢𝑠 𝑛𝑏𝑜𝑛𝑠 Π𝑏𝑜𝑛𝑠 𝑅𝑅 𝑊𝑂𝐸
1 𝑚1 𝑚1/𝑚 𝑏1 𝑏1/𝑏 (𝑚1/𝑚)/(𝑏1/𝑏) 𝑙𝑛 [(𝑚1/𝑚)/(𝑏1/𝑏)]
2 𝑚2 𝑚2/𝑚 𝑏2 𝑏2/𝑏 (𝑚2/𝑚)/(𝑏2/𝑏) 𝑙𝑛 [(𝑚2/𝑚)/(𝑏2/𝑏)]
... ... ... ... ... ... ...
𝑘 𝑚𝑘 𝑚𝑘/𝑚 𝑏𝑘 𝑏𝑘/𝑏 (𝑚𝑘/𝑚)/(𝑏𝑘/𝑏) 𝑙𝑛 [(𝑚𝑘/𝑚)/(𝑏𝑘/𝑏)]
Total 𝑚 100% 𝑏 100% 1 0
A partir do 𝑊𝑂𝐸, por exemplo, pode-se avaliar as categorias das variáveis explica-
tivas da seguinte forma:
∙ 𝑊𝑂𝐸 < 0: negativo e quanto mais distante de zero, maiores são as chances de o
cliente apresentar menor risco de crédito, indicando que a categoria apresenta algum
poder para discriminar clientes 𝑏𝑜𝑛𝑠.
∙ 𝑊𝑂𝐸 = 0: indica que se a variável assumir a categoria, não há indícios de o cliente
ser de maior ou menor risco de inadimplência comparado à análise desconsiderando
esta categoria;
∙ 𝑊𝑂𝐸 > 0: positivo e quanto mais distante de zero, maiores são as chances de o
cliente apresentar maior risco de crédito, indicando que a categoria apresenta algum
poder para discriminar clientes 𝑚𝑎𝑢𝑠;
O 𝑅𝑅 e o 𝑊𝑂𝐸 são as medidas mais comuns para agrupar as categorias de uma
variável que têm risco de crédito semelhantes. Porém, nem sempre esta tarefa é fácil sem a
utilização de um método formal, pois, frequentemente, há inúmeras categorizações razoáveis.
Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 59
Nestes casos, deve escolher então a categorização que apresentar a maior associação entre
a variável explicativa e a resposta.
Diniz e Louzada (2013), sugerem a transformação de variáveis através da técnica
𝐶𝐻𝐴𝐼𝐷 (Chi-Squared Automatic Interaction Detector), que é um algoritmo utilizado
para avaliar a relação entre a variável resposta e uma ou mais variáveis explicativas, sendo
o resultado apresentado em forma de árvore de decisão. A criação de categorias para
as variáveis quantitativas ou o reagrupamento das qualitativas é baseada no teste de
associação Qui-Quadrado, buscando a melhor categorização dos dados com relação a cada
uma destas variáveis ou conjunto delas.
No entanto, antes de se prosseguir, é necessário conhecer as variáveis, seus casos
possíveis e distribuições. A princípio foi feita uma análise descritiva dos dados. A partir
da análise de correlação, por exemplo, pode-se notar que algumas variáveis explicati-
vas estavam fortemente correlacionadas, podendo causar posteriormente problemas de
multicolinearidade no modelo. A Figura 10 apresenta o gráfico de correlação mista das
variáveis identificadas com maior grau de associação. Como o conjunto dados contém
tanto variáveis quantitativas como qualitativas, utilizaram-se diferentes medidas para
mensura esta associação. Entre variáveis do mesmo tipo, foram aplicados o coeficiente de
correlação de Pearson para variáveis quantitativas e o coeficiente de associação de Yule
para as variáveis qualitativas dicotômicas. Enquanto que para mensurar a associação entre
variáveis quantitativas e qualitativas usou-se o coeficiente de correlação ponto-bisserial
(FERGUSON, 1981). Dentre as variáveis altamente correlacionadas manteve-se na análise
apenas as mais importantes.
Figura 10 – Gráfico de correlação mista .
Fonte: Elaborado pelo autor.
Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 60
Prosseguindo, o procedimento de transformação de variáveis contínuas consistiu
inicialmente em criar categorias com faixas de valores baseadas nos decis. A partir desta
categorização, foi analisada a frequência de clientes 𝑏𝑜𝑛𝑠 e 𝑚𝑎𝑢𝑠 em cada categoria da
variável, a fim de identificar categorias semelhantes quanto à variável resposta que pudessem
ser agrupadas. Para isso, fez-se o uso das medidas descritivas e técnicas abordadas nesta
seção. A Tabela 8 apresenta o resultado da categorização das variáveis quantitativas
contidas no conjunto de dados adotada para o trabalho.
Dado que a resposta de maior interesse, denominada 𝑠𝑢𝑐𝑒𝑠𝑠𝑜, é o cliente propo-
nente ao crédito ser um 𝑚𝑎𝑢 pagador, observa-se na tabela que as categorias com maior
contribuição para o risco de inadimplência, desconsiderando o efeito das demais, são
dívidas com valor igual ou maior que R$ 4800,00 e também de longa duração (20 meses
ou mais), clientes com idade inferior a 32 anos ou menos, tempo no atual emprego menor
que 15 meses, tempo de abertura da conta corrente menor que 5 meses e sem contratos
liquidados ou em aberto na instituição. Por outro lado, as características dos clientes ou do
empréstimo que individualmente apresentaram menor risco de inadimplência, são dívidas
com valor igual ou menor que R$ 2600,00 e também de curta duração (10 meses ou menos),
valor da tarifa de cadastro menor que R$ 10,00, valor da prestação acima de R$ 830,00,
valor mensal menor que R$ 10,00, clientes com 33 anos ou mais, tempo no atual emprego
de 15 meses ou mais, tempo de abertura da conta corrente entre 5 e 10 meses e com pelo
menos um contrato liquidado na instituição.
Tabela 8 – Categorização das variáveis quantitativas do conjunto de dados.
Variável Categoria 𝑛𝑚𝑎𝑢𝑠 Π𝑚𝑎𝑢𝑠 𝑛𝑏𝑜𝑛𝑠 Π𝑏𝑜𝑛𝑠 𝑅𝑅 𝑊𝑂𝐸
Dívida
< 2600
[2600, 4800)
≥ 4800
62
121
91
22,63
44,16
33,21
1281
1191
609
41,58
38,66
19,77
0,544
1,142
1,680
-0,608
0,133
0,519
⋆
Tarifa
< 10
[10, 15)
≥ 10
3
241
30
1,09
87,96
10,95
102
2672
307
3,31
86,72
9,96
0,331
1,014
1,099
-1,106
0,014
0,094
⋆
Prestação < 830≥ 830
259
15
94,53
5,47
2743
338
89,03
10,97
1,062
0,499
0,060
-0.695
⋆
Parcela
< 10
[10, 20)
≥ 20
82
100
92
29,93
36,50
33,58
1578
903
600
51,22
29,31
19,47
0,584
1,245
1,724
-0,537
0,219
0,545
⋆
Mensal < 10≥ 10
42
232
15,33
84,67
831
2250
26,97
73,03
0,568
1,159
-0,565
0,148 ⋆
Idade < 33≥ 33
157
117
57,30
42,70
921
2160
29,89
70,11
1,917
0,609
0,651
-0,496 ⋆
Renda < 2000≥ 2000
130
144
47,44
52,55
1261
1820
40,93
59,07
1,159
0,890
0,148
-0,117 ⋆
Emprego < 15≥ 15
194
80
70,80
29,20
1610
1471
52,26
47,74
1,355
0,612
0,304
-0,492 ⋆
Continua na próxima página
Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 61
Tabela 8 – Caracterização das variáveis em estudo.
Variável Categoria 𝑛𝑚𝑎𝑢𝑠 Π𝑚𝑎𝑢𝑠 𝑛𝑏𝑜𝑛𝑠 Π𝑏𝑜𝑛𝑠 𝑅𝑅 𝑊𝑂𝐸
Tempo C/C < 10≥ 10
225
49
82,12
17,88
1853
1228
60,14
39,86
1,365
0,449
0,311
-0,801
⋆
Cont Liq 0≥ 1
201
73
73,36
26,64
1488
1593
48,30
51,70
1,519
0,515
0,418
-0,663
⋆
Cont Aber 0≥ 1
229
45
83,58
16,42
2713
368
88,06
11,94
0,949
1,375
-0,052
0,318
⋆
Na Tabela 9 tem-se a recategorização das variáveis qualitativas do conjunto de
dados. A definição dos grupos de UF é apresentada no Apêndice C. Com relação às
categorias que mais contribuem para o aumento no riscode inadimplência, destacam-se o
status de clientes que não pagaram entrada para a quitação da dívida, com excesso de
passagens ou restrição no Serasa, mudanças nos dados cadastrais para a aprovação de
crédito, pertencentes ao Grupo 1 de UF e com natureza de ocupação liberal ou autônomo.
Em contrapartida, as categorias que individualmente reduzem o risco de inadimplência
são clientes pertencentes ao grupo 3 de UF, com natureza de ocupação aposentado ou
pensionista, proprietário ou outros e que possuem outras fontes de renda.
Tabela 9 – Recategorização das variáveis qualitativas do conjunto de dados.
Variável Categoria 𝑛𝑚𝑎𝑢𝑠 Π𝑚𝑎𝑢𝑠 𝑛𝑏𝑜𝑛𝑠 Π𝑏𝑜𝑛𝑠 𝑅𝑅 𝑊𝑂𝐸
Entrada SimNão
7
267
2,55
97,44
50
3031
1,62
98,38
1,574
0,991
0,454
-0,009 ⋆
Seguro SimNão
231
43
84,31
15,69
2574
507
83,54
16,46
1,009
0,954
0,009
-0,047
⋆
Fr Bur Amarelo ou vermelhoVerde
57
217
20,80
79,18
461
2620
14,96
85,04
1,390
0,931
0,330
-0,071 ⋆
Fr Aler AmareloVerde
39
235
14,23
85,77
567
2514
18,40
81,60
0,773
1,051
-0,257
0,050 ⋆
Fr Dad Amarelo ou vermelhoCinza ou verde
9
265
3,28
96,71
46
3035
1,49
98,51
2,200
0,982
0,788
-0,018 ⋆
Gênero FemininoMasculino
159
115
58,03
41,97
1924
1157
62,45
37,55
0,929
1,118
-0,073
0,111
⋆
UF
Grupo 1
Grupo 2
Grupo 3
46
212
16
16,79
77,37
5,84
287
2568
226
9,31
83,35
7,33
1,802
0,928
0,796
0,589
-0,074
-0,228
⋆
Ocupação
Aposentado ou pensionista
CLT
Liberal ou autônomo
Proprietário
Outros
11
116
100
19
28
4,01
42,34
36,50
6,93
10,22
279
1347
726
329
400
9,06
43,72
23,56
10,68
12,98
0,443
0,968
1,549
0,649
0,787
-0,813
-0,032
0,437
-0,432
-0,239
⋆
Out Ren SimNão
165
109
60,22
39,78
2246
835
72,90
27,10
0,826
1,468
-0,191
0,384
⋆
Após o tratamento das variáveis explicativas do conjunto de dados, o próximo
passo é a criação das variáveis 𝑑𝑢𝑚𝑚𝑖𝑒𝑠 para as categorias. Neste caso, adotou-se como
Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 62
regra para a definição da casela de referência, a categoria de cada variável em que o 𝑅𝑅
mais se aproxima do valor 1 ou, equivalentemente, para o 𝑊𝑂𝐸 mais próximo do valor
0, indicando que esta categoria tem um efeito neutro na discriminação de 𝑏𝑜𝑛𝑠 e 𝑚𝑎𝑢𝑠
clientes. Para o melhor entendimento, estas categorias estão representadas nas tabelas
acima por (⋆).
4.4 Partição do Conjunto de Dados
Um problema comum na aplicação de modelos ou algoritmos de classificação é
o overfitting (superajuste). Na prática este problema ocorre quando o modelo se ajusta
perfeitamente aos dados históricos, porém o mesmo não acontece quando aplicado a novos
dados. Neste caso, para evitá-lo, o conjunto de dados foi particionado aleatoriamente em
duas bases, uma para treinamento, sob a qual é feito a seleção de variáveis e posteriormente
ajustado o modelo final e, a outra para teste, em que é verificado sua capacidade de
generalização. Pode-se observar na Tabela 10 que a distribuição dos 𝑏𝑜𝑛𝑠 e 𝑚𝑎𝑢𝑠 clientes,
nas bases particionadas de treinamento e teste, caracterizam bem o conjunto de dados
original.
Tabela 10 – Distribuição dos clientes nas bases de treinamento e teste.
Clientes Base de treinamento Base de teste
𝑛 % 𝑛 %
𝐵𝑜𝑛𝑠 2165 92,21 916 90,96
𝑀𝑎𝑢𝑠 183 7,79 91 9,04
Total 2348 100,00 1007 100,00
De acordo com Diniz e Louzada (2013), particionar o conjunto de dados em bases
de treinamento e teste é conveniente e resulta em benefícios técnicos. Isto é feito com
a intenção de verificar o desempenho de predição e comparar os diferentes modelos. É
interessante um número suficientemente grande de observações para que uma partição
deste tipo seja adequado. Porém, sempre que possível, esta partição jamais deve substituir
a validação do modelo em um conjunto de dados mais recente.
4.5 Seleção de Variáveis
Uma vez definida a base de treinamento a ser utilizada para ajustar o modelo de
regressão logística, resta apenas saber qual a melhor forma para encontrar um modelo
parcimonioso e que contenha somente as variáveis mais importantes que explicam a
probabilidade do cliente ser um 𝑚𝑎𝑢 pagador em determinado período de tempo. Neste caso,
utilizar algum método de seleção de variáveis pode não somente melhorar o desempenho
do modelo final, como também facilitar a interpretação dos parâmetros estimados.
Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 63
Para a seleção de variáveis, além do método 𝑠𝑡𝑒𝑝𝑤𝑖𝑠𝑒 citado anteriormente, faz-se
o uso do algoritmo Boruta disponível no pacote Boruta do software R. Precisamente,
o Boruta funciona como um algoritmo de seleção de atributos baseado na estratégia
𝑤𝑟𝑎𝑝𝑝𝑒𝑟1, capaz de trabalhar com qualquer método de classificação que forneça uma
medida de importância da variável, sendo Random Forest o algoritmo padrão.
Na Tabela 11 são apresentados os resultados da seleção de variáveis 𝑠𝑡𝑒𝑝𝑤𝑖𝑠𝑒
utilizando como critério o teste da razão de verossimilhança. Para a tabela em questão, é
importante ressaltar que foram consideradas relevantes para o modelo de regressão apenas
as variáveis selecionadas com p-valor de teste inferior ao nível de significância 𝛼 = 0, 1.
Tabela 11 – Seleção de variáveis 𝑠𝑡𝑒𝑝𝑤𝑖𝑠𝑒 utilizando como critério o teste da razão de
verossimilhança.
Variável Dummy 𝐺 P-valor
Dívida < 2600 10,207 0,001
Dívida ≥ 4800 6,292 0,012
Prestação ≥ 830 11,359 0,000
Mensal < 10 9,869 0,002
Fr Bur
Amarelo/Vermelho
8,803 0,003
Fr Dad
Amarelo/Vermelho
4,829 0,028
Idade < 33 7,646 0,006
Gênero Masc 6,753 0,009
Emprego < 15 11,551 0,001
Ocupação
Liberal/Autônomo
5,494 0,019
Ocupação
Proprietário
2,817 0,093
Tempo C/C ≥ 10 10,280 0,001
Cont Liq ≥ 1 24,807 0,000
Cont Aber ≥ 1 5,754 0,016
Com a aplicação do algoritmo Boruta, é possível verificar se outras variáveis
𝑑𝑢𝑚𝑚𝑖𝑒𝑠, além daquelas selecionadas pelo 𝑠𝑡𝑒𝑝𝑤𝑖𝑠𝑒, podem explicar de forma satisfatória
a variância da variável resposta e tornar o modelo ainda mais robusto. Como pode ser
visto na Figura 11, este algoritmo seleciona iterativamente as variáveis conforme os escores
computados com base em uma medida de importância que, por padrão, é a diminuição
média da acurácia.
1 A estratégia 𝑤𝑟𝑎𝑝𝑝𝑒𝑟 é uma técnica que executa o próprio algoritmo de classificação para selecionar o
subconjunto de atributos mais adequado.
Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 64
Figura 11 – Gráfico da seleção de variáveis pelo algoritmo Boruta.
−
5
0
5
10
15
Im
po
rt
ân
ci
a 
da
 V
ar
iá
ve
l
E
sc
or
e 
M
ín
im
o
O
cu
pa
çã
o 
O
ut
ro
s
O
cu
pa
çã
o 
A
po
s
O
cu
pa
çã
o 
P
ro
p
F
r 
B
ur
 A
m
ar
/V
er
m
E
nt
ra
da
 S
im
E
sc
or
e 
M
éd
io
F
r 
A
le
r 
A
m
ar
U
F
 G
ru
po
 3
U
F
 G
ru
po
 1
Ta
rif
a 
>
=
 1
5
E
m
pr
eg
o 
<
 1
5
C
on
t A
be
r 
>
=
 1
M
en
sa
l <
 1
0
R
en
da
 <
 2
00
0
Ta
rif
a 
<
 1
0
F
r 
D
ad
 A
m
ar
S
eg
ur
o 
N
ão
E
sc
or
e 
M
áx
im
o
G
ên
er
o 
M
as
c
O
cu
pa
çã
o 
Li
b
P
ar
ce
la
 >
=
 2
0
P
ar
ce
la
 <
 1
0
Te
m
po
 C
/C
 >
=
 1
0
D
iv
id
a 
>
=
 4
80
0
C
on
t L
iq
 >
=
 1
P
re
st
aç
ão
 >
=
 8
30
D
iv
id
a 
<
 2
60
0
Id
ad
e 
<
 3
3
Fonte: Elaborado pelo autor.
No gráfico os boxplots azuis representam os escores de referência a partir dos quais
é feita a classificação das variáveis, os boxplots verdes indicam as variáveis consideradas
importantes para o modelo, os boxplots vermelhos referem-se às variáveis rejeitadas e, por
fim, os boxplots amarelos representam a incerteza, ou seja, as variáveis que apresentam
escores tão próximos do escore de referência máximo que o algoritmo não consegue decidir
pela aceitação ou não das mesmas. Note que, de acordo com o algoritmo Boruta, as
𝑑𝑢𝑚𝑚𝑖𝑒𝑠 da variável Parcela também podem ser relevantes para a predição da variável
resposta, e por isso devem ser avaliadas durante o ajuste do modelo.
4.6 Modelo de Regressão Logística para Dados Completos
Conforme a estratégia de desenvolvimento da aplicação adotada, ajustou-se o
modelo de regressão logística padrãopara a base de treinamento a partir dos resultados
obtidos através dos métodos de seleção de variáveis. Na Tabela 12 têm-se os coeficientes
estimados da regressão e algumas estatísticas associadas. Veja que foram designadas duas
cores para os coeficientes do modelo, verde e vermelho, que indicam a pontuação nas
categorias de 𝑏𝑜𝑛𝑠 ou 𝑚𝑎𝑢𝑠 clientes, respectivamente.
Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 65
Tabela 12 – Resultados do modelo de regressão logística múltipla padrão ajustado.
Variável Parâmetro Estimativa
Erro
Padrão
Ψ̂
𝐼𝐶Ψ(95%)
𝑊 P-valor
𝐿𝐼 𝐿𝑆
Intercepto 𝛽0 -2,662 0,238 0,070 0,044 0,111 -11,163 0,000
Dívida < 2600 𝛽1 -0,839 0,211 0,432 0,286 0,653 -3,978 0,000
Dívida ≥ 4800 𝛽2 0,465 0,188 1,591 1,100 2,302 2,467 0,014
Prestação ≥ 830 𝛽3 -1,119 0,364 0,327 0,160 0,666 -3,076 0,002
Fr Bur
Amarelo/Vermelho
𝛽4 0,494 0,197 1,639 1,114 2,413 2,506 0,012
Fr Dad
Amarelo/Vermelho
𝛽5 0,971 0,458 2,640 1,076 6,478 2,119 0,034
Idade < 33 𝛽6 0,523 0,176 1,688 1,196 2,381 2,979 0,003
Gênero Masc 𝛽7 0,367 0,164 1,443 1,047 1,990 2,237 0,025
Emprego < 15 𝛽8 0,528 0,175 1,696 1,202 2,392 3,011 0,003
Ocupação
Liberal/Autônomo
𝛽9 0,471 0,171 1,601 1,144 2,240 2,747 0,006
Tempo C/C ≥ 10 𝛽10 -0,698 0,219 0,498 0,324 0,764 -3,194 0,001
Cont Liq ≥ 1 𝛽11 -0,948 0,185 0,388 0,270 0,557 -5,120 0,000
Log da verossimilhança = −555, 912
Pela razão de chances, conclui-se, por exemplo, que clientes para os quais houve
mudanças de dados a fim driblar a aprovação de crédito são 2,640 vezes mais propensos
à inadimplência do que clientes com ausência de mudanças dos dados cadastrais. Já
os clientes que estão no atual emprego menos de 15 meses são 1,696 mais propensos à
inadimplência do que os clientes que estão há mais tempo. Clientes com dívida igual ou
maior que R$ 4800,00 são 1,591 vezes mais propensos que os clientes com dívida entre R$
2600 e R$ 4800, e assim por diante.
Seguindo ao que foi discutido nos capítulos anteriores, o próximo passo é verificar
se de fato o modelo está bem ajustado e dispõe de um poder preditivo aceitável. Para
corroborar a hipótese de que o modelo é adequado para os dados foi aplicado o teste de
Hosmer-Lemeshow, cujos resultados da partição da base pelo teste estão apresentados na
Tabela 13. O p-valor para o teste de Hosmer-Lemeshow foi 0,860, indicando neste caso que
não se deve rejeitar a hipótese nula de que o modelo se ajusta de forma satisfatória aos
dados, isto é, têm-se evidências de que o modelo está bem ajustado aos dados do problema
proposto.
Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 66
Tabela 13 – Partição da base para o teste de Hosmer-Lemeshow.
Grupo 𝑌 = 1 𝑌 = 0 TotalObservado Esperado Observado Esperado
1 2 2, 07 237 236, 93 239
2 3 3, 96 247 246, 04 250
3 5 4, 92 211 211, 08 216
4 5 7, 50 232 229, 50 237
5 14 10, 26 223 226, 74 237
6 15 13, 05 216 217, 95 231
7 15 18, 59 230 226, 41 245
8 22 23, 45 203 201, 55 225
8 39 36, 07 195 197, 93 234
10 63 63, 13 171 170, 87 234
A Tabela 14, por sua vez, mostra as métricas de desempenho para a avaliação da
capacidade preditiva do modelo obtido, tanto na base de treinamento quanto na base
de teste. Tendo em vista a dificuldade de se obter modelos de alta performance na área
de risco de crédito, principalmente em bases de dados desbalanceadas como é o caso da
base adotada para este trabalho, em que o sucesso, os 𝑚𝑎𝑢𝑠 pagadores, é um evento raro,
pode-se considerar que o modelo padrão proposto apresenta performance satisfatória.
Note que, como se espera de qualquer modelo de predição, as métricas são seme-
lhantes em ambas as bases. Logo, o modelo não possui problema de 𝑜𝑣𝑒𝑟𝑓𝑖𝑡𝑡𝑖𝑛𝑔 e sua
real taxa de acerto é igual a 69,02%. Isto quer dizer que a cada 100 produtos de crédito,
espera-se que o modelo acerte o comportamento de pagamento de 69 clientes, ou seja,
quem será 𝑚𝑎𝑢 pagador.
Tabela 14 – Métricas de desempenho para o modelo de regressão logística padrão.
Base Métrica de desempenhoTA % TE % S % E % ROC KS Gini
Treinamento 68,61 31,39 73,77 68,18 0,777 0,427 0,555
Teste 69,02 30,98 69,23 69,00 0,743 0,404 0,485
Uma ressalva deve ser feita, a de que analisar apenas a taxa de acerto pode não
fornecer todas informações relevantes sobre a qualidade de ajuste do modelo. Pode-se
então analisar a curva ROC, por exemplo, a qual é apresentada na Figura 12. Uma vez
que a área sob a curva ROC é 0,777, o poder de predição do modelo ajustado é aceitável
e, portanto, tem-se condições suficientes para utilizá-lo em predições do comportamento
de pagamento de clientes futuros.
Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 67
Figura 12 – Curva ROC para o modelo de regressão logística padrão nas bases de treina-
mento e teste.
0.00
0.25
0.50
0.75
1.00
0.00 0.25 0.50 0.75 1.00
1−Especificidade
S
en
si
bi
lid
ad
e
Base de treinamento				 Base de teste				
Fonte: Elaborado pelo autor.
Anteriormente, ainda foram discutidas as definições de algumas medidas de re-
síduos e diagnóstico do modelo exploradas com frequência na literatura. Na Figura 13,
correspondente a análise gráfica dos resíduos de Pearson e 𝐷𝑒𝑣𝑖𝑎𝑛𝑐𝑒 padronizados em
relação a ordem das observações, nota-se que os resíduos não apresentam qualquer padrão,
não havendo desta forma qualquer tipo de heterocedasticidade. Embora apenas os resíduos
negativos estejam concentrados em torno do valor 0, tanto a amplitude dos resíduos
positivos como a amplitude dos resíduos negativos é constante, o que indica não haver
anomalias no ajustamento do modelo.
Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 68
Figura 13 – Gráficos dos resíduos de Pearson e 𝐷𝑒𝑣𝑖𝑎𝑛𝑐𝑒 padronizados do modelo de
regressão logística padrão.
Fonte: Elaborado pelo autor.
A Figura 14 mostra o gráfico dos resíduos 𝐷𝑒𝑣𝑖𝑎𝑛𝑐𝑒 padronizados 𝑣𝑒𝑟𝑠𝑢𝑠 os valores
ajustados do modelo. As observações (clientes) que apresentam resíduos mais elevados
estão identificadas e apenas correspondem a resíduos positivos. Visto que o padrão de
comportamento deste conjunto de dados refere-se à categoria dos 𝑏𝑜𝑛𝑠 pagadores, é visível
que os resíduos destas observações correspondem as situações nas quais houve uma quebra
no padrão de comportamento dos clientes, apesar da evidência dada pelo modelo em
contrário. No entanto, não se pode confirmar que há um mau ajustamento do modelo
neste caso. A correlação entre os valores ajustados e os resíduos do modelo é -0,009, que é
um valor bastante próximo de 0.
Figura 14 – Resíduos 𝐷𝑒𝑣𝑖𝑎𝑛𝑐𝑒 padronizados 𝑣𝑒𝑟𝑠𝑢𝑠 valores ajustado do modelo de
regressão logística padrão.
Fonte: Elaborado pelo autor.
Para a análise de observações influentes, foram utilizadas a medida de Leverage e
a distância de Cook. Como pode ser visto na Figura 15, nenhuma observação parece ser
Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 69
ponto influente, não sendo portanto necessário retirar observações da base de dados.
Figura 15 – Medida de Leverage e distância de Cook para o modelo de regressão logística
padrão.
Fonte: Elaborado pelo autor.
Depois de ter feito a análise de resíduos e de observações influentes, resta avaliar a
possível existência do problema de multicolinearidade. Para isso, calculou-se o 𝑉 𝐼𝐹 para
cada variável explicativa contida no modelo, conforme a Tabela 15. Como, neste caso, todos
os valores 𝑉 𝐼𝐹 são menores do que 5, não se verifica a presença de multicolinearidade
entre as variáveis do modelo.
Tabela 15 – Avaliação da multicolinearidade.
Variável Dummy 𝑉 𝐼𝐹
Dívida < 2600 1,168
Dívida ≥ 4800 1,186
Prestação ≥ 830 1,037
Fr Bur
Amarelo/Vermelho
1,037
Fr Dad
Amarelo/Vermelho
1,015
Idade < 33 1,185
Gênero Masc 1,014
Emprego < 15 1,025
Ocupação
Liberal/Autônomo
1,010
Tempo C/C ≥ 10 1,172
Cont Liq ≥ 1 1,028
Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 70
4.7 Estudo de Simulação
A seção anterior se atentou a detalhar o processo de desenvolvimento do modelo de
regressão logística, através do qual foi obtido um modelo para a base de dados completos
que será comparado comos modelos a serem ajustados para bases de dados incompletos e,
assim, poder avaliar o melhor método de imputação. Ou seja, os resultados obtidos com a
análise dos dados completos são considerados valores verdadeiros.
Nesta seção, a partir dos dados completos, foram criados, por simulação, dois
cenários de dados incompletos, em que se exclui, considerando a variável Gênero, 5%
e 20% das observações apenas das variáveis Idade, Emprego e Ocupação. Neste caso,
as distribuições destas variáveis passam a variar de acordo com Gênero, podendo então
assumir que o mecanismo gerador dos dados incompletos foi o MAR.
O modelo de regressão logística foi ajustado para cada método de imputação citado
no Capítulo 4, conforme elucida a Tabela 16. Para a comparação destes modelos, além
das métricas de desempenho, também serão considerados como medidas de comparação
o valor da estimativa de máxima verossimilhança dos parâmetros da regressão, seu erro
padrão e o p-valor associado. Visando uma comparação dos modelos que seja razoável,
a partição das bases de dados imputadas será dada através da mesma semente aleatória
utilizada para a determinação das bases de treinamento e teste que foram utilizadas para
o ajuste do modelo padrão, denotado nesta seção como MP.
Tabela 16 – Métodos de imputação comparados.
Modelo Método de Imputação
M1 Análise de casos completos
M2 Mediana e moda
M3 Vizinho mais próximo 𝑘-NN
M4 Random Forest
M5 𝑛𝑜𝑟𝑚 e 𝑝𝑜𝑙𝑦𝑟𝑒𝑔 (algoritmo 𝑚𝑖𝑐𝑒)
M6 𝑝𝑚𝑚 e 𝑙𝑑𝑎 (algoritmo 𝑚𝑖𝑐𝑒)
4.7.1 Resultados e Discussões
Os primeiros resultados apresentados são a retirada aleatória de 5% dos dados da
base completa. O primeiro passo é verificar o padrão de dados incompletos, apresentado
no gráfico da Figura 16. Tal padrão é baseado na localização dos dados faltantes, ou seja,
em cada variável. Como pode ser visto no gráfico, os dados 𝑚𝑖𝑠𝑠𝑖𝑛𝑔 aparecem de forma
arbitraria entre as variáveis que sofreram perdas, o que caracteriza o padrão geral de dados
incompletos.
Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 71
Figura 16 – Padrão dos dados incompletos com 5% de 𝑚𝑖𝑠𝑠𝑖𝑛𝑔.
Fonte: Elaborado pelo autor.
Uma comparação dos resultado obtidos para o modelo logístico ajustado com dados
completos e com simulação de 5% de dados faltantes é mostrada na Tabela 17. Quando
comparados os ajustes, observa-se, que de um modo geral, os valores das estimativas, erros
padrão e p-valores dos modelos construídos a partir dos métodos 𝑘-NN e Random Forest,
respectivamente, se assemelham mais ao modelo padrão. Em contrapartida, o modelo mais
discrepante refere-se à análise de casos completos, o que já era esperado, uma vez que este
método apresenta perdas consideráveis de eficiência.
Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 72
Tabela 17 – Resultados dos modelos de regressão logística para dados completos e incom-
pletos com 5% de 𝑚𝑖𝑠𝑠𝑖𝑛𝑔.
Variável Estatísticas ModeloMP M1 M2 M3 M4 M5 M6
Intercepto
Estimativa
Erro Padrão
P-valor
-2,662
0,238
0,000
-2,780
0,246
0,000
-2,671
0,240
0,000
-2,619
0,237
0,000
-2,662
0,238
0,000
-2,858
0,239
0,000
-2,850
0,239
0,000
Dívida < 2600
Estimativa
Erro Padrão
P-valor
-0,839
0,211
0,000
-0,749
0,207
0,000
-0,832
0,211
0,000
-0,832
0,211
0,000
-0,839
0,211
0,000
-0,718
0,203
0,000
-0,724
0,203
0,000
Dívida ≥ 4800
Estimativa
Erro Padrão
P-valor
0,465
0,188
0,014
0,569
0,189
0,003
0,471
0,188
0,012
0,464
0,188
0,014
0,465
0,188
0,014
0,530
0,188
0,005
0,539
0,189
0,004
Prestação ≥ 830
Estimativa
Erro Padrão
P-valor
-1,119
0,364
0,002
-0,811
0,324
0,012
-1,124
0,364
0,002
-1,113
0,364
0,002
-1,119
0,364
0,002
-0,912
0,348
0,009
-0,908
0,348
0,009
Fr Bur
Amarelo/Vermelho
Estimativa
Erro Padrão
P-valor
0,494
0,197
0,012
0,596
0,199
0,003
0,507
0,197
0,010
0,507
0,197
0,010
0,494
0,197
0,012
0,333
0,207
0,109
0,329
0,207
0,112
Fr Dad
Amarelo/Vermelho
Estimativa
Erro Padrão
P-valor
0,971
0,458
0,034
0,329
0,520
0,527
0,971
0,458
0,034
0,958
0,458
0,036
0,971
0,458
0,034
0,755
0,484
0,119
0,755
0,484
0,119
Idade < 33
Estimativa
Erro
P-valor
0,523
0,176
0,003
0,729
0,175
0,000
0,506
0,175
0,004
0,515
0,175
0,003
0,523
0,176
0,003
0,851
0,175
0,000
0,869
0,175
0,000
Gênero Masc
Estimativa
Erro Padrão
P-valor
0,367
0,164
0,025
0,181
0,164
0,271
0,370
0,164
0,024
0,362
0,164
0,027
0,367
0,164
0,025
0,368
0,161
0,023
0,362
0,161
0,025
Emprego < 15
Estimativa
Erro Padrão
P-valor
0,528
0,175
0,003
0,729
0,178
0,000
0,554
0,177
0,002
0,483
0,173
0,005
0,528
0,175
0,003
0,517
0,171
0,003
0,484
0,171
0,005
Ocupação
Liberal/Autônomo
Estimativa
Erro Padrão
P-valor
0,471
0,171
0,006
0,437
0,173
0,011
0,464
0,172
0,007
0,474
0,172
0,006
0,471
0,171
0,006
0,450
0,170
0,008
0,470
0,169
0,005
Tempo C/C ≥ 10
Estimativa
Erro Padrão
P-valor
-0,698
0,219
0,001
-0,817
0,232
0,000
-0,715
0,218
0,001
-0,705
0,218
0,001
-0,698
0,219
0,001
-0,576
0,222
0,010
-0,568
0,222
0,010
Cont Liq ≥ 1
Estimativa
Erro Padrão
P-valor
-0,948
0,185
0,000
-0,878
0,181
0,000
-0,951
0,185
0,000
-0,954
0,185
0,000
-0,948
0,185
0,000
-0,772
0,177
0,000
-0,779
0,177
0,000
Um outro ponto a ser destacado trata-se do baixo desempenho dos métodos de
imputação múltipla. Mesmo com uma pequena porcentagem de dados 𝑚𝑖𝑠𝑠𝑖𝑛𝑔, não se
verifica um bom ajuste da regressão logística para este tipo de método. Pelo gráfico da
Figura 17, fica evidente que algumas estimativas tiveram maiores alterações, se comparadas
com as estimativas obtidas para o modelo padrão, o que corrobora a imprecisão da
imputação.
Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 73
Figura 17 – Estimativas dos modelos ajustados para dados incompletos com 5% de 𝑚𝑖𝑠𝑠𝑖𝑛𝑔.
−3
−2
−1
0
1
β0 β1 β2 β3 β4 β5 β6 β7 β8 β9 β10 β11
Parâmetro
E
st
im
at
iv
a
Modelo
MP
M1
M2
M3
M4
M5
M6
Fonte: Elaborado pelo autor.
A Tabela 18 apresenta as métricas de desempenho de cada modelo tanto na base
de treinamento quanto na base de teste. Pode-se notar que todos os modelos apresentaram
um comportamento estável, se avaliados por exemplo ROC, KS e Gini, com a exceção
apenas do modelo M1 (análise de casos completos) que encontra-se com problema evidente
de 𝑜𝑣𝑒𝑟𝑓𝑖𝑡𝑡𝑖𝑛𝑔. Ressalta-se novamente que os modelos M3 e M4 foram os que mais se
aproximaram do modelo padrão. Agora o modelo M1 foi o que apresentou pior desempenho.
Dado que este modelo não contempla as informações descartadas pelo método de imputação,
ele apenas possuiria um desempenho semelhante aos demais modelos caso existisse alguma
outra variável correlacionada com a variável descartada, e que substituísse o incremento
preditivo gerada pela variável.
Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 74
Tabela 18 – Métricas de desempenho dos modelos de regressão logística para dados
completos e incompletos com 5% de 𝑚𝑖𝑠𝑠𝑖𝑛𝑔.
Base Modelo Métrica de DesempenhoTA % S % E % ROC KS Gini
Treinamento
MP
M1
M2
M3
M4
M5
M6
68,61
66,73
68,14
67,89
68,61
75,09
73,85
73,77
80,00
74,86
73,77
73,77
67,37
68,95
68,18
65,49
67,58
67,39
68,18
75,76
74,28
0,777
0,791
0,778
0,776
0,776
0,775
0,775
0,427
0,455
0,424
0,426
0,426
0,431
0,437
0,555
0,582
0,556
0,553
0,554
0,549
0,549
Teste
MP
M1
M2
M3
M4
M5
M6
69,02
63,49
68,72
69,71
69,02
74,28
73,19
69,23
69,86
68,13
68,13
69,23
61,90
61,90
69,00
62,97
68,78
69,87
69,00
75,41
74,21
0,743
0,706
0,742
0,742
0,743
0,753
0,752
0,404
0,336
0,400
0,391
0,404
0,401
0,400
0,485
0,413
0,482
0,483
0,484
0,505
0,503
Prosseguindo com a análise, agora são avaliados os resultados obtidos com a retirada
aleatória de 20% dos dados da base completa. De acordo com a Figura 18, o padrão de
dados incompletos neste caso também é o geral.
Figura 18 – Padrão dos dados incompletos com 20% de 𝑚𝑖𝑠𝑠𝑖𝑛𝑔.
Fonte: Elaborado pelo autor.
Na Tabela 19, é fácil notar que embora há um aumento do percentual de 𝑚𝑖𝑠𝑠𝑖𝑛𝑔,
os métodos de imputação 𝑘-NN e Random Forest continuam apresentando o melhor
desempenho com relação ao ajuste do modelode regressão logística. Já os modelos
Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 75
desenvolvidos a partir da aplicação da análise de casos completos e imputação múltipla
novamente foram os que apresentaram os piores resultados.
Tabela 19 – Resultados dos modelos de regressão logística para dados completos e incom-
pletos com 20% de 𝑚𝑖𝑠𝑠𝑖𝑛𝑔.
Variável Estatísticas ModeloMP M1 M2 M3 M4 M5 M6
Intercepto
Estimativa
Erro Padrão
P-valor
-2,662
0,238
0,000
-2,898
0,266
0,000
-2,738
0,242
0,000
-2,729
0,236
0,000
-2,662
0,238
0,000
-2,959
0,238
0,000
-3,069
0,243
0,000
Dívida < 2600
Estimativa
Erro Padrão
P-valor
-0,839
0,211
0,000
-0,425
0,219
0,053
-0,823
0,211
0,000
-0,811
0,211
0,000
-0,839
0,211
0,000
-0,715
0,203
0,000
-0,709
0,204
0,001
Dívida ≥ 4800
Estimativa
Erro Padrão
P-valor
0,465
0,188
0,014
0,657
0,209
0,002
0,479
0,189
0,011
0,478
0,189
0,011
0,465
0,188
0,014
0,548
0,190
0,004
0,570
0,190
0,003
Prestação ≥ 830
Estimativa
Erro Padrão
P-valor
-1,119
0,364
0,002
-0,612
0,358
0,088
-1,114
0,364
0,002
-1,082
0,364
0,003
-1,119
0,364
0,002
-0,901
0,350
0,010
-0,918
0,350
0,009
Fr Bur
Amarelo/Vermelho
Estimativa
Erro Padrão
P-valor
0,494
0,197
0,012
0,009
0,237
0,969
0,521
0,198
0,008
0,514
0,198
0,009
0,494
0,197
0,012
0,334
0,208
0,109
0,322
0,209
0,124
Fr Dad
Amarelo/Vermelho
Estimativa
Erro Padrão
P-valor
0,971
0,458
0,034
0,773
0,489
0,114
0,975
0,462
0,035
0,957
0,460
0,037
0,971
0,458
0,034
0,798
0,486
0,101
0,778
0,488
0,111
Idade < 33
Estimativa
Erro
P-valor
0,523
0,176
0,003
0,901
0,191
0,000
0,576
0,175
0,001
0,628
0,177
0,000
0,523
0,176
0,003
0,953
0,177
0,000
1,022
0,178
0,000
Gênero Masc
Estimativa
Erro Padrão
P-valor
0,367
0,164
0,025
0,218
0,178
0,221
0,370
0,164
0,024
0,363
0,164
0,027
0,367
0,164
0,025
0,360
0,162
0,026
0,367
0,162
0,023
Emprego < 15
Estimativa
Erro Padrão
P-valor
0,528
0,175
0,003
0,618
0,192
0,001
0,583
0,182
0,001
0,542
0,172
0,002
0,528
0,175
0,003
0,548
0,171
0,001
0,622
0,174
0,000
Ocupação
Liberal/Autônomo
Estimativa
Erro Padrão
P-valor
0,471
0,171
0,006
0,432
0,185
0,020
0,492
0,174
0,005
0,512
0,174
0,003
0,471
0,171
0,006
0,542
0,169
0,001
0,533
0,170
0,002
Tempo C/C ≥ 10
Estimativa
Erro Padrão
P-valor
-0,698
0,219
0,001
-0,595
0,238
0,012
-0,700
0,217
0,001
-0,664
0,219
0,002
-0,698
0,219
0,001
-0,528
0,223
0,018
-0,485
0,224
0,030
Cont Liq ≥ 1
Estimativa
Erro Padrão
P-valor
-0,948
0,185
0,000
-0,902
0,196
0,000
-0,957
0,185
0,000
-0,941
0,185
0,000
-0,948
0,185
0,000
-0,785
0,177
0,000
-0,769
0,177
0,000
Pelo gráfico das estimativas dos modelos logísticos ajustados para os dados com
20% de 𝑚𝑖𝑠𝑠𝑖𝑛𝑔, pode-se constatar que de fato os modelos M3 (𝑘-NN) e M4 (Random
Forest) são os que mais se aproximam da equação do modelo geral.
Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 76
Figura 19 – Estimativas dos modelos ajustados para dados incompletos com 20% de
𝑚𝑖𝑠𝑠𝑖𝑛𝑔.
−3
−2
−1
0
1
β0 β1 β2 β3 β4 β5 β6 β7 β8 β9 β10 β11
Parâmetro
E
st
im
at
iv
a
Modelo
MP
M1
M2
M3
M4
M5
M6
Fonte: Elaborado pelo autor.
Finalmente, na Tabela 20 têm-se as métricas de desempenho dos modelos ajustados
para cada método de imputação.
Tabela 20 – Métricas de desempenho dos modelos de regressão logística para dados
completos e incompletos com 20% de 𝑚𝑖𝑠𝑠𝑖𝑛𝑔.
Base Modelo Métrica de DesempenhoTA % S % E % ROC KS Gini
Treinamento
MP
M1
M2
M3
M4
M5
M6
68,61
76,60
79,47
71,38
68,61
75,55
76,32
73,77
64,15
62,84
70,49
73,77
65,79
66,84
68,18
77,72
80,88
71,45
68,18
76,41
77,15
0,777
0,774
0,781
0,781
0,777
0,781
0,786
0,427
0,419
0,437
0,426
0,427
0,423
0,440
0,555
0,548
0,563
0,563
0,555
0,561
0,571
Teste
MP
M1
M2
M3
M4
M5
M6
69,02
74,42
77,86
70,90
69,02
75,47
76,37
69,23
54,41
53,85
64,84
69,23
63,10
64,29
69,00
76,22
80,24
71,51
69,00
76,60
77,46
0,743
0,724
0,741
0,746
0,743
0,759
0,761
0,404
0,367
0,387
0,391
0,404
0,409
0,423
0,485
0,450
0,480
0,492
0,485
0,518
0,520
77
5 CONSIDERAÇÕES FINAIS E PERSPEC-
TIVAS FUTURAS
O modelo de regressão logística é incontestavelmente a técnica de regressão mais
utilizada para a análise de experimentos em que a variável resposta de interesse é dicotômica.
Do ponto de vista estatístico este modelo é flexível e de fácil interpretação, podendo levar
a resultados bastante satisfatórios. No entanto, ao ajustar um modelo logístico na presença
de dados incompletos nas variáveis explicativas, não se sabe ao certo qual a melhor
forma de tratá-los. Tendo em vista tais considerações, a proposta deste trabalho consistiu
em comparar diferentes métodos e abordagens de imputação de dados que viabilizam a
estimação consistente dos parâmetros deste modelo.
A princípio foi dado ênfase ao processo de obtenção do modelo de regressão logística,
desde a definição do conjunto de dados, tratamento de variáveis e ajuste do modelo final.
No prosseguimento do trabalho, foram ainda explorados os principais mecanismos e padrões
de dados, bem como testes para identificar tais mecanismos. Ao todo foram descritos cinco
métodos propostos na literatura para o tratamento de dados incompletos, conforme as
características do modelo logístico.
Em uma primeira aplicação, utilizando a abordagem de um problema de risco de
crédito, é feito o ajuste do modelo de regressão para a base de dados completa que será
utilizado como referência para comparação com os demais modelos. Em seguida, avaliou-se
o desempenho dos modelos estatísticos construídos para cada método de imputação em
dois cenários de dados incompletos.
Como era esperado, o modelo desenvolvido eliminando as observações com dados
faltantes nas variáveis foi o que apresentou pior desempenho. Portanto, a opção de
considerar apenas casos completos, apesar de ser a mais simples, pode acarretar perdas
significativas. Por outro lado, os métodos de imputação 𝑘-NN e Random Forest tiveram
a melhor performance, resultando em modelos que chegam a ser semelhantes ao modelo
padrão apresentando o mesmo comportamento de predição. As técnicas de imputação
múltipla, por sua vez, tiveram desempenho razoável para o conjunto de dados e seus
resultados foram intermediários.
Por fim, vale ressaltar que apenas alguns métodos de imputação foram abordados
neste estudo e que a literatura conta com diversas outras metodologias que poderiam gerar
resultados ainda mais satisfatórios em modelos preditivos.
78
REFERÊNCIAS
AGRESTI, A. An introduction to categorical data analysis. 2nd. ed. Hoboken, NJ: John
Wiley & Sons, 2007. Citado 2 vezes nas páginas 11 e 18.
AMEMIYA, T. Advanced econometrics. [S.l.]: Harvard university press, 1985. Citado na
página 20.
BERGAMO, G. Imputação múltipla livre de distribuição utilizando a decomposição
por valor singular em matriz de interação. 2007. 89p. Tese (Doutorado) — Tese
(Doutorado)-Universidade de São Paulo, Piracicaba, 2007. Citado na página 46.
BOX, G. E. P.; COX, D. R. An analysis of transformations. Journal of the Royal
Statistical Society. Series B (Methodological), JSTOR, London, v. 26, n. 2, p. 211–252,
1964. Citado na página 14.
BRITO, G. A. S.; NETO, A. A. Modelo de classificação de risco de crédito de empresas.
Revista Contabilidade & Finanças-USP, Universidade de São Paulo, v. 19, n. 46, 2008.
Citado na página 54.
BROWN, M. B. BMDP statistical software. [S.l.]: Univ of California Press, 1983. Citado
na página 47.
BUUREN, S. V. Flexible imputation of missing data. Boca Raton, FL: Chapman &
Hall/CRC press, 2012. Citado na página 42.
COLLINS, L. M.; SCHAFER, J. L.; KAM, C.-M. A comparison of inclusive and
restrictive strategies in modern missing data procedures. Psychological methods, American
Psychological Association, v. 6, n. 4, p. 330, 2001. Citado na página 47.
CORDEIRO, G. M.; DEMÉTRIO, C. G. Modelos lineares generalizados e Extensões. São
Paulo: [s.n.], 2008. Citado 5 vezes nas páginas 14, 16, 17, 21 e 37.
DIDELEZ, V. Ml-and semiparametric estimation in logistic models with incomplete
covariate data. Statisticaneerlandica, Wiley Online Library, v. 56, n. 3, p. 330–345, 2002.
Citado na página 46.
DINIZ, C.; LOUZADA, F. Métodos estatısticos para análise de dados de crédito. In: 6th
Brazilian Conference on Statistical Modeling in Insurance and Finance, Maresias-SP. [S.l.:
s.n.], 2013. Citado 6 vezes nas páginas 35, 36, 55, 57, 59 e 62.
DOMINGUES, T. M. D. Modelos de regressão para identificação de marcadores preditivos
de asma na descendência de mulheres com atopia. Tese (Doutorado), 2016. Citado na
página 39.
ENDERS, C. K. Applied missing data analysis. New York: Guilford Press, 2010. Citado 6
vezes nas páginas 11, 43, 45, 47, 49 e 51.
FERGUSON, G. A. Statistical analysis in psychology and education. McGraw-Hill. New
York. US, 1981. Citado na página 59.
REFERÊNCIAS 79
GONZALEZ, J. M.; ELTINGE, J. L. Multiple matrix sampling: A review. In: AMERICAN
STATISTICAL ASSOCIATION. Proceedings of the Section on Survey Research Methods,
American Statistical Association. [S.l.], 2007. p. 3069–3075. Citado na página 42.
HILBE, J. M. Logistic regression models. [S.l.]: CRC press, 2009. Citado 5 vezes nas
páginas 11, 20, 31, 34 e 35.
HOSMER, D. W.; LEMESHOW, S. Goodness of fit tests for the multiple logistic
regression model. Communications in statistics-Theory and Methods, Taylor & Francis,
v. 9, n. 10, p. 1043–1069, 1980. Citado na página 31.
HOSMER, D. W.; LEMESHOW, S. Applied logistic regression. 2nd. ed. New York: John
Wiley & Sons, 2000. Citado 9 vezes nas páginas 11, 18, 19, 24, 26, 29, 34, 39 e 82.
JAMSHIDIAN, M.; JALAL, S. Tests of homoscedasticity, normality, and missing
completely at random for incomplete multivariate data. Psychometrika, Springer, v. 75,
n. 4, p. 649–674, 2010. Citado na página 47.
JAMSHIDIAN, M.; JALAL, S. J.; JANSEN, C. Missmech: an r package for testing
homoscedasticity, multivariate normality, and missing completely at random (mcar).
Journal of Statistical software, JOURNAL STATISTICAL SOFTWARE, v. 56, n. 6, 2014.
Citado na página 47.
KHURI, A. I. Advanced calculus with applications in statistics. [S.l.]: John Wiley & Sons,
2003. Citado na página 20.
KLEINBAUM, D. G.; KLEIN, M. Logistic Regression: A Self-Learning Text. 3rd. ed. New
York: Springer, 2010. Citado na página 11.
LEMESHOW, S.; HOSMER, D. W. A review of goodness of fit statistics for use in the
development of logistic regression models. American journal of epidemiology, Oxford
University Press, v. 115, n. 1, p. 92–106, 1982. Citado na página 31.
LITTLE, R. J. A test of missing completely at random for multivariate data with missing
values. Journal of the American Statistical Association, Taylor & Francis, v. 83, n. 404, p.
1198–1202, 1988. Citado na página 48.
LITTLE, R. J. Regression with missing X’s: a review. Journal of the American Statistical
Association, Taylor & Francis Group, v. 87, n. 420, p. 1227–1237, 1992. Citado 4 vezes
nas páginas 42, 43, 44 e 47.
LITTLE, R. J.; RUBIN, D. B. Statistical analysis with missing data. New York: John
Wiley & Sons, 1987. Citado na página 12.
McCULLAGH, P.; NELDER, J. A. Generalized linear models. 2nd. ed. London: Chapman
& Hall, 1989. Citado na página 15.
NELDER, J. A.; WEDDERBURN, R. W. M. Generalized linear models. Journal of the
Royal Statistical Society. Series A (General), JSTOR, London, v. 135, n. 3, p. 370–384,
1972. Citado 2 vezes nas páginas 14 e 30.
NETO, F. L.; DINIZ, C. A. R. Técnicas estatísticas em data mining. [S.l.]: IMCA, 2002.
Citado na página 24.
REFERÊNCIAS 80
PAULA, G. A. Modelos de regressão: com apoio computacional. São Paulo: IME-USP,
2004. Citado 3 vezes nas páginas 11, 14 e 25.
PORTUGAL, M. G. C. S. Modelos estatísticos para a previsão de inactividade de
pré-pagos. Tese (Doutorado), 2013. Citado na página 40.
PREGIBON, D. Logistic regression diagnostics. The Annals of Statistics, JSTOR, p.
705–724, 1981. Citado 3 vezes nas páginas 37, 39 e 40.
R Core Team. R: A Language and Environment for Statistical Computing. Vienna,
Austria, 2017. Disponível em: <https://www.R-project.org/>. Citado na página 54.
RUBIN, D. B. Inference and missing data. Biometrika, JSTOR, New Jersey, p. 581–592,
1976. Citado 2 vezes nas páginas 12 e 45.
RUBIN, D. B. Multiple imputations in sample surveys-a phenomenological bayesian
approach to nonresponse. In: AMERICAN STATISTICAL ASSOCIATION. Proceedings
of the survey research methods section of the American Statistical Association. [S.l.], 1978.
v. 1, p. 20–34. Citado 2 vezes nas páginas 45 e 51.
SCHAFER, J. L.; GRAHAM, J. W. Missing data: our view of the state of the art.
Psychological methods, American Psychological Association, v. 7, n. 2, p. 147, 2002.
Citado na página 47.
THOMAS, L. C.; EDELMAN, D. B.; CROOK, J. N. Credit scoring and its applications.
[S.l.]: SIAM, 2002. Citado na página 58.
APÊNDICES
82
APÊNDICE A – Método Stepwise
O método stepwise é amplamente utilizado para a construção de modelos de
regressão logística com o intuito de minimizar o número de variáveis explicativas. A
vantagem de se aplicar tal procedimento é a possibilidade de obter um modelo mais estável
numericamente e mais simples de ser generalizado. A seguir é descrito passo a passo o
algoritmo de seleção de variáveis stepwise, de acordo com Hosmer e Lemeshow (2000).
∙ Passo 1: Neste passo é ajustado um modelo somente com o intercepto, dado por
𝜋𝑖 =
𝑒𝛽0
1 + 𝑒𝛽0 , 𝑖 = 1, . . . , 𝑛,
e o logaritmo da sua verossimilhança, 𝐿0, é calculado. Em seguida, um novo modelo
com o intercepto e com cada uma das 𝑝 possíveis variáveis explicativas é ajustado
com o intuito de comparar os seus respectivos valores do logaritmo da verosimilhança.
Desse modo, o modelo será dado por
𝜋𝑖 =
𝑒𝛽0+𝛽𝑗𝑥𝑖𝑗
1 + 𝑒𝛽0+𝛽𝑗𝑥𝑖𝑗 , 𝑖 = 1, . . . , 𝑛 e 𝑗 = 1, . . . , 𝑝.
Seja 𝐿(0)𝑗 , 𝑗 = 1, . . . , 𝑝, o log da verossimilhança do modelo ajustado com o intercepto
e 𝑋𝑗 no passo zero e
𝐺
(0)
𝑗 = −2
(︁
𝐿0 − 𝐿(0)𝑗
)︁
,
o valor da estatística do teste da razão de verossimilhança do modelo contendo o
intercepto e 𝑋𝑗 versus o modelo contendo somente o intercepto, com 𝑝(0)𝑗 sendo o
p-valor deste teste, determinado por 𝑝(0)𝑗 = 𝑃
[︁
𝜒2𝑣 > 𝐺
(0)
𝑗
]︁
, 𝑣 = 1 se 𝑋𝑗 for contínua e
𝑣 = 𝑘 − 1 se 𝑋𝑗 for discreta com 𝑘 categorias. A variável explicativa mais importante,
𝑋𝑒1 , será aquela com menor p-valor, ou seja, teremos
𝑝(0)𝑒1 = 𝑚𝑖𝑛
(︁
𝑝
(0)
1 , 𝑝
(0)
2 , . . . , 𝑝
(0)
𝑝
)︁
.
Porém, como a variável tem o menor p-valor não significa que ela seja estatisticamente
significante, será preciso comparar 𝑝(0)𝑒1 com um nível pré-definido, 𝑝𝑒. Se 𝑝
(0)
𝑒1 < 𝑝𝑒, a
variável será considera como significante e o algoritmo avança para o Passo 1, caso
contrário, o algoritmo para e o modelo será composto apenas pelo intercepto.
∙ Passo 2: Este passo começa com o modelo ajustado contendo o intercepto e a variável
explicativa 𝑋𝑒1 . Seja 𝐿(1)𝑒1 o log da verossimilhança deste modelo. Para determinar
qual das 𝑝 − 1 variáveis explicativas restantes são importantes dado que 𝑋𝑒1 já
APÊNDICE A. Método Stepwise 83
está presente no modelo, será necessário ajustar 𝑝 − 1 novos modelos contendo o
intercepto, 𝑋𝑒1 e 𝑋𝑗, 𝑗 = 1, . . . , 𝑝 − 1 e 𝑗 ̸= 𝑒1, ou seja, serão ajustados os modelos
𝜋𝑖 =
𝑒𝛽0+𝛽𝑒1 𝑥𝑖𝑒1 +𝛽𝑗𝑥𝑖𝑗
1 + 𝑒𝛽0+𝛽𝑒1 𝑥𝑖𝑒1 +𝛽𝑗𝑥𝑖𝑗 , 𝑖 = 1, . . . , 𝑛, 𝑗 = 1, . . . , 𝑝 − 1 e 𝑗 ̸= 𝑒1.
Seja 𝐿(1)𝑒1,𝑗 o log da verossimilhança desses modelos e
𝐺
(1)
𝑗 = −2
(︁
𝐿𝑒1 − 𝐿
(1)
𝑒1,𝑗
)︁
,
o valor da estatística dos testes da razão de verossimilhança do modelo contendo
o intercepto, 𝑋𝑒1 e 𝑋𝑗 versus o modelo contendo somente o intercepto e 𝑋𝑒1 , com
𝑝
(1)
𝑗 sendo o p-valor destes testes. Se a variável com menor p-valor neste passo for
denominada 𝑋𝑒2 e se 𝑝(1)𝑒𝑠 < 𝑝𝑒 então o algoritmo segue para o Passo 2, caso contrário,
o algoritmo para.
∙ Passo 3: Este passo começa com o modelo ajustado contendo o intercepto e as
variáveis explicativas 𝑋𝑒1 e 𝑋𝑒2 . É possível que uma vez que a variável 𝑋𝑒2 foi
adicionada no modelo, a variável𝑋𝑒1 não seja mais significante. Neste passo, portanto,
é necessário o algoritmo de eliminação 𝑏𝑎𝑐𝑘𝑤𝑎𝑟𝑑. Este algoritmo ajusta um modelo
sem as variáveis explicativas adicionadas nos passos anteriores e calcula a importância
de cada uma. Seja 𝐿(3)−𝑒𝑗 o log da verossimilhança do modelo sem 𝑋𝑒𝑗 e
𝐺
(3)
−𝑗 = −2
(︁
𝐿
(3)
−𝑒𝑗 − 𝐿
(3)
𝑒1,𝑒2
)︁
o valor da estatística dos testes da razão de verossimilhança assim como definido
previamente, com os respectivos p-valores dados por 𝑝(3)−𝑒𝑗 . Para verificar se a variável
deve ou não sair, o algoritmo seleciona aquela com o maior p-valor. Denotando-a
por 𝑋𝑟2 e sendo
𝑝(3)𝑟2 = 𝑚𝑎𝑥
(︁
𝑝
(3)
−𝑒𝑗 , 𝑝
(3)
−𝑒2
)︁
,
para excluir esta covariável do modelo o algoritmo compara 𝑝(3)𝑟2 com um segundo
nível de significância pré-definido, 𝑝𝑟, que indica o nível mínimo de contribuição das
variáveis explicativas para que elas possam continuar no modelo. Se 𝑝(3)𝑟2 > 𝑝𝑟, então
𝑋𝑟2 será removida do modelo, caso contrário, 𝑋𝑟2 continuará no modelo. Em ambos
os casos o algoritmo segue para a seleção de variáveis. Na fase de 𝑓𝑜𝑟𝑤𝑎𝑟𝑑 cada uma
das 𝑝 − 2 variáveis restantes são utilizadas para ajustar novos modelos contendo o
intercepto e as covariáveis 𝑋𝑒1 , 𝑋𝑒2 e 𝑋𝑗, 𝑗 = 1, . . . , 𝑝 − 2 e 𝑗 ≠ 𝑒1, 𝑒2, ou seja, o
modelo será dado por
𝜋𝑖 =
𝑒𝛽0+𝛽𝑒1 𝑥𝑖𝑒1 +𝛽𝑒2 𝑥𝑖𝑒2 +𝛽𝑗𝑥𝑖𝑗
1 + 𝑒𝛽0+𝛽𝑒1 𝑥𝑖𝑒1 +𝛽𝑒2 𝑥𝑖𝑒2 +𝛽𝑗𝑥𝑖𝑗 , 𝑖 = 1, . . . , 𝑛, 𝑗 = 1, . . . , 𝑝 − 2 e 𝑗 ̸= 𝑒1, 𝑒2.
O algoritmo calculará o log da verossimilhança de cada modelo, o valor das estatísticas
dos testes da razão de verossimilhança e os correspondentes p-valores. Se a variável
APÊNDICE A. Método Stepwise 84
com o menor p-valor neste passo for denominada 𝑋𝑒3 e se 𝑝2𝑒3 < 𝑝𝑒, então o algoritmo
segue para o Passo 4, caso contrário, o algoritmo para.
∙ Passo 4: Este passo é idêntico ao Passo 2 e este processo continuará desta forma
até o último passo, denominado 𝑁 .
∙ Passo 𝑁 : Este passo ocorrerá quando todas as 𝑝 varáveis entrarem no modelo ou
quando todas as variáveis que constituem o modelo têm p-valores de eliminação
menor do que 𝑝𝑟 e todas as variáveis que não foram incluídas no modelo tem p-valores
de entrada maior do que 𝑝𝑒.
85
APÊNDICE B – Tabelas Complementares
Tabela 21 – Código da natureza de ocupação.
Código da natureza Descrição da natureza
1 CLT
2 Liberal
3 Proprietário
4 Servidor Público
5 Taxista
6 Funcionário de Empresa Pública
7 Rendimentos Capitais
8 Aposentado ou Pensionista
9 Informal ou Autônomo
10 Bancário
11 Militar (PM ou Forças Armadas)
12 Produtor Rural
Tabela 22 – Recategorização da variável UF.
Categoria Unidade Federativa
Grupo 1 GOPE
MG
PI
RS
RJ
Grupo 2 ALRN
RR SP
Grupo 3
AC
BA
ES
MT
PR
SE
AP
CE
MA
PA
RO
TO
AM
DF
MS
PB
SC
	Folha de rosto
	Folha de aprovação
	AGRADECIMENTOS
	Epígrafe
	RESUMO
	ABSTRACT
	LISTA DE ILUSTRAÇÕES
	LISTA DE TABELAS
	SUMÁRIO
	INTRODUÇÃO
	REGRESSÃO LOGÍSTICA
	Modelos Lineares Generalizados
	Modelo de Regressão Logística
	Estimação dos Parâmetros
	Testes para a Significância do Modelo
	Estimação por Intervalos
	Intervalo de Confiança para os Parâmetros
	Intervalo de Confiança para o Logito
	Intervalo de Confiança para os Valores Ajustados
	Interpretação dos Coeficientes
	Avaliação do Ajuste do Modelo
	Estatísticas Qui-Quadrado de Pearson e Deviance
	Teste de Hosmer-Lemeshow
	Métricas de Desempenho
	Matriz de Classificação
	Área Sob a Curva ROC
	Estatística de Kolmogorov-Smirnov (KS)
	Coeficiente de Gini
	Diagnóstico do Modelo
	Análise dos Resíduos
	Resíduo de Pearson
	Resíduo Deviance
	Observações Influentes
	Diagonal da Matriz H (leverage)
	Distância de Cook
	C e 
	DIFCHISQ e DIFDEV
	Multicolinearidade
	DADOS INCOMPLETOS
	Padrões de Dados Incompletos
	Padrão Univariado
	Padrão Monótomo
	Padrão Especial
	Padrão Geral
	Mecanismos de Dados Incompletos
	MCAR
	MAR
	MNAR
	Mecanismo Ignorável e Não-Ignorável
	Teste para Mecanismos
	Teste-t Univariado
	Teste MCAR de Little
	Métodos para o Tratamento de Dados Incompletos
	Deleção de Dados Incompletos
	Análise de Caso Completo
	Imputação Simples
	Imputação por Medidas de Tendência Central
	Imputação pelo Vizinho Mais Próximo
	Imputação por Random Forest
	Imputação Múltipla
	Algoritmo mice
	APLICAÇÃO A DADOS DE CRÉDITO
	Modelagem de Risco de Crédito
	Descrição e Apresentação dos Dados
	Tratamento das Variáveis Explicativas
	Partição do Conjunto de Dados
	Seleção de Variáveis
	Modelo de Regressão Logística para Dados Completos
	Estudo de Simulação
	Resultados e Discussões
	CONSIDERAÇÕES FINAIS E PERSPECTIVAS FUTURAS
	REFERÊNCIAS
	APÊNDICES
	Método Stepwise
	Tabelas Complementares
TCC FINAL - José Vitor

Ferramentas de estudo

Conteúdos escolhidos para você

Modelagem de Processos Produtivos - Simulação e Otimização

ESTATÍSTICA APLICADA AO DATA SCIENCE - Prova N2

Livro-Texto 2 - Ciência de Dados

machine learning aula4

APOSTILA

Perguntas dessa disciplina

1. Variável é toda característica que, observada em uma unidade da população ou amostra, pode variar de um indivíduo para outro (Callegari-Jacques...

Assinale a alternativa que apresenta uma desvantagem do Método das Matrizes de Interação: A São dados pesos aos atributos ambientais, sem garantia...

A utilização de dados no setor produtivo exige atenção desde o momento da coleta até as etapas de análise e comunicação. Em ambientes organizacionais

Uma empresa de e-commerce deseja criar um modelo preditivo para prever o número de vendas em determinado período. Para isso, a equipe de análise de...

descritiva deles antes do desenvolvimento do modelo. Os dados cedidos pelo gerente do banco estavam bem organizados e livres de erros. A nossa jovem c

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Conteúdos escolhidos para você

Modelagem de Processos Produtivos - Simulação e Otimização

ESTATÍSTICA APLICADA AO DATA SCIENCE - Prova N2

Livro-Texto 2 - Ciência de Dados

machine learning aula4

APOSTILA

Perguntas dessa disciplina

1. Variável é toda característica que, observada em uma unidade da população ou amostra, pode variar de um indivíduo para outro (Callegari-Jacques...

Assinale a alternativa que apresenta uma desvantagem do Método das Matrizes de Interação: A São dados pesos aos atributos ambientais, sem garantia...

A utilização de dados no setor produtivo exige atenção desde o momento da coleta até as etapas de análise e comunicação. Em ambientes organizacionais

Uma empresa de e-commerce deseja criar um modelo preditivo para prever o número de vendas em determinado período. Para isso, a equipe de análise de...

descritiva deles antes do desenvolvimento do modelo. Os dados cedidos pelo gerente do banco estavam bem organizados e livres de erros. A nossa jovem c

Mais conteúdos dessa disciplina