Prévia do material em texto
UNIVERSIDADE ESTADUAL PAULISTA "JÚLIO DE MESQUITA FILHO" Faculdade de Ciências e Tecnologia Campus de Presidente Prudente JOSÉ VITOR FRIZARIN DOS SANTOS ESTRATÉGIAS PARA O TRATAMENTO DE DADOS INCOMPLETOS EM MODELOS DE REGRESSÃO LOGÍSTICA Revisado pelo(a) Orientador(a) Assinatura do(a) Orientador(a) Data: __/__/ 2018 Presidente Prudente - SP 2018 JOSÉ VITOR FRIZARIN DOS SANTOS ESTRATÉGIAS PARA O TRATAMENTO DE DADOS INCOMPLETOS EM MODELOS DE REGRESSÃO LOGÍSTICA Relatório Final para Trabalho de Conclusão de Curso apresentado ao Curso de Estatística da FCT/UNESP para aproveitamento da dis- ciplina Trabalho de Conclusão do Curso. Orientador(a): Profa. Dra. Vilma Mayumi Tachibana. Presidente Prudente - SP 2018 TERMO DE APROVAÇÃO JOSÉ VITOR FRIZARIN DOS SANTOS ESTRATÉGIAS PARA O TRATAMENTO DE DADOS INCOMPLETOS EM MODELOS DE REGRESSÃO LOGÍSTICA Relatório de Final de Trabalho de Conclusão de Curso aprovado como requisito para obten- ção de créditos na disciplina Trabalho de Conclusão do curso de graduação em Estatística da Faculdade de Ciências e Tecnologia da Unesp, pela seguinte banca examinadora: Presidente Prudente - SP, 1 de fevereiro de 2018. AGRADECIMENTOS Ser incomparável, justo e amoroso é este o Deus que eu acredito, digno de todo agradecimento. Grato por me proporcionar esta oportunidade e permitir que eu pudesse concluir com êxito mais uma importante etapa da minha vida. À minha família, em especial, aos meus pais, José e Silvia, e ao meu irmão Wellington, que me ampararam em todos os momentos difíceis e muitas vezes abdicarem dos seus próprios sonhos para que eu realizasse o meu. Muito obrigado pelo apoio, incentivo e amor incondicional! À minha namorada Maria, companheira de todas as horas. Agradeço por superar comigo todas as dificuldades enfrentadas até aqui e também por compartilhar experiências e momentos inesquecíveis. Com ela, aprendi o quão importante é o companheirismo e cumplicidade. À Profa. Dra. Vilma Mayumi Tachibana, pela dedicação, paciência, exigência durante todo esse período de convívio, e acima de tudo por me orientar durante a realização deste trabalho. É uma pessoa admirável e em quem me espelho quanto profissional. Aos membros da banca, Profa. Dra. Aparecida Donizete Pires de Souza e Prof. Dr. Edilson Ferreira Flores, pelas valiosas sugestões e comentários feitos durante a apresentação deste trabalho. Aos demais professores do Departamento de Estatística da FCT/UNESP, por todo o conhecimento compartilhado no decorrer do curso de graduação. Aos meus amigos e companheiros de turma Filipe, Luan, Alan e André pela convivência agradável e também por sempre estarem dispostos a me ajudar. Tenho enorme prazer de tê-los conhecido, obrigado pela amizade! À Pró-Reitoria de Extensão Universitária, PROEX, e também à Pró-Reitoria de Pesquisa, PROPe, pelo apoio financeiro. "Todos querem o perfume das flores, mas poucos sujam as suas mãos para cultivá-las" Augusto Cury RESUMO Uma das maiores dificuldades com o desenvolvimento de modelos preditivos, especificamente o modelo de regressão logística, é a ocorrência de dados 𝑚𝑖𝑠𝑠𝑖𝑛𝑔. Os software estatísticos mantém como padrão a análise de casos completos, onde simplesmente são descartados todos os casos com um ou mais valores ausentes nas variáveis. Este procedimento reduz o tamanho da base de dados e pode resultar em estimativas tendenciosas. Para contornar tal problema, aplicam-se métodos de imputação simples ou múltipla que estimam os valores ausentes a partir dos dados disponíveis. A ideia básica é substituir estes dados por valores verossímeis, possibilitando realizar a análise estatística com a base de dados completa. Sendo assim, este trabalho trata de um estudo do modelo de regressão logística na presença de dados incompletos em que o objetivo principal é comparar diferentes métodos e abordagens de imputação de dados propostas na literatura que viabilizam a estimação consistente dos parâmetros deste modelo. Ao todo são abordados seis métodos de imputação. Um estudo de simulação utilizando dados reais de crédito foi conduzido para comparar o desempenho dos modelos construídos para cada um destes métodos com o modelo de regressão logística padrão ajustado para a base dados completa em dois cenários de dados incompletos. Como era esperado, o modelo desenvolvido eliminando as observações com dados faltantes nas variáveis foi o que apresentou pior desempenho. Já os métodos de imputação 𝑘-NN e Random Forest tiveram a melhor performance, resultando em modelos que apresentam comportamento de predição muito semelhante ao modelo padrão. Palavras-chave: Regressão logística. Dados incompletos. Métodos de imputação. ABSTRACT One of the greatest difficulties with the development of predictive models, specifically the logistic regression model, is the occurrence of missing data. Statistical software keep as default the complete case analysis, where all cases with one or more missing values in the variables are simply discarded. This procedure reduces the size of the data set and can result in biased estimates. To work around this problem, single or multiple imputation methods that estimate missing values from the available data are applied. The basic idea is to replace these data with plausible values, allowing the statistical analysis with the complete data set. Thus, this work deals with a study of the logistic regression model in the presence of incomplete data in which the main objective is to compare different methods and data imputation approaches proposed in the literature that enable the consistent estimation of the model parameters. In general, six methods of imputation will be considered. A simulation study using real credit data was conducted to compare the performance of the constructed models for each of these methods with the default logistic regression model fitted for the complete data set in two incomplete data scenarios. As expected, the model developed eliminating the observations with missing data in the variables was the that presented worst performance. On the other hand, the methods of imputation 𝑘-NN and Random Forest had the best performance, resulting in models that present prediction behavior very similar to the default model. Keywords: Logistic regression. Incomplete data. Imputation methods. LISTA DE ILUSTRAÇÕES Figura 1 – Funções densidade de probabilidade e acumulada da distribuição Logís- tica para diferentes valores de 𝜇 e 𝜏 . . . . . . . . . . . . . . . . . . . . 17 Figura 2 – Exemplo de curva ROC. . . . . . . . . . . . . . . . . . . . . . . . . . . 34 Figura 3 – Gráfico de sensibilidade versus especificidade. . . . . . . . . . . . . . . 35 Figura 4 – Funções distribuições empíricas para os 𝑏𝑜𝑛𝑠 e 𝑚𝑎𝑢𝑠 clientes e a esta- tística KS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 Figura 5 – Padrão univariado de dados incompletos. . . . . . . . . . . . . . . . . . 43 Figura 6 – Padrão monótomo de dados incompletos. . . . . . . . . . . . . . . . . . 43 Figura 7 – Padrão especial de dados incompletos. . . . . . . . . . . . . . . . . . . 44 Figura 8 – Padrão geral de dados incompletos. . . . . . . . . . . . . . . . . . . . . 44 Figura 9 – Esquema da imputação múltipla. . . . . . . . . . . . . . . . . . . . . . 51 Figura 10 –Gráfico de correlação mista . . . . . . . . . . . . . . . . . . . . . . . . . 59 Figura 11 –Gráfico da seleção de variáveis pelo algoritmo Boruta. . . . . . . . . . . 64 Figura 12 –Curva ROC para o modelo de regressão logística padrão nas bases de treinamento e teste. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 Figura 13 –Gráficos dos resíduos de Pearson e 𝐷𝑒𝑣𝑖𝑎𝑛𝑐𝑒 padronizados do modelo de regressão logística padrão. . . . . . . . . . . . . . . . . . . . . . . . 68 Figura 14 –Resíduos 𝐷𝑒𝑣𝑖𝑎𝑛𝑐𝑒 padronizados 𝑣𝑒𝑟𝑠𝑢𝑠 valores ajustado do modelo de regressão logística padrão. . . . . . . . . . . . . . . . . . . . . . . . 68 Figura 15 –Medida de Leverage e distânciade Cook para o modelo de regressão logística padrão. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 Figura 16 –Padrão dos dados incompletos com 5% de 𝑚𝑖𝑠𝑠𝑖𝑛𝑔. . . . . . . . . . . . 71 Figura 17 –Estimativas dos modelos ajustados para dados incompletos com 5% de 𝑚𝑖𝑠𝑠𝑖𝑛𝑔. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 Figura 18 –Padrão dos dados incompletos com 20% de 𝑚𝑖𝑠𝑠𝑖𝑛𝑔. . . . . . . . . . . 74 Figura 19 –Estimativas dos modelos ajustados para dados incompletos com 20% de 𝑚𝑖𝑠𝑠𝑖𝑛𝑔. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 LISTA DE TABELAS Tabela 1 – Valores de 𝜋 no modelo de regressão logística com variável explicativa dicotômica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 Tabela 2 – Codificação de variável explicativa politômica. . . . . . . . . . . . . . . 28 Tabela 3 – Matriz de classificação. . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 Tabela 4 – Classificação do poder de discriminação do modelo segunda a área abaixo da curva ROC. . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 Tabela 5 – Métodos de imputação disponíveis no pacote 𝑚𝑖𝑐𝑒. . . . . . . . . . . . 52 Tabela 6 – Caracterização das variáveis em estudo. . . . . . . . . . . . . . . . . . 56 Tabela 7 – Exemplo do cálculo das medidas descritivas 𝑅𝑅 e 𝑊𝑂𝐸. . . . . . . . . 58 Tabela 8 – Categorização das variáveis quantitativas do conjunto de dados. . . . . 60 Tabela 9 – Recategorização das variáveis qualitativas do conjunto de dados. . . . . 61 Tabela 10 –Distribuição dos clientes nas bases de treinamento e teste. . . . . . . . 62 Tabela 11 –Seleção de variáveis 𝑠𝑡𝑒𝑝𝑤𝑖𝑠𝑒 utilizando como critério o teste da razão de verossimilhança. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 Tabela 12 –Resultados do modelo de regressão logística múltipla padrão ajustado. 65 Tabela 13 –Partição da base para o teste de Hosmer-Lemeshow. . . . . . . . . . . 66 Tabela 14 –Métricas de desempenho para o modelo de regressão logística padrão. . 66 Tabela 15 –Avaliação da multicolinearidade. . . . . . . . . . . . . . . . . . . . . . 69 Tabela 16 –Métodos de imputação comparados. . . . . . . . . . . . . . . . . . . . 70 Tabela 17 –Resultados dos modelos de regressão logística para dados completos e incompletos com 5% de 𝑚𝑖𝑠𝑠𝑖𝑛𝑔. . . . . . . . . . . . . . . . . . . . . . 72 Tabela 18 –Métricas de desempenho dos modelos de regressão logística para dados completos e incompletos com 5% de 𝑚𝑖𝑠𝑠𝑖𝑛𝑔. . . . . . . . . . . . . . . 74 Tabela 19 –Resultados dos modelos de regressão logística para dados completos e incompletos com 20% de 𝑚𝑖𝑠𝑠𝑖𝑛𝑔. . . . . . . . . . . . . . . . . . . . . 75 Tabela 20 –Métricas de desempenho dos modelos de regressão logística para dados completos e incompletos com 20% de 𝑚𝑖𝑠𝑠𝑖𝑛𝑔. . . . . . . . . . . . . . 76 Tabela 21 –Código da natureza de ocupação. . . . . . . . . . . . . . . . . . . . . . 85 Tabela 22 –Recategorização da variável UF. . . . . . . . . . . . . . . . . . . . . . . 85 SUMÁRIO 1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2 REGRESSÃO LOGÍSTICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.1 Modelos Lineares Generalizados . . . . . . . . . . . . . . . . . . . . . . . . 14 2.2 Modelo de Regressão Logística . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.2.1 Estimação dos Parâmetros . . . . . . . . . . . . . . . . . . . . . . . 19 2.2.2 Testes para a Significância do Modelo . . . . . . . . . . . . . . . . . 23 2.2.3 Estimação por Intervalos . . . . . . . . . . . . . . . . . . . . . . . . 25 2.2.3.1 Intervalo de Confiança para os Parâmetros . . . . . . . . . 25 2.2.3.2 Intervalo de Confiança para o Logito . . . . . . . . . . . . 25 2.2.3.3 Intervalo de Confiança para os Valores Ajustados . . . . . 26 2.2.4 Interpretação dos Coeficientes . . . . . . . . . . . . . . . . . . . . . 26 2.3 Avaliação do Ajuste do Modelo . . . . . . . . . . . . . . . . . . . . . . . . 29 2.3.1 Estatísticas Qui-Quadrado de Pearson e Deviance . . . . . . . . . . 29 2.3.2 Teste de Hosmer-Lemeshow . . . . . . . . . . . . . . . . . . . . . . 31 2.3.3 Métricas de Desempenho . . . . . . . . . . . . . . . . . . . . . . . . 31 2.3.3.1 Matriz de Classificação . . . . . . . . . . . . . . . . . . . . 31 2.3.3.2 Área Sob a Curva ROC . . . . . . . . . . . . . . . . . . . 33 2.3.3.3 Estatística de Kolmogorov-Smirnov (KS) . . . . . . . . . . 35 2.3.3.4 Coeficiente de Gini . . . . . . . . . . . . . . . . . . . . . . 36 2.4 Diagnóstico do Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.4.1 Análise dos Resíduos . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.4.1.1 Resíduo de Pearson . . . . . . . . . . . . . . . . . . . . . . 38 2.4.1.2 Resíduo Deviance . . . . . . . . . . . . . . . . . . . . . . . 38 2.4.2 Observações Influentes . . . . . . . . . . . . . . . . . . . . . . . . . 38 2.4.2.1 Diagonal da Matriz 𝐻 (𝑙𝑒𝑣𝑒𝑟𝑎𝑔𝑒) . . . . . . . . . . . . . . 39 2.4.2.2 Distância de Cook . . . . . . . . . . . . . . . . . . . . . . 39 2.4.2.3 𝐶 e 𝐶 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.4.2.4 DIFCHISQ e DIFDEV . . . . . . . . . . . . . . . . . . . . 40 2.4.3 Multicolinearidade . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3 DADOS INCOMPLETOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 3.1 Padrões de Dados Incompletos . . . . . . . . . . . . . . . . . . . . . . . . . 42 3.1.1 Padrão Univariado . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3.1.2 Padrão Monótomo . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3.1.3 Padrão Especial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 3.1.4 Padrão Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 3.2 Mecanismos de Dados Incompletos . . . . . . . . . . . . . . . . . . . . . . 45 3.2.1 MCAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.2.2 MAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.2.3 MNAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.3 Mecanismo Ignorável e Não-Ignorável . . . . . . . . . . . . . . . . . . . . . 46 3.4 Teste para Mecanismos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.4.1 Teste-𝑡 Univariado . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.4.2 Teste MCAR de Little . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.5 Métodos para o Tratamento de Dados Incompletos . . . . . . . . . . . . . 48 3.5.1 Deleção de Dados Incompletos . . . . . . . . . . . . . . . . . . . . . 48 3.5.1.1 Análise de Caso Completo . . . . . . . . . . . . . . . . . . 49 3.5.2 Imputação Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 3.5.2.1 Imputação por Medidas de Tendência Central . . . . . . . 49 3.5.2.2 Imputação pelo Vizinho Mais Próximo . . . . . . . . . . . 50 3.5.2.3 Imputação por Random Forest . . . . . . . . . . . . . . . 50 3.5.3 Imputação Múltipla . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 3.5.3.1 Algoritmo 𝑚𝑖𝑐𝑒 . . . . . . . . . . . . . . . . . . . . . . . . 52 4 APLICAÇÃO A DADOS DE CRÉDITO . . . . . . . . . . . . . . . . . . . . 54 4.1 Modelagem de Risco de Crédito . . . . . . . . . . . . . . . . . . . . . . . . 54 4.2 Descrição e Apresentação dos Dados . . . . . . . . . . . . . . . . . . . . . 55 4.3 Tratamento das Variáveis Explicativas . . . . . . . . . . . . . . . . . . . . 57 4.4 Partição do Conjunto de Dados . . . . . . . . . . . . . . . . . . . . . . . . 62 4.5 Seleção de Variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 4.6 Modelo de Regressão Logística para Dados Completos . . . . . . . . . . . . 64 4.7 Estudo de Simulação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 4.7.1 Resultados e Discussões . . . . . . . . . . . . . . . . . . . . . . . . 70 5 CONSIDERAÇÕES FINAIS E PERSPECTIVAS FUTURAS. . . . . . . . . 77 REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 APÊNDICES 81 APÊNDICE A Método Stepwise . . . . . . . . . . . . . . . . . . . . . . . . . 82 APÊNDICE B Tabelas Complementares . . . . . . . . . . . . . . . . . . . . . 85 11 1 INTRODUÇÃO Em muitos experimentos deseja-se investigar como as mudanças ocorridas em uma ou mais variáveis explicativas, também denominadas como variáveis independentes ou covariáveis, afetam uma outra variável, geralmente designada por variável resposta ou dependente. A análise estatística necessita encontrar uma relação funcional entre as variáveis ou aproximá-las por uma relação matemática que seja semelhante a função verdadeira, limitando o campo de variação das variáveis envolvidas. Para obter esta relação utiliza-se um modelo matemático específico que envolve a suposição inicial de que um certo tipo de relação linear com parâmetros desconhecidos seja verdadeira. Aplicações do modelo de regressão linear são inúmeras e ocorrem em várias áreas do conhecimento sob a condição de que a variável resposta é de natureza contínua. No entanto, quando a variável resposta não for contínua, mas politômica com poucas categorias, normalmente binária, a regressão linear não oferece estimadores plausíveis, sendo então necessário utilizar um outro tipo de modelo que permite calcular a probabilidade de ocorrência dos resultados dessa variável resposta, em geral, representada pelos termos sucesso e fracasso. Embora o pesquisador disponha de várias abordagens, a regressão logística é seguramente o procedimento de modelagem mais utilizado na área de epidemiologia, quando a medida da doença é dicotômica, ou na área financeira, quando há interesse em avaliar o risco dos atuais clientes honrarem o empréstimo cedido pelo banco dentro do prazo previsto e dos futuros clientes potenciais mais propensos à adesão de produtos ou serviços. Esta técnica é ainda a base da Análise do Controle de Qualidade Seis Sigma e desempenha um papel fundamental na área de mineração de dados, em português, ou data mining, em inglês. Segundo Hosmer e Lemeshow (2000), não apenas essas áreas utilizam regressão logística, também ela é muito explorada na criminologia, ecologia, engenharia, entre outras. Aspectos teóricos e práticos do modelo de regressão logística são amplamente discutidos na literatura, com destaque para os trabalhos de Kleinbaum e Klein (2010), Agresti (2007), Hilbe (2009) e Paula (2004), além de Hosmer e Lemeshow (2000) citado anteriormente. Uma das dificuldades com o desenvolvimento de modelos preditivos, especificamente o modelo de regressão logística, é a perda de várias observações por falta de informações sobre elas. Os software estatísticos mantém como padrão um procedimento denominado Análise de Casos Completos, onde simplesmente são descartados todos os casos com um ou mais valores ausentes nas variáveis, restringindo a análise apenas aos casos completa- mente observados (ENDERS, 2010). Portanto, a inferência estatística em bases de dados Capítulo 1. INTRODUÇÃO 12 incompletas é uma importante área de pesquisa, sobretudo porque dados com ausência de informação são comumente encontrados na prática. Vale ressaltar que os dados incompletos, ou também dados missing, existem e são de grande interesse para o estudo, mas devido alguma circunstância específica não foi possível observá-los. A falta de informação, razões acidentais, erro na transcrição dos dados ou até mesmo a exclusão intencional de dados pelo próprio pesquisador, são, em geral, situações que podem acarretar dados incompletos. Entre alguns casos comuns que ocorrem com certa frequência, podem ser citados os seguintes exemplos: ∙ Em uma pesquisa de campo, um indivíduo pode se recusar a responder uma determi- nada pergunta do questionário aplicado. Neste caso, a resposta referente à questão não respondida de interesse do pesquisador é o dado incompleto. ∙ No experimento para testar a eficácia de um determinado tratamento, indivíduos podem desistir antes do estudo ser concluído. Consequentemente, as respostas não obtidas de cada um dos indivíduos também constituem dados incompletos. ∙ Em um experimento industrial, alguns resultados podem ser dados incompletos devido a ocorrência de algum acidente mecânico não esperado. Então, é comum considerar os dados que não são observados como sendo missing, posto que seriam observados caso o acidente não tivesse ocorrido (LITTLE; RUBIN, 1987). ∙ Uma pesquisa sobre famílias com muitas variáveis socioeconômicas é realizada durante um certo período, e uma pesquisa de acompanhamento é conduzida com as mesmas famílias em um período posterior. É provável a presença de muitos dados incompletos no último conjunto de dados coletados, já que muitas famílias estudadas na pesquisa inicial podem não ser localizadas na pesquisa subsequente (RUBIN, 1976). Tendo em consideração que a regressão logística é uma abordagem adequada apenas para dados completos nas variáveis explicativas e o tratamento padrão de dados missing utilizado em software estatísticos é a Análise de Casos Completos, em geral, a decisão do pesquisador é desconsiderar do modelo os elementos amostrais que não apresentam resposta em uma ou mais variáveis explicativas. Contudo, a exclusão destes dados não é a melhor solução, visto que se os elementos retirados da amostra possuem características distintas dos demais, as estimativas obtidas para os parâmetros do modelo de regressão logística podem ser viesadas e, consequentemente, a inferência fica prejudicada. Seria ideal nestes casos a repetição do estudo para obter novos dados que suprem os dados incompletos, porém na prática esse recurso é inviável, em razão do custo financeiro e tempo limitado. Capítulo 1. INTRODUÇÃO 13 Para contornar tal problema, aplicam-se métodos de imputação simples ou múltipla que estimam os valores ausentes a partir dos dados disponíveis, levando em conta o padrão e o mecanismo gerador dos dados incompletos. A ideia básica é substituir estes dados por valores verossímeis, possibilitando assim realizar a análise estatística com a base de dados completa. Diante da recorrência frequente à questão de dados incompletos por pesquisadores da área de modelagem, é notória a importância de estudar, entender e popularizar a metodologia correta a ser adotada. Sendo assim, este trabalho trata de um estudo minucioso do modelo de regressão logística na presença de dados incompletos em que o objetivo principal é comparar diferentes métodos e abordagens de imputação de dados propostas na literatura que viabilizam a estimação consistente dos parâmetros deste modelo. Em síntese, espera-se que o trabalho seja utilizado não apenas como base para propostas de pesquisas futuras, mas também para promover maior flexibilidade quanto à aplicação dos modelos de regressão logística. Neste relatório, o conteúdo se encontra organizado da seguinte forma: no Capítulo 2, é apresentado o modelo de regressão logística e todas as etapas necessárias para obter o melhor ajuste. No Capítulo 3, é feita uma introdução sobre a teoria de dados incompletos, enfatizando-se os principais padrões e mecanismos de perda. No Capítulo 4, são abordados os métodos de imputação a serem aplicados. No Capítulo 5, é feita aplicação da metodologia estudada no trabalho a uma base real de dados de crédito. Por fim, no Capítulo 6, as considerações finais e perspectivas futuras são apresentadas. 14 2 REGRESSÃO LOGÍSTICA Neste capítulo, é apresentado o modelo de regressão logística, suas suposições, o procedimento de estimação dos parâmetros e algumas medidas para avaliar o ajuste do modelo. A fim de sintetizar o capítulo e evitar trivialidades, optou-se por abordar apenas o modelo de regressão logística múltiplo, que é uma generalização do modelo de regressão logística simples para o caso em que uma variável resposta dicotômica é uma função de mais do que uma variável explicativa. 2.1 Modelos Lineares Generalizados A classe dos modelos lineares normaisdominou a modelagem estatística durante muitos anos. Paula (2004) destaca que mesmo quando o fenômeno sob estudo não apresen- tava uma resposta para a qual fosse razoável a suposição de normalidade, transformações eram propostas com a finalidade de alcançar a normalidade desejada. Box e Cox (1964) sugeriram uma família de transformações. Os modelos lineares normais têm a forma 𝑦 = 𝑋𝛽 + 𝜖, em que 𝑦 é o vetor de observações, 𝑋 é a matriz de variáveis explicativas, 𝛽 é o vetor de parâmetros desconhecidos e 𝜖 é o erro estocástico do modelo. Embora vários modelos não lineares ou não normais tenham sido desenvolvidos para descrever fenômenos aleatórios que não eram adequadamente explicados pelos modelos lineares normais, a proposta mais inovadora foi apresentada por Nelder e Wedderburn (1972), que definiram os Modelos Lineares Generalizados (Generalized Linear Models - GLM). A ideia destes modelos é ampliar as opções para a distribuição da variável resposta, que deve pertencer à família exponencial de distribuição. Além disso, como nos modelos lineares normais, as observações também devem ser independentes e os dados são analisados em sua forma original, sem que seja necessário utilizar transformações. Um modelo linear generalizado é especificado por dois componentes e uma função de ligação que descreve a relação funcional entre eles (CORDEIRO; DEMÉTRIO, 2008): ∙ Componente aleatório: refere-se à variável resposta 𝑌 que segue uma distribui- ção de probabilidade contínua ou discreta pertencente à família exponencial de distribuições, que pode ser escrita como 𝑓 (𝑦|𝜃, 𝜑) = exp {︁ 𝜑−1 [𝑦𝜃 − 𝑏(𝜃)] + 𝑐(𝑦, 𝜑) }︁ , (2.1) Capítulo 2. REGRESSÃO LOGÍSTICA 15 sendo 𝑏(·) e 𝑐(·) funções conhecidas, 𝜃 o parâmetro canônico e 𝜑 o parâmetro de dispersão. Se 𝜑 é conhecido, então a família de distribuições descrita em (2.1) é equivalente à família exponencial na forma canônica, dada por 𝑓(𝑦|𝜃) = ℎ(𝑦) [𝑦𝜃 − 𝑏(𝜃)] , (2.2) enquanto que para 𝜑 desconhecido, a família (2.1) pode, ou não, pertencer à família exponencial biparamétrica (McCULLAGH; NELDER, 1989). Sob condições usuais de regularidade, é possível mostrar que o valor esperado e a variância de 𝑌 com distribuição na família (2.1) são 𝐸(𝑌 ) = 𝜇 = 𝑏′(𝜃) e 𝑉 𝑎𝑟(𝑌 ) = 𝜎2 = 𝜑𝑏′′(𝜃) em que 𝑏 ′′(𝜃) = 𝑣(𝜇) = 𝑑𝜇 𝑑𝜃 é denominada de função de variância. ∙ Componente sistemático: é definido por um preditor linear 𝜂 = (𝜂1, 𝜂2, . . . , 𝜂𝑛)𝑇 que está associado ao conjunto de variáveis explicativas tal que 𝜂 = 𝑋𝛽 sendo 𝑋 = (𝑥1,𝑥2, . . . ,𝑥𝑛)𝑇 a matriz do modelo com 𝑥𝑇𝑖 = (𝑥𝑖1, 𝑥𝑖2, . . . , 𝑥𝑖𝑝) e 𝛽 = (𝛽1, 𝛽2, . . . , 𝛽𝑝)𝑇 o vetor de parâmetros. ∙ Função de ligação: associa o componente aleatório ao componente sistemático, ou seja, 𝑔(𝜇𝑖) = 𝜂𝑖 = 𝑝∑︁ 𝑗=1 𝑥𝑖𝑗𝛽𝑗, (2.3) em que 𝑔(·) é uma função monótona e diferenciável. A escolha da função de ligação depende do tipo de variável resposta e do problema em particular abordado no estudo. Convém destacar o caso em que o parâmetro canônico coincide com o preditor linear, isto é, 𝜃𝑖 = 𝜂𝑖, o que notoriamente implica 𝜃𝑖 = 𝑥𝑇𝑖 𝛽. Dessa forma, o preditor linear modela diretamente o parâmetro canônico 𝜃𝑖 e, portanto, a função de ligação correspondente é denominada como função de ligação canônica. Pode-se demonstrar facilmente que as distribuições Bernoulli, Binomial, Poisson, Rayleigh, Normal e Gama pertencem à família exponencial na forma canônica (CORDEIRO; Capítulo 2. REGRESSÃO LOGÍSTICA 16 DEMÉTRIO, 2008). Como exemplo, considere que a variável aleatória 𝑌 tem distribuição de Bernoulli, com probabilidade de sucesso 𝑃 (𝑌 = 1) = 𝜋, então sua função de probabilidade é dada por 𝑝(𝑦|𝜋) = 𝜋𝑦 (1 − 𝜋)1−𝑦 , (2.4) para 𝑦 ∈ {0, 1} e 0 ≤ 𝜋 ≤ 1. Por cálculo direto é possível verificar que o valor esperado e a variância de 𝑌 são 𝐸(𝑌 ) = 𝜋 e 𝑉 𝑎𝑟(𝑌 ) = 𝜋(1 − 𝜋). Desenvolvendo (2.4), obtém-se 𝑝(𝑦|𝜋) = exp [𝑦 log (𝜋) + (1 − 𝑦)log (1 − 𝜋)] = exp [︂ 𝑦 log (︂ 𝜋 1 − 𝜋 )︂ + log (1 − 𝜋) ]︂ , com 𝜃 = log [︂ 𝜋 1 − 𝜋 ]︂ = log [︃ 𝜇 1 − 𝜇 ]︃ , 𝜇 = 𝑒 𝜃 1 + 𝑒𝜃 , 𝑏(𝜃) = log (1 − 𝜋) = log (1 + 𝜇) e ℎ(𝑦) = 1, sendo, portanto, um membro da família exponencial (2.2). 2.2 Modelo de Regressão Logística Seja um conjunto com 𝑝 variáveis explicativas independentes denotado por 𝑋 = [𝑋1, 𝑋2, . . . , 𝑋𝑝]𝑇 , sendo 𝑥𝑇𝑖 = [𝑥𝑖0, 𝑥𝑖1, . . . , 𝑥𝑖𝑝] com 𝑥𝑖0 = 1 e 𝑖 = 1, . . . , 𝑛, o vetor da 𝑖-ésima linha da matriz 𝑋 e 𝛽 = [𝛽0, 𝛽1, . . . , 𝛽𝑝]𝑇 o vetor de parâmetros desconhecidos do modelo, tal que 𝛽𝑗 é o parâmetro referente à 𝑗-ésima variável explicativa, com 𝑗 = 1, . . . , 𝑝. Denota-se por 𝑦 = [𝑌1, 𝑌2, . . . , 𝑌𝑛]𝑇 o vetor da variável resposta em que 𝑌𝑖 tem distribuição de Bernoulli, com probabilidade de sucesso 𝑃 (𝑌𝑖 = 1|𝑥𝑖) = 𝜋𝑖, ou seja, 𝑌𝑖 ∼ 𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖(𝜋𝑖) e é definida como 𝑌𝑖 = ⎧⎨⎩ 1, se o 𝑖-ésimo elemento amostral apresenta o evento de interesse0, caso contrário. Em qualquer problema de regressão, a quantidade de interesse a ser modelada é o valor médio da variável resposta dado os valores das variáveis explicativas, isto é, 𝐸 (𝑌𝑖|𝑥𝑖). Capítulo 2. REGRESSÃO LOGÍSTICA 17 Na regressão logística, devido à natureza da variável resposta, 0 ≤ 𝐸 (𝑌𝑖|𝑥𝑖) = 𝜋𝑖 ≤ 1. Neste caso, uma função de resposta linear para 𝜋𝑖 não é apropriada, uma vez que na regressão linear tem-se −∞ ≤ 𝐸(𝑌𝑖|𝑥𝑖) = 𝑥𝑇𝑖 𝛽 ≤ ∞. Em geral, é utilizada a função de distribuição Logística, que é similar à distribuição Normal, com caudas um pouco mais longas (CORDEIRO; DEMÉTRIO, 2008). Se 𝑈 tem distribuição Logística com parâmetros 𝜇 ∈ R e 𝜏 > 0, então sua função densidade de probabilidade é dada por 𝑓(𝑢|𝜇, 𝜏) = 1 𝜏 exp (︁ 𝑢−𝜇 𝜏 )︁ [︁ 1 + exp (︁ 𝑢−𝜇 𝜏 )︁]︁2 , e a função de distribuição acumulada dada por 𝐹 (𝑢|𝜇, 𝜏) = exp (︁ 𝑢−𝜇 𝜏 )︁ 1 + exp (︁ 𝑢−𝜇 𝜏 )︁ , sendo 𝑢 ∈ R, 𝜇 e 𝜏 os parâmetros de locação e escala, respectivamente. A Figura 1 apresenta gráficos das funções densidade de probabilidade e acumulada para diferentes valores de 𝜇 e 𝜏 . Figura 1 – Funções densidade de probabilidade e acumulada da distribuição Logística para diferentes valores de 𝜇 e 𝜏 . −6 −4 −2 0 2 4 6 0. 0 0. 1 0. 2 0. 3 0. 4 0. 5 u f( u) µ = − 1, τ = 0.5 µ = 0, τ = 0.5 µ = 0, τ = 1 µ = 2, τ = 2 −6 −4 −2 0 2 4 6 0. 0 0. 2 0. 4 0. 6 0. 8 1. 0 u F (u ) µ = − 1, τ = 0.5 µ = 0, τ = 0.5 µ = 0, τ = 1 µ = 2, τ = 2 A média e a variância da distribuição Logística, são dadas respectivamente, por 𝐸(𝑈) = 𝜇 e 𝑉 𝑎𝑟(𝑈) = 𝜋 2𝜏 2 3 . No modelo de regressão logística, 𝜋𝑖 tem a forma 𝜋𝑖 = 𝐹 (·), Capítulo 2. REGRESSÃO LOGÍSTICA 18 sendo 𝐹 (·) a função acumulada da distribuição Logística (AGRESTI, 2007). Assim, para facilitar os cálculos, considere a função acumulada de U em sua forma padrão, dada por 𝐹 (𝑢) = 𝑒 𝑢 1 + 𝑒𝑢 , (2.5) em que 𝑢 ∈ R. Para obter o modelo de regressão logística a partir de (2.5), usa-se a função de ligação logito definida como 𝑔(𝜋𝑖) = log [︂ 𝜋𝑖 1 − 𝜋𝑖 ]︂ = 𝛽0 + 𝑝∑︁ 𝑗=1 𝛽𝑗𝑥𝑖𝑗 = 𝑥𝑇𝑖 𝛽, (2.6) que é conhecida como o logaritmo da chance do 𝑖-ésimo elemento amostral apresentar o evento de interesse. Segundo Hosmer e Lemeshow (2000), esta função tem muitas propriedades desejáveis de um modelo de regressão linear. O logito 𝑔(𝜋𝑖) é linear em seus parâmetros, pode ser contínuo e variar de −∞ a ∞. Substituindo a função de ligação (2.6) na função acumulada (2.5), obtém-se 𝐹 [𝑔(𝜋𝑖)] = 𝑒𝑔(𝜋𝑖) 1 + 𝑒𝑔(𝜋𝑖) = 𝜋𝑖 1−𝜋𝑖 1 + 𝜋𝑖1−𝜋𝑖 = 𝜋𝑖. Deste modo, a probabilidade de sucesso do modelo de regressão logística múltipla para o 𝑖-ésimo elemento amostral é dada por 𝜋𝑖 = 𝜋(𝑥𝑖) = 𝑃 (𝑌𝑖 = 1|𝑋 = 𝑥𝑖) = exp (︂ 𝛽0 + 𝑝∑︀ 𝑗=1 𝛽𝑗𝑥𝑖𝑗 )︂ 1 + exp (︂ 𝛽0 + 𝑝∑︀ 𝑗=1 𝛽𝑗𝑥𝑖𝑗 )︂ = exp (︁ 𝑥𝑇𝑖 𝛽 )︁ 1 + exp (︁ 𝑥𝑇𝑖 𝛽 )︁. (2.7) Vale ressaltar que o modelo de regressão logística é denominadosimples quando 𝑝 = 1, ou seja, quando o modelo é composto por apenas uma variável explicativa. Em regressão logística, uma observação da variável resposta pode ser representada como 𝑦𝑖 = 𝜋𝑖 + 𝜖𝑖, em que 𝜖𝑖 é o erro do modelo. Assume-se que os erros 𝜖𝑖 são não correlacionados, isto é, 𝐶𝑜𝑣(𝜖𝑖, 𝜖𝑗) = 0, para todo 𝑖 ̸= 𝑗 com 𝑖, 𝑗 = 1, . . . , 𝑛. Além disso, se 𝑦 = 1 então 𝜖𝑖 = 1 − 𝜋𝑖 com probabilidade 𝜋𝑖, e se 𝑦 = 0 então 𝜖𝑖 = −𝜋𝑖 com probabilidade 1 − 𝜋𝑖. O modelo de regressão logística também pode conter variáveis explicativas discretas do tipo escala nominal. Contudo, é inapropriado incluí-las no modelo como se fossem Capítulo 2. REGRESSÃO LOGÍSTICA 19 de escala intervalar. Os valores usados para representar os vários níveis destas variáveis explicativas são apenas indicadores e não possuem significado numérico (HOSMER; LE- MESHOW, 2000). Neste caso, utiliza-se um grupo de variáveis de planejamento ou variáveis 𝑑𝑢𝑚𝑚𝑖𝑒𝑠. Se a 𝑗-ésima variável explicativa é qualitativa com 𝑘 categorias, deverá ser codificada em 𝑘 − 1 variáveis de planejamento. Então, o logito do modelo apresentado em (2.6) pode ser reescrito como 𝑔(𝜋𝑖) = 𝛽0 + 𝛽1𝑥𝑖1 + · · · + 𝑘𝑗−1∑︁ 𝑙=1 𝛽𝑗𝑙𝐷𝑗𝑙 + · · · + 𝛽𝑝𝑥𝑖𝑝, sendo cada uma das 𝑘𝑗 −1 variáveis de planejamento denotada por 𝐷𝑗𝑙 e 𝛽𝑗𝑙 seu coeficiente, para 𝑙 = 1, . . . , 𝑘𝑗 − 1. Outros modelos para dados binários têm sido propostos na literatura além da regressão logística, em que os mais comuns são o modelo probito cuja função de ligação é a inversa da distribuição acumulada da Normal e o modelo de valores extremos com função de ligação complementar log-log, obtida através da função acumulada de uma distribuição Gumbel de valor extremo. 2.2.1 Estimação dos Parâmetros O método mais utilizado para estimar os parâmetros desconhecidos de um modelo de regressão linear é o de mínimos quadrados. Sob suposições usuais este método fornece estimadores não viciados e consistentes. No entanto, quando o método de mínimos quadra- dos é aplicado a um modelo com variável resposta binária, os estimadores não apresentam as mesmas propriedades estatísticas desejáveis. Um possível método de estimação para modelos de regressão logística é o de máxima verossimilhança. Para aplicar o método, a princípio, é necessário construir a função de verossimilhança. Do ponto de vista clássico, esta função expressa a probabilidade dos dados observados como função dos parâmetros desconhecidos. Desse modo, as estimativas de máxima verossimilhança dos parâmetros são os valores que maximizam a função de verossimilhança, isto é, maximizam a probabilidade de obter o conjunto de dados observados. A função de probabilidade de cada observação 𝑦𝑖 da amostra é dada por 𝑓(𝑦𝑖|𝜋𝑖) = 𝜋𝑦𝑖𝑖 (1 − 𝜋𝑖) 1−𝑦𝑖 , em que 𝑦𝑖 ∈ {0, 1} e 0 ≤ 𝜋𝑖 ≤ 1. Assim, para uma amostra de tamanho 𝑛, assumindo Capítulo 2. REGRESSÃO LOGÍSTICA 20 independência das observações, a função de verossimilhança é dada por 𝑙(𝛽) = 𝑙(𝛽0, 𝛽1, . . . , 𝛽𝑝; 𝑦1, . . . , 𝑦𝑛) = 𝑛∏︁ 𝑖=1 𝑓(𝑦𝑖|𝜋𝑖) = 𝑛∏︁ 𝑖=1 𝜋𝑦𝑖𝑖 (1 − 𝜋𝑖) 1−𝑦𝑖 . (2.8) É mais conveniente, matematicamente, trabalhar com o logaritmo da função de verossimilhança. Então, aplicando o logaritmo em (2.8), obtém-se 𝐿(𝛽) = log [︃ 𝑛∏︁ 𝑖=1 𝜋𝑦𝑖𝑖 (1 − 𝜋𝑖) 1−𝑦𝑖 ]︃ = 𝑛∑︁ 𝑖=1 [𝑦𝑖log (𝜋𝑖) + log (1 − 𝜋𝑖) − 𝑦𝑖log (1 − 𝜋𝑖)] = 𝑛∑︁ 𝑖=1 [︂ 𝑦𝑖log (︂ 𝜋𝑖 1 − 𝜋𝑖 )︂ + log (1 − 𝜋𝑖) ]︂ = 𝑛∑︁ 𝑖=1 [︂ 𝑦𝑖𝑥 𝑇 𝑖 𝛽 − log (︂ 1 + 𝑒𝑥𝑇𝑖 𝛽 )︂]︂ . (2.9) O vetor escore 𝑈(𝛽) do modelo de regressão logística é formado pelas derivadas parciais de primeira ordem do logaritmo da função de verossimilhança. Derivando a equação (2.9) em relação a cada um dos parâmetros, tem-se que 𝑈𝑗 = 𝜕𝐿(𝛽) 𝜕𝛽𝑗 = 𝑛∑︁ 𝑖=1 ⎡⎣𝑥𝑖𝑗𝑦𝑖 − 𝑥𝑖𝑗𝑒𝑥𝑇𝑖 𝛽 1 + 𝑒𝑥𝑇𝑖 𝛽 ⎤⎦ = 𝑛∑︁ 𝑖=1 𝑥𝑖𝑗 (𝑦𝑖 − 𝜋𝑖) , (2.10) para 𝑗 = 0, 1, . . . , 𝑝. Logo, o vetor escore pode ser escrito na forma matricial como 𝑈 (𝛽) = 𝑋𝑇 (𝑦 − 𝜋) . A estimativa de máxima verossimilhança 𝛽 do vetor de parâmetros 𝛽 é obtida igualando-se 𝑈 (𝛽) a zero. Como a equação 𝑈 (𝛽) não é linear em 𝛽, o sistema é resolvido numericamente através de métodos iterativos do gradiente1 (KHURI, 2003). Um dos procedimentos mais utilizados é o algoritmo de Newton-Raphson, que além de estimar o vetor 𝛽 de parâmetros desconhecidos do modelo, também fornece diretamente a matriz de variâncias e covariâncias das estimativas dos parâmetros. Amemiya (1985) demonstra que o logaritmo da função de verossimilhança é côncavo, assim o algoritmo de Newton- Raphson converge para um único máximo (os estimadores de máxima verossimilhança) independentemente das estimativas inicias adotadas. Uma abordagem mais detalhada sobre este e outros métodos iterativos com aplicação em regressão logística é apresentada em Hilbe (2009). 1 A classe de algoritmos do gradiente compreende métodos iterativos que requerem a avaliação expressa das derivadas parciais da função de verossimilhança. Capítulo 2. REGRESSÃO LOGÍSTICA 21 O algoritmo de Newton-Raphson para a solução do sistema de equações 𝑈 (𝛽) = 0 é baseado na série de Taylor para o vetor escore 𝑈(𝛽) em torno de um valor inicial 𝛽(0), tal que 𝑈 (︁ 𝛽(0) )︁ + 𝐽 (︁ 𝛽(0) )︁ (︁ 𝛽 − 𝛽(0) )︁ = 0, obtendo-se 𝛽 = 𝛽(0) + 𝑈 (︁ 𝛽(0) )︁ 𝐽 (︁ 𝛽(0) )︁ , (2.11) em que 𝐽(𝛽) é a matriz de informação observada de Fisher, com elemento típico dado por 𝐽𝑗𝑘(𝛽) = − 𝜕2𝐿(𝛽) 𝜕𝛽𝑗𝜕𝛽𝑘 , para 𝑗, 𝑘 = 0, 1, . . . , 𝑝. Assim, repetindo o procedimento (2.11), tem-se o processo iterativo 𝛽(𝑟+1) = 𝛽(𝑟) + [︁ 𝐽 (︁ 𝛽(𝑟) )︁]︁−1 𝑈 (︁ 𝛽(𝑟) )︁ , 𝑟 = 0, 1, 2, . . . , (2.12) sendo 𝛽(𝑟) e 𝛽(𝑟+1) os vetores de parâmetros estimados nos passos (𝑟) e (𝑟 + 1), respectiva- mente, 𝑈 (︁ 𝛽(𝑟) )︁ o vetor escore avaliado no passo (𝑟) e [︁ 𝐽 (︁ 𝛽(𝑟) )︁]︁−1 a inversa da matriz de Fisher observada também avaliada no passo (𝑟). De acordo com Cordeiro e Demétrio (2008), o método de Newton-Raphson é bastante útil quando a matriz 𝐽(𝛽) é definida positiva e as derivadas parciais de segunda ordem são avaliadas facilmente. Acontece, porém, que isso nem sempre ocorre, e no caso dos modelos lineares generalizados, o algoritmo escore de Fisher pode ser mais adequado. Os software R, na função glm e SAS, no procedimento proc logistic, por exemplo, utilizam este método que, em geral, é mais simples, coincidindo apenas com o método de Newton- Raphson para funções de ligação canônicas. Basicamente, o algoritmo escore de Fisher consiste em substituir a matriz de informação observada, 𝐽(𝛽), pela matriz de informação esperada de Fisher, 𝐼(𝛽). Logo, o processo iterativo é dado por 𝛽(𝑟+1) = 𝛽(𝑟) + [︁ 𝐼 (︁ 𝛽(𝑟) )︁]︁−1 𝑈 (︁ 𝛽(𝑟) )︁ , 𝑟 = 0, 1, 2, . . . (2.13) em que 𝐼(𝛽) tem elemento típico dado por 𝐼𝑗𝑘 = −𝐸 [︃ 𝜕2𝐿(𝛽) 𝜕𝛽𝑗𝜕𝛽𝑘 ]︃ = 𝐸 [︃ 𝜕𝐿(𝛽) 𝜕𝛽𝑗 𝜕𝐿(𝛽) 𝜕𝛽𝑘 ]︃ , que é a matriz de covariâncias do vetor escore 𝑈(𝛽). Multiplicando-se ambos os membros de (2.13) por 𝐼 (︁ 𝛽(𝑟) )︁ , tem-se 𝐼 (︁ 𝛽(𝑟) )︁ 𝛽(𝑟+1) = 𝐼 (︁ 𝛽(𝑟) )︁ 𝛽(𝑟) +𝑈 (︁ 𝛽(𝑟) )︁ . (2.14) Capítulo 2. REGRESSÃO LOGÍSTICA 22 Utilizando o resultado (2.10), obtém-se o elemento típico 𝐼𝑗𝑘 de 𝐼(𝛽) como 𝐼𝑗𝑘 = 𝐸 (𝑈𝑗𝑈𝑘) = 𝑛∑︁ 𝑖=1 𝑥𝑖𝑗𝑥𝑖𝑘𝐸 (𝑦𝑖 − 𝜋𝑖)2 = 𝑛∑︁ 𝑖=1 𝑥𝑖𝑗𝑥𝑖𝑘 [︁ 𝜋2𝑖 + 𝜋𝑖 (1 − 𝜋𝑖) − 2𝜋2𝑖 + 𝜋2𝑖 ]︁ = 𝑛∑︁ 𝑖=1 𝑥𝑖𝑗𝑥𝑖𝑘𝜋𝑖 (1 − 𝜋𝑖) , e, portanto, a matriz de informação esperada de Fisher tem a forma 𝐼(𝛽) = 𝑋𝑇𝑊𝑋, (2.15) sendo 𝑊 = 𝑑𝑖𝑎𝑔{𝑤1, 𝑤2, . . . , 𝑤𝑛}, a matriz diagonal de pesos com elementos 𝑤𝑖 = 𝜋𝑖 (1 − 𝜋𝑖). O vetor escore 𝑈(𝛽) pode, então, ser reescrito na forma 𝑈 (𝛽) = 𝑋𝑇𝑊𝐾 (𝑦 − 𝜋) , em que 𝐾 é uma matriz diagonal de ordem 𝑛 cujo 𝑖-ésimo elemento é dado por 𝑘𝑖 = 𝜕𝜂𝑖 𝜕𝜋𝑖 = 1 𝜋𝑖 (1 − 𝜋𝑖) . Substituindo 𝐼(𝛽) e 𝑈(𝛽) em (2.14), tem-se 𝑋𝑇𝑊 (𝑟)𝑋𝛽(𝑟+1) = 𝑋𝑇𝑊 (𝑟)𝑋𝛽(𝑟) +𝑋𝑇𝑊 (𝑟)𝐾(𝑟) (︁𝑦 − 𝜋(𝑟) )︁ , ou, ainda, 𝑋𝑇𝑊 (𝑟)𝑋𝛽(𝑟+1) = 𝑋𝑇𝑊 (𝑟) [︁ 𝜂(𝑟) +𝐾(𝑟) (︁ 𝑦 − 𝜋(𝑟) )︁]︁ . Definindo a variável dependente ajustada 𝑧 = 𝜂 +𝐾 (𝑦 − 𝜋), tem-se 𝑋𝑇𝑊 (𝑟)𝑋𝛽(𝑟+1) = 𝑋𝑇𝑊 (𝑟)𝑧(𝑟), e, assim 𝛽(𝑟+1) = (︁ 𝑋𝑇𝑊 (𝑟)𝑋 )︁−1 𝑋𝑇𝑊 (𝑟)𝑧(𝑟), (2.16) é um processo iterativo de mínimos quadrados reponderados. Dentre os muitos existentes, um critério para assegurar a convergência do algoritmo pode ser 𝑝∑︁ 𝑗=1 ⎛⎝𝛽(𝑟+1)𝑗 − 𝛽(𝑟)𝑗 𝛽 (𝑟) 𝑗 ⎞⎠2 < 𝜉, Capítulo 2. REGRESSÃO LOGÍSTICA 23 em que 𝜉 é um valor suficientemente pequeno. O processo (2.16) é executado até que seja satisfeito o critério adotado, estabelecendo-se, então, 𝛽 = 𝛽(𝑟+1). Para se fazer inferências, usa-se o fato de que 𝛽 tem distribuição aproximadamente 𝑁𝑝 (𝛽, 𝐼(𝛽)−1), sob certas condições de regularidade para a função de verossimilhança e com 𝑛 → ∞. Desta forma, a matriz de variâncias e covariâncias estimada dos coeficientes, denotada por ^𝑉 𝑎𝑟(𝛽), é obtida de 𝑉 𝑎𝑟(𝛽) em 𝛽. Em geral, são utilizados apenas os erros padrão estimados dos coeficientes, definidos como 𝐸𝑃 (𝛽𝑗) = [︁ ^𝑉 𝑎𝑟(𝛽𝑗) ]︁ 1 2 , para 𝑗 = 0, 1, . . . , 𝑝. Esta mesma notação será mantida em métodos desenvolvidos para testar coeficientes e estimar intervalos de confiança. 2.2.2 Testes para a Significância do Modelo Uma vez ajustado o modelo de regressão logística, faz-se necessário avaliá-lo, e um dos primeiros passos é a formulação e teste de hipóteses estatísticos que permitem determinar se as variáveis explicativas presentes no modelo são significativas em relação à variável resposta. De modo geral, deseja-se comparar os valores observados da variável reposta com os valores ajustados por dois modelos, um contendo o conjunto de variáveis explicativas, e outro, sem este conjunto de variáveis. Em regressão logística, esta comparação é feita através do logaritmo da função de verossimilhança dado por (2.9). A significância de todos os 𝑝 parâmetros associados às variáveis explicativas no modelo pode ser avaliada com base na estatística da razão de verossimilhança. Supondo que o interesse é testar as hipóteses⎧⎪⎨⎪⎩𝐻0 : 𝛽 = 0𝐻1 : 𝛽 ̸= 0 (∃ 𝛽𝑗 ̸= 0) , a estatística do teste é dada por 𝐺 = −2 log [︃ (verossimilhança do modelo sem as 𝑝 variáveis explicativas) (verossimilhança do modelo com as 𝑝 variáveis explicativas) ]︃ , ou ainda, 𝐺 = 2 [︁ 𝐿(𝛽) − 𝐿(𝛽0) ]︁ , em que 𝐿(𝛽) é o logaritmo da função de verossimilhança do modelo ajustado e 𝐿(𝛽0) é o logaritmo da função de verossimilhança do modelo apenas com o intercepto. A estatística 𝐺 tem distribuição 𝜒2 com 𝑝 graus de liberdade, e rejeita-se a hipótese 𝐻0 se 𝐺 > 𝜒2𝑝. Ao rejeitar 𝐻0 conclui-se que pelo menos um coeficiente ou talvez todos os coeficientes são estatisticamente diferentes de zero. Capítulo 2. REGRESSÃO LOGÍSTICA 24 Segundo Neto e Diniz (2002), outros dois testes são ainda frenquentemente utilizados como alternativas ao teste da razão de verossimilhança. São eles, o teste de Wald e o teste Escore. A estatística do teste de Wald é dada por 𝑊 = 𝛽𝑇𝐼(𝛽)𝛽, (2.17) em que 𝐼(𝛽) é a matriz de informação de Fisher esperada avaliada em 𝛽. Sob a hipótese nula de que 𝛽 é igual ao vetor nulo 0, esta estatística segue uma distribuição 𝜒2 com 𝑝 graus de liberdade. Como o teste de Wald exige a execução de operações entre matrizes e a obtenção de 𝛽, então não apresenta vantagens computacionais sobre o teste da razão de verossimilhança para se testar a significância do modelo de regressão logística. Enquanto, a estatística do teste Escore é dada por 𝐸 = 𝑈(𝛽)𝐼(𝛽)−1𝑈(𝛽), (2.18) em que 𝐼(𝛽)−1 é a inversa da matriz de informação de Fisher esperada avaliada em 𝛽. Como nos demais testes, a estatística 𝐸 também possui uma distribuição 𝜒2 com 𝑝 graus de liberdade sob a hipótese de que os 𝑝 + 1 coeficientes são iguais a zero. Além disso, as dificuldades computacionais para a aplicação deste teste são as mesmas do teste de Wald. De acordo com Hosmer e Lemeshow (2000), após concluir que pelo menos um parâmetro é diferente de zero, pode-se calcular a estatística do teste univariado de Wald para testar se cada parâmetro é diferente de zero individualmente. Neste caso, admitindo como hipóteses ⎧⎪⎨⎪⎩𝐻0 : 𝛽𝑗 = 0𝐻1 : 𝛽𝑗 ̸= 0 , calcula-se a seguinte estatística 𝑊𝑗 = 𝛽𝑗 𝐸𝑃 (𝛽𝑗) , para 𝑗 = 0, 1, . . . , 𝑝. Sob a hipótese nula de que 𝛽𝑗 é igual a zero, a estatística 𝑊𝑗 segue uma distribuição Normal Padrão. Sendo assim, rejeita-se 𝐻0 se |𝑊𝑗| > 𝑍𝛼2 , sendo 𝛼 um nível de significância pré definido ou, de forma equivalente, conclui-se por meio do p-valor, que se for maior que 𝛼, a 𝑗-ésima variável explicativa não é significativa para o modelo. Sempre que uma variável explicativa do tipo categórica é incluída ou excluída do modelo, necessariamente todas as variáveis de planejamento associadas devem ser incluídas ou excluídas. Logo, se 𝑘 é o número de categorias da variável explicativa, então ela contribui com 𝑘 − 1 graus de liberdade para o teste de significância. Em regressão logística também é comum utilizar o teste da razão de verossimilhança para a seleção de variáveis. Embora existam vários procedimentos para realizar tal tarefa, Capítulo 2. REGRESSÃO LOGÍSTICA 25 um método muito utilizado é o 𝑠𝑡𝑒𝑝𝑤𝑖𝑠𝑒 que se consolida como uma ferramenta eficaz na seleção ou exclusão de variáveis baseado em um algoritmo que verifica a importância das mesmas para o modelo com base em uma regra de decisão preestabelecida. Para mais informações a respeito deste algoritmo ver Apêndice A. No entanto, segundo Paula (2004), este método é uma forma puramente mecânica de seleção que pode levar a um modelo sem sentido e de difícil interpretação. Muitas vezes, variáveis consideradas relevantes para o pesquisador não devem ser desconsideradas do modelo pela sua falta de significância estatística. Assim, a seleção de um modelo logístico deve ser um processo conjugado de seleção estatística de modelos e bom senso. 2.2.3 Estimação por Intervalos Uma outra análise importante para testar a significância do modelo é o cálculo e a interpretação dos intervalos de confiança para os parâmetros de interesse. No caso da regressão logística, pode-se obter os intervalos de confiança para 𝛽𝑗, 𝑔(𝜋𝑖) e 𝜋𝑖. A base teórica estatística para a construção dos estimadores intervalares é a mesma utilizada na formulação dos testes de significância do modelo, conforme é apresentado a seguir. 2.2.3.1 Intervalo de Confiança para os Parâmetros Os intervalos de confiança para os parâmetros do modelo de regressão logística são baseados em seus respectivos testes de Wald. Assim sendo, o intervalo com 100(1 − 𝛼)% de confiança para 𝛽𝑗, 𝑗 = 0, 1, . . . , 𝑝, é dado por 𝛽𝑗 ± 𝑧𝛼2 𝐸𝑃 (𝛽𝑗), em que 𝑧𝛼 2 é o percentil de uma distribuição normal padrão. 2.2.3.2 Intervalo de Confiança para o Logito Para se obter o intervalo de confiança da transformação logito é necessário saber a soma das variâncias para cada variável explicativa. Como ^𝑉 𝑎𝑟(𝛽) = (︁ 𝑋𝑇�̂�𝑋 )︁−1 , então ^𝑉 𝑎𝑟 [𝑔(�̂�𝑖)] = ^𝑉 𝑎𝑟(𝑥𝑇𝑖 𝛽) = 𝑥𝑇𝑖 ^𝑉 𝑎𝑟(𝛽)𝑥𝑖 = 𝑥𝑇𝑖 (︁ 𝑋𝑇�̂�𝑋 )︁−1 𝑥𝑖. (2.19) Logo, o intervalo com 100(1 − 𝛼)% de confiança para 𝑔(𝜋𝑖), 𝑖 = 1, . . . , 𝑛, é dado por 𝑔(�̂�𝑖) ± 𝑧𝛼2 𝐸𝑃 [𝑔(�̂�𝑖)] , em que 𝐸𝑃 [𝑔(�̂�𝑖)] é a raiz quadrada do estimador da variância de 𝑔(�̂�𝑖) dado em (2.19). Capítulo 2. REGRESSÃO LOGÍSTICA 26 2.2.3.3 Intervalo de Confiança para os Valores Ajustados O estimador do logito e seu intervalo de confiança também fornece o intervalo com 100(1 − 𝛼)% de confiança para o valores ajustados 𝜋𝑖, dado por exp {︁ 𝑔(�̂�𝑖) ± 𝑧𝛼2 𝐸𝑃 [𝑔(�̂�𝑖)] }︁ 1 + exp {︁ 𝑔(�̂�𝑖) ± 𝑧𝛼2 𝐸𝑃 [𝑔(�̂�𝑖)] }︁ . 2.2.4 Interpretação dos Coeficientes Sabe-se que é imprescindível verificar se o ajuste do modelo está adequado e esta etapa deve acontecer antes mesmo da interpretação de seus coeficientes. No entanto, como ressalta Hosmer e Lemeshow(2000), no caso da regressão logística os métodos para verificação do ajuste são de natureza técnica e, portanto, serão vistos posteriormente. Um dos maiores interesses na aplicação de qualquer modelo de regressão é avaliar o que os coeficientes estimados informam sobre as questões da pesquisa que motivaram o estudo. De um modo geral, estes coeficientes representam a inclinação ou taxa de alteração na função da variável resposta a cada unidade de mudança nas variáveis explicativas. Antes de iniciar a discussão dos coeficientes do modelo logístico, faz-se necessário introduzir uma medida de associação denominada razão de chances (em inglês, odds ratio). A razão de chances pode ser interpretada como a comparação da probabilidade de sucesso de um evento com sua probabilidade de fracasso ou, ainda, como a chance de ocorrência de um evento entre indivíduos que têm um fator de risco, comparados com indivíduos não expostos, sujeitos ao evento. Para interpretar os valores associados aos coeficientes do modelo de regressão logís- tica, é conveniente proceder à análise de acordo com a natureza das variáveis explicativas. Inicialmente, a fim de simplificar, será demonstrada a situação na qual existe apenas uma única variável explicativa dicotômica codificada como 0 ou 1 levando a que 𝜋𝑖 possa assumir apenas os valores 𝜋(0) e 𝜋(1). Segundo Hosmer e Lemeshow (2000), esta situação pode ser representada conforme a Tabela 1. Tabela 1 – Valores de 𝜋 no modelo de regressão logística com variável explicativa dicotômica. Variável resposta 𝑌 Variável explicativa 𝑋 𝑥 = 1 𝑥 = 0 𝑦 = 1 𝜋(1) = 𝑒𝛽0+𝛽1 1 + 𝑒𝛽0+𝛽1 𝜋(0) = 𝑒𝛽0 1 + 𝑒𝛽0 𝑦 = 0 1 − 𝜋(1) = 1 1 + 𝑒𝛽0+𝛽1 1 − 𝜋(0) = 1 1 + 𝑒𝛽0 Total 1 1 A chance da resposta quando 𝑥 = 1 é definida como 𝜋(1)1−𝜋(1) . Da mesma forma, a Capítulo 2. REGRESSÃO LOGÍSTICA 27 chance da resposta quando 𝑥 = 0 é 𝜋(0)1−𝜋(0) . Sendo assim, a razão de chances, denotada como Ψ, é definida por Ψ(1, 0) = 𝜋(1) 1 − 𝜋(1) 𝜋(0) 1 − 𝜋(0) = 𝑒𝛽0+𝛽1 𝑒𝛽0 = 𝑒𝛽1 . Como o logito é 𝑔 [𝜋(1)] = log [︃ 𝜋(1) 1 − 𝜋(1) ]︃ e 𝑔 [𝜋(0)] = log [︃ 𝜋(0) 1 − 𝜋(0) ]︃ , então o logaritmo da razão de chances ou diferença no logito é log [Ψ(1, 0)] = 𝑔 [𝜋(1)] − 𝑔 [𝜋(0)] = log ⎡⎢⎢⎢⎢⎢⎣ 𝜋(1) 1 − 𝜋(1) 𝜋(0) 1 − 𝜋(0) ⎤⎥⎥⎥⎥⎥⎦ = log (︁ 𝑒𝛽1 )︁ = 𝛽1. A razão de chances é uma medida comumente utilizada em diferentes áreas do conhecimento. Considere como exemplo um estudo do tipo caso-controle sobre tabagismo como fator de risco e a ocorrência de câncer de pulmão. Neste caso, uma razão de chances igual a 1 indica ausência de relação associativa entre o tabagismo e a ocorrência de câncer de pulmão. Uma razão de chances maior que 1 sugere que indivíduos expostos ao fator de risco (tabagistas) apresentam maior probabilidade de serem atingidos pelo câncer de pulmão do que os não-expostos (não-tabagistas). Enquanto, uma razão de chances menor que 1 indica que o hábito de fumar é um fator de proteção para o câncer no pulmão. Devido sua fácil interpretação, a razão de chances é uma medida de grande interesse no modelo logístico. A distribuição assimétrica de Ψ̂ se deve ao fato de seus limites tenderem a zero. No entanto, para grandes amostras, a distribuição de Ψ̂ será Normal e portanto simétrica. Assim, um intervalo com 100(1 − 𝛼)% para Ψ é dado por exp [︁ 𝛽𝑗 ± 𝑧 1 2 𝐸𝑃 (𝛽𝑗) ]︁ . Suponha agora que uma das variáveis explicativas em estudo, tem mais do que duas categorias distintas. Neste caso, para interpretar os coeficientes estimados, é necessário considerar uma categoria como grupo de referência com o qual as outras categorias serão comparadas. Deve-se então fazer todas as variáveis de planejamento iguais a zero para o grupo de referência, conforme a Tabela 2. Capítulo 2. REGRESSÃO LOGÍSTICA 28 Tabela 2 – Codificação de variável explicativa politômica. Categorias de 𝑋 Variáveis de Planejamento 𝐷1 𝐷2 · · · 𝐷𝑘−1 𝐶1 0 0 · · · 0 𝐶2 1 0 · · · 0 ... ... ... . . . ... 𝐶𝑘 0 0 · · · 1 Em seguida, qualquer grupo 𝐶𝑙, 𝑙 = 2, 3, . . . , 𝑘, pode ser comparado com a casela ou grupo de referência 𝐶1. O intervalo de confiança para Ψ é obtido exatamente da mesma forma que no caso das variáveis dicotômicas. Se uma variável explicativa contínua, por exemplo 𝑋1, for acrescida em uma unidade, mantendo as demais variáveis do modelo fixas, a chance do evento fica 𝜋*𝑖 1 − 𝜋*𝑖 = exp [𝛽0 + 𝛽1(𝑥𝑖1 + 1) + · · · + 𝛽𝑝𝑥𝑖𝑝] = exp(𝛽0 + 𝛽1𝑥𝑖1 + · · · + 𝛽𝑝𝑥𝑖𝑝 + 𝛽1) = exp(𝛽0 + 𝛽1𝑥𝑖1 + · · · + 𝛽𝑝𝑥𝑖𝑝) exp(𝛽1) = 𝜋𝑖1 − 𝜋𝑖 exp(𝛽1). A diferença no logito é 𝑔(𝜋*𝑖 ) − 𝑔(𝜋𝑖) = 𝛽1 e a razão de chances de (𝑋1 + 1) em relação a 𝑋1 é dada por Ψ(1) = 𝜋*𝑖 1−𝜋*𝑖 𝜋𝑖 1−𝜋𝑖 = exp(𝛽1), ou seja, a chance do evento de interesse ocorrer entre os indivíduos que diferem na variável 𝑋1 em 1 unidade é igual a exp(𝛽1). Neste caso, a estimativa da razão de chances é Ψ̂(1) = exp(𝛽1). De uma forma geral, com um acréscimo de 𝑐 unidades em 𝑋1, a estimativa da diferença no logito é 𝑔(�̂�*𝑖 ) − 𝑔(�̂�𝑖) = 𝑐𝛽1 e da razão de chances é dada por Ψ̂(𝑐) = exp(𝑐𝛽1). O intervalo com 100(1 − 𝛼)% de confiança para a razão de chances Ψ(𝑐) é definido por exp [︁ 𝑐𝛽1 ± 𝑧𝛼2 𝑐𝐸𝑃 (𝛽1) ]︁ . A interpretação do coeficiente estimado para uma variável explicativa contínua é similar ao de uma variável discreta. A principal diferença é que se deve definir qual quantidade 𝑐 acarreta uma mudança significativa nas variáveis contínuas. Capítulo 2. REGRESSÃO LOGÍSTICA 29 2.3 Avaliação do Ajuste do Modelo Em praticamente toda tarefa de modelagem, apenas estimar o modelo e confrontá-lo com novos dados não é suficiente, pois é necessário avaliar a aderência do modelo ao evento que pretende-se descrever. Para determinar se esta aderência alcançou padrões aceitáveis, pode-se utilizar testes estatísticos e métricas de desempenho que buscam testar a qualidade de ajuste do modelo estimado. Existem, na literatura, testes estatísticos apropriados para aferir se o modelo de regressão logística ajustado é o mais indicado, sendo o interesse testar as seguintes hipóteses: ⎧⎪⎨⎪⎩𝐻0 : O modelo é adequado𝐻1 : O modelo não é adequado . O esperado é que as distâncias entre o vetor da variável resposta 𝑦 e o vetor dos valores ajustados �̂� sejam pequenas. Caso contrário, haverá uma evidente indicação da existência de problemas com o modelo. 2.3.1 Estatísticas Qui-Quadrado de Pearson e Deviance Na regressão logística, segundo Hosmer e Lemeshow (2000), existem várias formas de medir a diferença entre os valores observados e valores ajustados. Uma forma comum é calcular os valores ajustados para cada combinação de níveis diferentes das variáveis explicativas, denominada padrão de covariável (em inglês, covariate pattern). Assim sendo, o valor ajustado para o 𝑘-ésimo padrão de covariável é dado por 𝑦𝑘 = 𝑚𝑘𝜋𝑘 = 𝑚𝑘 ⎡⎣ 𝑒𝑔(𝜋𝑘) 1 + 𝑒𝑔(𝜋𝑘) ⎤⎦ , em que 𝑚𝑘 é o número de observações com valores iguais 𝑥 = 𝑥𝑘, para 𝑘 = 1, . . . , 𝐾, 𝐾 ≤ 𝑛, sendo 𝐾 o número distinto de valores que 𝑥 assume na amostra, 𝜋𝑘 é a probabilidade condicional da variável resposta e 𝑔(𝜋𝑘) é a transformação logito estimada. Em outras palavras, é como tivessem sido formados grupos, onde as observações são idênticas (ver exemplo no Apêndice B). Sabendo-se como calcular 𝑦𝑘, a qualidade do ajuste pode ser avaliada através do teste qui-quadrado de Pearson, que compara as probabilidades observadas e esperadas de sucesso e fracasso em cada grupo de observações. Para um particular padrão de covariável, o resíduo de Pearson é definido como 𝑟𝑝(𝑦𝑘, �̂�𝑘) = (𝑦𝑘 − 𝑚𝑘�̂�𝑘)√︁ 𝑚𝑘�̂�𝑘(1 − �̂�𝑘) , em que 𝑦𝑘 é o número de indivíduos em 𝑘 com 𝑦 = 1. Capítulo 2. REGRESSÃO LOGÍSTICA 30 Assim, a estatística do teste qui-quadrado de Pearson baseada nos resíduos é dada por 𝜒2 = 𝐾∑︁ 𝑘=1 𝑟𝑝(𝑦𝑘, �̂�𝑘)2, que tem uma distribuição assintótica Qui-quadrado com 𝐾 − (𝑝 + 1) graus de liberdade. Um pequeno valor para a estatísticado teste ou, de maneira análoga, grande p-valor associado implica que o modelo está ajustado de forma satisfatória aos dados. Outra possibilidade é avaliar a qualidade do ajuste utilizando o resíduo deviance. A estatística deviance, proposta por Nelder e Wedderburn (1972), compara o valor da função de verossimilhança para o modelo proposto com 𝑝 + 1 parâmetros ao seu valor no modelo saturado. Para esta comparação é conveniente tomar menos duas vezes o logaritmo do quociente destes valores. Assim, a deviance é definida por Λ = −2 log [︃ verossimilhança do modelo atual verossimilhança do modelo saturado ]︃ ou, equivalente, Λ = −2 log ⎡⎣ 𝑙(𝛽0, 𝛽1, . . . , 𝛽𝑝) 𝑙 (𝑦1, 𝑦2, . . . , 𝑦𝑛) ⎤⎦ . Na prática, o modelo saturado é aquele no qual o número de variáveis é igual ao número de observações, uma vez que não resume estes dados, somente os reproduz. Considerando o modelo logístico com as probabilidades estimadas �̂�𝑖, tem-se que a deviance pode ainda ser escrita como Λ = −2 𝑛∑︁ 𝑖=1 [𝑦𝑖log(�̂�𝑖) + (1 − 𝑦𝑖)log(1 − �̂�𝑖) − 𝑦𝑖log(𝑦𝑖) − (1 − 𝑦𝑖)log(1 − 𝑦𝑖)] = −2 𝑛∑︁ 𝑖=1 [︃ 𝑦𝑖log (︃ �̂�𝑖 𝑦𝑖 )︃ + (1 − 𝑦𝑖)log (︃ 1 − �̂�𝑖 1 − 𝑦𝑖 )︃]︃ = 2 𝑛∑︁ 𝑖=1 [︂ 𝑦𝑖log (︂ 𝑦𝑖 �̂�𝑖 )︂ + (1 − 𝑦𝑖)log (︂1 − 𝑦𝑖 1 − �̂�𝑖 )︂]︂ . Note que a deviance Λ é sempre positiva e quanto menor, melhor é o ajuste do modelo. Para um padrão de covariável 𝑘, o componente da deviance, chamado de resíduo deviance, é definido por 𝑑(𝑦𝑘, �̂�𝑘) = ± ⎯⎸⎸⎷2{︃𝑦𝑘log (︃ 𝑦𝑘 𝑚𝑗�̂�𝑘 )︃ + (𝑚𝑘 − 𝑦𝑘)log [︃ 𝑚𝑘 − 𝑦𝑘 𝑚𝑘(1 − �̂�𝑘) ]︃}︃ , (2.20) em que o sinal é o mesmo de (𝑦𝑘 − 𝑚𝑘�̂�𝑘). Por conseguinte, a estatística do teste 𝑑𝑒𝑣𝑖𝑎𝑛𝑐𝑒 baseada no resíduo (2.20) é dada por 𝐷 = 𝐾∑︁ 𝑘=1 𝑑(𝑦𝑘, �̂�𝑘)2, Capítulo 2. REGRESSÃO LOGÍSTICA 31 que segue uma distribuição assintótica Qui-quadrado com 𝐾 − (𝑝 + 1) sob a suposição de que o modelo ajustado é adequado. 2.3.2 Teste de Hosmer-Lemeshow Como os testes apresentados na subseção anterior apenas são válidos quando existe uma quantidade suficiente de réplicas nas variáveis explicativas, Hosmer e Lemeshow (1980) e Lemeshow e Hosmer (1982) propuseram um teste adicional para verificar a bondade de ajuste do modelo quando os dados são muito esparsos. O teste é baseado em um procedimento que consiste na divisão da amostra segundo suas probabilidades ajustadas de sucesso com base nos parâmetros estimados do modelo de regressão logística. Em síntese, estas probabilidades são ordenadas da menor para a maior e, posteriormente, separadas em 𝐺 grupos de tamanho aproximadamente igual. Hosmer e Lemeshow (1980) recomendam utilizar 𝐺 = 10 grupos, que são chamados de decis de risco. O número de sucessos observados 𝑜𝑔 e fracassos 𝑛𝑔 − 𝑜𝑔 são comparadas com a frequência esperada dentro de cada grupo, 𝑛𝑔�̄�𝑔 e 𝑛𝑔(1 − �̄�𝑔), em que 𝑛𝑔 é o número de observações em cada grupo e �̄�𝑔 = ∑︀ 𝑖∈𝑔 �̂�𝑖 𝑛𝑔 é a probabilidade média de sucesso estimada para o 𝑔-ésimo grupo. Tendo as frequências esperadas, calcula-se a estatística do teste de Hosmer e Lemeshow, que é dada por 𝐶 = 𝐺∑︁ 𝑔=1 (𝑜𝑔 − 𝑛𝑔�̄�𝑔)2 𝑛𝑔�̄�𝑔(1 − �̄�𝑔) . Se o modelo logístico está correto, pode-se demonstrar através de simulações que a estatística 𝐶 segue uma distribuição Qui-quadrado com 𝐺 − 2 graus de liberdade quando a amostra é grande. 2.3.3 Métricas de Desempenho Nesta subseção são apresentadas algumas métricas de desempenho que representam basicamente a capacidade de acerto do modelo proposto. Dentre as principais métricas discutidas na literatura, o presente trabalho abordará quatro a seguir, são elas: métricas obtidas a partir da matriz de classificação, Curva ROC, estatística KS e coeficiente de Gini. 2.3.3.1 Matriz de Classificação Uma forma de avaliar a capacidade preditiva do modelo ajustado é através de métricas calculadas a partir de uma matriz que armazena as observações que foram classifi- cadas corretamente e incorretamente para cada categoria da variável resposta, denominada matriz de classificação ou confusão. Segundo Hilbe (2009), essa matriz é baseada em um Capítulo 2. REGRESSÃO LOGÍSTICA 32 ponto de corte, que responde qual a probabilidade ótima para separar o sucesso do fracasso dentre os valores preditos, e nos conceitos de sensibilidade e especificidade, a serem vistos posteriormente. O ponto de corte usual é 0,5, que representa a média da distribuição logística. No entanto, este não é um valor adequado para a maioria dos modelos de regressão logística. O interesse então é definir o melhor ponto de corte levando em consideração os dados e o modelo. Pensando desta forma, um bom candidato para este valor é o ponto que maximiza simultaneamente as curvas de sensibilidade e especificidade, ou seja, é o ponto de cruzamento de ambas as curvas, pois parte-se do pressuposto de que classificar uma observação como sucesso dado que ela é fracasso e classificar uma observação como fracasso dado que ela é sucesso acarreta prejuízos equivalentes para o pesquisador. A classificação das observações é feita da seguinte forma 𝑦𝑖 = ⎧⎪⎨⎪⎩1 se 𝑦𝑖 ≥ �̄�0 se 𝑦𝑖 < �̄� , em que �̄� é o ponto de corte. Desse modo, para um problema de classificação binária, isto é, que possui somente duas categorias, a matriz de classificação é como apresenta a Tabela 3. Tabela 3 – Matriz de classificação. Valor predito Valor observado 𝑦𝑖 = 1 𝑦𝑖 = 0 𝑦𝑖 = 1 VP FP 𝑦𝑖 = 0 FN VN Em problemas desta natureza, costuma-se denotar uma categoria como positiva e a outra como negativa. Assim, define-se os quatro tipos de ocorrência ao se tentar classificar observações de uma amostra: ∙ Verdadeiro Positivo (VP): Número de observações que foram classificadas correta- mente como pertencentes à categoria positiva; ∙ Verdadeiro Negativo (VN): Número de observações que foram classificadas correta- mente como pertencentes à categoria negativa; ∙ Falso Positivo (FP): Número de observações que foram classificadas como pertencentes à categoria positiva, mas pertencem à categoria negativa; ∙ Falso Negativo (FN): Número de observações que foram classificadas como perten- centes à categoria negativa, mas pertencem à categoria positiva. Capítulo 2. REGRESSÃO LOGÍSTICA 33 Pode-se então apresentar algumas métricas de desempenho a partir das ocorrências elencadas acima. A métrica mais utilizada é a taxa de acerto (TA), também conhecida como acurácia, que avalia o quão efetivo o modelo é, por meio da proporção total de predições corretas, estimada como 𝑇𝐴 = 𝑉 𝑃 + 𝑉 𝑁 𝑉 𝑃 + 𝑉 𝑁 + 𝐹𝑃 + 𝐹𝑁 . A métrica complementar à TA é a taxa de erro (TE), que mede a probabilidade do modelo realizar falsas predições, ou seja, 𝑇𝐸 = 𝐹𝑃 + 𝐹𝑁 𝑉 𝑃 + 𝑉 𝑁 + 𝐹𝑃 + 𝐹𝑁 . Em suma, a TA e a TE são métricas de desempenho mais gerais e podem ser facilmente adaptadas para problemas com variável resposta politômica, isto é, problemas que consideram mais de duas categorias. Outras métricas, tais como a sensibilidade e a especificidade, são mais apropriadas para problemas em que a resposta é dicotômica. As métricas de sensibilidade (S) e especificidade (E) avaliam a capacidade preditiva do modelo para uma única categoria. O cálculo da sensibilidade estima a probabilidade de uma observação pertencente à categoria positiva ser predita como positiva, enquanto que o cálculo da especifidade é o oposto, isto é, estima a probabilidade de uma observação pertencente à categoria negativa ser predita corretamente como negativa. Os valores destas métricas são dados, respectivamente, por 𝑆 = 𝑉 𝑃 𝑉 𝑃 + 𝐹𝑁 e 𝐸 = 𝑉 𝑁 𝑉 𝑁 + 𝐹𝑃 . No geral, quanto mais próximo do valor 1 as métricas de desempenho se aproximam, melhor será considerado o ajuste do modelo. 2.3.3.2 Área Sob a Curva ROC Uma forma mais eficiente de demonstrar a relação entre sensibilidade e especificidade é a curva ROC, um acrônimo de Receiver Operating Characteristic Curve, ou curva Lorenz. Esta curva é um gráfico em que é plotado a sensibilidade versus um menos a especificidade,permitindo estudar a variação destas métricas para diversos valores de corte. O ideal é tomar como valor de corte o ponto que mais se aproxima do canto superior esquerdo da curva, já que é este o ponto que conjuntamente maximiza a sensibilidade e minimiza o complementar da especificidade, conforme apresenta a Figura 2. Capítulo 2. REGRESSÃO LOGÍSTICA 34 Figura 2 – Exemplo de curva ROC. Fonte: Adaptado de Hilbe (2009). A área abaixo da curva ROC, que pode variar entre 0 e 1, é a medida de discrimi- nação, ou seja, a capacidade preditiva do modelo classificar corretamente as observações, pois quanto maior a área, melhor é o seu desempenho. De acordo com Hosmer e Lemeshow (2000), pode-se definir o poder de discriminação do modelo como mostrado na Tabela 4. Tabela 4 – Classificação do poder de discriminação do modelo segunda a área abaixo da curva ROC. Valor da área abaixo da curva ROC Discriminação do modelo ROC = 0,5 Não discrimina 0,5 < ROC < 0,7 Baixa 0,7 ≤ ROC < 0,8 Aceitável 0,8 ≤ ROC < 0,9 Muito bom ROC ≥ 0,9 Excelente Fonte: Adaptado de Hosmer e Lemeshow (2000). Para auxiliar a escolha do ponto de corte também sugere-se a análise do gráfico de sensibilidade 𝑣𝑒𝑟𝑠𝑢𝑠 especificidade, tal como apresenta a Figura 3. Com efeito, este gráfico é o intervalo dos valores da sensibilidade e especificidade que seriam observados caso fosse calculada uma tabela de classificação para valores de corte de 0 a 1. Capítulo 2. REGRESSÃO LOGÍSTICA 35 Figura 3 – Gráfico de sensibilidade versus especificidade. Fonte: Adaptado de Hilbe (2009). Um ponto levantado no uso da curva ROC é sobre os modelos que atingem níveis de alto padrão na métrica ROC, ou seja, têm, segundo ela, poder de discriminação excelente. Quando um modelo atinge tal patamar de resultado, deve-se aprofundar as análises - e buscar novas métricas e validações - para verificar se houve super ajuste dos dados (em inglês, overfitting). 2.3.3.3 Estatística de Kolmogorov-Smirnov (KS) Uma outra métrica muito utilizada, sobretudo na área de risco de crédito, é a estatística de Kolmogorov-Smirnov (KS), que mede o quão bem os escores estimados pelo modelo discriminam as categorias da variável resposta. Esta estatística tem origem no teste de hipótese não-paramétrico de Kolmogorov-Smirnov em que se deseja, a partir de duas amostras selecionadas de populações possivelmente distintas, testar se as funções de distribuições associadas às estas populações são iguais ou não (DINIZ; LOUZADA, 2013). Em risco de crédito, área na qual se trata a aplicação deste trabalho, espera-se que aos 𝑏𝑜𝑛𝑠 clientes sejam atribuídos prevalentemente altos escores, enquanto que os 𝑚𝑎𝑢𝑠 clientes estejam concentrados entre os escores mais baixos ou vice-versa. Neste caso, definindo 𝐹𝑏(𝑒) = ∑︀ 𝑥≤𝑒 𝐹𝑏(𝑥) e 𝐹𝑚(𝑒) = ∑︀ 𝑥≤𝑒 𝐹𝑚(𝑥) como as funções de distribuições empíricas dos 𝑏𝑜𝑛𝑠 e 𝑚𝑎𝑢𝑠 pagadores, respectivamente, a estatística de Kolmogorov- Smirnov é dada por Capítulo 2. REGRESSÃO LOGÍSTICA 36 𝐾𝑆 = 𝑚á𝑥|𝐹𝑏(𝑒) − 𝐹𝑚(𝑒)|, tal que 𝐹𝑏(𝑒) e 𝐹𝑚(𝑒) correspondem às proporções de clientes 𝑏𝑜𝑛𝑠 e 𝑚𝑎𝑢𝑠 com escore menor ou igual a 𝑒 , com 𝑒 variando do menor ao maior valor possível de escore. Sendo assim, a estatística KS é obtida através da distância máxima entre essas duas proporções acumuladas dos escores gerados pelo modelo, como mostra a Figura 4. Figura 4 – Funções distribuições empíricas para os 𝑏𝑜𝑛𝑠 e 𝑚𝑎𝑢𝑠 clientes e a estatística KS. Fonte: Elaborado pelo autor. O valor da estatística KS pode variar de 0% a 100%, sendo que o valor mínimo indica a sobreposição total das distribuições dos escores dos 𝑏𝑜𝑛𝑠 e 𝑚𝑎𝑢𝑠 clientes e o valor máximo sugere a separação total destes dois grupos. Conforme Diniz e Louzada (2013), a interpretação do KS para modelos de risco de crédito segue, em algumas instituições financeiras, a seguinte regra: ∙ KS < 10%: indica que não há discriminação entre os perfis de 𝑏𝑜𝑛𝑠 e 𝑚𝑎𝑢𝑠 clientes; ∙ 10% < KS < 20%: indica que a discriminação é baixa; ∙ KS > 20%: indica que o modelo discrimina o perfil de 𝑏𝑜𝑛𝑠 e 𝑚𝑎𝑢𝑠. 2.3.3.4 Coeficiente de Gini O coeficiente de Gini, também chamado de razão de acurácia, é uma métrica de desempenho que pode ser determinada diretamente da curva ROC da seguinte forma 𝐺𝑖𝑛𝑖 = 2 × (𝑅𝑂𝐶 − 0, 5) , Capítulo 2. REGRESSÃO LOGÍSTICA 37 sendo ROC, neste caso, o valor obtido do cálculo da área sob a curva ROC. Desse modo, quanto mais a curva se distanciar da diagonal (reta 𝑦 = 𝑥), maior será o coeficiente de Gini e, consequentemente, melhor será a performance do modelo. Em razão da área sob a curva ROC variar entre 0,5 e 1, é mais adequado utilizar o coeficiente de Gini que, assim como a estatística KS, varia entre 0 e 1. 2.4 Diagnóstico do Modelo Depois de terem sido realizados os testes de significância dos parâmetros e ter obtido um modelo adequadamente ajustado em que todas as variáveis explicativas são relevantes na predição da variável resposta, passa-se então a verificar possíveis afastamentos das suposições feitas para o modelo. Tal etapa, conhecida como diagnóstico do modelo, permite detectar problemas de erros ou anomalias nos dados e potenciais violações dos pressupostos que envolvem a formulação do modelo e às estimativas dos seus parâmetros, tais como: ∙ Presença de observações discrepantes (outliers); ∙ Inadequação das pressuposições para os erros; ∙ Forma funcional do modelo inadequada; ∙ Colinearidade e multicolinearidade entre variáveis explicativas; ∙ Presença de observações influentes. Pregibon (1981) propôs medidas para definir quanto a eliminação de uma observação em particular influencia no ajuste do modelo de regressão logística, autodefinidas como estatísticas de influência. As principais medidas utilizadas para o diagnóstico do modelo são sequencialmente abordadas. 2.4.1 Análise dos Resíduos Um resíduo corresponde a discrepância entre o valor observado e o valor ajustado pelo modelo. Segundo Cordeiro e Demétrio (2008), esses termos representam a variação natural dos dados, mas podem, também, ser interpretados como o efeito cumulativo de fatores que não foram considerados no modelo. A análise de resíduos é útil, não apenas para a verificação do ajuste de um modelo no que se refere à escolha da distribuição, da função de ligação e de termos do preditor linear, como também para auxiliar na identificação de observações mal ajustadas, isto é, que não são adequadamente explicadas pelo modelo. Vários tipos de resíduos foram propostos na literatura, mas no caso dos modelos lineares generalizados, e do modelo de Capítulo 2. REGRESSÃO LOGÍSTICA 38 regressão logística em particular, faz mais sentido considerar os resíduos de Pearson e Deviance. 2.4.1.1 Resíduo de Pearson O resíduo de Pearson contribui principalmente na classificação de observações que podem ser consideradas como 𝑜𝑢𝑡𝑙𝑖𝑒𝑟𝑠. Na regressão logística, tal resíduo para a diferença entre os valores observados e os valores preditos é da forma 𝑟𝑝𝑖 = (𝑦𝑖 − �̂�𝑖)√︁ �̂�𝑖(1 − �̂�𝑖) , para 𝑖 = 1, 2, . . . , 𝑛. Levando em consideração que se tem 𝑉 𝑎𝑟(𝑌𝑖 − 𝜋𝑖) ≈ 𝑉 𝑎𝑟(𝑌𝑖)(1 − ℎ𝑖𝑖), em que ℎ𝑖𝑖 é o 𝑖-ésimo elemento da diagonal principal da matriz de projeção a ser definida posteriormente, o correspondente resíduo de Pearson, convenientemente padronizado é 𝑟𝑝*𝑖 = 𝑟𝑝𝑖√︁ 1 − ℎ̂𝑖𝑖 Na circunstância dos resíduos serem pequenos, tem-se a indicação de que o modelo está bem ajustado. 2.4.1.2 Resíduo Deviance Outro resíduo bastante utilizado para detectar erros no ajuste do modelo é o resíduo deviance, dado por 𝑑𝑖 = ± √︁ −2 [𝑦𝑖log (�̂�𝑖) + (1 − 𝑦𝑖)log (1 − �̂�𝑖)], para 𝑖 = 1, . . . , 𝑛, em que o sinal é positivo se 𝑦𝑖 ≥ �̂�𝑖 e negativo caso contrário. Como no resíduo de Pearson, também pode-se utilizar o resíduo Deviance padronizado, dado por 𝑑*𝑖 = 𝑑𝑖√︁ 1 − ℎ̂𝑖𝑖 . Em geral, é preferível o uso do resíduo padronizado, pois sua variação é constante, o que, consequentemente, facilitaa identificação de outliers. 2.4.2 Observações Influentes Em modelagem uma observação é considerada influente se a sua exclusão provoca alterações significativas nas estimativas dos parâmetros do modelo. Dependendo da influên- cia que esta observações exerce sobre o modelo, a sua presença pode levar a conclusões que não correspondem à realidade. A seguir, apresentam-se algumas medidas para detectar se uma observação é, ou não, influente. Capítulo 2. REGRESSÃO LOGÍSTICA 39 2.4.2.1 Diagonal da Matriz 𝐻 (𝑙𝑒𝑣𝑒𝑟𝑎𝑔𝑒) Os elementos da matriz 𝐻 são utilizados para diagnosticar pontos extremos no espaço das variáveis explicativas. Estes pontos desempenham um papel importante na condição de ajuste final dos parâmetros de um modelo estatístico, no sentido de que sua eliminação pode implicar em mudanças substanciais dentro de uma análise estatística. Como ^𝑉 𝑎𝑟(𝛽) = (︁ 𝑋𝑇�̂�𝑋 )︁−1 Na análise de regressão linear, a matriz𝐻 é definida por 𝐻 = 𝑋 (︁ 𝑋𝑇𝑋 )︁−1 𝑋𝑇 , conhecida também como matriz de projeção ou matriz ℎ𝑎𝑡. Acontece, porém, que no caso da regressão logística, os erros não apresentam variância constante como na regressão linear. Então, utilizando a definição de mínimos quadrados ponderados, Pregibon (1981) derivou uma aproximação linear para os valores ajustados, que produz uma matriz de projeção para o modelo logístico, dada por 𝐻 = 𝑊 12𝑋 (︁ 𝑋𝑇𝑊𝑋 )︁−1 𝑋𝑇𝑊 1 2 , o que sugere a utilização dos elementos da diagonal principal de 𝐻 para detectar pontos de alavanca. Dessa forma, o 𝑖-ésimo elemento diagonal da matriz �̂� , denotado por ℎ̂𝑖𝑖, é ℎ̂𝑖𝑖 = �̂�𝑖(1 − �̂�𝑖)𝑥𝑇𝑖 [︁ 𝐼(𝛽) ]︁−1 𝑥𝑖, para 𝑖 = 1, . . . , 𝑛 e com 0 ≤ ℎ̂𝑖𝑖 ≤ 1. Hosmer e Lemeshow (2000) ressaltam, contudo, que a análise da diagonal da matriz de projeção deve ser feita com cautela na regressão logística e que as interpretações não são as mesmas daquelas da regressão linear. Em geral, no modelo de regressão logística consideram-se influentes as observações em que ℎ̂𝑖𝑖 > 2, sendo 𝑝 o número de variáveis presentes no modelo (DOMINGUES, 2016). 2.4.2.2 Distância de Cook A distância de Cook, originalmente desenvolvida para modelos lineares normais, foi rapidamente assimilada e estendida para diversas classes de modelos. Para o seu cálculo utilizam-se tanto a base de dados sem a observação que se acredita ser influente quanto a base com esta observação. Se a distância estimada for elevada, considera-se que a observação pode ser influente. No caso dos modelos lineares normais o cálculo da distância de Cook é dado por Δ𝛽𝑖 = (︁ 𝛽 − 𝛽(−𝑖) )︁𝑇 (︁ 𝑋𝑇𝑋 )︁ (︁ 𝛽 − 𝛽(−𝑖) )︁ (𝑝 + 1)𝑠2 , em que 𝛽 e 𝛽(−𝑖) representam, respectivamente, as estimativas dos parâmetros do modelo com e sem a observação 𝑖 que se considera influente. Capítulo 2. REGRESSÃO LOGÍSTICA 40 Dado que, em modelos lineares generalizados ^𝑉 𝑎𝑟(𝛽) = (︁ 𝑋𝑇�̂�𝑋 )︁−1 , é natural considerar como generalização da distância de Cook a seguinte medida de influência Δ𝛽𝑖 = (︁ 𝛽 − 𝛽(−𝑖) )︁𝑇 (︁ 𝑋𝑇𝑊𝑋 )︁ (︁ 𝛽 − 𝛽(−𝑖) )︁ 𝑝 + 1 . Existem diversos critérios para se considerar a distância de Cook elevada. Na literatura, alguns autores defendem que Δ𝛽𝑖 > 1 é suficiente enquanto outros sugerem que o valor desta distância deve ser ponderada pelo número de observações usadas para fazer o ajuste do modelo, através do critério Δ𝛽𝑖 > 4𝑛 (PORTUGAL, 2013). Para este trabalho será considerado o primeiro critério. 2.4.2.3 𝐶 e 𝐶 Os diagnósticos 𝐶 e 𝐶 calculados com base no intervalo de confiança, medem a influência das observações individuas sob 𝛽, e possuem a mesma ideia da Distância de Cook na teoria de regressão linear. A partir de aproximações lineares, Pregibon (1981) demonstra que 𝐶𝑖 pode ser escrita como 𝐶𝑖 = (𝑟𝑝𝑖)2ℎ𝑖𝑖 (1 − ℎ𝑖𝑖)2 , 𝑖 = 1, . . . , 𝑛. Definida em termos de 𝐶𝑖, a medida 𝐶𝑖, também chamada de 𝐶𝐵𝑎𝑟, é dada por 𝐶𝑖 = (𝑟𝑝𝑖)2ℎ𝑖𝑖 (1 − ℎ𝑖𝑖) , 𝑖 = 1, . . . , 𝑛. 2.4.2.4 DIFCHISQ e DIFDEV A medida DIFCHISQ é útil para detectar observações mal ajustadas, isto é, observações que contribuem no incremento dos resíduos do modelo. Com o auxilio de aproximações lineares, pode-se demonstrar que esta medida tem a forma DIFCHISQ𝑖 = (𝑟𝑝𝑖)2 (1 − ℎ𝑖𝑖) , 𝑖 = 1, . . . , 𝑛. Do mesmo modo, a medida DIFDEV é utilizada para detectar observações que são influentes na estimação do modelo logístico, definida como DIFDEV𝑖 = 𝑑2𝑖 + (𝑟𝑝𝑖)2 ℎ𝑖𝑖(1 − ℎ𝑖𝑖) , 𝑖 = 1, . . . , 𝑛. As medidas de diagnóstico apresentadas nesta seção são conceitualmente interes- santes na análise, pois permitem identificar as observações que contribuem para um mal ajuste do modelo, assim como aquelas que também apresentam grande influência nas estimativas dos parâmetros. Depois de identificadas, cabe ao pesquisador a decisão sobre a sua permanência ou não no estudo. Capítulo 2. REGRESSÃO LOGÍSTICA 41 2.4.3 Multicolinearidade Um dos pressupostos da regressão logística é que as variáveis explicativas conti- das no modelo sejam não correlacionadas. Quando existe uma relação linear exata ou aproximada entre estas variáveis, tem-se o problema de multicolinearidade, fazendo com que os parâmetros deste modelo não sejam estimados com precisão e apresentem baixos níveis de significância. Como consequência deste fato, as conclusões e a inferência sobre os parâmetros baseados no modelo podem ficar seriamente comprometidas. Uma forma de detectar a multicolinearidade é calculando o Fator de Inflação da Variância (VIF - Variance Inflance Factor), que mede quanto é que a variância de um coeficiente do modelo aumenta devido à multicolinearidade, sendo dado por 𝑉 𝐼𝐹𝑗 = 1 1 − 𝑅2𝑗 , em que 𝑅2𝑗 é o coeficiente de determinação não ajustado da regressão de 𝑋𝑗, 𝑗 = 1, . . . , 𝑝, sobre as demais variáveis explicativas. Na presença de multicolinearidade, o valor de 𝑅2𝑗 será muito próximo de 1, o que torna a variância das estimativas do parâmetros inflacionada. Uma regra prática aceitável é a de que valores de 𝑉 𝐼𝐹 maiores do que 5 indicam multicolinearidade moderada e valores de 𝑉 𝐼𝐹 maiores do que 10 implicam em multicolinearidade elevada. No caso de haver variáveis explicativas no modelo com 𝑉 𝐼𝐹 superior ao patamar admissível, a solução é retirar uma destas variáveis e refazer a análise. 42 3 DADOS INCOMPLETOS De acordo com Buuren (2012), existe uma ampla distinção entre dois tipos de dados incompletos, classificados como intencionais e não intencionais. Os dados incompletos intencionais são projetados pelo próprio pesquisador. Por exemplo, os dados de um elemento podem estar ausentes devido sua exclusão da amostra, bem como dados de sobrevivência que são censurados porque o evento de interesse não ocorreu até o término do experimento. Outra forma de dados incompletos intencionais é o uso de diferentes versões do mesmo instrumento de pesquisa para subamostras da amostra principal, uma abordagem denominada amostragem matricial. Para uma visão geral sobre esta técnica de amostragem ver Gonzalez e Eltinge (2007). Os dados incompletos não intencionais, ainda que muitas vezes sejam previstos, não são planejados e nem mesmo controlados pelo pesquisador. Podem ser citados, como exemplos, o entrevistado ignorar um item do questionário, erros na transcrição dos dados, indivíduos abandonarem o estudo antes de ser concluído ou ainda o entrevistado se recursar a cooperar com a pesquisa. Buuren (2012) apresenta uma outra importante distinção no que se refere ao item não respondido e unidade não respondida. De uma forma geral, item não respondido concerne à situação em que o entrevistado ignora um ou mais itens da pesquisa. Enquanto que unidade não respondida ocorre quando o entrevistado se recusa a participar, ficando assim todos os dados em falta para este indivíduo. Além destes conceitos, para determinar o melhor método de imputação a ser uti- lizado também é imprescindível analisar o padrão e o mecanismo que levou o conjunto de dados a ter valores ausentes,visto que uma imputação sem fundamentos pode afetar negativamente os resultados obtidos. Nas próximas seções serão abordados os principais pa- drões e mecanismos para a ausência de dados, assim como testes utilizados na identificação de mecanismos. 3.1 Padrões de Dados Incompletos Os padrões de dados incompletos se referem à configuração com que os itens ausentes ocorrem em uma base de dados. Dentre os diversos tipos de padrões existentes, citam-se a seguir os quatro mais frequentes, conforme Little (1992). Para isso, considere as variáveis aleatórias 𝑋1, 𝑋2, . . . , 𝑋𝑝 com presença de 𝑚𝑖𝑠𝑠𝑖𝑛𝑔 ou não e 𝑌 a variável resposta de interesse. Capítulo 3. DADOS INCOMPLETOS 43 3.1.1 Padrão Univariado O padrão univariado apresenta ausência de dados isoladamente em apenas uma variável, de acordo com a Figura 5. Figura 5 – Padrão univariado de dados incompletos. Fonte: Little (1992). Note que todas as variáveis, à exceção de 𝑋1, são completamente observadas, o que é comum em estudos experimentais. 3.1.2 Padrão Monótomo No padrão monótomo, as colunas podem ser dispostas de modo que 𝑋𝑗+1 é observado para todos os casos em que 𝑋𝑗 é observado, para 𝑗 = 1, . . . , 𝑝, como mostra a Figura 6. Figura 6 – Padrão monótomo de dados incompletos. Fonte: Little (1992). Segundo Enders (2010), o padrão monótomo de dados incompletos tem sido discu- tido na literatura por reduzir consideravelmente a complexidade matemática da função de verossimilhança e do processo de imputação múltipla, podendo, ainda, não mais necessitar da utilização de algoritmos de estimação iterativos. Este tipo de padrão é característico de experimentos longitudinais, em que as variáveis são medidas repetidamente ao longo do tempo. Capítulo 3. DADOS INCOMPLETOS 44 3.1.3 Padrão Especial No padrão especial nunca se observa a ocorrência de duas variáveis simultaneamente. Isto é, considerando as variáveis 𝑋1, 𝑋2 e 𝑋3, sendo 𝑋1 e 𝑋2 variáveis incompletas, tem-se a seguinte distribuição dos dados apresentada na Figura 7. Figura 7 – Padrão especial de dados incompletos. Fonte: Little (1992). Este padrão é, em geral, observado nos estudos em que se faz uso da técnica de amostragem matricial. 3.1.4 Padrão Geral O padrão geral não apresenta estrutura especial, ou seja, os itens ausentes ocorrem arbitrariamente por todo o conjunto de dados, conforme mostra a Figura 8. Figura 8 – Padrão geral de dados incompletos. Fonte: Little (1992). Ainda que este tipo de padrão seja aparentemente aleatório, a ausência de dados em uma variável pode estar relacionada à tendência da falta de dados referente às demais variáveis. Capítulo 3. DADOS INCOMPLETOS 45 3.2 Mecanismos de Dados Incompletos Em uma base de dados reais, a ocorrência de dados incompletos normalmente obedece a um mecanismo que descreve possíveis relações entre as variáveis mensuradas e a probabilidade dos dados em falta, indicando a causa da ausência, embora não forneça uma explicação casual (ENDERS, 2010). Então, cabe ao pesquisador avaliar este mecanismo, identificá-lo e considerá-lo na análise dos dados, caso contrário os resultados podem ser temerários. A principal terminologia de classificação dos mecanismos foi originalmente des- crita por Rubin (1976), na qual são sugeridos três mecanismos teóricos gerais amplamente utilizados na literatura: ∙ Ausência Completamente Aleatória (Missing Completely at Random - MCAR) ∙ Ausência Aleatória (Missing at Random - MAR) ∙ Ausência Não-Aleatória (Not Missing at Random - NMAR) Para representar matematicamente cada mecanismo, considere 𝑍 = {𝑧𝑖𝑗} uma matriz de dados coletados com 𝑛 linhas, as quais correspondem aos indivíduos, e 𝑝 colunas, que representam as variáveis observadas. Segundo a teoria de Rubin (1978), pode-se dividir 𝑍 em dois subconjuntos 𝑍 = {𝑍𝑜𝑏𝑠,𝑍𝑖𝑛𝑐}, sendo 𝑍𝑜𝑏𝑠 os dados observados e 𝑍𝑖𝑛𝑐 os dados incompletos. Define-se também uma matriz indicadora de dados incompletos associada a 𝑍, denotada por 𝑅, tal que 𝑅 tem a mesma dimensão de 𝑍, com elementos 𝑟𝑖𝑗 = 1, se 𝑧𝑖𝑗 é observado, e 𝑟𝑖𝑗 = 0, caso contrário. Desta forma, os mecanismos de dados incompletos podem ser obtidos através da distribuição condicional de 𝑅 dado 𝑍, indexada por um vetor de parâmetros desconhecidos 𝜓, ou seja, 𝑃 (𝑅|𝑍𝑜𝑏𝑠,𝑍𝑖𝑛𝑐,𝜓). 3.2.1 MCAR O mecanismo que gera os dados incompletos é MCAR se a distribuição de 𝑅 não depende de qualquer das quantidades de 𝑍, observadas ou incompletas, isto é 𝑃 (𝑅|𝑍𝑜𝑏𝑠,𝑍𝑖𝑛𝑐,𝜓) = 𝑃 (𝑅|𝜓) . Veja que a probabilidade de um dado ter valor ausente no mecanismo MCAR mantém-se a mesma para todos os casos, sendo, portanto, diferente dos demais mecanismos, em que os valores ausentes não estão distribuídos aleatoriamente. Ainda que o MCAR não seja um mecanismo comum, existem muitas possibilidades para tratar os dados neste caso. 3.2.2 MAR No mecanismo MAR a distribuição de 𝑅 depende das informações disponíveis na matriz de dados 𝑍. Em outras palavras, a probabilidade de um dado estar incompleto é Capítulo 3. DADOS INCOMPLETOS 46 definida através do conjunto de dados observados, e esta relação pode ser descrita como 𝑃 (𝑅|𝑍𝑜𝑏𝑠,𝑍𝑖𝑛𝑐,𝜓) = 𝑃 (𝑅|𝑍𝑜𝑏𝑠,𝜓) . Como na maioria dos experimentos científicos quase sempre existe algum grau de relação entre os valores em falta e as informações das variáveis explicativas, o mecanismo MAR é o mais utilizado na prática. Alguns autores, como Didelez (2002), usam MAR-X para especificar que os dados incompletos dependem somente dos valores observados nas variáveis explicativas, assim como MAR-Y para indicar que os dados incompletos são previsíveis a partir das observações da variável resposta. 3.2.3 MNAR O mecanismo dos dados incompletos é referido como MNAR se a distribuição de 𝑅 não é aleatória e pode depender tanto de informações observadas, como também de informações em 𝑍 que não foram observadas. Assim, a probabilidade de se ter um dado ausente varia por razões que são desconhecidas, ou seja, 𝑃 (𝑅|𝑍𝑜𝑏𝑠,𝑍𝑖𝑛𝑐,𝜓) ̸= 𝑃 (𝑅|𝑍𝑜𝑏𝑠,𝜓) . Em contradição ao mecanismo MAR, o dado ausente no caso MNAR não pode ser imputado apenas levando em consideração os dados disponíveis, o que torna este o mecanismo mais difícil de ser reconhecido e analisado. Na literatura, a maior parte das pesquisas envolvendo esta temática, assume que os dados incompletos foram gerados pelos mecanismos MCAR ou MAR. Uma situação que elucida cada mecanismo é apresentada por Bergamo (2007), tendo como base uma pesquisa que estuda o peso de pessoas. Se a ausência de dados na variável peso, por exemplo, não está associada com o próprio peso do entrevistado e nem com qualquer outra variável mensurada para a pesquisa, como idade ou sexo, então o mecanismo gerador de dados incompletos para o peso é MCAR. Se as pessoas com sobrepeso tendem a não informar seu peso, então a ausência de resposta sobre o peso depende da própria variável peso, caracterizando assim o mecanismo MNAR. Entretanto, se a ausência de resposta sobre o peso, não depende do próprio peso do entrevistado, porém pode depender de outras variáveis (pessoas do sexo feminino tendem a não informar seu peso), diz-se que o mecanismo de ausência de dados para a variável peso é MAR. 3.3 Mecanismo Ignorável e Não-Ignorável Conforme a literatura recente em análise de dados incompletos, pode-se adicional- mente classificar qualquer mecanismo de não respostas como ignorável ou não-ignorável. O Capítulo 3. DADOS INCOMPLETOS 47 termo ignorável é utilizado para indicar que não é necessário especificar um modelo para o dado ausente. A função da densidade conjunta de 𝑍𝑜𝑏𝑠 e 𝑅, 𝑓 (𝑍𝑜𝑏𝑠,𝑅|𝜃,𝜓), depende dos parâmetros 𝜃 para o banco de dados completo 𝑍. A densidade conjunta é proporcional a verossimilhança de 𝜃 e 𝜓, isto é, 𝐿 (𝜃,𝜓|𝑍𝑜𝑏𝑠,𝑅) ∝ 𝑓 (𝑍𝑜𝑏𝑠,𝑅|𝜃,𝜓). O mecanismo é dito ignorável para os casos MCAR e MAR, ou seja, os dados incompletos ocorrem aleatoriamente e os parâmetros 𝜃 e 𝜓 são distintos, no sentido deque o conjunto de espaços dos parâmetros (𝜃,𝜓) é igual ao produto do espaço do parâmetro 𝜃 e do espaço do parâmetro 𝜓. A última condição sugere que 𝜃 e 𝜓 devem ser independentes, isto é, 𝑝 (𝜃,𝜓) = 𝑝(𝜃)𝑝(𝜓). O mecanismo MCAR envolve uma suposição muito forte e dificilmente é satisfeito na prática, enquanto que o MNAR é não-ignorável devido à falta de aleatoriedade do dado ausente. Portanto, nesta situação torna-se necessário especificar um modelo para o dado ausente. O resultado de cada mecanismo nas análises produzidas por diferentes métodos tem sido avaliado constantemente por estudos de simulação, como em Little (1992), Schafer e Graham (2002) e Collins, Schafer e Kam (2001). Muitos métodos de tratamento de dados incompletos vêm sendo aplicados para os mecanismos MCAR e MAR, contudo, para o mecanismo MNAR ainda não se tem métodos apropriados devidamente definidos. 3.4 Teste para Mecanismos Identificar o mecanismo de ausência de dados não é uma tarefa simples. Vários testes têm sido sugeridos para testar se cada variável é consistente com MCAR e em sua maioria possuem como base os dois testes apresentados a seguir. Pode-se questionar, no entanto, o motivo de se testar especificamente o mecanismo MCAR. Enders (2010) afirma que além de ser o único mecanismo que produz proposições testáveis, identificar variáveis que não são MCAR é potencialmente útil porque pode haver uma relação entre estas variáveis e a probabilidade de ausência de dados. Em Jamshidian, Jalal e Jansen (2014) é apresentado o pacote MissMech disponível no software R, no qual estão implementados os métodos para testar a hipótese de MCAR, propostos por Jamshidian e Jalal (2010). 3.4.1 Teste-𝑡 Univariado O método mais simples de avaliar MCAR é utilizar uma série de Testes-𝑡 indepen- dentes para comparar subgrupos com dados incompletos, descrito por Brown (1983). Esta abordagem separa os casos omissos e completos em uma mesma variável e usa o teste para verificar se existe diferença significativa dos grupos nas demais variáveis do conjunto de dados. Capítulo 3. DADOS INCOMPLETOS 48 O mecanismo MCAR pressupõe que os casos com dados incompletos pertencem à mesma população dos casos com dados completos e, portanto, têm o mesmo vetor de médias e matriz de covariância. Por conseguinte, um Teste-𝑡 não significativo fornece evidências de que os dados são MCAR, enquanto que uma estatística 𝑡 significativa (ou, alternativamente, uma grande diferença média) sugere que os dados são MAR ou MNAR. 3.4.2 Teste MCAR de Little Little (1988) propôs uma extensão multivariada da abordagem do Teste-𝑡 que se aplica para todo o conjunto de dados. Em suma, o teste de Little avalia diferenças médias entre os subgrupos de casos que compartilham o mesmo padrão de dados incompletos. A estatística do teste é uma soma ponderada das diferenças padronizadas entre as médias dos subgrupos e as grandes médias, dada por 𝑑2 = 𝐽∑︁ 𝑗=1 𝑛𝑗 (︁ �̂�𝑗 − �̂� (𝑀𝐿) 𝑗 )︁𝑇 Σ̂−1𝑗 (︁ �̂�𝑗 − �̂� (𝑀𝐿) 𝑗 )︁ , em que 𝑛𝑗 é o número de casos com padrão de dados incompletos 𝑗, �̂�𝑗 é o vetor de médias da variável para os casos com padrão de dados incompletos 𝑗, 𝜇(𝑀𝐿)𝑗 é o vetor de estimativas de máxima verossimilhança das grandes médias e Σ̂𝑗 é a estimativa de máxima verossimilhança da matriz de covariância. Quando a hipótese 𝐻0 é verdadeira, isto é, os dados são MCAR, 𝑑2 é aproximada- mente distribuída como uma distribuição Qui-quadrado com ∑︀ 𝑝𝑗 − 𝑝 graus de liberdade, sendo 𝑝𝑗 o número de variáveis completas para o padrão 𝑗 e 𝑝 o número total de variáveis. Coerente com a abordagem do Teste-𝑡 univariado, uma estatística significativa 𝑑2 fornece evidências contra MCAR. 3.5 Métodos para o Tratamento de Dados Incompletos Depois de identificar o mecanismo gerador dos dados incompletos e o seu padrão, de modo a evitar enviesamentos graves na análise estatística e em sua interpretação, pode-se fazer o tratamento destes dados através dos métodos de imputação simples e múltipla apresentados a seguir. Certamente existem inúmeros métodos que poderiam ser aplicados, no entanto este trabalho limitou-se a testar cinco metodologias, as quais foram escolhidas pela sua praticidade de aplicação, disponibilidade em ferramentas estatísticas e também por serem de mais amplo conhecimento. 3.5.1 Deleção de Dados Incompletos A simplicidade é, sem dúvidas, a principal vantagem dos métodos de imputação baseados na deleção dos dados incompletos. No entanto, têm sérias limitações que impedem Capítulo 3. DADOS INCOMPLETOS 49 seu uso na maioria das situações. Devido a potencial perda de informação, esta abordagem é viável somente nos casos em que os dados incompletos constituem uma porcentagem ignorável do total de dados e nenhum viés significativo é introduzido por sua eliminação. Além disso, os métodos de deleção assumem que o mecanismo de perda dos dados é MCAR, o que pode distorcer as estimativas dos parâmetros quando esta suposição não é válida (ENDERS, 2010). 3.5.1.1 Análise de Caso Completo A Análise de Caso Completo (ACC), conhecida também como exclusão listwise, elimina todas as observações com qualquer quantidade de dados incompletos nas variáveis, ou seja, apenas são considerados os casos para os quais todas variáveis foram observadas. Veja que, o intuito deste método não é estimar os dados faltantes, mas sim gerar uma matriz de dados que possa ser analisada por meio de procedimentos analíticos convencionais, a fim de se obter as estimativas dos parâmetros de interesse. Segundo Enders (2010), o principal problema da ACC é que requer dados MCAR e pode produzir viés grave quando o mecanismo em questão é o MAR. Além do possível viés encontrado nos resultados, pode-se ter um número extremamente reduzido de casos completos se existirem muitas variáveis a incluir no modelo. A redução do número de observações na base leva a que os desvios amostrais aumentem, os intervalos de confiança dos parâmetros apresentem uma amplitude elevada e a eficiência dos testes de ajuste diminua. 3.5.2 Imputação Simples O princípio básico dos métodos de imputação simples ou única é gerar um único valor para cada dado ausente na base de dados, analisando-a posteriormente como se não houvesse dados incompletos. A conveniência é uma das maiores vantagens de qualquer método de imputação simples, sobretudo porque faz uso dos dados que seriam descartados caso fosse utilizada alguma abordagem de deleção. Apesar destas vantagens aparentes, este tipo de imputação apresenta limitações, conforme Enders (2010), pelo fato do dado ausente ser preenchido uma única vez, não agregando a incerteza associada à estimativa gerada. Este problema acaba fazendo com que as estimativas dos parâmetros sejam tendenciosas, mesmo em uma situação ideal onde o mecanismo dos dados incompletos é MCAR. 3.5.2.1 Imputação por Medidas de Tendência Central A imputação por medidas de tendência central é uma solução rápida e simples para os dados em falta. Tal método é não condicional, uma vez que se substitui o dado faltante pela média, mediana ou moda dos valores observados na mesma variável de interesse. Aqui, o termo não condicional refere-se ao fato de que o pesquisador não usa informações acerca Capítulo 3. DADOS INCOMPLETOS 50 da observação para a qual a imputação é feita. Vale ressaltar que, embora as medidas de tendência central amostrais continuem após o tratamento dos dados, este método de imputação altera outras características da distribuição e faz com que a variância seja subestimada. A imputação pela média às vezes pode conduzir os dados imputados a resultados razoáveis, exceto quando existe uma grande quantidade de dados faltantes. A mediana é sempre recomendada para os casos em que a variável de interesse tem distribuição assimétrica. Além disso, por não ser afetada pela presença de valores extremos (𝑜𝑢𝑡𝑙𝑖𝑒𝑟𝑠), geralmente tem um bom desempenho como medida de tendência central. Agora, quando se tem 𝑚𝑖𝑠𝑠𝑖𝑛𝑔 em variáveis qualitativas, é mais indicadoimputar os dados pela moda. 3.5.2.2 Imputação pelo Vizinho Mais Próximo Os algoritmos baseados na imputação pelo vizinho mais próximo (𝑘-NN, 𝑘-Nearest Neighbors) utiliza um conjunto de observações mais similares à observação com valores ausentes para o propósito de imputação. Estes algoritmos lidam com variáveis quantitativas e qualitativas, e podem levar em consideração a estrutura de correlação dos dados. Além disso, tais algoritmos têm capacidade de tratar variáveis contento vários valores ausentes. Devido a essas características, o 𝑘-NN é um dos métodos mais difundidos na literatura e amplamente usados na prática. Neste trabalho, é aplicado o algoritmo de imputação 𝑘𝑛𝑛𝐼𝑚𝑝𝑢𝑡𝑎𝑡𝑖𝑜𝑛 disponível no pacote 𝐷𝑀𝑤𝑅 do 𝑠𝑜𝑓𝑡𝑤𝑎𝑟𝑒 R. Por padrão, este método usa os valores observados dos 𝑘 vizinhos mais próximos ao item ausente e obtém uma média ponderada (baseada na distância) para imputá-lo. Caso seja conveniente, pode-se ainda imputar o dado 𝑚𝑖𝑠𝑠𝑖𝑛𝑔 pela mediana, no caso de variáveis quantitativas, ou pelo valor mais frequente, no caso de variáveis qualitativas. 3.5.2.3 Imputação por Random Forest A imputação por Random Forest consiste em um método iterativo não paramétrico, que pode ser aplicado tanto em dados contínuos quanto em categóricos, simultaneamente. Ser não paramétrico implica que não é necessário verificar a suposição de que os dados estejam distribuídos de acordo com uma distribuição particular, de tal forma que sua estimação é feita para que esteja próxima dos dados sem se tornar impraticável. Os conjuntos de dados, em sua maior parte, contêm interações complexas e não lineares que podem gerar muitas dificuldades em serem captadas através de procedimentos paramétricos e o Random Forest por sua vez, devido a sua acurácia e robustez, é apropri- ado para contornar tais condições. O algoritmo de imputação por Random Forest está implementado e disponível no pacote 𝑚𝑖𝑠𝑠𝐹𝑜𝑟𝑒𝑠𝑡 do 𝑠𝑜𝑓𝑡𝑤𝑎𝑟𝑒 R. Tal algoritmo ajusta iterativamente um modelo de Random Forest para os dados observados em cada variável e Capítulo 3. DADOS INCOMPLETOS 51 então prediz o dado incompleto. Estes dois passos são executados até que se atinja um critério de parada pré-determinado. 3.5.3 Imputação Múltipla Com a necessidade de controlar o viés associado à imputação simples, será estudada outra técnica proposta por Rubin (1978), a imputação múltipla, que consiste em substituir o dado incompleto por um conjunto de valores prováveis, incorporando assim a incerteza sobre o dado a ser imputado. Qualquer método de imputação múltipla se resume basicamente a três etapas principais, imputação, análise e combinação. Um esquema resumido destas etapas é apresentado na Figura 9. A primeira etapa começa substituindo os dados ausentes por valores plausíveis através de métodos adequados de imputação, ao passo que cria 𝑚 > 1 versões completas destes dados. Os conjuntos de dados imputados são idênticos para as entradas de dados observados, mas diferem nos valores imputados. A amplitude destas diferenças reflete a incerteza do pesquisador sobre o dado a ser imputado. Na segunda etapa, separadamente, os 𝑚 conjuntos de dados imputados são analisados por meio da aplicação de métodos de análises padrão para dados completos. Por fim, na terceira etapa os 𝑚 resultados encontrados são combinados para obter uma estimativa pontual final. Figura 9 – Esquema da imputação múltipla. Fonte: Adaptado de Enders (2010). Dentre todas as etapas mencionadas, a primeira é a que requer maior atenção, pois é decisiva para a validade dos resultados produzidos nas análises posteriores. Outro ponto importante a ser considerado na imputação múltipla é a escolha do número imputações 𝑚. Tomar um valor para 𝑚 pequeno pode inflacionar o intervalo de confiança das estimativas Capítulo 3. DADOS INCOMPLETOS 52 e consequentemente reduzir o poder das análises. Contudo, em razão da alta eficiência apresentada pela imputação múltipla, considera-se de 3 a 5 imputações para obter resultados satisfatórios. Para este trabalho serão consideradas 10 imputações. 3.5.3.1 Algoritmo 𝑚𝑖𝑐𝑒 O algoritmo 𝑚𝑖𝑐𝑒 (Multivariate Imputation by Chained Equation), é um método de imputação baseado no método de Monte Carlo via cadeias de Markov (MCMC), em que o espaço de estado é o conjunto de todos os valores imputados. Sob certas condições de compatibilidade das distribuições condicionais, o algoritmo 𝑚𝑖𝑐𝑒 é um amostrador de Gibbs, uma técnica de simulação Bayesiana que gera uma sequência de amostras das distribuições condicionais com o propósito de obter uma aproximação da distribuição conjunta. Uma das suposições do 𝑚𝑖𝑐𝑒 assume que o mecanismo gerador dos dados incompletos é MAR. Implementado no pacote 𝑚𝑖𝑐𝑒 do 𝑠𝑜𝑓𝑡𝑤𝑎𝑟𝑒 R, o algoritmo 𝑚𝑖𝑐𝑒 é um dos métodos de imputação mais utilizados pelos usuários desta ferramenta. Pela função do algoritmo pode-se especificar um método de imputação para cada variável com dados incompletos. Logo, um conjunto de dados por ter 𝑚𝑖𝑠𝑠𝑖𝑛𝑔 tanto em variáveis quantitativas como qualitativas. O pacote 𝑚𝑖𝑐𝑒 dispõe de vários métodos de imputação univariados, sendo os principais apresentados na Tabela 5. Tabela 5 – Métodos de imputação disponíveis no pacote 𝑚𝑖𝑐𝑒. Método Descrição Tipo de Variável 𝑛𝑜𝑟𝑚 Regressão linear Bayesiana Quantitativa 𝑛𝑜𝑟𝑚.𝑝𝑟𝑒𝑑𝑖𝑐𝑡 Valores preditos Quantitativa 𝑛𝑜𝑟𝑚.𝑛𝑜𝑏 Regressão estocástica Quantitativa 𝑛𝑜𝑟𝑚.𝑏𝑜𝑜𝑡 Imputação normal com bootstrap Quantitativa 2𝐿.𝑛𝑜𝑟𝑚 Modelo normal multinível Quantitativa 𝑝𝑚𝑚 Média preditiva correspondente Quantitativa 𝑚𝑒𝑎𝑛 Incondicional imputação média Quantitativa 𝑙𝑜𝑔𝑟𝑒𝑔 Regressão logística Quantitativa/Binária 𝑙𝑜𝑔𝑟𝑒𝑔.𝑏𝑜𝑜𝑡 Regressão logística com 𝑏𝑜𝑜𝑡𝑠𝑡𝑟𝑎𝑝 Quantitativa/Binária 𝑝𝑜𝑙𝑦𝑟𝑒𝑔 Regressão logística multinomial Quantitativa/Nominal 𝑙𝑑𝑎 Análise discriminante Quantitativa/Nominal 𝑠𝑎𝑚𝑝𝑙𝑒 Amostra aleatória Quantitativa ou Qualitativa 𝑝𝑜𝑙𝑟 Modelo logito ordenado Quantitativa/Ordinal Capítulo 3. DADOS INCOMPLETOS 53 A ideia por trás do algoritmo 𝑚𝑖𝑐𝑒 é muito simples. Começa com um sorteio a partir dos dados observados, e imputa os dados incompletos variável por variável. Cada iteração percorre todas as variáveis 𝑌𝑗 . O número de iterações 𝑁 em geral é baixo, 5 ou 10. O algoritmo gera desta forma várias imputações executando o processo a seguir 𝑚 vezes paralelas: 1. Especifica um método de imputação 𝑃 (︁ 𝑌 𝑖𝑛𝑐𝑗 |𝑌 𝑜𝑏𝑠𝑗 , 𝑌−𝑗,𝑅 )︁ para a variável 𝑌𝑗 com 𝑗 = 1, . . . , 𝑝; 2. Para cada 𝑗, começa o preenchimento das imputações 𝑌 0𝑗 a partir de 𝑌 𝑜𝑏𝑠𝑗 ; 3. Repete para 𝑛 = 1, . . . , 𝑁 e, posteriormente, 𝑗 = 1, . . . , 𝑝; 4. Define 𝑌 𝑛−𝑗 = (︁ 𝑌 𝑛1 , . . . , 𝑌 𝑛 𝑗−1, 𝑌 𝑛−1 𝑗+1 , . . . , 𝑌 𝑛−1 𝑝 )︁ como os dados atualmente completos exceto 𝑌𝑗; 5. 𝜑𝑛𝑗 ∼ 𝑃 (︁ 𝜑𝑛𝑗 |𝑌 𝑜𝑏𝑠𝑗 , 𝑌 𝑛−𝑗,𝑅 )︁ ; 6. Retira imputações 𝑌 𝑛𝑗 ∼ 𝑃 (︁ 𝑌 𝑖𝑛𝑐𝑗 |𝑌 𝑜𝑏𝑠𝑗 , 𝑌 𝑛−𝑗,𝑅, 𝜑𝑛𝑗 )︁ ; 7. Repete 𝑗 e depois 𝑛. 54 4 APLICAÇÃO A DADOS DE CRÉDITO Neste capítulo são apresentados e discutidos os resultados obtidos com a aplicação dos métodos de imputação, descritos no Capítulo 4, para o ajuste do modelo de regressão logística a um conjunto de dados de crédito. Para garantir organização, a aplicação deste trabalho será desenvolvida em algumas etapas. Primeiramente, tratamentos exploratórios são realizados para que uma maior familiarização com os dados possa ser obtida. Esta análise inicial tem como objetivos identificar eventuais inconsistências nos dados, além de definir possíveis transformações de variáveis e a criação de novas a serem utilizadas nos modelos. Em seguida, utilizando uma abordagem de um problema de risco de crédito, é feito o ajuste do modelo de regressão logística para a base de dados completa que será considerado padrão ouro. Por fim, num estudo de simulação, avalia-se o desempenho dos modelos construídos para cada métodode imputação em dois cenários de dados incompletos, apontando as principais diferenças entre eles e utilizando como referência o modelo padrão. Toda a análise estatística foi realizada no 𝑠𝑜𝑓𝑡𝑤𝑎𝑟𝑒 R (R Core Team, 2017). 4.1 Modelagem de Risco de Crédito Os métodos tradicionais de decisão fundamentados apenas em critérios julgamentais têm perdido espaço nas operações de crédito das instituições financeiras, que buscam técnicas mais eficientes para mensurar o risco dos tomadores e das carteiras de crédito. Tal risco, popularmente chamado de risco de crédito, pode ser entendido como a probabilidade de um cliente ou tomador de crédito faltar com os pagamentos de qualquer tipo de dívida ou, mais formalmente, como uma medida da variabilidade dos retornos esperados associados a ativos financeiros. Neste contexto, verifica-se uma maior ênfase das instituições na utilização e apri- moramento de modelos estatísticos como suporte às decisões de concessão de crédito e à gestão de carteiras (BRITO; NETO, 2008). Na realidade, estes modelos passaram a ser um importante instrumento para auxiliar os gestores na tomada de decisões que atendam às diretrizes estabelecidas nas políticas de crédito de instituições. Em especial, a concessão de crédito ganhou força na rentabilidade das empresas do setor financeiro, se tornando uma das principais fontes de receita e, por isso, rapidamente, este setor percebeu a necessidade da modelagem estatística. De um modo geral, os modelos aplicados em risco de crédito procuram resumir através de um escore possíveis perdas inesperadas de uma carteira de créditos em de- Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 55 corrência de mudanças na qualidade do cliente, isto é, estima a probabilidade de um cliente proponente ao crédito se tornar inadimplente, em determinado período, dadas suas informações cadastrais e comportamentais de mercado que podem influenciar na capacidade de pagamento do mesmo. Segundo Diniz e Louzada (2013), em operações de cobrança, destacam-se os seguintes tipos de modelos de escore: ∙ Modelo de Credit Scoring: baseado em dados cadastrais dos clientes, e é utilizado nas decisões de aceitação de proponentes a créditos; ∙ Modelo deBehaviour Scoring: baseado em dados transacionais, utilizado nas decisões de manutenção ou renovação de linhas e produtos para os já clientes; ∙ Modelo de Collection Scoring: baseado em dados transacionais de clientes inadim- plentes, utilizado nas decisões de priorização de estratégias de cobranças. Diferentes modelos podem ser utilizados na análise de crédito, a fim de alcançar melhorias na redução do risco e/ou no aumento de rentabilidade. Entre os quais, podem ser citados, a regressão logística e linear, árvore de classificação e análise discriminante. Mais recentemente, outras técnicas têm sido utilizadas no desenvolvimento de modelos de risco de crédito, como redes neurais, algoritmos genéticos, random forest e redes bayesianas. 4.2 Descrição e Apresentação dos Dados A base de dados utilizada neste trabalho refere-se a clientes inadimplentes ou adimplentes (classificação como 𝑏𝑜𝑚 ou 𝑚𝑎𝑢 cliente) no pagamento de um produto de crédito cedido por uma instituição financeira. A partir deste conjunto de dados esta instituição tem como objetivo mensurar o risco de inadimplência de possíveis clientes que possam adquirir o produto. Como os dados contém informações sigilosas e de contribuintes, a marca da instituição não é veiculada neste trabalho. A classificação dos clientes de acordo com seu risco de crédito é a variável resposta, assumindo valor 0, se o cliente foi previamente classificado como 𝑏𝑜𝑚 pagador (adimplente), e valor 1, se o cliente foi classificado como 𝑚𝑎𝑢 pagador (inadimplente). Em geral, a segmentação da situação de crédito em 𝑏𝑜𝑚 e 𝑚𝑎𝑢 pagador está associada principalmente ao número de dias em atraso do cliente num determinado período de tempo. Dentre os 3355 clientes contidos no conjunto de dados, 274 estão classificados como 𝑚𝑎𝑢𝑠 pagadores. Para predizer o risco de crédito, são disponibilizados uma série de informações cadastrais e comportamentais de mercado dos clientes. Na Tabela 6 é apresentada a caracterização das variáveis presentes no conjunto de dados. Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 56 Tabela 6 – Caracterização das variáveis em estudo. Variável Tipo deVariável Categoria Descrição Dívida Contínua - Valor financiado pelo cliente em reais, já incluindo impostos, tarifas, segu- ros e descontado o valor de entrada (se houver) Contrato Contínua - Valor do contrato dado pela soma dovalor das prestações em reais Principal Contínua - Valor da compra do cliente menos ovalor de entrada Entrada Contínua - Valor de entrada em reais Tarifa Contínua - Valor da tarifa do cadastro em reaiscobrado do cliente Prestação Contínua - Valor da prestação em reais Seguro Nominal SimNão Seguro do financiamento IOF Contínua - Valor do imposto sobre operações fi-nanceiras Parcela Discreta - Quantidade de parcelas do financia-mento Mensal Contínua - Valor da Prestação sobre Renda, des- considerando as casas decimais (não é arredondamento) Farol do Bureau (Fr Bur) Nominal Amarelo Vermelho Verde Farol do Bureu de crédito. O amarelo identifica excesso de passagens no Se- rasa, o vermelho restrição e o verde indica que o CPF está com nome limpo Farol de Alerta (Fr Aler) Nominal Amarelo Verde Farol de alerta de telefone ou ende- reço. O amarelo indica que existe vá- rios endereços para o mesmo telefone ou vários telefones para o mesmo en- dereço do cliente e o verde ausência de problemas Farol de Dados (Fr Dad) Nominal Amarelo Vermelho Cinza Verde Farol de mudança de dados cadas- trais. As cores amarelo e vermelho in- dicam que houve mudança dos dados coletados a fim de driblar a aprova- ção de crédito, enquanto que cinza ou verde representam a ausência deste problema Farol do Modelo (Fr Mod) Nominal Amarelo Vermelho Verde Farol do modelo de crédito. As co- res amarelo e vermelho indicam que houve desenquadramento da política de crédito, sendo necessária uma aná- lise manual, enquanto que verde re- presenta a ausência deste problema Continua na próxima página Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 57 Tabela 6 – Caracterização das variáveis em estudo. Variável Tipo deVariável Categoria Descrição Idade Contínua - Idade em anos do cliente no momentoda proposta Gênero Nominal FemininoMasculino Gênero do cliente UF Nominal - Unidade Federativa de endereço docliente CEP1 Nominal - O primeiro dígito do CEP - repre-senta a região de endereço do cliente CEP2 Nominal - Os dois primeiros dígitos do CEP - representa a sub-região de endereço do cliente Renda Contínua - Renda declarada pelo cliente Emprego Contínua - Tempo em meses que o cliente estáno atual emprego Ocupação Nominal - Código de natureza de ocupação (vertabela no Apêndice C) Outras Rendas (Out Ren) Nominal Sim Não Outras rendas informadas pelo cli- ente (segundo emprego, rendimentos de capitais, etc) Tempo C/C Contínua - Tempo em anos de abertura de contacorrente Contratos Liquidados (Cont Liq) Discreta - Quantidade histórica de contratos li- quidados na instituição Contratos Aberto (Cont Aber) Discreta - Quantidade histórica de contratos em aberto na instituição Atraso Contínua - Tempo de atraso em dias do contrato visto a 1 anos depois. Como é utili- zada para a marcação da Resposta, não deve entrar no modelo Resposta Nominal BomMau Marcação como bom e mau cliente para a modelagem 4.3 Tratamento das Variáveis Explicativas Conforme Diniz e Louzada (2013), uma prática muito comum, sobretudo quando se desenvolve modelos para risco de crédito, é tratar as variáveis explicativas como qualitativas, independente da natureza contínua ou discreta, e buscando, sempre que possível, simplicidade na interpretação dos resultados obtidos. Como o conjunto de dados contém variáveis quantitativas, então será adotado para este trabalho o procedimento de categorização destas variáveis. A categorização ourecategorização deve ser feita tanto para variáveis originalmente quantitativas como para as qualitativas. No caso das variáveis de origem qualitativa, a ideia é que se construa uma quantidade não muito excessiva de categorias com números suficientes Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 58 de indivíduos para que a análise seja robusta. Enquanto que as variáveis quantitativas, uma vez transformadas em qualitativas, ganham com relação a interpretabilidade dos parâmetros. Para as variáveis contínuas, Thomas, Edelman e Crook (2002) relatam que este tipo de transformação pode trazer ganhos também no poder preditivo do modelo, principalmente quando a relação entre a variável explicativa em questão e o evento de interesse é não-linear. Existem diversas medidas descritivas que auxiliam na identificação de categorias das variáveis com alto ou baixo poder de discriminação dos clientes 𝑏𝑜𝑛𝑠 e 𝑚𝑎𝑢𝑠 pagadores. Uma delas é através do cálculo do risco relativo (RR - Relative Risk), o qual pode ser definida em risco de crédito como a razão de riscos entre clientes 𝑏𝑜𝑛𝑠 e 𝑚𝑎𝑢𝑠 ou vice-versa. Outra medida bastante utilizada é o peso de evidências (WOE - Weights of Evidence), obtido a partir do logaritmo do risco relativo e tem a vantagem de ter o valor 0 como ponto de referência. O cálculo do 𝑅𝑅 e 𝑊𝑂𝐸 está exemplificado na Tabela 7. Tabela 7 – Exemplo do cálculo das medidas descritivas 𝑅𝑅 e 𝑊𝑂𝐸. Categoria 𝑛𝑚𝑎𝑢𝑠 Π𝑚𝑎𝑢𝑠 𝑛𝑏𝑜𝑛𝑠 Π𝑏𝑜𝑛𝑠 𝑅𝑅 𝑊𝑂𝐸 1 𝑚1 𝑚1/𝑚 𝑏1 𝑏1/𝑏 (𝑚1/𝑚)/(𝑏1/𝑏) 𝑙𝑛 [(𝑚1/𝑚)/(𝑏1/𝑏)] 2 𝑚2 𝑚2/𝑚 𝑏2 𝑏2/𝑏 (𝑚2/𝑚)/(𝑏2/𝑏) 𝑙𝑛 [(𝑚2/𝑚)/(𝑏2/𝑏)] ... ... ... ... ... ... ... 𝑘 𝑚𝑘 𝑚𝑘/𝑚 𝑏𝑘 𝑏𝑘/𝑏 (𝑚𝑘/𝑚)/(𝑏𝑘/𝑏) 𝑙𝑛 [(𝑚𝑘/𝑚)/(𝑏𝑘/𝑏)] Total 𝑚 100% 𝑏 100% 1 0 A partir do 𝑊𝑂𝐸, por exemplo, pode-se avaliar as categorias das variáveis explica- tivas da seguinte forma: ∙ 𝑊𝑂𝐸 < 0: negativo e quanto mais distante de zero, maiores são as chances de o cliente apresentar menor risco de crédito, indicando que a categoria apresenta algum poder para discriminar clientes 𝑏𝑜𝑛𝑠. ∙ 𝑊𝑂𝐸 = 0: indica que se a variável assumir a categoria, não há indícios de o cliente ser de maior ou menor risco de inadimplência comparado à análise desconsiderando esta categoria; ∙ 𝑊𝑂𝐸 > 0: positivo e quanto mais distante de zero, maiores são as chances de o cliente apresentar maior risco de crédito, indicando que a categoria apresenta algum poder para discriminar clientes 𝑚𝑎𝑢𝑠; O 𝑅𝑅 e o 𝑊𝑂𝐸 são as medidas mais comuns para agrupar as categorias de uma variável que têm risco de crédito semelhantes. Porém, nem sempre esta tarefa é fácil sem a utilização de um método formal, pois, frequentemente, há inúmeras categorizações razoáveis. Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 59 Nestes casos, deve escolher então a categorização que apresentar a maior associação entre a variável explicativa e a resposta. Diniz e Louzada (2013), sugerem a transformação de variáveis através da técnica 𝐶𝐻𝐴𝐼𝐷 (Chi-Squared Automatic Interaction Detector), que é um algoritmo utilizado para avaliar a relação entre a variável resposta e uma ou mais variáveis explicativas, sendo o resultado apresentado em forma de árvore de decisão. A criação de categorias para as variáveis quantitativas ou o reagrupamento das qualitativas é baseada no teste de associação Qui-Quadrado, buscando a melhor categorização dos dados com relação a cada uma destas variáveis ou conjunto delas. No entanto, antes de se prosseguir, é necessário conhecer as variáveis, seus casos possíveis e distribuições. A princípio foi feita uma análise descritiva dos dados. A partir da análise de correlação, por exemplo, pode-se notar que algumas variáveis explicati- vas estavam fortemente correlacionadas, podendo causar posteriormente problemas de multicolinearidade no modelo. A Figura 10 apresenta o gráfico de correlação mista das variáveis identificadas com maior grau de associação. Como o conjunto dados contém tanto variáveis quantitativas como qualitativas, utilizaram-se diferentes medidas para mensura esta associação. Entre variáveis do mesmo tipo, foram aplicados o coeficiente de correlação de Pearson para variáveis quantitativas e o coeficiente de associação de Yule para as variáveis qualitativas dicotômicas. Enquanto que para mensurar a associação entre variáveis quantitativas e qualitativas usou-se o coeficiente de correlação ponto-bisserial (FERGUSON, 1981). Dentre as variáveis altamente correlacionadas manteve-se na análise apenas as mais importantes. Figura 10 – Gráfico de correlação mista . Fonte: Elaborado pelo autor. Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 60 Prosseguindo, o procedimento de transformação de variáveis contínuas consistiu inicialmente em criar categorias com faixas de valores baseadas nos decis. A partir desta categorização, foi analisada a frequência de clientes 𝑏𝑜𝑛𝑠 e 𝑚𝑎𝑢𝑠 em cada categoria da variável, a fim de identificar categorias semelhantes quanto à variável resposta que pudessem ser agrupadas. Para isso, fez-se o uso das medidas descritivas e técnicas abordadas nesta seção. A Tabela 8 apresenta o resultado da categorização das variáveis quantitativas contidas no conjunto de dados adotada para o trabalho. Dado que a resposta de maior interesse, denominada 𝑠𝑢𝑐𝑒𝑠𝑠𝑜, é o cliente propo- nente ao crédito ser um 𝑚𝑎𝑢 pagador, observa-se na tabela que as categorias com maior contribuição para o risco de inadimplência, desconsiderando o efeito das demais, são dívidas com valor igual ou maior que R$ 4800,00 e também de longa duração (20 meses ou mais), clientes com idade inferior a 32 anos ou menos, tempo no atual emprego menor que 15 meses, tempo de abertura da conta corrente menor que 5 meses e sem contratos liquidados ou em aberto na instituição. Por outro lado, as características dos clientes ou do empréstimo que individualmente apresentaram menor risco de inadimplência, são dívidas com valor igual ou menor que R$ 2600,00 e também de curta duração (10 meses ou menos), valor da tarifa de cadastro menor que R$ 10,00, valor da prestação acima de R$ 830,00, valor mensal menor que R$ 10,00, clientes com 33 anos ou mais, tempo no atual emprego de 15 meses ou mais, tempo de abertura da conta corrente entre 5 e 10 meses e com pelo menos um contrato liquidado na instituição. Tabela 8 – Categorização das variáveis quantitativas do conjunto de dados. Variável Categoria 𝑛𝑚𝑎𝑢𝑠 Π𝑚𝑎𝑢𝑠 𝑛𝑏𝑜𝑛𝑠 Π𝑏𝑜𝑛𝑠 𝑅𝑅 𝑊𝑂𝐸 Dívida < 2600 [2600, 4800) ≥ 4800 62 121 91 22,63 44,16 33,21 1281 1191 609 41,58 38,66 19,77 0,544 1,142 1,680 -0,608 0,133 0,519 ⋆ Tarifa < 10 [10, 15) ≥ 10 3 241 30 1,09 87,96 10,95 102 2672 307 3,31 86,72 9,96 0,331 1,014 1,099 -1,106 0,014 0,094 ⋆ Prestação < 830≥ 830 259 15 94,53 5,47 2743 338 89,03 10,97 1,062 0,499 0,060 -0.695 ⋆ Parcela < 10 [10, 20) ≥ 20 82 100 92 29,93 36,50 33,58 1578 903 600 51,22 29,31 19,47 0,584 1,245 1,724 -0,537 0,219 0,545 ⋆ Mensal < 10≥ 10 42 232 15,33 84,67 831 2250 26,97 73,03 0,568 1,159 -0,565 0,148 ⋆ Idade < 33≥ 33 157 117 57,30 42,70 921 2160 29,89 70,11 1,917 0,609 0,651 -0,496 ⋆ Renda < 2000≥ 2000 130 144 47,44 52,55 1261 1820 40,93 59,07 1,159 0,890 0,148 -0,117 ⋆ Emprego < 15≥ 15 194 80 70,80 29,20 1610 1471 52,26 47,74 1,355 0,612 0,304 -0,492 ⋆ Continua na próxima página Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 61 Tabela 8 – Caracterização das variáveis em estudo. Variável Categoria 𝑛𝑚𝑎𝑢𝑠 Π𝑚𝑎𝑢𝑠 𝑛𝑏𝑜𝑛𝑠 Π𝑏𝑜𝑛𝑠 𝑅𝑅 𝑊𝑂𝐸 Tempo C/C < 10≥ 10 225 49 82,12 17,88 1853 1228 60,14 39,86 1,365 0,449 0,311 -0,801 ⋆ Cont Liq 0≥ 1 201 73 73,36 26,64 1488 1593 48,30 51,70 1,519 0,515 0,418 -0,663 ⋆ Cont Aber 0≥ 1 229 45 83,58 16,42 2713 368 88,06 11,94 0,949 1,375 -0,052 0,318 ⋆ Na Tabela 9 tem-se a recategorização das variáveis qualitativas do conjunto de dados. A definição dos grupos de UF é apresentada no Apêndice C. Com relação às categorias que mais contribuem para o aumento no riscode inadimplência, destacam-se o status de clientes que não pagaram entrada para a quitação da dívida, com excesso de passagens ou restrição no Serasa, mudanças nos dados cadastrais para a aprovação de crédito, pertencentes ao Grupo 1 de UF e com natureza de ocupação liberal ou autônomo. Em contrapartida, as categorias que individualmente reduzem o risco de inadimplência são clientes pertencentes ao grupo 3 de UF, com natureza de ocupação aposentado ou pensionista, proprietário ou outros e que possuem outras fontes de renda. Tabela 9 – Recategorização das variáveis qualitativas do conjunto de dados. Variável Categoria 𝑛𝑚𝑎𝑢𝑠 Π𝑚𝑎𝑢𝑠 𝑛𝑏𝑜𝑛𝑠 Π𝑏𝑜𝑛𝑠 𝑅𝑅 𝑊𝑂𝐸 Entrada SimNão 7 267 2,55 97,44 50 3031 1,62 98,38 1,574 0,991 0,454 -0,009 ⋆ Seguro SimNão 231 43 84,31 15,69 2574 507 83,54 16,46 1,009 0,954 0,009 -0,047 ⋆ Fr Bur Amarelo ou vermelhoVerde 57 217 20,80 79,18 461 2620 14,96 85,04 1,390 0,931 0,330 -0,071 ⋆ Fr Aler AmareloVerde 39 235 14,23 85,77 567 2514 18,40 81,60 0,773 1,051 -0,257 0,050 ⋆ Fr Dad Amarelo ou vermelhoCinza ou verde 9 265 3,28 96,71 46 3035 1,49 98,51 2,200 0,982 0,788 -0,018 ⋆ Gênero FemininoMasculino 159 115 58,03 41,97 1924 1157 62,45 37,55 0,929 1,118 -0,073 0,111 ⋆ UF Grupo 1 Grupo 2 Grupo 3 46 212 16 16,79 77,37 5,84 287 2568 226 9,31 83,35 7,33 1,802 0,928 0,796 0,589 -0,074 -0,228 ⋆ Ocupação Aposentado ou pensionista CLT Liberal ou autônomo Proprietário Outros 11 116 100 19 28 4,01 42,34 36,50 6,93 10,22 279 1347 726 329 400 9,06 43,72 23,56 10,68 12,98 0,443 0,968 1,549 0,649 0,787 -0,813 -0,032 0,437 -0,432 -0,239 ⋆ Out Ren SimNão 165 109 60,22 39,78 2246 835 72,90 27,10 0,826 1,468 -0,191 0,384 ⋆ Após o tratamento das variáveis explicativas do conjunto de dados, o próximo passo é a criação das variáveis 𝑑𝑢𝑚𝑚𝑖𝑒𝑠 para as categorias. Neste caso, adotou-se como Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 62 regra para a definição da casela de referência, a categoria de cada variável em que o 𝑅𝑅 mais se aproxima do valor 1 ou, equivalentemente, para o 𝑊𝑂𝐸 mais próximo do valor 0, indicando que esta categoria tem um efeito neutro na discriminação de 𝑏𝑜𝑛𝑠 e 𝑚𝑎𝑢𝑠 clientes. Para o melhor entendimento, estas categorias estão representadas nas tabelas acima por (⋆). 4.4 Partição do Conjunto de Dados Um problema comum na aplicação de modelos ou algoritmos de classificação é o overfitting (superajuste). Na prática este problema ocorre quando o modelo se ajusta perfeitamente aos dados históricos, porém o mesmo não acontece quando aplicado a novos dados. Neste caso, para evitá-lo, o conjunto de dados foi particionado aleatoriamente em duas bases, uma para treinamento, sob a qual é feito a seleção de variáveis e posteriormente ajustado o modelo final e, a outra para teste, em que é verificado sua capacidade de generalização. Pode-se observar na Tabela 10 que a distribuição dos 𝑏𝑜𝑛𝑠 e 𝑚𝑎𝑢𝑠 clientes, nas bases particionadas de treinamento e teste, caracterizam bem o conjunto de dados original. Tabela 10 – Distribuição dos clientes nas bases de treinamento e teste. Clientes Base de treinamento Base de teste 𝑛 % 𝑛 % 𝐵𝑜𝑛𝑠 2165 92,21 916 90,96 𝑀𝑎𝑢𝑠 183 7,79 91 9,04 Total 2348 100,00 1007 100,00 De acordo com Diniz e Louzada (2013), particionar o conjunto de dados em bases de treinamento e teste é conveniente e resulta em benefícios técnicos. Isto é feito com a intenção de verificar o desempenho de predição e comparar os diferentes modelos. É interessante um número suficientemente grande de observações para que uma partição deste tipo seja adequado. Porém, sempre que possível, esta partição jamais deve substituir a validação do modelo em um conjunto de dados mais recente. 4.5 Seleção de Variáveis Uma vez definida a base de treinamento a ser utilizada para ajustar o modelo de regressão logística, resta apenas saber qual a melhor forma para encontrar um modelo parcimonioso e que contenha somente as variáveis mais importantes que explicam a probabilidade do cliente ser um 𝑚𝑎𝑢 pagador em determinado período de tempo. Neste caso, utilizar algum método de seleção de variáveis pode não somente melhorar o desempenho do modelo final, como também facilitar a interpretação dos parâmetros estimados. Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 63 Para a seleção de variáveis, além do método 𝑠𝑡𝑒𝑝𝑤𝑖𝑠𝑒 citado anteriormente, faz-se o uso do algoritmo Boruta disponível no pacote Boruta do software R. Precisamente, o Boruta funciona como um algoritmo de seleção de atributos baseado na estratégia 𝑤𝑟𝑎𝑝𝑝𝑒𝑟1, capaz de trabalhar com qualquer método de classificação que forneça uma medida de importância da variável, sendo Random Forest o algoritmo padrão. Na Tabela 11 são apresentados os resultados da seleção de variáveis 𝑠𝑡𝑒𝑝𝑤𝑖𝑠𝑒 utilizando como critério o teste da razão de verossimilhança. Para a tabela em questão, é importante ressaltar que foram consideradas relevantes para o modelo de regressão apenas as variáveis selecionadas com p-valor de teste inferior ao nível de significância 𝛼 = 0, 1. Tabela 11 – Seleção de variáveis 𝑠𝑡𝑒𝑝𝑤𝑖𝑠𝑒 utilizando como critério o teste da razão de verossimilhança. Variável Dummy 𝐺 P-valor Dívida < 2600 10,207 0,001 Dívida ≥ 4800 6,292 0,012 Prestação ≥ 830 11,359 0,000 Mensal < 10 9,869 0,002 Fr Bur Amarelo/Vermelho 8,803 0,003 Fr Dad Amarelo/Vermelho 4,829 0,028 Idade < 33 7,646 0,006 Gênero Masc 6,753 0,009 Emprego < 15 11,551 0,001 Ocupação Liberal/Autônomo 5,494 0,019 Ocupação Proprietário 2,817 0,093 Tempo C/C ≥ 10 10,280 0,001 Cont Liq ≥ 1 24,807 0,000 Cont Aber ≥ 1 5,754 0,016 Com a aplicação do algoritmo Boruta, é possível verificar se outras variáveis 𝑑𝑢𝑚𝑚𝑖𝑒𝑠, além daquelas selecionadas pelo 𝑠𝑡𝑒𝑝𝑤𝑖𝑠𝑒, podem explicar de forma satisfatória a variância da variável resposta e tornar o modelo ainda mais robusto. Como pode ser visto na Figura 11, este algoritmo seleciona iterativamente as variáveis conforme os escores computados com base em uma medida de importância que, por padrão, é a diminuição média da acurácia. 1 A estratégia 𝑤𝑟𝑎𝑝𝑝𝑒𝑟 é uma técnica que executa o próprio algoritmo de classificação para selecionar o subconjunto de atributos mais adequado. Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 64 Figura 11 – Gráfico da seleção de variáveis pelo algoritmo Boruta. − 5 0 5 10 15 Im po rt ân ci a da V ar iá ve l E sc or e M ín im o O cu pa çã o O ut ro s O cu pa çã o A po s O cu pa çã o P ro p F r B ur A m ar /V er m E nt ra da S im E sc or e M éd io F r A le r A m ar U F G ru po 3 U F G ru po 1 Ta rif a > = 1 5 E m pr eg o < 1 5 C on t A be r > = 1 M en sa l < 1 0 R en da < 2 00 0 Ta rif a < 1 0 F r D ad A m ar S eg ur o N ão E sc or e M áx im o G ên er o M as c O cu pa çã o Li b P ar ce la > = 2 0 P ar ce la < 1 0 Te m po C /C > = 1 0 D iv id a > = 4 80 0 C on t L iq > = 1 P re st aç ão > = 8 30 D iv id a < 2 60 0 Id ad e < 3 3 Fonte: Elaborado pelo autor. No gráfico os boxplots azuis representam os escores de referência a partir dos quais é feita a classificação das variáveis, os boxplots verdes indicam as variáveis consideradas importantes para o modelo, os boxplots vermelhos referem-se às variáveis rejeitadas e, por fim, os boxplots amarelos representam a incerteza, ou seja, as variáveis que apresentam escores tão próximos do escore de referência máximo que o algoritmo não consegue decidir pela aceitação ou não das mesmas. Note que, de acordo com o algoritmo Boruta, as 𝑑𝑢𝑚𝑚𝑖𝑒𝑠 da variável Parcela também podem ser relevantes para a predição da variável resposta, e por isso devem ser avaliadas durante o ajuste do modelo. 4.6 Modelo de Regressão Logística para Dados Completos Conforme a estratégia de desenvolvimento da aplicação adotada, ajustou-se o modelo de regressão logística padrãopara a base de treinamento a partir dos resultados obtidos através dos métodos de seleção de variáveis. Na Tabela 12 têm-se os coeficientes estimados da regressão e algumas estatísticas associadas. Veja que foram designadas duas cores para os coeficientes do modelo, verde e vermelho, que indicam a pontuação nas categorias de 𝑏𝑜𝑛𝑠 ou 𝑚𝑎𝑢𝑠 clientes, respectivamente. Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 65 Tabela 12 – Resultados do modelo de regressão logística múltipla padrão ajustado. Variável Parâmetro Estimativa Erro Padrão Ψ̂ 𝐼𝐶Ψ(95%) 𝑊 P-valor 𝐿𝐼 𝐿𝑆 Intercepto 𝛽0 -2,662 0,238 0,070 0,044 0,111 -11,163 0,000 Dívida < 2600 𝛽1 -0,839 0,211 0,432 0,286 0,653 -3,978 0,000 Dívida ≥ 4800 𝛽2 0,465 0,188 1,591 1,100 2,302 2,467 0,014 Prestação ≥ 830 𝛽3 -1,119 0,364 0,327 0,160 0,666 -3,076 0,002 Fr Bur Amarelo/Vermelho 𝛽4 0,494 0,197 1,639 1,114 2,413 2,506 0,012 Fr Dad Amarelo/Vermelho 𝛽5 0,971 0,458 2,640 1,076 6,478 2,119 0,034 Idade < 33 𝛽6 0,523 0,176 1,688 1,196 2,381 2,979 0,003 Gênero Masc 𝛽7 0,367 0,164 1,443 1,047 1,990 2,237 0,025 Emprego < 15 𝛽8 0,528 0,175 1,696 1,202 2,392 3,011 0,003 Ocupação Liberal/Autônomo 𝛽9 0,471 0,171 1,601 1,144 2,240 2,747 0,006 Tempo C/C ≥ 10 𝛽10 -0,698 0,219 0,498 0,324 0,764 -3,194 0,001 Cont Liq ≥ 1 𝛽11 -0,948 0,185 0,388 0,270 0,557 -5,120 0,000 Log da verossimilhança = −555, 912 Pela razão de chances, conclui-se, por exemplo, que clientes para os quais houve mudanças de dados a fim driblar a aprovação de crédito são 2,640 vezes mais propensos à inadimplência do que clientes com ausência de mudanças dos dados cadastrais. Já os clientes que estão no atual emprego menos de 15 meses são 1,696 mais propensos à inadimplência do que os clientes que estão há mais tempo. Clientes com dívida igual ou maior que R$ 4800,00 são 1,591 vezes mais propensos que os clientes com dívida entre R$ 2600 e R$ 4800, e assim por diante. Seguindo ao que foi discutido nos capítulos anteriores, o próximo passo é verificar se de fato o modelo está bem ajustado e dispõe de um poder preditivo aceitável. Para corroborar a hipótese de que o modelo é adequado para os dados foi aplicado o teste de Hosmer-Lemeshow, cujos resultados da partição da base pelo teste estão apresentados na Tabela 13. O p-valor para o teste de Hosmer-Lemeshow foi 0,860, indicando neste caso que não se deve rejeitar a hipótese nula de que o modelo se ajusta de forma satisfatória aos dados, isto é, têm-se evidências de que o modelo está bem ajustado aos dados do problema proposto. Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 66 Tabela 13 – Partição da base para o teste de Hosmer-Lemeshow. Grupo 𝑌 = 1 𝑌 = 0 TotalObservado Esperado Observado Esperado 1 2 2, 07 237 236, 93 239 2 3 3, 96 247 246, 04 250 3 5 4, 92 211 211, 08 216 4 5 7, 50 232 229, 50 237 5 14 10, 26 223 226, 74 237 6 15 13, 05 216 217, 95 231 7 15 18, 59 230 226, 41 245 8 22 23, 45 203 201, 55 225 8 39 36, 07 195 197, 93 234 10 63 63, 13 171 170, 87 234 A Tabela 14, por sua vez, mostra as métricas de desempenho para a avaliação da capacidade preditiva do modelo obtido, tanto na base de treinamento quanto na base de teste. Tendo em vista a dificuldade de se obter modelos de alta performance na área de risco de crédito, principalmente em bases de dados desbalanceadas como é o caso da base adotada para este trabalho, em que o sucesso, os 𝑚𝑎𝑢𝑠 pagadores, é um evento raro, pode-se considerar que o modelo padrão proposto apresenta performance satisfatória. Note que, como se espera de qualquer modelo de predição, as métricas são seme- lhantes em ambas as bases. Logo, o modelo não possui problema de 𝑜𝑣𝑒𝑟𝑓𝑖𝑡𝑡𝑖𝑛𝑔 e sua real taxa de acerto é igual a 69,02%. Isto quer dizer que a cada 100 produtos de crédito, espera-se que o modelo acerte o comportamento de pagamento de 69 clientes, ou seja, quem será 𝑚𝑎𝑢 pagador. Tabela 14 – Métricas de desempenho para o modelo de regressão logística padrão. Base Métrica de desempenhoTA % TE % S % E % ROC KS Gini Treinamento 68,61 31,39 73,77 68,18 0,777 0,427 0,555 Teste 69,02 30,98 69,23 69,00 0,743 0,404 0,485 Uma ressalva deve ser feita, a de que analisar apenas a taxa de acerto pode não fornecer todas informações relevantes sobre a qualidade de ajuste do modelo. Pode-se então analisar a curva ROC, por exemplo, a qual é apresentada na Figura 12. Uma vez que a área sob a curva ROC é 0,777, o poder de predição do modelo ajustado é aceitável e, portanto, tem-se condições suficientes para utilizá-lo em predições do comportamento de pagamento de clientes futuros. Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 67 Figura 12 – Curva ROC para o modelo de regressão logística padrão nas bases de treina- mento e teste. 0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00 1−Especificidade S en si bi lid ad e Base de treinamento Base de teste Fonte: Elaborado pelo autor. Anteriormente, ainda foram discutidas as definições de algumas medidas de re- síduos e diagnóstico do modelo exploradas com frequência na literatura. Na Figura 13, correspondente a análise gráfica dos resíduos de Pearson e 𝐷𝑒𝑣𝑖𝑎𝑛𝑐𝑒 padronizados em relação a ordem das observações, nota-se que os resíduos não apresentam qualquer padrão, não havendo desta forma qualquer tipo de heterocedasticidade. Embora apenas os resíduos negativos estejam concentrados em torno do valor 0, tanto a amplitude dos resíduos positivos como a amplitude dos resíduos negativos é constante, o que indica não haver anomalias no ajustamento do modelo. Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 68 Figura 13 – Gráficos dos resíduos de Pearson e 𝐷𝑒𝑣𝑖𝑎𝑛𝑐𝑒 padronizados do modelo de regressão logística padrão. Fonte: Elaborado pelo autor. A Figura 14 mostra o gráfico dos resíduos 𝐷𝑒𝑣𝑖𝑎𝑛𝑐𝑒 padronizados 𝑣𝑒𝑟𝑠𝑢𝑠 os valores ajustados do modelo. As observações (clientes) que apresentam resíduos mais elevados estão identificadas e apenas correspondem a resíduos positivos. Visto que o padrão de comportamento deste conjunto de dados refere-se à categoria dos 𝑏𝑜𝑛𝑠 pagadores, é visível que os resíduos destas observações correspondem as situações nas quais houve uma quebra no padrão de comportamento dos clientes, apesar da evidência dada pelo modelo em contrário. No entanto, não se pode confirmar que há um mau ajustamento do modelo neste caso. A correlação entre os valores ajustados e os resíduos do modelo é -0,009, que é um valor bastante próximo de 0. Figura 14 – Resíduos 𝐷𝑒𝑣𝑖𝑎𝑛𝑐𝑒 padronizados 𝑣𝑒𝑟𝑠𝑢𝑠 valores ajustado do modelo de regressão logística padrão. Fonte: Elaborado pelo autor. Para a análise de observações influentes, foram utilizadas a medida de Leverage e a distância de Cook. Como pode ser visto na Figura 15, nenhuma observação parece ser Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 69 ponto influente, não sendo portanto necessário retirar observações da base de dados. Figura 15 – Medida de Leverage e distância de Cook para o modelo de regressão logística padrão. Fonte: Elaborado pelo autor. Depois de ter feito a análise de resíduos e de observações influentes, resta avaliar a possível existência do problema de multicolinearidade. Para isso, calculou-se o 𝑉 𝐼𝐹 para cada variável explicativa contida no modelo, conforme a Tabela 15. Como, neste caso, todos os valores 𝑉 𝐼𝐹 são menores do que 5, não se verifica a presença de multicolinearidade entre as variáveis do modelo. Tabela 15 – Avaliação da multicolinearidade. Variável Dummy 𝑉 𝐼𝐹 Dívida < 2600 1,168 Dívida ≥ 4800 1,186 Prestação ≥ 830 1,037 Fr Bur Amarelo/Vermelho 1,037 Fr Dad Amarelo/Vermelho 1,015 Idade < 33 1,185 Gênero Masc 1,014 Emprego < 15 1,025 Ocupação Liberal/Autônomo 1,010 Tempo C/C ≥ 10 1,172 Cont Liq ≥ 1 1,028 Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 70 4.7 Estudo de Simulação A seção anterior se atentou a detalhar o processo de desenvolvimento do modelo de regressão logística, através do qual foi obtido um modelo para a base de dados completos que será comparado comos modelos a serem ajustados para bases de dados incompletos e, assim, poder avaliar o melhor método de imputação. Ou seja, os resultados obtidos com a análise dos dados completos são considerados valores verdadeiros. Nesta seção, a partir dos dados completos, foram criados, por simulação, dois cenários de dados incompletos, em que se exclui, considerando a variável Gênero, 5% e 20% das observações apenas das variáveis Idade, Emprego e Ocupação. Neste caso, as distribuições destas variáveis passam a variar de acordo com Gênero, podendo então assumir que o mecanismo gerador dos dados incompletos foi o MAR. O modelo de regressão logística foi ajustado para cada método de imputação citado no Capítulo 4, conforme elucida a Tabela 16. Para a comparação destes modelos, além das métricas de desempenho, também serão considerados como medidas de comparação o valor da estimativa de máxima verossimilhança dos parâmetros da regressão, seu erro padrão e o p-valor associado. Visando uma comparação dos modelos que seja razoável, a partição das bases de dados imputadas será dada através da mesma semente aleatória utilizada para a determinação das bases de treinamento e teste que foram utilizadas para o ajuste do modelo padrão, denotado nesta seção como MP. Tabela 16 – Métodos de imputação comparados. Modelo Método de Imputação M1 Análise de casos completos M2 Mediana e moda M3 Vizinho mais próximo 𝑘-NN M4 Random Forest M5 𝑛𝑜𝑟𝑚 e 𝑝𝑜𝑙𝑦𝑟𝑒𝑔 (algoritmo 𝑚𝑖𝑐𝑒) M6 𝑝𝑚𝑚 e 𝑙𝑑𝑎 (algoritmo 𝑚𝑖𝑐𝑒) 4.7.1 Resultados e Discussões Os primeiros resultados apresentados são a retirada aleatória de 5% dos dados da base completa. O primeiro passo é verificar o padrão de dados incompletos, apresentado no gráfico da Figura 16. Tal padrão é baseado na localização dos dados faltantes, ou seja, em cada variável. Como pode ser visto no gráfico, os dados 𝑚𝑖𝑠𝑠𝑖𝑛𝑔 aparecem de forma arbitraria entre as variáveis que sofreram perdas, o que caracteriza o padrão geral de dados incompletos. Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 71 Figura 16 – Padrão dos dados incompletos com 5% de 𝑚𝑖𝑠𝑠𝑖𝑛𝑔. Fonte: Elaborado pelo autor. Uma comparação dos resultado obtidos para o modelo logístico ajustado com dados completos e com simulação de 5% de dados faltantes é mostrada na Tabela 17. Quando comparados os ajustes, observa-se, que de um modo geral, os valores das estimativas, erros padrão e p-valores dos modelos construídos a partir dos métodos 𝑘-NN e Random Forest, respectivamente, se assemelham mais ao modelo padrão. Em contrapartida, o modelo mais discrepante refere-se à análise de casos completos, o que já era esperado, uma vez que este método apresenta perdas consideráveis de eficiência. Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 72 Tabela 17 – Resultados dos modelos de regressão logística para dados completos e incom- pletos com 5% de 𝑚𝑖𝑠𝑠𝑖𝑛𝑔. Variável Estatísticas ModeloMP M1 M2 M3 M4 M5 M6 Intercepto Estimativa Erro Padrão P-valor -2,662 0,238 0,000 -2,780 0,246 0,000 -2,671 0,240 0,000 -2,619 0,237 0,000 -2,662 0,238 0,000 -2,858 0,239 0,000 -2,850 0,239 0,000 Dívida < 2600 Estimativa Erro Padrão P-valor -0,839 0,211 0,000 -0,749 0,207 0,000 -0,832 0,211 0,000 -0,832 0,211 0,000 -0,839 0,211 0,000 -0,718 0,203 0,000 -0,724 0,203 0,000 Dívida ≥ 4800 Estimativa Erro Padrão P-valor 0,465 0,188 0,014 0,569 0,189 0,003 0,471 0,188 0,012 0,464 0,188 0,014 0,465 0,188 0,014 0,530 0,188 0,005 0,539 0,189 0,004 Prestação ≥ 830 Estimativa Erro Padrão P-valor -1,119 0,364 0,002 -0,811 0,324 0,012 -1,124 0,364 0,002 -1,113 0,364 0,002 -1,119 0,364 0,002 -0,912 0,348 0,009 -0,908 0,348 0,009 Fr Bur Amarelo/Vermelho Estimativa Erro Padrão P-valor 0,494 0,197 0,012 0,596 0,199 0,003 0,507 0,197 0,010 0,507 0,197 0,010 0,494 0,197 0,012 0,333 0,207 0,109 0,329 0,207 0,112 Fr Dad Amarelo/Vermelho Estimativa Erro Padrão P-valor 0,971 0,458 0,034 0,329 0,520 0,527 0,971 0,458 0,034 0,958 0,458 0,036 0,971 0,458 0,034 0,755 0,484 0,119 0,755 0,484 0,119 Idade < 33 Estimativa Erro P-valor 0,523 0,176 0,003 0,729 0,175 0,000 0,506 0,175 0,004 0,515 0,175 0,003 0,523 0,176 0,003 0,851 0,175 0,000 0,869 0,175 0,000 Gênero Masc Estimativa Erro Padrão P-valor 0,367 0,164 0,025 0,181 0,164 0,271 0,370 0,164 0,024 0,362 0,164 0,027 0,367 0,164 0,025 0,368 0,161 0,023 0,362 0,161 0,025 Emprego < 15 Estimativa Erro Padrão P-valor 0,528 0,175 0,003 0,729 0,178 0,000 0,554 0,177 0,002 0,483 0,173 0,005 0,528 0,175 0,003 0,517 0,171 0,003 0,484 0,171 0,005 Ocupação Liberal/Autônomo Estimativa Erro Padrão P-valor 0,471 0,171 0,006 0,437 0,173 0,011 0,464 0,172 0,007 0,474 0,172 0,006 0,471 0,171 0,006 0,450 0,170 0,008 0,470 0,169 0,005 Tempo C/C ≥ 10 Estimativa Erro Padrão P-valor -0,698 0,219 0,001 -0,817 0,232 0,000 -0,715 0,218 0,001 -0,705 0,218 0,001 -0,698 0,219 0,001 -0,576 0,222 0,010 -0,568 0,222 0,010 Cont Liq ≥ 1 Estimativa Erro Padrão P-valor -0,948 0,185 0,000 -0,878 0,181 0,000 -0,951 0,185 0,000 -0,954 0,185 0,000 -0,948 0,185 0,000 -0,772 0,177 0,000 -0,779 0,177 0,000 Um outro ponto a ser destacado trata-se do baixo desempenho dos métodos de imputação múltipla. Mesmo com uma pequena porcentagem de dados 𝑚𝑖𝑠𝑠𝑖𝑛𝑔, não se verifica um bom ajuste da regressão logística para este tipo de método. Pelo gráfico da Figura 17, fica evidente que algumas estimativas tiveram maiores alterações, se comparadas com as estimativas obtidas para o modelo padrão, o que corrobora a imprecisão da imputação. Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 73 Figura 17 – Estimativas dos modelos ajustados para dados incompletos com 5% de 𝑚𝑖𝑠𝑠𝑖𝑛𝑔. −3 −2 −1 0 1 β0 β1 β2 β3 β4 β5 β6 β7 β8 β9 β10 β11 Parâmetro E st im at iv a Modelo MP M1 M2 M3 M4 M5 M6 Fonte: Elaborado pelo autor. A Tabela 18 apresenta as métricas de desempenho de cada modelo tanto na base de treinamento quanto na base de teste. Pode-se notar que todos os modelos apresentaram um comportamento estável, se avaliados por exemplo ROC, KS e Gini, com a exceção apenas do modelo M1 (análise de casos completos) que encontra-se com problema evidente de 𝑜𝑣𝑒𝑟𝑓𝑖𝑡𝑡𝑖𝑛𝑔. Ressalta-se novamente que os modelos M3 e M4 foram os que mais se aproximaram do modelo padrão. Agora o modelo M1 foi o que apresentou pior desempenho. Dado que este modelo não contempla as informações descartadas pelo método de imputação, ele apenas possuiria um desempenho semelhante aos demais modelos caso existisse alguma outra variável correlacionada com a variável descartada, e que substituísse o incremento preditivo gerada pela variável. Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 74 Tabela 18 – Métricas de desempenho dos modelos de regressão logística para dados completos e incompletos com 5% de 𝑚𝑖𝑠𝑠𝑖𝑛𝑔. Base Modelo Métrica de DesempenhoTA % S % E % ROC KS Gini Treinamento MP M1 M2 M3 M4 M5 M6 68,61 66,73 68,14 67,89 68,61 75,09 73,85 73,77 80,00 74,86 73,77 73,77 67,37 68,95 68,18 65,49 67,58 67,39 68,18 75,76 74,28 0,777 0,791 0,778 0,776 0,776 0,775 0,775 0,427 0,455 0,424 0,426 0,426 0,431 0,437 0,555 0,582 0,556 0,553 0,554 0,549 0,549 Teste MP M1 M2 M3 M4 M5 M6 69,02 63,49 68,72 69,71 69,02 74,28 73,19 69,23 69,86 68,13 68,13 69,23 61,90 61,90 69,00 62,97 68,78 69,87 69,00 75,41 74,21 0,743 0,706 0,742 0,742 0,743 0,753 0,752 0,404 0,336 0,400 0,391 0,404 0,401 0,400 0,485 0,413 0,482 0,483 0,484 0,505 0,503 Prosseguindo com a análise, agora são avaliados os resultados obtidos com a retirada aleatória de 20% dos dados da base completa. De acordo com a Figura 18, o padrão de dados incompletos neste caso também é o geral. Figura 18 – Padrão dos dados incompletos com 20% de 𝑚𝑖𝑠𝑠𝑖𝑛𝑔. Fonte: Elaborado pelo autor. Na Tabela 19, é fácil notar que embora há um aumento do percentual de 𝑚𝑖𝑠𝑠𝑖𝑛𝑔, os métodos de imputação 𝑘-NN e Random Forest continuam apresentando o melhor desempenho com relação ao ajuste do modelode regressão logística. Já os modelos Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 75 desenvolvidos a partir da aplicação da análise de casos completos e imputação múltipla novamente foram os que apresentaram os piores resultados. Tabela 19 – Resultados dos modelos de regressão logística para dados completos e incom- pletos com 20% de 𝑚𝑖𝑠𝑠𝑖𝑛𝑔. Variável Estatísticas ModeloMP M1 M2 M3 M4 M5 M6 Intercepto Estimativa Erro Padrão P-valor -2,662 0,238 0,000 -2,898 0,266 0,000 -2,738 0,242 0,000 -2,729 0,236 0,000 -2,662 0,238 0,000 -2,959 0,238 0,000 -3,069 0,243 0,000 Dívida < 2600 Estimativa Erro Padrão P-valor -0,839 0,211 0,000 -0,425 0,219 0,053 -0,823 0,211 0,000 -0,811 0,211 0,000 -0,839 0,211 0,000 -0,715 0,203 0,000 -0,709 0,204 0,001 Dívida ≥ 4800 Estimativa Erro Padrão P-valor 0,465 0,188 0,014 0,657 0,209 0,002 0,479 0,189 0,011 0,478 0,189 0,011 0,465 0,188 0,014 0,548 0,190 0,004 0,570 0,190 0,003 Prestação ≥ 830 Estimativa Erro Padrão P-valor -1,119 0,364 0,002 -0,612 0,358 0,088 -1,114 0,364 0,002 -1,082 0,364 0,003 -1,119 0,364 0,002 -0,901 0,350 0,010 -0,918 0,350 0,009 Fr Bur Amarelo/Vermelho Estimativa Erro Padrão P-valor 0,494 0,197 0,012 0,009 0,237 0,969 0,521 0,198 0,008 0,514 0,198 0,009 0,494 0,197 0,012 0,334 0,208 0,109 0,322 0,209 0,124 Fr Dad Amarelo/Vermelho Estimativa Erro Padrão P-valor 0,971 0,458 0,034 0,773 0,489 0,114 0,975 0,462 0,035 0,957 0,460 0,037 0,971 0,458 0,034 0,798 0,486 0,101 0,778 0,488 0,111 Idade < 33 Estimativa Erro P-valor 0,523 0,176 0,003 0,901 0,191 0,000 0,576 0,175 0,001 0,628 0,177 0,000 0,523 0,176 0,003 0,953 0,177 0,000 1,022 0,178 0,000 Gênero Masc Estimativa Erro Padrão P-valor 0,367 0,164 0,025 0,218 0,178 0,221 0,370 0,164 0,024 0,363 0,164 0,027 0,367 0,164 0,025 0,360 0,162 0,026 0,367 0,162 0,023 Emprego < 15 Estimativa Erro Padrão P-valor 0,528 0,175 0,003 0,618 0,192 0,001 0,583 0,182 0,001 0,542 0,172 0,002 0,528 0,175 0,003 0,548 0,171 0,001 0,622 0,174 0,000 Ocupação Liberal/Autônomo Estimativa Erro Padrão P-valor 0,471 0,171 0,006 0,432 0,185 0,020 0,492 0,174 0,005 0,512 0,174 0,003 0,471 0,171 0,006 0,542 0,169 0,001 0,533 0,170 0,002 Tempo C/C ≥ 10 Estimativa Erro Padrão P-valor -0,698 0,219 0,001 -0,595 0,238 0,012 -0,700 0,217 0,001 -0,664 0,219 0,002 -0,698 0,219 0,001 -0,528 0,223 0,018 -0,485 0,224 0,030 Cont Liq ≥ 1 Estimativa Erro Padrão P-valor -0,948 0,185 0,000 -0,902 0,196 0,000 -0,957 0,185 0,000 -0,941 0,185 0,000 -0,948 0,185 0,000 -0,785 0,177 0,000 -0,769 0,177 0,000 Pelo gráfico das estimativas dos modelos logísticos ajustados para os dados com 20% de 𝑚𝑖𝑠𝑠𝑖𝑛𝑔, pode-se constatar que de fato os modelos M3 (𝑘-NN) e M4 (Random Forest) são os que mais se aproximam da equação do modelo geral. Capítulo 4. APLICAÇÃO A DADOS DE CRÉDITO 76 Figura 19 – Estimativas dos modelos ajustados para dados incompletos com 20% de 𝑚𝑖𝑠𝑠𝑖𝑛𝑔. −3 −2 −1 0 1 β0 β1 β2 β3 β4 β5 β6 β7 β8 β9 β10 β11 Parâmetro E st im at iv a Modelo MP M1 M2 M3 M4 M5 M6 Fonte: Elaborado pelo autor. Finalmente, na Tabela 20 têm-se as métricas de desempenho dos modelos ajustados para cada método de imputação. Tabela 20 – Métricas de desempenho dos modelos de regressão logística para dados completos e incompletos com 20% de 𝑚𝑖𝑠𝑠𝑖𝑛𝑔. Base Modelo Métrica de DesempenhoTA % S % E % ROC KS Gini Treinamento MP M1 M2 M3 M4 M5 M6 68,61 76,60 79,47 71,38 68,61 75,55 76,32 73,77 64,15 62,84 70,49 73,77 65,79 66,84 68,18 77,72 80,88 71,45 68,18 76,41 77,15 0,777 0,774 0,781 0,781 0,777 0,781 0,786 0,427 0,419 0,437 0,426 0,427 0,423 0,440 0,555 0,548 0,563 0,563 0,555 0,561 0,571 Teste MP M1 M2 M3 M4 M5 M6 69,02 74,42 77,86 70,90 69,02 75,47 76,37 69,23 54,41 53,85 64,84 69,23 63,10 64,29 69,00 76,22 80,24 71,51 69,00 76,60 77,46 0,743 0,724 0,741 0,746 0,743 0,759 0,761 0,404 0,367 0,387 0,391 0,404 0,409 0,423 0,485 0,450 0,480 0,492 0,485 0,518 0,520 77 5 CONSIDERAÇÕES FINAIS E PERSPEC- TIVAS FUTURAS O modelo de regressão logística é incontestavelmente a técnica de regressão mais utilizada para a análise de experimentos em que a variável resposta de interesse é dicotômica. Do ponto de vista estatístico este modelo é flexível e de fácil interpretação, podendo levar a resultados bastante satisfatórios. No entanto, ao ajustar um modelo logístico na presença de dados incompletos nas variáveis explicativas, não se sabe ao certo qual a melhor forma de tratá-los. Tendo em vista tais considerações, a proposta deste trabalho consistiu em comparar diferentes métodos e abordagens de imputação de dados que viabilizam a estimação consistente dos parâmetros deste modelo. A princípio foi dado ênfase ao processo de obtenção do modelo de regressão logística, desde a definição do conjunto de dados, tratamento de variáveis e ajuste do modelo final. No prosseguimento do trabalho, foram ainda explorados os principais mecanismos e padrões de dados, bem como testes para identificar tais mecanismos. Ao todo foram descritos cinco métodos propostos na literatura para o tratamento de dados incompletos, conforme as características do modelo logístico. Em uma primeira aplicação, utilizando a abordagem de um problema de risco de crédito, é feito o ajuste do modelo de regressão para a base de dados completa que será utilizado como referência para comparação com os demais modelos. Em seguida, avaliou-se o desempenho dos modelos estatísticos construídos para cada método de imputação em dois cenários de dados incompletos. Como era esperado, o modelo desenvolvido eliminando as observações com dados faltantes nas variáveis foi o que apresentou pior desempenho. Portanto, a opção de considerar apenas casos completos, apesar de ser a mais simples, pode acarretar perdas significativas. Por outro lado, os métodos de imputação 𝑘-NN e Random Forest tiveram a melhor performance, resultando em modelos que chegam a ser semelhantes ao modelo padrão apresentando o mesmo comportamento de predição. As técnicas de imputação múltipla, por sua vez, tiveram desempenho razoável para o conjunto de dados e seus resultados foram intermediários. Por fim, vale ressaltar que apenas alguns métodos de imputação foram abordados neste estudo e que a literatura conta com diversas outras metodologias que poderiam gerar resultados ainda mais satisfatórios em modelos preditivos. 78 REFERÊNCIAS AGRESTI, A. An introduction to categorical data analysis. 2nd. ed. Hoboken, NJ: John Wiley & Sons, 2007. Citado 2 vezes nas páginas 11 e 18. AMEMIYA, T. Advanced econometrics. [S.l.]: Harvard university press, 1985. Citado na página 20. BERGAMO, G. Imputação múltipla livre de distribuição utilizando a decomposição por valor singular em matriz de interação. 2007. 89p. Tese (Doutorado) — Tese (Doutorado)-Universidade de São Paulo, Piracicaba, 2007. Citado na página 46. BOX, G. E. P.; COX, D. R. An analysis of transformations. Journal of the Royal Statistical Society. Series B (Methodological), JSTOR, London, v. 26, n. 2, p. 211–252, 1964. Citado na página 14. BRITO, G. A. S.; NETO, A. A. Modelo de classificação de risco de crédito de empresas. Revista Contabilidade & Finanças-USP, Universidade de São Paulo, v. 19, n. 46, 2008. Citado na página 54. BROWN, M. B. BMDP statistical software. [S.l.]: Univ of California Press, 1983. Citado na página 47. BUUREN, S. V. Flexible imputation of missing data. Boca Raton, FL: Chapman & Hall/CRC press, 2012. Citado na página 42. COLLINS, L. M.; SCHAFER, J. L.; KAM, C.-M. A comparison of inclusive and restrictive strategies in modern missing data procedures. Psychological methods, American Psychological Association, v. 6, n. 4, p. 330, 2001. Citado na página 47. CORDEIRO, G. M.; DEMÉTRIO, C. G. Modelos lineares generalizados e Extensões. São Paulo: [s.n.], 2008. Citado 5 vezes nas páginas 14, 16, 17, 21 e 37. DIDELEZ, V. Ml-and semiparametric estimation in logistic models with incomplete covariate data. Statisticaneerlandica, Wiley Online Library, v. 56, n. 3, p. 330–345, 2002. Citado na página 46. DINIZ, C.; LOUZADA, F. Métodos estatısticos para análise de dados de crédito. In: 6th Brazilian Conference on Statistical Modeling in Insurance and Finance, Maresias-SP. [S.l.: s.n.], 2013. Citado 6 vezes nas páginas 35, 36, 55, 57, 59 e 62. DOMINGUES, T. M. D. Modelos de regressão para identificação de marcadores preditivos de asma na descendência de mulheres com atopia. Tese (Doutorado), 2016. Citado na página 39. ENDERS, C. K. Applied missing data analysis. New York: Guilford Press, 2010. Citado 6 vezes nas páginas 11, 43, 45, 47, 49 e 51. FERGUSON, G. A. Statistical analysis in psychology and education. McGraw-Hill. New York. US, 1981. Citado na página 59. REFERÊNCIAS 79 GONZALEZ, J. M.; ELTINGE, J. L. Multiple matrix sampling: A review. In: AMERICAN STATISTICAL ASSOCIATION. Proceedings of the Section on Survey Research Methods, American Statistical Association. [S.l.], 2007. p. 3069–3075. Citado na página 42. HILBE, J. M. Logistic regression models. [S.l.]: CRC press, 2009. Citado 5 vezes nas páginas 11, 20, 31, 34 e 35. HOSMER, D. W.; LEMESHOW, S. Goodness of fit tests for the multiple logistic regression model. Communications in statistics-Theory and Methods, Taylor & Francis, v. 9, n. 10, p. 1043–1069, 1980. Citado na página 31. HOSMER, D. W.; LEMESHOW, S. Applied logistic regression. 2nd. ed. New York: John Wiley & Sons, 2000. Citado 9 vezes nas páginas 11, 18, 19, 24, 26, 29, 34, 39 e 82. JAMSHIDIAN, M.; JALAL, S. Tests of homoscedasticity, normality, and missing completely at random for incomplete multivariate data. Psychometrika, Springer, v. 75, n. 4, p. 649–674, 2010. Citado na página 47. JAMSHIDIAN, M.; JALAL, S. J.; JANSEN, C. Missmech: an r package for testing homoscedasticity, multivariate normality, and missing completely at random (mcar). Journal of Statistical software, JOURNAL STATISTICAL SOFTWARE, v. 56, n. 6, 2014. Citado na página 47. KHURI, A. I. Advanced calculus with applications in statistics. [S.l.]: John Wiley & Sons, 2003. Citado na página 20. KLEINBAUM, D. G.; KLEIN, M. Logistic Regression: A Self-Learning Text. 3rd. ed. New York: Springer, 2010. Citado na página 11. LEMESHOW, S.; HOSMER, D. W. A review of goodness of fit statistics for use in the development of logistic regression models. American journal of epidemiology, Oxford University Press, v. 115, n. 1, p. 92–106, 1982. Citado na página 31. LITTLE, R. J. A test of missing completely at random for multivariate data with missing values. Journal of the American Statistical Association, Taylor & Francis, v. 83, n. 404, p. 1198–1202, 1988. Citado na página 48. LITTLE, R. J. Regression with missing X’s: a review. Journal of the American Statistical Association, Taylor & Francis Group, v. 87, n. 420, p. 1227–1237, 1992. Citado 4 vezes nas páginas 42, 43, 44 e 47. LITTLE, R. J.; RUBIN, D. B. Statistical analysis with missing data. New York: John Wiley & Sons, 1987. Citado na página 12. McCULLAGH, P.; NELDER, J. A. Generalized linear models. 2nd. ed. London: Chapman & Hall, 1989. Citado na página 15. NELDER, J. A.; WEDDERBURN, R. W. M. Generalized linear models. Journal of the Royal Statistical Society. Series A (General), JSTOR, London, v. 135, n. 3, p. 370–384, 1972. Citado 2 vezes nas páginas 14 e 30. NETO, F. L.; DINIZ, C. A. R. Técnicas estatísticas em data mining. [S.l.]: IMCA, 2002. Citado na página 24. REFERÊNCIAS 80 PAULA, G. A. Modelos de regressão: com apoio computacional. São Paulo: IME-USP, 2004. Citado 3 vezes nas páginas 11, 14 e 25. PORTUGAL, M. G. C. S. Modelos estatísticos para a previsão de inactividade de pré-pagos. Tese (Doutorado), 2013. Citado na página 40. PREGIBON, D. Logistic regression diagnostics. The Annals of Statistics, JSTOR, p. 705–724, 1981. Citado 3 vezes nas páginas 37, 39 e 40. R Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria, 2017. Disponível em: <https://www.R-project.org/>. Citado na página 54. RUBIN, D. B. Inference and missing data. Biometrika, JSTOR, New Jersey, p. 581–592, 1976. Citado 2 vezes nas páginas 12 e 45. RUBIN, D. B. Multiple imputations in sample surveys-a phenomenological bayesian approach to nonresponse. In: AMERICAN STATISTICAL ASSOCIATION. Proceedings of the survey research methods section of the American Statistical Association. [S.l.], 1978. v. 1, p. 20–34. Citado 2 vezes nas páginas 45 e 51. SCHAFER, J. L.; GRAHAM, J. W. Missing data: our view of the state of the art. Psychological methods, American Psychological Association, v. 7, n. 2, p. 147, 2002. Citado na página 47. THOMAS, L. C.; EDELMAN, D. B.; CROOK, J. N. Credit scoring and its applications. [S.l.]: SIAM, 2002. Citado na página 58. APÊNDICES 82 APÊNDICE A – Método Stepwise O método stepwise é amplamente utilizado para a construção de modelos de regressão logística com o intuito de minimizar o número de variáveis explicativas. A vantagem de se aplicar tal procedimento é a possibilidade de obter um modelo mais estável numericamente e mais simples de ser generalizado. A seguir é descrito passo a passo o algoritmo de seleção de variáveis stepwise, de acordo com Hosmer e Lemeshow (2000). ∙ Passo 1: Neste passo é ajustado um modelo somente com o intercepto, dado por 𝜋𝑖 = 𝑒𝛽0 1 + 𝑒𝛽0 , 𝑖 = 1, . . . , 𝑛, e o logaritmo da sua verossimilhança, 𝐿0, é calculado. Em seguida, um novo modelo com o intercepto e com cada uma das 𝑝 possíveis variáveis explicativas é ajustado com o intuito de comparar os seus respectivos valores do logaritmo da verosimilhança. Desse modo, o modelo será dado por 𝜋𝑖 = 𝑒𝛽0+𝛽𝑗𝑥𝑖𝑗 1 + 𝑒𝛽0+𝛽𝑗𝑥𝑖𝑗 , 𝑖 = 1, . . . , 𝑛 e 𝑗 = 1, . . . , 𝑝. Seja 𝐿(0)𝑗 , 𝑗 = 1, . . . , 𝑝, o log da verossimilhança do modelo ajustado com o intercepto e 𝑋𝑗 no passo zero e 𝐺 (0) 𝑗 = −2 (︁ 𝐿0 − 𝐿(0)𝑗 )︁ , o valor da estatística do teste da razão de verossimilhança do modelo contendo o intercepto e 𝑋𝑗 versus o modelo contendo somente o intercepto, com 𝑝(0)𝑗 sendo o p-valor deste teste, determinado por 𝑝(0)𝑗 = 𝑃 [︁ 𝜒2𝑣 > 𝐺 (0) 𝑗 ]︁ , 𝑣 = 1 se 𝑋𝑗 for contínua e 𝑣 = 𝑘 − 1 se 𝑋𝑗 for discreta com 𝑘 categorias. A variável explicativa mais importante, 𝑋𝑒1 , será aquela com menor p-valor, ou seja, teremos 𝑝(0)𝑒1 = 𝑚𝑖𝑛 (︁ 𝑝 (0) 1 , 𝑝 (0) 2 , . . . , 𝑝 (0) 𝑝 )︁ . Porém, como a variável tem o menor p-valor não significa que ela seja estatisticamente significante, será preciso comparar 𝑝(0)𝑒1 com um nível pré-definido, 𝑝𝑒. Se 𝑝 (0) 𝑒1 < 𝑝𝑒, a variável será considera como significante e o algoritmo avança para o Passo 1, caso contrário, o algoritmo para e o modelo será composto apenas pelo intercepto. ∙ Passo 2: Este passo começa com o modelo ajustado contendo o intercepto e a variável explicativa 𝑋𝑒1 . Seja 𝐿(1)𝑒1 o log da verossimilhança deste modelo. Para determinar qual das 𝑝 − 1 variáveis explicativas restantes são importantes dado que 𝑋𝑒1 já APÊNDICE A. Método Stepwise 83 está presente no modelo, será necessário ajustar 𝑝 − 1 novos modelos contendo o intercepto, 𝑋𝑒1 e 𝑋𝑗, 𝑗 = 1, . . . , 𝑝 − 1 e 𝑗 ̸= 𝑒1, ou seja, serão ajustados os modelos 𝜋𝑖 = 𝑒𝛽0+𝛽𝑒1 𝑥𝑖𝑒1 +𝛽𝑗𝑥𝑖𝑗 1 + 𝑒𝛽0+𝛽𝑒1 𝑥𝑖𝑒1 +𝛽𝑗𝑥𝑖𝑗 , 𝑖 = 1, . . . , 𝑛, 𝑗 = 1, . . . , 𝑝 − 1 e 𝑗 ̸= 𝑒1. Seja 𝐿(1)𝑒1,𝑗 o log da verossimilhança desses modelos e 𝐺 (1) 𝑗 = −2 (︁ 𝐿𝑒1 − 𝐿 (1) 𝑒1,𝑗 )︁ , o valor da estatística dos testes da razão de verossimilhança do modelo contendo o intercepto, 𝑋𝑒1 e 𝑋𝑗 versus o modelo contendo somente o intercepto e 𝑋𝑒1 , com 𝑝 (1) 𝑗 sendo o p-valor destes testes. Se a variável com menor p-valor neste passo for denominada 𝑋𝑒2 e se 𝑝(1)𝑒𝑠 < 𝑝𝑒 então o algoritmo segue para o Passo 2, caso contrário, o algoritmo para. ∙ Passo 3: Este passo começa com o modelo ajustado contendo o intercepto e as variáveis explicativas 𝑋𝑒1 e 𝑋𝑒2 . É possível que uma vez que a variável 𝑋𝑒2 foi adicionada no modelo, a variável𝑋𝑒1 não seja mais significante. Neste passo, portanto, é necessário o algoritmo de eliminação 𝑏𝑎𝑐𝑘𝑤𝑎𝑟𝑑. Este algoritmo ajusta um modelo sem as variáveis explicativas adicionadas nos passos anteriores e calcula a importância de cada uma. Seja 𝐿(3)−𝑒𝑗 o log da verossimilhança do modelo sem 𝑋𝑒𝑗 e 𝐺 (3) −𝑗 = −2 (︁ 𝐿 (3) −𝑒𝑗 − 𝐿 (3) 𝑒1,𝑒2 )︁ o valor da estatística dos testes da razão de verossimilhança assim como definido previamente, com os respectivos p-valores dados por 𝑝(3)−𝑒𝑗 . Para verificar se a variável deve ou não sair, o algoritmo seleciona aquela com o maior p-valor. Denotando-a por 𝑋𝑟2 e sendo 𝑝(3)𝑟2 = 𝑚𝑎𝑥 (︁ 𝑝 (3) −𝑒𝑗 , 𝑝 (3) −𝑒2 )︁ , para excluir esta covariável do modelo o algoritmo compara 𝑝(3)𝑟2 com um segundo nível de significância pré-definido, 𝑝𝑟, que indica o nível mínimo de contribuição das variáveis explicativas para que elas possam continuar no modelo. Se 𝑝(3)𝑟2 > 𝑝𝑟, então 𝑋𝑟2 será removida do modelo, caso contrário, 𝑋𝑟2 continuará no modelo. Em ambos os casos o algoritmo segue para a seleção de variáveis. Na fase de 𝑓𝑜𝑟𝑤𝑎𝑟𝑑 cada uma das 𝑝 − 2 variáveis restantes são utilizadas para ajustar novos modelos contendo o intercepto e as covariáveis 𝑋𝑒1 , 𝑋𝑒2 e 𝑋𝑗, 𝑗 = 1, . . . , 𝑝 − 2 e 𝑗 ≠ 𝑒1, 𝑒2, ou seja, o modelo será dado por 𝜋𝑖 = 𝑒𝛽0+𝛽𝑒1 𝑥𝑖𝑒1 +𝛽𝑒2 𝑥𝑖𝑒2 +𝛽𝑗𝑥𝑖𝑗 1 + 𝑒𝛽0+𝛽𝑒1 𝑥𝑖𝑒1 +𝛽𝑒2 𝑥𝑖𝑒2 +𝛽𝑗𝑥𝑖𝑗 , 𝑖 = 1, . . . , 𝑛, 𝑗 = 1, . . . , 𝑝 − 2 e 𝑗 ̸= 𝑒1, 𝑒2. O algoritmo calculará o log da verossimilhança de cada modelo, o valor das estatísticas dos testes da razão de verossimilhança e os correspondentes p-valores. Se a variável APÊNDICE A. Método Stepwise 84 com o menor p-valor neste passo for denominada 𝑋𝑒3 e se 𝑝2𝑒3 < 𝑝𝑒, então o algoritmo segue para o Passo 4, caso contrário, o algoritmo para. ∙ Passo 4: Este passo é idêntico ao Passo 2 e este processo continuará desta forma até o último passo, denominado 𝑁 . ∙ Passo 𝑁 : Este passo ocorrerá quando todas as 𝑝 varáveis entrarem no modelo ou quando todas as variáveis que constituem o modelo têm p-valores de eliminação menor do que 𝑝𝑟 e todas as variáveis que não foram incluídas no modelo tem p-valores de entrada maior do que 𝑝𝑒. 85 APÊNDICE B – Tabelas Complementares Tabela 21 – Código da natureza de ocupação. Código da natureza Descrição da natureza 1 CLT 2 Liberal 3 Proprietário 4 Servidor Público 5 Taxista 6 Funcionário de Empresa Pública 7 Rendimentos Capitais 8 Aposentado ou Pensionista 9 Informal ou Autônomo 10 Bancário 11 Militar (PM ou Forças Armadas) 12 Produtor Rural Tabela 22 – Recategorização da variável UF. Categoria Unidade Federativa Grupo 1 GOPE MG PI RS RJ Grupo 2 ALRN RR SP Grupo 3 AC BA ES MT PR SE AP CE MA PA RO TO AM DF MS PB SC Folha de rosto Folha de aprovação AGRADECIMENTOS Epígrafe RESUMO ABSTRACT LISTA DE ILUSTRAÇÕES LISTA DE TABELAS SUMÁRIO INTRODUÇÃO REGRESSÃO LOGÍSTICA Modelos Lineares Generalizados Modelo de Regressão Logística Estimação dos Parâmetros Testes para a Significância do Modelo Estimação por Intervalos Intervalo de Confiança para os Parâmetros Intervalo de Confiança para o Logito Intervalo de Confiança para os Valores Ajustados Interpretação dos Coeficientes Avaliação do Ajuste do Modelo Estatísticas Qui-Quadrado de Pearson e Deviance Teste de Hosmer-Lemeshow Métricas de Desempenho Matriz de Classificação Área Sob a Curva ROC Estatística de Kolmogorov-Smirnov (KS) Coeficiente de Gini Diagnóstico do Modelo Análise dos Resíduos Resíduo de Pearson Resíduo Deviance Observações Influentes Diagonal da Matriz H (leverage) Distância de Cook C e DIFCHISQ e DIFDEV Multicolinearidade DADOS INCOMPLETOS Padrões de Dados Incompletos Padrão Univariado Padrão Monótomo Padrão Especial Padrão Geral Mecanismos de Dados Incompletos MCAR MAR MNAR Mecanismo Ignorável e Não-Ignorável Teste para Mecanismos Teste-t Univariado Teste MCAR de Little Métodos para o Tratamento de Dados Incompletos Deleção de Dados Incompletos Análise de Caso Completo Imputação Simples Imputação por Medidas de Tendência Central Imputação pelo Vizinho Mais Próximo Imputação por Random Forest Imputação Múltipla Algoritmo mice APLICAÇÃO A DADOS DE CRÉDITO Modelagem de Risco de Crédito Descrição e Apresentação dos Dados Tratamento das Variáveis Explicativas Partição do Conjunto de Dados Seleção de Variáveis Modelo de Regressão Logística para Dados Completos Estudo de Simulação Resultados e Discussões CONSIDERAÇÕES FINAIS E PERSPECTIVAS FUTURAS REFERÊNCIAS APÊNDICES Método Stepwise Tabelas Complementares