Baixe o app para aproveitar ainda mais
Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
UNIVERSIDADE FEDERAL DE MINAS GERAIS INSTITUTO DE CIÊNCIAS EXATAS CURSO DE ESTATÍSTICA Sarah Ribeiro da Silva VIVÊNCIA PROFISSIONAL Belo Horizonte 2012 SARAH RIBEIRO DA SILVA VIVÊNCIA PROFISSIONAL Atividade de Vivência Profissional apresentada ao Curso de Graduação em Estatística da Universidade Federal de Minas Gerais como disciplina optativa. ORIENTADOR: PROF. DR. ADRIAN HINOJOSA LUNA Belo Horizonte 2012 Sumário 1. Introdução...............................................................................................................1 2. Estágio Banco Mercantil do Brasil.........................................................................2 2.1. Apresentação da Empresa................................................................................2 2.2. O Estágio ......................................................................................................... 2 2.3. Atividades Desenvolvidas ............................................................................... 2 3. Análise de regressão logística.................................................................................3 4. Guia de Regressão Logística SPSS 19....................................................................5 4.1. IBM SPSS Statistics 19 ................................................................................... 5 4.2. Dados...............................................................................................................5 4.3. Obtenção de uma análise de regressão logística..............................................6 4.4. Métodos para a estimação do modelo..............................................................7 4.5. Covariáveis Categóricas ..................................................................................9 4.6. Salvando os resultados da regressão logística...............................................12 4.7. Opções da regressão logística........................................................................13 Referências Bibliográficas..........................................................................................17 Lista de Figuras Figura 1: Organização dos dados no SPSS Figura 2: Caminho para a obtenção da Análise de Regressão Logística no SPSS. Figura 3: Janela Regressão Logística Binária. Figura 4: Janela “Rule” da Análise de Regressão Logística Binária. Figura 5:Métodos de estimação de modelos. Figura 6: Opções das variáveis categóricas. Figura 7: Detalhes das covariáveis categóricas. Figura 8: Salvar os resultados da estimação do modelo. Figura 9: Resultados Regressão Logística. Figura 10: Opções da Regressão Logística. Figura 11: Detalhe das opções da Regressão Logística Binária. 1 1. INTRODUÇÃO O Estágio no curso de Estatística da UFMG é reconhecido como uma atividade não obrigatória na graduação, embora seja de grande importância para carreira profissional do estudante. O Projeto de Vivência Profissional irá proporcionar ao estudante um espaço para compartilhar a experiência adquirida ao longo do Estágio realizado durante a graduação de Estatística, além de expor as dificuldades enfrentadas assim como sugestões de melhoria do estágio. Pensando nisso será desenvolvido um manual de utilização no SPSS da principal técnica empregada durante o estágio: Análise de Regressão Logística. A Regressão Logística é uma forma especializada de regressão que é formulada para prever e explicar uma variável categórica binária (Hair Jr et AL., 2009). 2 2. ESTÁGIO BANCOMERCANTIL DO BRASIL 2.1. APRESENTAÇÃO DAEMPRESA O Banco Mercantil do Brasil atua nos principais segmentos da atividade bancária e funções complementares, seja por meio de produtos próprios ou em parceria com outras instituições de notoriedade. O Mercantil do Brasil foi fundado na década de 40 na cidade de Curvelo, centro- norte do estado de Minas Gerais, por empresários locais, com o nome inicial de Banco Mercantil de Minas Gerais. Aos poucos foi ganhando o espaço merecido e hoje atua em todo o território nacional, à exceção da região Norte, com quase 200 pontos de atendimento. A sede do Mercantil do Brasil foi mantida em Minas Gerais, no Centro de Belo Horizonte na Rua Rio de Janeiro, Praça 7. 2.2. O ESTÁGIO Com o objetivo de contribuir no desenvolvimento de análises e modelos estatísticos da carteira de clientes, para proporcionar um direcionamento mais assertivo às estratégias de negócios e ao relacionamento do MB com os clientes, as responsabilidades do cargo de estagiário são: Auxílionaconstruçãodeíndices,estudosdeperfilesegmentaçãodeclientes. AuxílionaconstruçãodeModelospreditivosparaacompradeprodutosbancários,modelospreditivosparaencerramentodeconta,modelosdeassociaçãoedatamining. Auxilionaanálisedaeficiênciadosmodelosestatísticosnoqueserefereaosresultadosdasaçõescomerciais. 2.3. ATIVIDADESDESENVOLVIDAS A principal metodologia estatística utilizada no estágio do Banco Mercantil do Brasil é a Análise de Regressão Logística. A Regressão Logística é usada como ferramenta na discriminação dos clientes mais propensos a contratarem o produto oferecido pelo Banco. O objetivo desta análise é estudar o comportamento de dois grupos de clientes distintos (Os que contrataram o produto e os que não contrataram o produto) e estimar, através de técnicas estatísticas, quais clientes devem ser priorizados nas ações e campanhas comerciais. 3. ANÁLISE DE REGRESSÃO LOGÍSTICA O Método de Regressão Logística é uma análise de associação de variáveis que possibilita identificar a presença ou ausência de certa característica através de um 3 conjunto de variáveis. Essa metodologia é semelhante a um modelo de regressão linear, mas é adequado para os modelos em que a variável dependente é dicotômica (geralmente 0 ou 1). O modelo de regressão logística é um Modelo Linear Generalizado (MLG), ou seja, um modelo que descreve a relação entre a média de uma variável resposta Y e uma variável independente x. No modelo de Regressão Logística, as variáveis respostas 𝑌1,𝑌2, ⋯ , 𝑌𝑛 são independentes e 𝑌𝑖 ~ 𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖 𝜋 . A função de ligação deste MLG é dada por: 𝜂𝑖 = 𝑙𝑜𝑔 𝜋𝑖 1− 𝜋𝑖 Em (1) temos o log das chances de sucesso para Yi. O modelo assume que este log- chances, também conhecido como logito, é uma função linear preditora de x. Essa equação pode ser escrita da seguinte maneira: 𝜋𝑖 = 𝑒𝛼+ 𝛽𝑥 1 + 𝑒𝛼+ 𝛽𝑥 Os parâmetros α e β tem significados semelhantes a um modelo de regressão linear simples, ou seja, β é a mudança na log-chances do sucesso, correspondente ao aumento de uma unidade em x. De acordo com Hair Jr et AL, 2009 a Regressão Logística apresenta duas vantagens em relação ao uso de outras técnicas estatísticas: Aregressãologísticanãodependedassuposiçõesrígidasdenormalidademultivariadaedeigualdadeentreasmatrizesdevariância-covariâncianosgruposcomonaanálisediscriminante(suposiçõesquemuitasdasvezesnãosãoatendidas). Por isso a regressão logística é muito mais robusta quando tais pressupostos não são satisfeitos, o que torna sua aplicação apropriada em muitas situações. (1) 4 Mesmoquandoospressupostossãosatisfeitos,muitospesquisadorespreferemaregressãologísticaporsersimilaràregressãomúltipla.Elatemtestesestatísticosdiretos,tratamentossimilaresparaincorporarvariáveismétricasenão-métricaseefeitosnão-lineares,eumavastagamadediagnósticos. Por essas e outras razões mais técnicas a Regressão Logística vem sendo muito útil em diversas situações. 5 4. GUIA DEREGRESSÃO LOGÍSTICA SPSS 19 4.1. IBM SPSS STATISTICS 19 O Statistical Package for Social Science for Windows também conhecido como SPSS é um software de análise de dados produzido pela Empresa IBM. A sua primeira versão foi desenvolvida em 1968. O SPSS pode adquirir dados de quase qualquer tipo de arquivo e utilizá-los para gerar informações, tabelas e gráficos. O software utiliza menus e janelas de diálogos ou comandos em sintaxe, que permitem calcular análises complexas e visualizar seus resultados de forma simples. 4.2. DADOS Para a análise de dados no SPSS é necessários que os dados sejam armazenados em uma planilha e organizados em linhas e colunas. As colunas no SPSS são chamadas de variáveis, são as unidades ou características que serão medidas na análise. As linhas são chamadas de casos, ou seja, a unidade básica. Por exemplo, para estudar o comportamento de clientes, na análise do SPSS cada cliente é um caso e suas características são variáveis, como mostra a Figura 1. Figura 1: Organização dos dados no SPSS 6 4.3. OBTENÇÃO DE UMA ANÁLISE DE REGRESSÃO LOGÍSTICA Para obtenção de uma análise de regressão logística no SPSS é necessário escolher a partir dos menus do software os seguintes comandos Analyze > Regression > Binary Logistic... Figura 2: Caminho para a obtenção da Análise de Regressão Logística no SPSS Após a escolha da técnica, será iniciada uma janela principal de diálogo para regressão logística binária, como se pode ver na Figura 3. Figura 3: Janela Regressão Logística Binária 7 Na Figura 3, é possível observar a composição da Análise de Regressão Logística e os itens necessários para a mesma. Para executar a análise é necessário que a variável resposta (variável dependente) seja dicotômica, podendo ser categórica ou numérica. Deve-se colocar a variável resposta em “Dependent”. Em “Covariates” deve incluir as variáveis independentes da análise, ou seja, as variáveis explicativas do modelo. Pode-se incluir uma ou mais covariáveis para a análise de regressão. Para entrar com variáveis em grupos (blocos), devem-se selecionar as variáveis explicativas para um bloco, e clicar em Avançar para especificar um novo bloco. Deve-se repetir esse processo até que todos os blocos da análise sejam especificados. Pode-se optar por selecionar os casos para a análise, para isso deve-se escolher uma variável de seleção e clicar em “Rule”. Figura 4: Janela “Rule” da Análise de Regressão Logística Binária Definidos os casos na janela “Rule”, estes são incluído na análise para a estimação do modelo. Estatísticas e resultados de classificação são gerados para os casos selecionados e não-selecionados. Isto proporciona um mecanismo para a classificação de novos casos com base em dados pré-existentes, ou para particionar seus dados em subconjuntos de treinamento e teste, para realizar a validação do modelo estimado. 4.4. MÉTODOS PARA A ESTIMAÇÃO DOMODELO O SPSS disponibiliza diferentes métodos de entrada de variáveis para a estimação do modelo. A seleção do método de estimação permite que o pesquisador especifique como as variáveis independentes são utilizadas na análise, isso possibilita construir uma variedade de modelos a partir do mesmo conjunto de dados. Os métodos que estão disponíveis no SPSS são: Enter:Estemétodoconsisteemutilizartodasasvariáveisindependentesselecionadasparaaestimaçãodomodeloemumúnicopasso. ForwardSelection(Conditional):Métododeseleção“Stepwise”comtestesdeentradacombasenasignificânciaestatísticadepontuaçãoetestesderemoçãocomembasamentonaprobabilidadedeumalikelihood-ratiostatistic(razãodeverossimilhança)dasestimativasdeparâmetroscondicionais. 8 ForwardSelection(LikelihoodRatio):Métododeseleção“Stepwise”comtestesdeentradacombasenasignificânciaestatísticadecontagemetestesderemoçãocombasenaprobabilidadedeumalikelihood-ratiostatistic(razãodeverossimilhança),dasestimativasdaprobabilidademáximaparciais. ForwardSelection(Wald):Método“Stepwise”comtestesdeentradacombasenasignificânciaestatísticadapontuação,etestesderemoçãocomembasamentonaprobabilidadedaestatísticadeWald. BackwardElimination(Conditional):Métodotambémconhecidocomo“Eliminaçãoparatrás(condicional)”.Métododeseleção“Backwardstepwise”.Esteprocedimentoconsisteemtestesderemoçãoquebaseiam-senaprobabilidadeestatísticadarazãodeprobabilidade,combaseemestimativasdeparâmetroscondicionais. BackwardElimination(LikelihoodRatio).Métodotambémconhecidocomo“Eliminaçãoparatrás(razãodeverossimilhança).”Esteprocedimentoconsisteemtestesderemoçãoquebaseiam-senaprobabilidadederazãodeverossimilhançabaseadanaprobabilidademáximaparcialdasestimativasdeverossimilhança. BackwardElimination(Wald):“Eliminaçãoparatrás(Wald)”.EstemétodoconsisteemtestesquesebaseiamnaremoçãodeacordocomaprobabilidadedaestatísticadeWald. Figura 5: Métodos de estimação de modelos 4.5. COVARIÁVEISCATEGÓRICAS Para estimação dos modelos é possível especificar detalhes das covariáveis na análise. Esses detalhes são muito importantes na estimação do modelo, pois é dessa forma que é definido como a regressão logística irá lidar com as variáveis categóricas, por exemplo, qual a faixa categórica da variável que o modelo usará como referência em sua estimação. Na menu principal da Regressão Logística Binária é possível selecionar a opção das variáveis categóricas em “Categorical...” 9 . Figura 6: Opções das variáveis categóricas Na Figura 5, pode-se ver detalhes. Figura 7: Detalhes das covariáveis categóricas Nessa janela temos separadas as covariaveis e as covariaveis categóricas. Na parte “Covariates” contém a lista de todas as covariáveis especificadas na caixa de diálogo principal. Se alguma destas covariáveis são classificadas como string ou são categóricas, o pesquisador pode usá-las como covariáveis categóricas, e então transferi- lás para a parte “Categorical Covariates”. 10 Na parte “Categorical Covariates” é listada as variáveis classificadas como categóricas. Cada variável dessa parte inclui uma notação entre parênteses que contêm a indicação do contraste de codificação a ser usado na estimação do modelo. Logo abaixo das “Categorical Covariates” tem-se “Change Contrast”, onde é possível alterar o método de contraste utilizado na análise. No SPSS estão disponíveis diferentes métodos de contrastes, que são eles: Indicador:Contrastesindicamapresençaouausênciadeadesãodacategoria.Acategoriautilizadacomoreferencianaestimaçãodomodeloérepresentadanamatrizdecontrastecomoumalinhadezeros. Simple:Cadacategoriadavariávelpreditora(excetoacategoriadereferência)écomparadacomacategoriadereferência. Difference:Cadacategoriadavariáveldeprevisão,excetoaprimeiracategoriaécomparadacomoefeitomédiodecategoriasanteriores.TambémconhecidocomocontrastesdeHelmertreversa. Helmert:Cadacategoriadavariávelpreditora,excetoaúltimacategoriaécomparadocomoefeitomédiodecategoriasseguintes. Repeated:Cadacategoriadavariáveldeprevisão,excetoaprimeiracategoriaécomparadacomacategoriaseguinte. Polynomial:Contrastespolinomiaisortogonais.Ascategoriasdasvariáveissãoassumidasigualmentedistanciadasumadasoutras.Contrastespolinomiaisestãodisponíveisparaasvariáveisnuméricas. Deviation:Cadacategoriadavariávelpreditora,excetoacategoriadereferênciaécomparadocomoefeitoglobal. Quando se decide usar os contrastes Indicador, Simple e Deviation é necessário se selecionar qual categoria das variaveis será usada como faixa de referencia. Pode-se selecionar a primeira ou ultima categoria como referência. Para se alterar um contraste é necessário selecioná-lo e logo depois clicar em “Change”, só assim realmente irá se alterar o contraste. 11 4.6. SALVANDO OS RESULTADOS DA REGRESSÃO LOGÍSTICA É possível salvar os resultados de sua regressão logística como novas variáveis, esta opção está disponível em “Save” na janela principal da regressão logística (Figura 6). Figura 8: Salvar os resultados da estimação do modelo Na Figura 6 observa-se os detalhes dessa opção. Figura 9: Resultados Regressão Logística 12 Em “Predicted Values” são salvos os valores previstos pelo modelo. Têm-se as opções disponíveis de salvar as Probabilidades e os Membros do grupo. Probabilities:Salvacomonovavariávelasprobabilidadescalculadaspelomodelo.Paracadacaso,retornaovalordaprobabilidadeprevistadaocorrênciadoevento. PredictedGroupMembership:Retornaovalordosmembrosdosgruposprevistospelomodelo,ouseja,salvacomoumanovavariávelovalordogrupoqueomodeloprevêparacadacaso. Em “Influence” são salvos os valores das estatísticas que medem a influência de casos de valores previstos. As opções disponíveis são de Cook’s, Leverage values, e DfBeta(s). Cook’s:Éainfluênciaquesetemaoexcluirumcasoparticulardaestimaçãodomodelonaquantidadederesíduosdetodososcasos. LeverageValue:Éainfluênciarelativadecadaobservaçãonoajustedomodelo DfBeta(s):Adiferençanovalorbetaéaalteraçãonocoeficientederegressãoqueresultadaexclusãodeumcasoparticular.Umvalorécalculadoparacadatermonomodelo,incluindoovalordaconstante. Em “Residuals” são salvos os valores dos resíduos do modelo estimado As opções disponíveis são de são Unstandardized, Logit, Studentized, Standardized e.Deviance. Unstandardized:Nestaopçãotemososvaloresdosresíduosnão-padronizados,ouseja,adiferençaentreumvalorobservadoeovalorprevistopelomodelo. Logit:Salvaosvaloresdosresíduosnaescalalogit. Studentized:ValordosresíduosStudentizados,ouseja,valordosresíduossehouverumamudançanodesviodomodeloouumcasoexcluído. Standardized:Valordosresíduospadronizados,ouseja,oresíduoédivididoporumaestimativadoseudesviopadrão.TambémsãoconhecidoscomoResíduosdePearson,quepossuemmédiaigualazeroedesvio-padrãoiguala1. Deviance:Sãoosresíduoscombasenodesviodomodelo. Através de “Export model information to XML file” é possível exportar asinformações do modelo em um arquivo no formato XML (PMML). 4.7. OPÇÕES DA REGRESSÃO LOGÍSTICA Antes da estimação do modelo de regressão logística pode-se alterar as opções de sua análise através do menu principal. Essas opções são muito importantes, pois permite ao pesquisador informações mais completas do ajuste do modelo. Para alterar as opções da análise, deve-se selecionar “Options...” no menu principal da regressão logística, como na Figura 7. 13 Figura 10: Opções da Regressão Logística As opções da análise nos permite calcular gráficos e estatísticas, alterar critérios de seleção, determinar o ponto de corte de classificação do modelo, entre outros. Figura 11: Detalhe das opções da Regressão Logística Binária 14 Em “Statistics and Plots” é possível calcular estatísticas e gráficos para verificar a qualidade do ajuste do modelo estimado. Os gráficos e as estimativas podem ser calculadas a cada etapa ou somente para o modelo final do último passo. As opções disponíveis para a análise são: Classificationplots:Disponibilizaográficodasclassificaçõesfeitaspelomodelo. Hosmer-Lemeshowgoodness-of-fit:Éumaestatísticadaqualidadedoajustedomodeloestimado.Émaisrobustodoqueatradicionalestatísticadebondadedeajuste,principalmenteemcasosqueomodeloestimadoécompostoporcovariáveiscontinuaseestudoscomamostraspequenas. Casewiselistingofresidual:Disponibilizaumasaídacontendoostrêscasosconsideradosresíduosoutliersdomodelo. Correlationsofestimates: Iterationhistory CIforexp(B) Em “Probability for Stepwise” é possível modificar os valores padrões de “entrada” e “saída” de uma variável do modelo. Significa que uma variável é inserida no modelo quando sua probabilidade de pontuação é menor que o valor de entrada pré- determinado pelo pesquisador e é retirada do modelo quando essa probabilidade é maior que o valor de saída. O valor de “Entrada” deve ser inferior ao de “Saída”. “Classification cutoff” nos permite determinar um valor entre 0,01 e 0,99 para o ponto de corte que o modelo usará na classificação dos casos. Casos que possuírem um valor predito pelo modelo maior que o ponto de corte são classificados como positivos, enquanto casos com valores previstos menores do que o ponto de corte são classificados como negativos. “Maximum Iterations” permite alterar o número máximo de iterações que o modelo executará antes de terminar a estimação. “Include constant in model” permite que o pesquisados indique se o modelo deve incluir uma constante ou não na estimação. Se optar por deixar desativado essa opção, o termo constante será igual a 0. 15 REFERÊNCIAS BIBLIOGRÁFICAS CASELLA G.; BERGER L.R . Inferência Estatística. 2. ed. Norte americana:Cengage Learning, 2011. CORRAR. J. L; etc. Análise Multivariada para os cursos de administração,ciências contábeis e economia. Atlas. HAIR JR. J. F; BLACK C.W; etc. Análise Multivariada de dados. 6 ed:Bookman, 2009, 283-289. IBM SPSS Regression 19. Property of SPSS Inc., an IBM Company. ©Copyright SPSS Inc. 1989, 2010.
Compartilhar