Regressao_Logistica_SPSS

•

Exatas

0

Sarah Ribeiro

27/12/2021

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

UNIVERSIDADE FEDERAL DE MINAS GERAIS
INSTITUTO DE CIÊNCIAS EXATAS
CURSO DE ESTATÍSTICA
Sarah Ribeiro da Silva
VIVÊNCIA PROFISSIONAL
Belo Horizonte
2012
SARAH RIBEIRO DA SILVA
VIVÊNCIA PROFISSIONAL
Atividade de Vivência Profissional
apresentada ao Curso de Graduação
em Estatística da Universidade
Federal de Minas Gerais como
disciplina optativa.
ORIENTADOR: PROF. DR. ADRIAN HINOJOSA LUNA
Belo Horizonte
2012
Sumário
1. Introdução...............................................................................................................1
2. Estágio Banco Mercantil do Brasil.........................................................................2
2.1. Apresentação da Empresa................................................................................2
2.2. O Estágio ......................................................................................................... 2
2.3. Atividades Desenvolvidas ............................................................................... 2
3. Análise de regressão logística.................................................................................3
4. Guia de Regressão Logística SPSS 19....................................................................5
4.1. IBM SPSS Statistics 19 ................................................................................... 5
4.2. Dados...............................................................................................................5
4.3. Obtenção de uma análise de regressão logística..............................................6
4.4. Métodos para a estimação do modelo..............................................................7
4.5. Covariáveis Categóricas ..................................................................................9
4.6. Salvando os resultados da regressão logística...............................................12
4.7. Opções da regressão logística........................................................................13
Referências Bibliográficas..........................................................................................17
Lista de Figuras
Figura 1: Organização dos dados no SPSS
Figura 2: Caminho para a obtenção da Análise de Regressão Logística no SPSS.
Figura 3: Janela Regressão Logística Binária.
Figura 4: Janela “Rule” da Análise de Regressão Logística Binária.
Figura 5:Métodos de estimação de modelos.
Figura 6: Opções das variáveis categóricas.
Figura 7: Detalhes das covariáveis categóricas.
Figura 8: Salvar os resultados da estimação do modelo.
Figura 9: Resultados Regressão Logística.
Figura 10: Opções da Regressão Logística.
Figura 11: Detalhe das opções da Regressão Logística Binária.
1
1. INTRODUÇÃO
O Estágio no curso de Estatística da UFMG é reconhecido como uma atividade não
obrigatória na graduação, embora seja de grande importância para carreira profissional
do estudante.
O Projeto de Vivência Profissional irá proporcionar ao estudante um espaço para
compartilhar a experiência adquirida ao longo do Estágio realizado durante a graduação
de Estatística, além de expor as dificuldades enfrentadas assim como sugestões de
melhoria do estágio. Pensando nisso será desenvolvido um manual de utilização no
SPSS da principal técnica empregada durante o estágio: Análise de Regressão Logística.
A Regressão Logística é uma forma especializada de regressão que é formulada para
prever e explicar uma variável categórica binária (Hair Jr et AL., 2009).
2
2. ESTÁGIO BANCOMERCANTIL DO BRASIL
2.1. APRESENTAÇÃO DAEMPRESA
O Banco Mercantil do Brasil atua nos principais segmentos da atividade bancária e
funções complementares, seja por meio de produtos próprios ou em parceria com outras
instituições de notoriedade.
O Mercantil do Brasil foi fundado na década de 40 na cidade de Curvelo, centro-
norte do estado de Minas Gerais, por empresários locais, com o nome inicial de Banco
Mercantil de Minas Gerais. Aos poucos foi ganhando o espaço merecido e hoje atua em
todo o território nacional, à exceção da região Norte, com quase 200 pontos de
atendimento. A sede do Mercantil do Brasil foi mantida em Minas Gerais, no Centro de
Belo Horizonte na Rua Rio de Janeiro, Praça 7.
2.2. O ESTÁGIO
Com o objetivo de contribuir no desenvolvimento de análises e modelos estatísticos
da carteira de clientes, para proporcionar um direcionamento mais assertivo às
estratégias de negócios e ao relacionamento do MB com os clientes, as
responsabilidades do cargo de estagiário são:
Auxílionaconstruçãodeíndices,estudosdeperfilesegmentaçãodeclientes.
AuxílionaconstruçãodeModelospreditivosparaacompradeprodutosbancários,modelospreditivosparaencerramentodeconta,modelosdeassociaçãoedatamining.
Auxilionaanálisedaeficiênciadosmodelosestatísticosnoqueserefereaosresultadosdasaçõescomerciais.
2.3. ATIVIDADESDESENVOLVIDAS
A principal metodologia estatística utilizada no estágio do Banco Mercantil do
Brasil é a Análise de Regressão Logística.
A Regressão Logística é usada como ferramenta na discriminação dos clientes mais
propensos a contratarem o produto oferecido pelo Banco. O objetivo desta análise é
estudar o comportamento de dois grupos de clientes distintos (Os que contrataram o
produto e os que não contrataram o produto) e estimar, através de técnicas estatísticas,
quais clientes devem ser priorizados nas ações e campanhas comerciais.
3. ANÁLISE DE REGRESSÃO LOGÍSTICA
O Método de Regressão Logística é uma análise de associação de variáveis que
possibilita identificar a presença ou ausência de certa característica através de um
3
conjunto de variáveis. Essa metodologia é semelhante a um modelo de regressão linear,
mas é adequado para os modelos em que a variável dependente é dicotômica
(geralmente 0 ou 1).
O modelo de regressão logística é um Modelo Linear Generalizado (MLG), ou seja,
um modelo que descreve a relação entre a média de uma variável resposta Y e uma
variável independente x.
No modelo de Regressão Logística, as variáveis respostas 𝑌1,𝑌2, ⋯ , 𝑌𝑛 são
independentes e 𝑌𝑖 ~ 𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖 𝜋 .
A função de ligação deste MLG é dada por:
𝜂𝑖 = 𝑙𝑜𝑔
𝜋𝑖
1− 𝜋𝑖
Em (1) temos o log das chances de sucesso para Yi. O modelo assume que este log-
chances, também conhecido como logito, é uma função linear preditora de x. Essa
equação pode ser escrita da seguinte maneira:
𝜋𝑖 =
𝑒𝛼+ 𝛽𝑥
1 + 𝑒𝛼+ 𝛽𝑥
Os parâmetros α e β tem significados semelhantes a um modelo de regressão linear
simples, ou seja, β é a mudança na log-chances do sucesso, correspondente ao aumento
de uma unidade em x.
De acordo com Hair Jr et AL, 2009 a Regressão Logística apresenta duas vantagens
em relação ao uso de outras técnicas estatísticas:
Aregressãologísticanãodependedassuposiçõesrígidasdenormalidademultivariadaedeigualdadeentreasmatrizesdevariância-covariâncianosgruposcomonaanálisediscriminante(suposiçõesquemuitasdasvezesnãosãoatendidas).
Por isso a regressão logística é muito mais robusta quando tais pressupostos
não são satisfeitos, o que torna sua aplicação apropriada em muitas
situações.
(1)
4
Mesmoquandoospressupostossãosatisfeitos,muitospesquisadorespreferemaregressãologísticaporsersimilaràregressãomúltipla.Elatemtestesestatísticosdiretos,tratamentossimilaresparaincorporarvariáveismétricasenão-métricaseefeitosnão-lineares,eumavastagamadediagnósticos.
Por essas e outras razões mais técnicas a Regressão Logística vem sendo muito útil
em diversas situações.
5
4. GUIA DEREGRESSÃO LOGÍSTICA SPSS 19
4.1. IBM SPSS STATISTICS 19
O Statistical Package for Social Science for Windows também conhecido como
SPSS é um software de análise de dados produzido pela Empresa IBM. A sua primeira
versão foi desenvolvida em 1968.
O SPSS pode adquirir dados de quase qualquer tipo de arquivo e utilizá-los para
gerar informações, tabelas e gráficos. O software utiliza menus e janelas de diálogos ou
comandos em sintaxe, que permitem calcular análises complexas e visualizar seus
resultados de forma simples.
4.2. DADOS
Para a análise de dados no SPSS é
necessários que os dados sejam armazenados em
uma planilha e organizados em linhas e colunas.
As colunas no SPSS são chamadas de variáveis, são as unidades ou características
que serão medidas na análise. As linhas são chamadas de casos, ou seja, a unidade
básica.
Por exemplo, para estudar o comportamento de clientes, na análise do SPSS cada
cliente é um caso e suas características são variáveis, como mostra a Figura 1.
Figura 1: Organização dos dados no SPSS
6
4.3. OBTENÇÃO DE UMA ANÁLISE DE REGRESSÃO LOGÍSTICA
Para obtenção de uma análise de regressão logística no SPSS é necessário escolher
a partir dos menus do software os seguintes comandos
Analyze > Regression > Binary Logistic...
Figura 2: Caminho para a obtenção da Análise de Regressão Logística no SPSS
Após a escolha da técnica, será iniciada uma janela principal de diálogo para regressão
logística binária, como se pode ver na Figura 3.
Figura 3: Janela Regressão Logística Binária
7
Na Figura 3, é possível observar a composição da Análise de Regressão
Logística e os itens necessários para a mesma.
Para executar a análise é necessário que a variável resposta (variável
dependente) seja dicotômica, podendo ser categórica ou numérica. Deve-se colocar a
variável resposta em “Dependent”.
Em “Covariates” deve incluir as variáveis independentes da análise, ou seja, as
variáveis explicativas do modelo. Pode-se incluir uma ou mais covariáveis para a
análise de regressão. Para entrar com variáveis em grupos (blocos), devem-se selecionar
as variáveis explicativas para um bloco, e clicar em Avançar para especificar um novo
bloco. Deve-se repetir esse processo até que todos os blocos da análise sejam
especificados. Pode-se optar por selecionar os casos para a análise, para isso deve-se
escolher uma variável de seleção e clicar em “Rule”.
Figura 4: Janela “Rule” da Análise de Regressão Logística Binária
Definidos os casos na janela “Rule”, estes são incluído na análise para a
estimação do modelo. Estatísticas e resultados de classificação são gerados para os
casos selecionados e não-selecionados. Isto proporciona um mecanismo para a
classificação de novos casos com base em dados pré-existentes, ou para particionar seus
dados em subconjuntos de treinamento e teste, para realizar a validação do modelo
estimado.
4.4. MÉTODOS PARA A ESTIMAÇÃO DOMODELO
O SPSS disponibiliza diferentes métodos de entrada de variáveis para a estimação
do modelo. A seleção do método de estimação permite que o pesquisador especifique
como as variáveis independentes são utilizadas na análise, isso possibilita construir uma
variedade de modelos a partir do mesmo conjunto de dados.
Os métodos que estão disponíveis no SPSS são:
Enter:Estemétodoconsisteemutilizartodasasvariáveisindependentesselecionadasparaaestimaçãodomodeloemumúnicopasso.
ForwardSelection(Conditional):Métododeseleção“Stepwise”comtestesdeentradacombasenasignificânciaestatísticadepontuaçãoetestesderemoçãocomembasamentonaprobabilidadedeumalikelihood-ratiostatistic(razãodeverossimilhança)dasestimativasdeparâmetroscondicionais.
8
ForwardSelection(LikelihoodRatio):Métododeseleção“Stepwise”comtestesdeentradacombasenasignificânciaestatísticadecontagemetestesderemoçãocombasenaprobabilidadedeumalikelihood-ratiostatistic(razãodeverossimilhança),dasestimativasdaprobabilidademáximaparciais.
ForwardSelection(Wald):Método“Stepwise”comtestesdeentradacombasenasignificânciaestatísticadapontuação,etestesderemoçãocomembasamentonaprobabilidadedaestatísticadeWald.
BackwardElimination(Conditional):Métodotambémconhecidocomo“Eliminaçãoparatrás(condicional)”.Métododeseleção“Backwardstepwise”.Esteprocedimentoconsisteemtestesderemoçãoquebaseiam-senaprobabilidadeestatísticadarazãodeprobabilidade,combaseemestimativasdeparâmetroscondicionais.
BackwardElimination(LikelihoodRatio).Métodotambémconhecidocomo“Eliminaçãoparatrás(razãodeverossimilhança).”Esteprocedimentoconsisteemtestesderemoçãoquebaseiam-senaprobabilidadederazãodeverossimilhançabaseadanaprobabilidademáximaparcialdasestimativasdeverossimilhança.
BackwardElimination(Wald):“Eliminaçãoparatrás(Wald)”.EstemétodoconsisteemtestesquesebaseiamnaremoçãodeacordocomaprobabilidadedaestatísticadeWald.
Figura 5: Métodos de estimação de modelos
4.5. COVARIÁVEISCATEGÓRICAS
Para estimação dos modelos é possível especificar detalhes das covariáveis na
análise. Esses detalhes são muito importantes na estimação do modelo, pois é dessa
forma que é definido como a regressão logística irá lidar com as variáveis categóricas,
por exemplo, qual a faixa categórica da variável que o modelo usará como referência
em sua estimação.
Na menu principal da Regressão Logística Binária é possível selecionar a opção das
variáveis categóricas em “Categorical...”
9
. Figura 6: Opções das variáveis categóricas
Na Figura 5, pode-se ver detalhes.
Figura 7: Detalhes das covariáveis categóricas
Nessa janela temos separadas as covariaveis e as covariaveis categóricas.
Na parte “Covariates” contém a lista de todas as covariáveis especificadas na caixa
de diálogo principal. Se alguma destas covariáveis são classificadas como string ou são
categóricas, o pesquisador pode usá-las como covariáveis categóricas, e então transferi-
lás para a parte “Categorical Covariates”.
10
Na parte “Categorical Covariates” é listada as variáveis classificadas como
categóricas. Cada variável dessa parte inclui uma notação entre parênteses que contêm a
indicação do contraste de codificação a ser usado na estimação do modelo.
Logo abaixo das “Categorical Covariates” tem-se “Change Contrast”, onde é
possível alterar o método de contraste utilizado na análise. No SPSS estão disponíveis
diferentes métodos de contrastes, que são eles:
Indicador:Contrastesindicamapresençaouausênciadeadesãodacategoria.Acategoriautilizadacomoreferencianaestimaçãodomodeloérepresentadanamatrizdecontrastecomoumalinhadezeros.
Simple:Cadacategoriadavariávelpreditora(excetoacategoriadereferência)écomparadacomacategoriadereferência.
Difference:Cadacategoriadavariáveldeprevisão,excetoaprimeiracategoriaécomparadacomoefeitomédiodecategoriasanteriores.TambémconhecidocomocontrastesdeHelmertreversa.
Helmert:Cadacategoriadavariávelpreditora,excetoaúltimacategoriaécomparadocomoefeitomédiodecategoriasseguintes.
Repeated:Cadacategoriadavariáveldeprevisão,excetoaprimeiracategoriaécomparadacomacategoriaseguinte.
Polynomial:Contrastespolinomiaisortogonais.Ascategoriasdasvariáveissãoassumidasigualmentedistanciadasumadasoutras.Contrastespolinomiaisestãodisponíveisparaasvariáveisnuméricas.
Deviation:Cadacategoriadavariávelpreditora,excetoacategoriadereferênciaécomparadocomoefeitoglobal.
Quando se decide usar os contrastes Indicador, Simple e Deviation é necessário se
selecionar qual categoria das variaveis será usada como faixa de referencia. Pode-se
selecionar a primeira ou ultima categoria como referência.
Para se alterar um contraste é necessário selecioná-lo e logo depois clicar em
“Change”, só assim realmente irá se alterar o contraste.
11
4.6. SALVANDO OS RESULTADOS DA REGRESSÃO LOGÍSTICA
É possível salvar os resultados de sua regressão logística como novas variáveis, esta
opção está disponível em “Save” na janela principal da regressão logística (Figura 6).
Figura 8: Salvar os resultados da estimação do modelo
Na Figura 6 observa-se os detalhes dessa opção.
Figura 9: Resultados Regressão Logística
12
Em “Predicted Values” são salvos os valores previstos pelo modelo. Têm-se as
opções disponíveis de salvar as Probabilidades e os Membros do grupo.
Probabilities:Salvacomonovavariávelasprobabilidadescalculadaspelomodelo.Paracadacaso,retornaovalordaprobabilidadeprevistadaocorrênciadoevento.
PredictedGroupMembership:Retornaovalordosmembrosdosgruposprevistospelomodelo,ouseja,salvacomoumanovavariávelovalordogrupoqueomodeloprevêparacadacaso.
Em “Influence” são salvos os valores das estatísticas que medem a influência de casos
de valores previstos. As opções disponíveis são de Cook’s, Leverage values, e
DfBeta(s).
Cook’s:Éainfluênciaquesetemaoexcluirumcasoparticulardaestimaçãodomodelonaquantidadederesíduosdetodososcasos.
LeverageValue:Éainfluênciarelativadecadaobservaçãonoajustedomodelo
DfBeta(s):Adiferençanovalorbetaéaalteraçãonocoeficientederegressãoqueresultadaexclusãodeumcasoparticular.Umvalorécalculadoparacadatermonomodelo,incluindoovalordaconstante.
Em “Residuals” são salvos os valores dos resíduos do modelo estimado As opções
disponíveis são de são Unstandardized, Logit, Studentized, Standardized e.Deviance.
Unstandardized:Nestaopçãotemososvaloresdosresíduosnão-padronizados,ouseja,adiferençaentreumvalorobservadoeovalorprevistopelomodelo.
Logit:Salvaosvaloresdosresíduosnaescalalogit.
Studentized:ValordosresíduosStudentizados,ouseja,valordosresíduossehouverumamudançanodesviodomodeloouumcasoexcluído.
Standardized:Valordosresíduospadronizados,ouseja,oresíduoédivididoporumaestimativadoseudesviopadrão.TambémsãoconhecidoscomoResíduosdePearson,quepossuemmédiaigualazeroedesvio-padrãoiguala1.
Deviance:Sãoosresíduoscombasenodesviodomodelo.
Através de “Export model information to XML file” é possível exportar asinformações do modelo em um arquivo no formato XML (PMML).
4.7. OPÇÕES DA REGRESSÃO LOGÍSTICA
Antes da estimação do modelo de regressão logística pode-se alterar as opções de
sua análise através do menu principal. Essas opções são muito importantes, pois permite
ao pesquisador informações mais completas do ajuste do modelo. Para alterar as opções
da análise, deve-se selecionar “Options...” no menu principal da regressão logística,
como na Figura 7.
13
Figura 10: Opções da Regressão Logística
As opções da análise nos permite calcular gráficos e estatísticas, alterar critérios de
seleção, determinar o ponto de corte de classificação do modelo, entre outros.
Figura 11: Detalhe das opções da Regressão Logística Binária
14
Em “Statistics and Plots” é possível calcular estatísticas e gráficos para verificar a
qualidade do ajuste do modelo estimado. Os gráficos e as estimativas podem ser
calculadas a cada etapa ou somente para o modelo final do último passo. As opções
disponíveis para a análise são:
Classificationplots:Disponibilizaográficodasclassificaçõesfeitaspelomodelo.
Hosmer-Lemeshowgoodness-of-fit:Éumaestatísticadaqualidadedoajustedomodeloestimado.Émaisrobustodoqueatradicionalestatísticadebondadedeajuste,principalmenteemcasosqueomodeloestimadoécompostoporcovariáveiscontinuaseestudoscomamostraspequenas.
Casewiselistingofresidual:Disponibilizaumasaídacontendoostrêscasosconsideradosresíduosoutliersdomodelo.
Correlationsofestimates:
Iterationhistory
CIforexp(B)
Em “Probability for Stepwise” é possível modificar os valores padrões de
“entrada” e “saída” de uma variável do modelo. Significa que uma variável é inserida
no modelo quando sua probabilidade de pontuação é menor que o valor de entrada pré-
determinado pelo pesquisador e é retirada do modelo quando essa probabilidade é maior
que o valor de saída. O valor de “Entrada” deve ser inferior ao de “Saída”.
“Classification cutoff” nos permite determinar um valor entre 0,01 e 0,99 para o
ponto de corte que o modelo usará na classificação dos casos. Casos que possuírem um
valor predito pelo modelo maior que o ponto de corte são classificados como positivos,
enquanto casos com valores previstos menores do que o ponto de corte são classificados
como negativos.
“Maximum Iterations” permite alterar o número máximo de iterações que o modelo
executará antes de terminar a estimação.
“Include constant in model” permite que o pesquisados indique se o modelo deve
incluir uma constante ou não na estimação. Se optar por deixar desativado essa opção, o
termo constante será igual a 0.
15
REFERÊNCIAS BIBLIOGRÁFICAS
 CASELLA G.; BERGER L.R . Inferência Estatística. 2. ed. Norte americana:Cengage Learning, 2011.
 CORRAR. J. L; etc. Análise Multivariada para os cursos de administração,ciências contábeis e economia. Atlas.
 HAIR JR. J. F; BLACK C.W; etc. Análise Multivariada de dados. 6 ed:Bookman, 2009, 283-289.
 IBM SPSS Regression 19. Property of SPSS Inc., an IBM Company. ©Copyright SPSS Inc. 1989, 2010.