Prévia do material em texto
Análise de Regressão (aula 2) Profa Alcione Miranda dos Santos Departamento de Saúde Pública UFMA Seleção de Variáveis na Regressão Múltipla � Um problema importante em muitas aplicações da análise de regressão envolve selecionar o conjunto de variáveis independentes ou preditoras a ser usado no modelo. � Algumas vezes, experiência prévia ou considerações teóricas em foco podem ajudar o analista a especificar o conjunto de preditoras. � Uma grande quantidade de julgamento e de experiência com o fenômeno sendo modelado é geralmente necessária para selecionar um conjunto apropriado de variáveis preditoras para um modelo de regressão múltipla. Procedimentos Computacionais para a Seleção de Variáveis � Regressão Stepwise � Regressão Forward Regressão Stepwise � Provavelmente, é a técnica mais utilizada de seleção de variáveis. � O procedimento constrói iterativamente uma seqüência de modelos de regressão pela adição ou remoção de variáveis em cada etapa. � O critério para adicionar ou remover uma variável em qualquer etapa é geralmente expresso em termos de um teste parcial F. � A regressão stepwise começa formando um modelo com uma variável, usando a variável preditora que tenha a mais alta correlação com a variável de resposta. O comando sw é usado para regressão stepwise. • sw regress y x1 x2 x3 x4, pr(.05) • sw regress y x1 x2 x3 x4, pe(.05) •sw regress y x1 x2 x3 x4, pe(.05) pr(.1) A opção pr é a probabilidade para remover uma variável. A opção pe é a probabilidade para a entrada de uma variável. sw regress tempo idade sexo acuidade, pr(0.1) pe(0.05) begin with full model p = 0.1152 >= 0.1000 removing sexo Source | SS df MS Number of obs = 20 -------------+------------------------------ F( 2, 17) = 41.38 Model | 1139.02973 2 569.514867 Prob > F = 0.0000 Residual | 233.970266 17 13.7629568 R-squared = 0.8296 -------------+------------------------------ Adj R-squared = 0.8095 Total | 1373 19 72.2631579 Root MSE = 3.7098 ------------------------------------------------------------------------------ tempo | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- idade | .6503912 .1279417 5.08 0.000 .3804578 .9203247 acuidade | -.4538341 .0928187 -4.89 0.000 -.6496644 -.2580038 _cons | 126.5642 10.09118 12.54 0.000 105.2736 147.8547 ------------------------------------------------------------------------------ Exemplo: Considere o exemplo 2. Regressão Forward � O procedimento de seleção forward é uma variação da regressão stepwise, e está baseado no princípio de que as variáveis preditoras devem ser adicionadas ao modelo uma de cada vez até que não haja mais variáveis preditoras. � A seleção progressiva é uma simplificação da regressão stepwise que omite o teste parcial F de remoção do modelo das variáveis que foram adicionadas em etapas prévias. � Essa é uma potencial fraqueza da seleção forward. Suposições do Modelo de Regressão � Todo modelo probabilístico requer o estabelecimento de premissas sob as quais o mesmo deve funcionar. � Muitas vezes, no entanto, tais premissas são violadas e o pesquisador deve proceder de modo a fazer as alterações necessárias. � As premissas básicas para o modelo de regressão são: � Linearidade do fenômeno medido � Variância constante dos termos de erro (Homoscedasticidade) � Normalidade dos erros � Erros independentes � Ausência de colinearidade � Ausência de observações aberrantes Testando as suposições � Predizer y e os resíduos � predict yest, xb (valores preditos serão armazenados na variável yest) � predict res, resid (resíduos serão armazenados na variável res) � Fazer os gráficos dos resíduos versus valores preditos � linear? � variância constante? � independentes? Linearidade � Linearidade significa que a relação entre as variáveis independentes e dependente é linear. � A linearidade é facilmente examinada utilizando: � Gráficos de Dispersão � Gráfico de resíduos � O gráfico de resíduos é facilmente construído no STATA: rvfplot, yline(0) Não linearidade � Se uma relação não-linear é encontrada, a abordagem mais direta é transformar uma ou as duas variáveis de modo a ter linearidade. � Várias transformações podem ser usadas: ln yln xln y = ln a + b.ln xY = a.xbPotência yln xY = a + b.ln xY = a + b.ln xLogarítmica ln Yxln y = ln a + bxY = a.ebxExponencial yxY = a + bxY = a + bxLinear VARIÁVEL YVARIÁVEL XTRANSFORMAÇÃOEQUAÇÃOTIPO Homoscedasticidade � A presença de variâncias desiguais (heteroscedasticidade) é uma das violações mais comuns das suposições. � O diagnóstico é feito com gráficos de resíduos ou testes estatísticos. � A representação gráfica dos resíduos (estudantizados) versus os valores previstos e a sua comparação com o gráfico nulo mostra um padrão consistente se a variância não for constante. Gráfico nulo heteroscedasticidade Vários programas estatísticos disponibilizam testes estatísticos para heteroscedasticidade. Por exemplo, o STATA fornece o teste Cook-Weisberg (testa se a variância dos erros é constante). Comando: hettest Exemplo: Considerando o exemplo 1, temos: hettest Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance Variables: fitted values of tempo chi2(1) = 0.14 Prob > chi2 = 0.7089 Se ocorrer heteroscedasticidade, duas ações corretivas são possíveis: � Transformações para estabilização da variância; � Se for possível atribuir a violação a uma única variável dependente, usar o métodos dos mínimos quadrados ponderados poderá ser empregado. Algumas transformações que estabilizam a variância: 1) 2) 3) arcsen y ylog y Normalidade � Talvez a violação mais freqüentemente encontrada seja a não normalidade da variáveis independentes e dependentes ou ambas � O diagnóstico mais simples para o conjunto de variáveis independentes é um histograma de resíduos. � Um método mais eficiente é o uso de gráficos de probabilidade normal. �Também pode ser utilizado o Teste Shapiro Wilk. Distribuição normal Exemplo: Retornemos ao exemplo 1. Vamos verificar se os resíduos são normalmente distribuídos. Primeiramente, vamos construir o gráfico de probabilidade normal. regress tempo idade predict res, resid qnorm res - 1 0 - 5 0 5 1 0 R e s i d u a l s -10 -5 0 5 10 Inverse Normal swilk res Shapiro-Wilk W test for normal data Variable | Obs W V z Prob>z -----------+------------------------------------------------- res | 20 0.93816 1.464 0.768 0.22126 Realizando o teste Shapiro Wilk, obtemos o seguinte resultado: Podemos concluir que os resíduos são normalmente distribuídos. Colinearidade � Colinearidade significa que as variáveis independentes são correlacionadas � A colinearidade pode ser detectada, dentre outros modos, através da matriz de correlação entre as varáveis. � Outra técnica usada é o fator de inflação de variação (variance inflator factor), cujos altos valores indicam a sua existência . sendo Rj resulta da regressão de Xj com as outras variáveis. � Sugere-se, no entanto, quando ocorrer colinearidade, que algumas variáveis explicativas sejam retiradas do estudo e/ou que se tente obter maior número de observações. Erros Independentes � A correlação de resíduos é um problema que pode surgir quando as observações são efetuadas ao longo do tempo. � Neste caso, éconveniente utilizar a estatística de teste de Durbin-Watson. Exemplo: Considere o exemplo 2. Você diria que as variáveis independentes são correlacionadas? Vamos calcular o fator de inflação de variação, no STATA regress tempo idade sexo acuidade VIF Variable | VIF 1/VIF -------------+---------------------- acuidade | 1.34 0.746053 idade | 1.21 0.824128 sexo | 1.13 0.887324 -------------+---------------------- Mean VIF | 1.23 NOTA: Valores VIF acima de 4, indicam variáveis correlacionadas. tolerância Identificação de Observações Influentes � Quando usamos regressão múltipla, ocasionalmente se encontra que algum subconjunto de observações influentes. � Algumas vezes, essas observações que influenciam estão relativamente longe da vizinhança onde o resto dos dados foi coletado Se esses pontos que influenciam forem pontos ″ruins″, ou errôneos de algum modo, então eles devem ser eliminados. Vários métodos de detecção de observações influentes são propostos. Entre eles, citamos a medida da distância Cook. MEDIDA DA DISTÂNCIA COOK É uma medida da distância ao quadrado entre a estimativa usual de mínimos quadrados de β, baseada em todas n observações, e a estimativa obtida quando o i -ésimo ponto for removido. Para cada observação i, é calculada a distância Di, valor de Di > 4/ indica que o ponto exerce influência. n Exemplo: Considere o exemplo 2, acrescido de observação discrepante. regress tempo idade sexo acuidade Source | SS df MS Number of obs = 21 -------------+------------------------------ F( 3, 17) = 0.94 Model | 868.222607 3 289.407536 Prob > F = 0.4435 Residual | 5238.34882 17 308.138166 R-squared = 0.1422 -------------+------------------------------ Adj R-squared = -0.0092 Total | 6106.57143 20 305.328571 Root MSE = 17.554 ------------------------------------------------------------------------------ tempo | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- idade | .0951472 .5941671 0.16 0.875 -1.158436 1.34873 sexo | -9.944194 8.144006 -1.22 0.239 -27.12654 7.238157 acuidade | -.2873334 .4653876 -0.62 0.545 -1.269215 .6945486 _cons | 147.2193 47.56397 3.10 0.007 46.8681 247.5705 ------------------------------------------------------------------------------ Vamos identificar a existência de informações influentes. 1 0 0 1 2 0 1 4 0 1 6 0 1 8 0 t e m p o 20 25 30 35 40 idade Calculando a medida de distância: predict d1, cooksd list d1 if d1>4/4.58,clean