Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

Análise de Regressão
(aula 2)
Profa Alcione Miranda dos Santos
Departamento de Saúde Pública
UFMA
Seleção de Variáveis na Regressão Múltipla
� Um problema importante em muitas aplicações da análise de 
regressão envolve selecionar o conjunto de variáveis 
independentes ou preditoras a ser usado no modelo.
� Algumas vezes, experiência prévia ou considerações teóricas em 
foco podem ajudar o analista a especificar o conjunto de preditoras.
� Uma grande quantidade de julgamento e de experiência com o 
fenômeno sendo modelado é geralmente necessária para 
selecionar um conjunto apropriado de variáveis preditoras para um 
modelo de regressão múltipla.
Procedimentos Computacionais para a 
Seleção de Variáveis
� Regressão Stepwise
� Regressão Forward
Regressão Stepwise
� Provavelmente, é a técnica mais utilizada de seleção de variáveis.
� O procedimento constrói iterativamente uma seqüência de modelos 
de regressão pela adição ou remoção de variáveis em cada etapa.
� O critério para adicionar ou remover uma variável em qualquer 
etapa é geralmente expresso em termos de um teste parcial F.
� A regressão stepwise começa formando um modelo com uma 
variável, usando a variável preditora que tenha a mais alta 
correlação com a variável de resposta. 
O comando sw é usado para regressão stepwise.
• sw regress y x1 x2 x3 x4, pr(.05) 
• sw regress y x1 x2 x3 x4, pe(.05) 
•sw regress y x1 x2 x3 x4, pe(.05) pr(.1)
A opção pr é a probabilidade para remover uma variável. 
A opção pe é a probabilidade para a entrada de uma variável.
sw regress tempo idade sexo acuidade, pr(0.1) pe(0.05)
begin with full model
p = 0.1152 >= 0.1000 removing sexo
Source | SS df MS Number of obs = 20
-------------+------------------------------ F( 2, 17) = 41.38
Model | 1139.02973 2 569.514867 Prob > F = 0.0000
Residual | 233.970266 17 13.7629568 R-squared = 0.8296
-------------+------------------------------ Adj R-squared = 0.8095
Total | 1373 19 72.2631579 Root MSE = 3.7098
------------------------------------------------------------------------------
tempo | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
idade | .6503912 .1279417 5.08 0.000 .3804578 .9203247
acuidade | -.4538341 .0928187 -4.89 0.000 -.6496644 -.2580038
_cons | 126.5642 10.09118 12.54 0.000 105.2736 147.8547
------------------------------------------------------------------------------
Exemplo: Considere o exemplo 2.
Regressão Forward
� O procedimento de seleção forward é uma variação da regressão 
stepwise, e está baseado no princípio de que as variáveis preditoras
devem ser adicionadas ao modelo uma de cada vez até que não 
haja mais variáveis preditoras. 
� A seleção progressiva é uma simplificação da regressão stepwise
que omite o teste parcial F de remoção do modelo das variáveis que 
foram adicionadas em etapas prévias. 
� Essa é uma potencial fraqueza da seleção forward.
Suposições do Modelo de Regressão
� Todo modelo probabilístico requer o estabelecimento de 
premissas sob as quais o mesmo deve funcionar.
� Muitas vezes, no entanto, tais premissas são violadas e o 
pesquisador deve proceder de modo a fazer as alterações 
necessárias.
� As premissas básicas para o modelo de regressão são: 
� Linearidade do fenômeno medido
� Variância constante dos termos de erro (Homoscedasticidade)
� Normalidade dos erros
� Erros independentes
� Ausência de colinearidade
� Ausência de observações aberrantes
Testando as suposições
� Predizer y e os resíduos
� predict yest, xb (valores preditos serão armazenados na variável yest)
� predict res, resid (resíduos serão armazenados na variável res)
� Fazer os gráficos dos resíduos versus valores
preditos
� linear?
� variância constante?
� independentes?
Linearidade
� Linearidade significa que a 
relação entre as variáveis 
independentes e dependente é 
linear.
� A linearidade é facilmente 
examinada utilizando:
� Gráficos de Dispersão
� Gráfico de resíduos
� O gráfico de resíduos é 
facilmente construído no 
STATA:
rvfplot, yline(0)
Não linearidade
� Se uma relação não-linear é encontrada, a abordagem mais direta é 
transformar uma ou as duas variáveis de modo a ter linearidade.
� Várias transformações podem ser usadas:
ln yln xln y = ln a + b.ln xY = a.xbPotência
yln xY = a + b.ln xY = a + b.ln xLogarítmica
ln Yxln y = ln a + bxY = a.ebxExponencial
yxY = a + bxY = a + bxLinear
VARIÁVEL YVARIÁVEL XTRANSFORMAÇÃOEQUAÇÃOTIPO
Homoscedasticidade
� A presença de variâncias desiguais 
(heteroscedasticidade) é uma das 
violações mais comuns das 
suposições.
� O diagnóstico é feito com gráficos de 
resíduos ou testes estatísticos.
� A representação gráfica dos resíduos
(estudantizados) versus os valores 
previstos e a sua comparação com o 
gráfico nulo mostra um padrão 
consistente se a variância não for 
constante.
Gráfico nulo
heteroscedasticidade
Vários programas estatísticos disponibilizam testes estatísticos
para heteroscedasticidade. Por exemplo, o STATA fornece o 
teste Cook-Weisberg (testa se a variância dos erros é constante).
Comando: hettest
Exemplo: Considerando o exemplo 1, temos:
hettest
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant variance
Variables: fitted values of tempo
chi2(1) = 0.14
Prob > chi2 = 0.7089
Se ocorrer heteroscedasticidade, duas ações corretivas 
são possíveis:
� Transformações para estabilização da variância;
� Se for possível atribuir a violação a uma única 
variável dependente, usar o métodos dos mínimos 
quadrados ponderados poderá ser empregado.
Algumas transformações que estabilizam a variância:
1) 
2)
3) arcsen
y
ylog
y
Normalidade
� Talvez a violação mais freqüentemente 
encontrada seja a não normalidade da 
variáveis independentes e dependentes 
ou ambas
� O diagnóstico mais simples para o 
conjunto de variáveis independentes é um 
histograma de resíduos.
� Um método mais eficiente é o uso de 
gráficos de probabilidade normal.
�Também pode ser utilizado o Teste 
Shapiro Wilk. Distribuição normal
Exemplo: Retornemos ao exemplo 1. Vamos verificar se 
os resíduos são normalmente distribuídos.
Primeiramente, vamos construir o gráfico de probabilidade normal.
regress tempo idade
predict res, resid
qnorm res
-
1
0
-
5
0
5
1
0
R
e
s
i
d
u
a
l
s
-10 -5 0 5 10
Inverse Normal
swilk res
Shapiro-Wilk W test for normal data
Variable | Obs W V z Prob>z
-----------+-------------------------------------------------
res | 20 0.93816 1.464 0.768 0.22126
Realizando o teste Shapiro Wilk, obtemos o seguinte resultado:
Podemos concluir que os resíduos são normalmente distribuídos.
Colinearidade
� Colinearidade significa que as variáveis independentes são 
correlacionadas
� A colinearidade pode ser detectada, dentre outros modos, através da 
matriz de correlação entre as varáveis.
� Outra técnica usada é o fator de inflação de variação (variance inflator
factor), cujos altos valores indicam a sua existência .
sendo Rj resulta da regressão de Xj com as outras variáveis.
� Sugere-se, no entanto, quando ocorrer colinearidade, que algumas 
variáveis explicativas sejam retiradas do estudo e/ou que se tente obter 
maior número de observações.
Erros Independentes
� A correlação de resíduos é um problema que pode 
surgir quando as observações são efetuadas ao longo 
do tempo.
� Neste caso, éconveniente utilizar a estatística de teste 
de Durbin-Watson.
Exemplo: Considere o exemplo 2. Você diria que as 
variáveis independentes são correlacionadas?
Vamos calcular o fator de inflação de variação, no STATA
regress tempo idade sexo acuidade
VIF
Variable | VIF 1/VIF 
-------------+----------------------
acuidade | 1.34 0.746053
idade | 1.21 0.824128
sexo | 1.13 0.887324
-------------+----------------------
Mean VIF | 1.23
NOTA: Valores VIF acima de 4, indicam variáveis correlacionadas.
tolerância
Identificação de Observações Influentes
� Quando usamos regressão 
múltipla, ocasionalmente se 
encontra que algum subconjunto 
de observações influentes. 
� Algumas vezes, essas 
observações que influenciam 
estão relativamente longe da 
vizinhança onde o resto dos 
dados foi coletado 
Se esses pontos que influenciam forem pontos ″ruins″, ou errôneos de algum
modo, então eles devem ser eliminados. 
Vários métodos de detecção de observações influentes são propostos. 
Entre eles, citamos a medida da distância Cook. 
MEDIDA DA DISTÂNCIA COOK
É uma medida da distância ao quadrado entre a estimativa usual de 
mínimos quadrados de β, baseada em todas n observações, e a 
estimativa obtida quando o i -ésimo ponto for removido.
Para cada observação i, é calculada a distância Di, valor de Di > 4/ 
indica que o ponto exerce influência. 
n
Exemplo: Considere o exemplo 2, acrescido de observação 
discrepante.
regress tempo idade sexo acuidade
Source | SS df MS Number of obs = 21
-------------+------------------------------ F( 3, 17) = 0.94
Model | 868.222607 3 289.407536 Prob > F = 0.4435
Residual | 5238.34882 17 308.138166 R-squared = 0.1422
-------------+------------------------------ Adj R-squared = -0.0092
Total | 6106.57143 20 305.328571 Root MSE = 17.554
------------------------------------------------------------------------------
tempo | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
idade | .0951472 .5941671 0.16 0.875 -1.158436 1.34873
sexo | -9.944194 8.144006 -1.22 0.239 -27.12654 7.238157
acuidade | -.2873334 .4653876 -0.62 0.545 -1.269215 .6945486
_cons | 147.2193 47.56397 3.10 0.007 46.8681 247.5705
------------------------------------------------------------------------------
Vamos identificar a existência de informações influentes.
1
0
0
1
2
0
1
4
0
1
6
0
1
8
0
t
e
m
p
o
20 25 30 35 40
idade
Calculando a medida de distância:
predict d1, cooksd
list d1 if d1>4/4.58,clean