Buscar

selecao_de_modelos

Prévia do material em texto

Modelos de Regressão Linear Múltipla – Seleção de Variáveis
1. Problema: Dado uma variável resposta (ou dependente) Y e um conjunto de variáveis
regressoras (explicativas ou independentes) 1 2 k( X , X ,...,X ) relacionadas com Y,
deseja-se selecionar as variáveis regressoras mais importantes e que deverão ser incluídas
no modelo de regressão múltipla final a ser ajustado. Tem-se então, um problema de
Seleção de Variáveis.
2. Objetivos:
(2.1) Ajustar um modelo que contenha informação sobre todos os fatores mais
importantes e que influenciam o comportamento da variável resposta Y, e que
consequentemente influenciam a predição de valores de Y;
(2.2) Ajustar um modelo “parcimonioso”, ou seja com o menor número de variáveis
regressoras possível. As variâncias das predições tendem a aumentar conforme o aumento
do número de variáveis incluídas no modelo de regressão. Além disso, quanto maior o
número de variáveis, mais problemas pode-se ter em relação a multicolinearidade e
instabilidade na estimação de parâmetros e variâncias das distribuições amostrais dos
estimadores de mínimos quadrados desses.
(2.3) Ajustar um modelo com informação suficiente para explicar a variabilidade da
variável resposta Y , com o menor número de variáveis regressoras possível de modo a
minimizar os custos envolvidos na coleta de dados e otimizar o uso do modelo de
regressão para fins futuros como o de predição.
3. Critérios que podem ser utilizados na Seleção de Variáveis
 Alguns critérios estatísticos que podem ser utilizados na comparação (e seleção) de
modelos de regressão são apresentados a seguir.
 
(3.1) O Coeficiente de Determinação 2R
 Para um modelo de regressão com p+1 parâmetros (p variáveis explicativas mais o
intercepto) tem-se:
 2 1 1p pp
SQRegressao SQRSQResidual
R
SQTotal SQTotal SQT
= = - = -
%
Cuidado: 2pR é uma função crescente de p.
2
(3.2) O Coeficiente de Determinação Ajustado 2adjR
 Para um modelo de regressão com p+1 parâmetros (p variáveis explicativas mais o
intercepto), e um tamanho de amostra igual a n, tem-se:
 ( )2 211 11p padj
n
R R
n p
æ ö-
= - -ç ÷- -è ø
Nota: 2
padj
R não necessariamente cresce com o aumento do número de variáveis
explicativas no modelo. Sob esse critério o melhor modelo é aquele com maior valor de
2
padj
R .
 Pode-se fazer um gráfico do coeficiente de determinação ajustado em função do
número de variáveis preditoras no modelo e avaliar o gráfico com a finalidade de
identificar a melhor solução.
(3.3) Quadrado Médio Residual (Estimativa da Variância dos Erros do Modelo)
 É definido como:
 
1
p
p
SQR
QMR
n p
=
- -
Critérios de Decisão:
(A) Escolher p que resulte no valor mínimo do Quadrado Médio Residual;
(B) Escolher p tal que o valor do Quadrado Médio Residual seja próximo àquele obtido
com o ajuste do modelo completo, isto é, de kQMR , sendo k o número total de
variáveis explicativas disponíveis para ajuste do modelo de regressão, k>p
(C) Escolher p na vizinhança de valores para o qual pQMR é mínimo.
 Pode-se fazer um gráfico do Quadrado Médio Residual em função do número de
variáveis preditoras no modelo e avaliar o gráfico com a finalidade de identificar a
melhor solução.
3
Observe que:
 
( )2 21 11 1 11 1
1 1
1 1
1
p
p
padj
p
p
SQRn n
R R
n p n p SQT
SQRn n
QMR
SQT n p SQT
æ öæ ö æ ö- -
= - - = - ç ÷ç ÷ ç ÷ ç ÷- - - -è ø è ø è ø
æ öæ ö æ ö- -
= - = -ç ÷ç ÷ ç ÷ç ÷- -è ø è øè ø
Sendo assim, quando o quadrado médio residual pQMR é mínimo, o valor de 
2
padj
R é
máximo. Assim, os dois critérios são equivalentes bastando utilizar-se apenas um dos
dois.
(3.4) Estatística pC de Mallows
 É definida como:
 2 1pp
k
SQR
C n ( p )
QMR
= - + +
sendo k o número total de variáveis explicativas disponíveis para ajuste do modelo de
regressão, k>p, ou seja o modelo completo com todas as variavéis possiveis .
Critério de Decisão: Escolher modelos com valores pequenos de pC
Observe que:
(i) 21pE[SQR ] ( n p ) es= - -
(ii) 2kE[QMR ] es=
 Assim, o valor de pE[C ] é próximo de p+1. O comum é fazer-se um gráfico dos
valores de pC versus o número de variáveis explicativas no modelo como ilustra a
Figura a seguir. Busca-se os modelos que resultam em valores de pC pequenos e que não
estejam muito afastados do valor esperado (p+1) representado peloa reta de referência do
gráfico. Na ilustração da Figura 1, os dois modelos A e C são os melhores candidatos. No
entanto,o modelo correspondente ao Cp igual a C seria o mais adequado já que tem um
valor numérico menor que o de A.
4
Figura 1: Valor esperado de Cp em função de p+1 (no. de variáveis explicativas e intercepto)
 Exemplo de Ilustração.
(3.5) Soma de Quadrados dos Erros de Predição (PRESS) e 2R de Predição
O coeficiente PRESS é definido por:
 
2
2 2
1 1 1 1
n n n i
( i ) i ( i )
i i i ii
eˆPRESS e [Y Y ]
h= = =
æ ö
= = - =å å å ç ÷
-è ø
sendo iY o valor observado de Y para a i-ésima unidade amostral e ( i )Yˆ a estimativa Y
realizada para a i-ésima unidade amostral através do modelo de regressão correspondente
eliminando a i-ésima unidade amostral da estimação dos parâmetros do modelo,
i i iˆe Y Y= - , iYˆ a estimativa Y realizada para a i-ésima unidade amostral utilizando-
seo modelo de regressão ajustado com todas as n observações amostrais (ou seja
incluindo a i-ésima observação).
 O coeficiente de Predição 2R é definido como:
 2 1pred
Press
R
SQTotal
= -
121086420
12
10
8
6
4
2
0
p+1
E(
Cp
)
 E(Cp) vs p+1
1pC p= +*C
*B
*A
5
Quanto maior valor desse coeficiente melhor é a capacidade preditiva do modelo. Em
geral o coeficiente de Predição 2R é apresentado em forma percentual.
Nota: Observe que os métodos propostos não levam em consideração outros fatores que
interferem na qualidade de ajuste do modelo como: multicolinearidade, não-normalidade
dos resíduos, não-aleatoriedade dos resíduos, variância não-constante dos resíduos.
Assim, são critérios apenas iniciais de comparação sendo necessário portanto, o ajuste do
modelo escolhido e a observação da qualidade do modelo nessas outras premissas.
4. Métodos Computacionais para Construção de Modelos de Regressão
 Existem vários métodos computacionais, disponíveis nos softwares estatísticos, que
auxiliam na determinação das variáveis regressoras que deveriam fazer parte do modelo
de regressão. Os métodos mais comuns são:
(A) Ajuste de Todas as Regressões Possíveis (Best Sets).
(B) “Forward Selection” (Método Forward)
(C) “Backward Selection” (Método Backward)
(D) “Stepwise” Regression
(E) Método de Busca Direta via Estatística t-Student
 A seguir descreve-se esses métodos brevemente.
4.1 Ajuste de Todas as Regressões Possíveis (Best Sets). 
 Neste procedimento avalia-se os resultados de ajuste de todas as regressões possíveis
em termos das medidas apresentadas (ou algumas delas) na seção anterior e identifica-se
aquele de melhor ajuste perante essas medidas. Considerando-se k variáveis explicativas
candidatas a fazer parte do modelo de regressão e mais o intercepto tem-se k+1
parâmetros no modelo completo. É necessário ajustar todas as regressões possíveis com
uma única variável explicativa, com duas, três, até chegar-se ao modelo completo. No
total será necessário ajustar e avaliar a qualidade de ajuste de 2k modelos, já que o
número total de regressões é dado por:
 
0
2
k k
i
k
i=
æ ö
=å ç ÷
è ø
 Por exemplo, se k=3 tem-se 8 modelos a serem ajustados, isto é, um modelo
sómente com o intercepto; 3 modelos cada um com uma única variável explicativa e o
intercepto; 3 modelos com duas variáveis explicativas distintas e mais o intercepto; um
modelo comas 3 variáveis explicativas e mais o intercepto. Se k=10 tem-se um total de
1024 regressões a serem ajustadas e avaliadas!!
 Desta forma, é claro o fato de que esse método é impraticável em muitas situações.
6
4.2 Modelo Forward
 O procedimento se inicia com o ajuste do modelo tendo apenas o intercepto. A partir
daí as variáveis explicativas vão sendo inseridas no modelo uma de cada vez. A regressão
é ajustada com a variável inserida e o valor da estatística F parcial observado do ajuste
da regressão (da Tabela de Análise de Variância), é comparado com um valor de
referência chamado de F de entrada ( INF ). Se o valor observado da estatística F for
maior ao valor INF , a variável entra no modelo. Nos passos subsequentes a decisão
sobre a entrada ou não da variável no modelo é feita via o valor da estatística F parcial.
A seguir descrevemos os passos do procedimento Forward.
Passo 1. Calcula-se a correlação de Pearson de Y com cada uma das k variáveis
explicativas. Identifica-se a variável de maior correlação com Y , ajusta-se o modelo de
regressão linear simples para Y usando apenas essa variável como preditora e observa-se
o valor da estatística F na tabela de Análise de Variância correspondente. Como a
variável é a de maior correlação com Y, o valor F correspondente é o máximo dentre
aqueles de todas as regressões lineares simples possíveis de serem ajustadas com as k
variáveis disponíveis. Esse procedimento é equivalente a ajustar todas as k regressões
lineares simples e identificar aquela cujo valor observado de F é o maior.
Compara-se o valor observado de F com o valor de referência INF e mantém-se a
variável no modelo se F observado for maior que INF . Suponha como ilustração que a
variável 1X tenha entrado no modelo.
Passo 2. Ajusta-se o modelo de regressão múltiplo contendo a variável que entrou no
passo 1 (essa deve ser a primeira a entrar no modelo) e cada uma das variáveis
explicativas remanescentes, uma a uma. Assim tem-se k-1 modelos a serem ajustados.
Para cada modelo observa-se o valor observado de F-parcial da variável candidata a
entrar, isto é:
 1
1
1j
j
SQRegressao(X | X )
F j
QMR( X ,X )
= ¹
%
Calcula-se o valor máximo dos F-parciais observados. Compara-se esse valor com o de
INF . Se o valor for maior que INF a variável correspondente ao valor máximo de F-
parcial é adicionada ao modelo.
Suponha que no passo 2 a variável de maior F-parcial seja o da variável 2X e o valor
seja maior que INF . Então 2X é adicionada ao modelo. O valor de F-parcial de 2X
no modelo que já tem a variável 1X é dado por:
7
 2 1
1 2
SQRegressao(X | X )
F
QMR( X ,X )
=
%
Esse procedimento vai sendo repetido e terminará quando: a variável candidata a entrada
tem um valor F-parcial abaixo do INF , ou quando não houver mais variáveis candidatas
para serem inseridas no modelo.
Nota: (1) A implementação do método Forward pode ser feita a partir da análise das
probabilidades de significância em cada passo. Ao invés de se estabelecer um valor de
INF , é estabelecido um valor para o nível de significância do teste. Em cada passo
utiliza-se esse nível pré-especificado como referência para comparação, sendo que a
variável mais significativa (em relação ao nível de significância estabelecido) é aquela
que é inserida no modelo. (2) Como as regressões em cada passo do algoritmo são
realizadas mantendo-se a ordem de entrada (de cada passo), o procedimento Forward é
equivalente a observar-se o valor da estatística t-Student em cada passo, correspondente a
variável candidata a entrar no modelo. As variáveis com maiores valores absolutos
observados da estatística t-Student são as candidatas a entrar. Observa-se a probabilidade
de significância correspondente e compara-se com o nível de significância pré-
estabelecido. Aquela que for mais significativa é inserida no modelo.
4.3 Método Backward
 Ao contrário do método Forward, o método Backward se inicia com o ajuste do
modelo completo (com todas as k variáveis preditoras), e vai eliminando aquelas de
menor importância uma de cada vez.
Os passos do algoritmo são os seguintes:
Passo 1. Ajuste o modelo com todas as k variáveis explicativas e mais o intercepto.
Calcule o valor da estatística F parcial para cada uma das k variáveis como se ela fosse a
última a ter entrado no modelo de regressão múltipla. Identifique o menor valor de F
observado e compare com o valor de referência chamado de OUTF . Se o valor de F
observado for menor que o valor OUTF , a variável correspondente é retirada do
modelo.
Passo 2. Ajusta-se o modelo sem a variável que foi eliminada no passo 1, ou seja com
k-1 variáveis explicativas. Novamente calcula-se os valores de F-parcial para cada uma
das variáveis explicativas do modelo ajustado considerando a variável como a última a
dar entrada no modelo, identifica-se o valor mínimo e compara-se esse valor com o
OUTF , removendo a variável da regressão caso o valor de F-parcial observado seja
menor que OUTF .
8
Esse procedimento é repetido até que o menor valor de F-parcial correspondente é maior
que o valor OUTF .
Nota: Do mesmo modo que no método Forward, o método Backward pode ser
implementado a partir da análise das probabilidades de significância em cada passo. Ao
invés de se estabelecer um valor de OUTF , é estabelecido um valor para o nível de
significância do teste de saída da variável. Em cada passo utiliza-se esse nível pré-
especificado como referência para comparação, sendo que a variável menos significativa
(em relação ao nível de significância estabelecido) é aquela que é excluida do modelo. (2)
O procedimento é equivalente a observar-se o valor da estatística t-Student em cada
passo, correspondente a variável candidata a sair do modelo. As variáveis com menores
valores absolutos observados da estatística t-Student são as candidatas a sair. Observa-se
a probabilidade de significância correspondente e compara-se com o nível de
significância pré-estabelecido. Aquela que for menos significativa é excluida do modelo.
4.4 Método Stepwise
Esse procedimento é uma combinação dos dois apresentados anteriormente. É uma
modificação do método Forward incluindo em cada passo do algoritmo um teste para
avaliar se as variáveis que já estavam inseridas no modelo de regressão (nos passos
anteriores), devem permanecer no modelo a partir da entrada da variável nova. Assim
tem-se dois pontos de corte: INF e OUTF . Os passos do procedimento são descritos a
seguir.
Passo 1. O mesmo do método Forward. Suponha como ilustração que a variável 1X
tenha entrado no modelo.
Passo 2. O mesmo do método Forward . Suponha que no passo 2 a variável inserida
seja 2X . A partir da entrada da variável 2X testa-se a importância da manutenção da
variável 1X que havia entrado no passo anterior, calculando-se o valor de F parcial de
1X dado que 2X já está no modelo, isto é,
 1 2
1 2
SQRegressao(X | X )
F
QMR( X ,X )
=
%
Se o valor de F parcial de 1X for maior que OUTF a variável 1X é mantida e formará o
modelo com a variável 2X . Caso contrário, mantém-se apenas a variável 2X .
9
Passo 3. Suponha que no passo 2 a variáveis 1X e 2X tenham sido mantidas no modelo.
Suponha que 3X seja a variável de maior F parcial observado, que esse valor seja maior
que INF , e 3X tenha sido adicionada ao modelo. Então, será necessário testar a saída do
modelo das variáveis 1X e 2X calculando os valores dos F parciais correspondentes,
isto é:
 1 2 3
1 2 3
SQRegressao ( X | X , X )
F
QMR(X ,X ,X )
=
%
 2 1 3
1 2 3
SQRegressao(X | X ,X )
F
QMR(X ,X ,X )
=
%
Os valores são comparados ao de OUTF e avalia-se quais variáveis permanecem no
modelo.
Esse procedimento é repetido até que não haja variável com o valor de F-parcial
suficiente para entrada no modelo, ou seja quando as variáveis remanescentessão tais que
o valor de F parcial é menor que INF .
Nota: (1) A implementação do método Stepwise pode ser feita a partir da análise das
probabilidades de significância em cada passo. Ao invés de se estabelecer um valor de
INF , é estabelecido um valor para o nível de significância do teste para entrada da
variável no modelo. Em cada passo utiliza-se esse nível pré-especificado como referência
para comparação, sendo que a variável mais significativa (em relação ao nível de
significância estabelecido) é aquela que é inserida no modelo. O teste de saída das
variáveis que já estavam inseridas no modelo é feita a partir da comparação das
probabilidades de significância correspondentes com o nível de significância estabelecido
para a remoção de variáveis, de se estabelecer um valor de OUTF .
(2) O procedimento Stepwise é equivalente a observar-se o valor da estatística t-Student
em cada passo, correspondente a variável candidata a entrar no modelo. As variáveis com
maiores valores absolutos observados da estatística t-Student são as candidatas a entrar.
Compara-se então, os valores das probabilidades de significância correspondentes com o
valor de nível de significância pré-estabelecido, sendo inserida no modelo a variável mais
significativa.
Para o teste de saída, o mesmo procedimento é adotado, saindo a variável que é menos
significativa de acordo com o nível de signficância estabelecido para a exclusão de
variáveis do modelo.
10
4.5 Método de Busca Direta via Estatística t-Student
Nesse procedimento o modelo de regressão completo é ajustado. Avalia-se então,
os valores da estatística t-Student do parâmetro correspondente a cada variável
explicativa do modelo sendo excluídas todas as variáveis não significativas. A partir daí,
todas as regressões que envolvem as variáveis não excluídas deverão ser avaliadas. Por
exemplo, se k=4 variáveis e 1X e 2X são as significativas (na análise do valor de t-
Student), então, deverão ser pesquisados os modelos: 1X e 2X ; 1X , 2X e 3X ; 1X , 2X
e 4X e 1 2 3 4X , X , X , X .
5. Considerações Gerais sobre os Métodos de Seleção de Variáveis
 O método Forward é o menos indicado já que tende a construir modelos com um
número maior que o necessário. Os métodos Stepwise e Backward são os preferidos mas
dependem da escolha dos valores de INF e OUTF . Usados em todos os passos dos
algoritmos. É comum a escolha de INF = OUTF . No entanto o uso do nível de
significância como referência em cada passo, facilita a implementação dos
procedimentos.
 O método de busca direta via estatística t-Student é o menos indicado.
6. Exemplo de Aplicação dos Métodos de Seleção de Variáveis
 Considere a seguinte situação: um engenheiro florestal está interesado em predizer o
volume de madeira a ser obtido num período de 5 anos numa área que contém um
determinado tipo de árvore. Um experimento foi então conduzido da seguinte forma: a
área em consideração foi dividida plots (sub-áreas) sendo 55 selecionadas aleatoriamente
para participarem do experimento. Nesse 55 plots selecionados as seguintes variáveis
foram medidas (variáveis explicativas):
1X : volume de madeira no plot ( em pés cúbicos)
2X : número de árvores no plot
3X : idade média das árvores do plot (em anos)
4X : volume médio de madeira por árvore do plot, ou seja, ( 1 2X / X ).
 Após 5 anos o volume de madeira em cada plot foi medido novamente (em pés
cúbicos). Essa variável é a considerada como variável resposta nesse problema (Y).
Qual seria o modelo de regressão mais indicado para ser usado na predição da variável
Y?
11
 Os métodos de seleção Forward, Stepwise, Backward e Best Sets são apresentados a
seguir passo a passo, assim como as correpondentes saídas computacionais do software
Minitab.
Parte 1. Método Forward usando como ponto de corte para entrada de variáveis o
nível de significância de 5%.
Modelo 1 só com X1.
The regression equation is
Volume_madeira_5anos = 22,5 + 1,01 Volume_de_madeira
Predictor Coef SE Coef T P
Constant 22,505 4,161 5,41 0,000
Volume_de_madeira 1,01238 0,02033 49,79 0,000
S = 18,8808 R-Sq = 97,9% R-Sq(adj) = 97,9%
Analysis of Variance
Source DF SS MS F P
Regression 1 883880 883880 2479,45 0,000
Residual Error 53 18894 356
Total 54 902773
Modelo 2. Só com X2
The regression equation is
Volume_madeira_5anos = 34,4 + 5,25 Número_de_árvores
Predictor Coef SE Coef T P
Constant 34,42 35,45 0,97 0,336
Número_de_árvores 5,251 1,113 4,72 0,000
S = 109,528 R-Sq = 29,6% R-Sq(adj) = 28,2%
Analysis of Variance
Source DF SS MS F P
Regression 1 266963 266963 22,25 0,000
Residual Error 53 635810 11996
Total 54 902773
Modelo 3. Só com X3
The regression equation is
Volume_madeira_5anos = - 28,8 + 3,72 Idade_média_das_árvores
Predictor Coef SE Coef T P
Constant -28,75 44,76 -0,64 0,523
Idade_média_das_árvores 3,7215 0,7328 5,08 0,000
S = 107,040 R-Sq = 32,7% R-Sq(adj) = 31,5%
Analysis of Variance
Source DF SS MS F P
Regression 1 295526 295526 25,79 0,000
Residual Error 53 607248 11458
Total 54 902773
12
Modelo 4. Só com X4
The regression equation is
Volume_madeira_5anos = 39,5 + 26,1 Volume_médio_de_madeira_por_árv
Predictor Coef SE Coef T P
Constant 39,53 18,64 2,12 0,039
Volume_médio_de_madeira_por_árv 26,123 2,723 9,59 0,000
S = 78,8890 R-Sq = 63,5% R-Sq(adj) = 62,8%
Analysis of Variance
Source DF SS MS F P
Regression 1 572929 572929 92,06 0,000
Residual Error 53 329844 6223
Total 54 902773
Conclusão Passo 1-Método Forward : Das 4 regressões lineares simples (todas foram
significativas a 5%), a que apresentou maior valor de F observado (tabela de análise de
variância) e logo menor valor de probabilidade de significância relacionada ao parâmetro
da variável explicativa correspondente (e o maior valor da estatística t-Student em valor
absoluto), é a do modelo que tem apenas a variável volume de madeira do plot. Assim
essa variável é a primeira variável a entrar no modelo.
=====================================================================================
Passo 2. Ajuste das Regressões de X1 com as outras variáveis, uma a uma.
Modelo 1. Só com X1 e X2
The regression equation is
Volume_madeira_5anos = 19,3 + 1,00 Volume_de_madeira + 0,163 Número_de_árvores
Predictor Coef SE Coef T P VIF
Constant 19,288 6,150 3,14 0,003
Volume_de_madeira 1,00309 0,02422 41,41 0,000 1,406
Número_de_árvores 0,1631 0,2286 0,71 0,479 1,406
S = 18,9689 R-Sq = 97,9% R-Sq(adj) = 97,8%
Analysis of Variance
Source DF SS MS F P
Regression 2 884063 442031 1228,49 0,000
Residual Error 52 18711 360
Total 54 902773
Source DF Seq SS
Volume_de_madeira 1 883880
Número_de_árvores 1 183
================================================================================
13
Modelo 2. Só com X1 e X3
The regression equation is
Volume_madeira_5anos = 43,8 + 1,06 Volume_de_madeira
 - 0,510 Idade_média_das_árvores
Predictor Coef SE Coef T P VIF
Constant 43,849 7,406 5,92 0,000
Volume_de_madeira 1,06261 0,02387 44,52 0,000 1,646
Idade_média_das_árvores -0,5098 0,1517 -3,36 0,001 1,646
S = 17,2778 R-Sq = 98,3% R-Sq(adj) = 98,2%
Analysis of Variance
Source DF SS MS F P
Regression 2 887250 443625 1486,06 0,000
Residual Error 52 15523 299
 Lack of Fit 51 15499 304 12,40 0,222
 Pure Error 1 25 25
Total 54902773
Source DF Seq SS
Volume_de_madeira 1 883880
Idade_média_das_árvores 1 3370
==============================================================================
Modelo 3. Só com X1 e X4
The regression equation is
Volume_madeira_5anos = 22,5 + 1,01 Volume_de_madeira
 - 0,00 Volume_médio_de_madeira_por_árv
Predictor Coef SE Coef T P VIF
Constant 22,510 4,542 4,96 0,000
Volume_de_madeira 1,01247 0,03461 29,25 0,000 2,843
Volume_médio_de_madeira_por_árv -0,003 1,109 -0,00 0,998 2,843
S = 19,0614 R-Sq = 97,9% R-Sq(adj) = 97,8%
Analysis of Variance
Source DF SS MS F P
Regression 2 883880 441940 1216,33 0,000
Residual Error 52 18894 363
Total 54 902773
Source DF Seq SS
Volume_de_madeira 1 883880
Volume_médio_de_madeira_por_árv 1 0
==================================================================================
Conclusão do passo 2- Método Forward. Das 3 regressões múltiplas feitas com duas
variáveis sendo X1 sempre a primeira a entrar no modelo, a que apresentou maior F
parcial (e consequentemente menor probabilidade de significância e maior valor de t-
Student em valor absoluto), foi a do modelo com X1 e X3. Assim, X3 entra no modelo de
regressão e passa a compô-lo com a variável X1.
================================================================================
14
Passo 3. Ajuste das Regressões de X1 e X3 com as outras variáveis, uma a uma.
Modelo 1. Só com X1, X3 e X2.
The regression equation is
Volume_madeira_5anos = 41,9 + 1,06 Volume_de_madeira
 - 0,503 Idade_média_das_árvores + 0,085
Número_de_árvores
Predictor Coef SE Coef T P VIF
Constant 41,874 8,928 4,69 0,000
Volume_de_madeira 1,05706 0,02771 38,15 0,000 2,182
Idade_média_das_árvores -0,5028 0,1539 -3,27 0,002 1,667
Número_de_árvores 0,0853 0,2113 0,40 0,688 1,424
S = 17,4186 R-Sq = 98,3% R-Sq(adj) = 98,2%
Analysis of Variance
Source DF SS MS F P
Regression 3 887300 295767 974,82 0,000
Residual Error 51 15474 303
Total 54 902773
Source DF Seq SS
Volume_de_madeira 1 883880
Idade_média_das_árvores 1 3370
Número_de_árvores 1 49
Modelo 2. Só com X1, X3 e X4
The regression equation is
Volume_madeira_5anos = 43,5 + 1,06 Volume_de_madeira
 - 0,514 Idade_média_das_árvores
 + 0,31 Volume_médio_de_madeira_por_árv
Predictor Coef SE Coef T P VIF
Constant 43,547 7,537 5,78 0,000
Volume_de_madeira 1,05521 0,03413 30,92 0,000 3,307
Idade_média_das_árvores -0,5142 0,1537 -3,34 0,002 1,660
Volume_médio_de_madeira_por_árv 0,312 1,019 0,31 0,761 2,868
S = 17,4304 R-Sq = 98,3% R-Sq(adj) = 98,2%
Analysis of Variance
Source DF SS MS F P
Regression 3 887279 295760 973,47 0,000
Residual Error 51 15495 304
Total 54 902773
Source DF Seq SS
Volume_de_madeira 1 883880
Idade_média_das_árvores 1 3370
Volume_médio_de_madeira_por_árv 1 28
=============================================================================
15
Conclusão do Passo 3- Método Forward. Nenhuma das variáveis remanescentes (X2 e
X4), preenchem o requisito para entrada no modelo já que são não significativas a 5%.
Conclusão Final do Método Forward: O melhor modelo seria aquele com as variáveis
X1 e X3.
No Minitab
Para obter essa análise no Minitab basta entrar no módulo STAT, Regression e em
Stepwise. Abrindo esse módulo o usuário deverá indicar qual é a variável resposta (Y) e
quais são as variáveis explicativas candidatas a entrada no modelo (ou seja as disponíveis
na análise). Entrando em Methods o usuário as 3 opções: Stepwise, Forward e Backward.
Em cada opção o usuário deverá indicar se deseja usar o valor de nível de significância
para entrada (e saída) de variáveis ou o valor de INF (no caso Forward) e INF , OUTF
(no caso do Stepwise e Backward). Depois é só interpretar os resultados da saída
computacional. A seguir mostramos como fazer o método Forward para o exemplo dado.
16
17
Stepwise Regression: Volume_madei versus Volume_de_ma; Número_de_ár; ...
Forward selection. Alpha-to-Enter: 0,05
Response is Volume_madeira_5anos on 4 predictors, with N = 55
Step 1 2
Constant 22,50 43,85
Volume_de_madeira 1,012 1,063
T-Value 49,79 44,52
P-Value 0,000 0,000
Idade_média_das_árvores -0,51
T-Value -3,36
P-Value 0,001
S 18,9 17,3
R-Sq 97,91 98,28
R-Sq(adj) 97,87 98,21
Mallows Cp 12,9 3,5
PRESS 21668,2 18167,8
R-Sq(pred) 97,60 97,99
Parte 2. Aplicação do Método Stepwise usando 5% como nível de significância para
entrada e saída de variáveis.
Passo 1. Método Stepwise. É o mesmo feito no passo 1 do método Forward no qual a
variável X1 deu entrada no modelo.
Passo 2. (veja o passo 2 do método Forward). Das regressões com duas variáveis
explicativas que contém X1 a variável que deve dar entrada no modelo é X3.
A questão agora é: será que X1 deve ser mantida no modelo com a adição de X3? Ou
seja qual é a necessidade de manter-se X1 no modelo já que X3 foi adicionada?
Para responder essa pergunta ajusta-se o modelo de regressão no qual X3 é a primeira
variável a entrar e X1 é a segunda, e observa-se se a variável X1 continua sendo
significativa ou não. O modelo ajustado é dado a seguir.
18
The regression equation is
Volume_madeira_5anos = 43,8 - 0,510 Idade_média_das_árvores
 + 1,06 Volume_de_madeira
Predictor Coef SE Coef T P VIF
Constant 43,849 7,406 5,92 0,000
Idade_média_das_árvores -0,5098 0,1517 -3,36 0,001 1,646
Volume_de_madeira 1,06261 0,02387 44,52 0,000 1,646
S = 17,2778 R-Sq = 98,3% R-Sq(adj) = 98,2%
Analysis of Variance
Source DF SS MS F P
Regression 2 887250 443625 1486,06 0,000
Residual Error 52 15523 299
 Lack of Fit 51 15499 304 12,40 0,222
 Pure Error 1 25 25
Total 54 902773
Source DF Seq SS
Idade_média_das_árvores 1 295526
Volume_de_madeira 1 591725
==============================================================================
Conclusão do Passo 2- Método Stepwise. A variável X1 não deve ser eliminada do
modelo já que é significativa a 5% . Assim, o modelo será composto pelas variáveis X1 e
X3.
Passo 3. Método Stepwise. Ajusta-se os modelos de regressão com as variávels X1 e X3
juntamente com cada uma das variáveis remanescentes. Esses ajustes já foram feitos no
passo 3 do método Forward e nenhuma das variáveis remanescentes cumpriu o critério
para entrada no modelo.
Assim, o método Stepwise é interrompido e o modelo final indicado é o que contém as
variáveis X1 e X3.
A seguir a saída do Minitab para o Método Stepwise.
19
Stepwise Regression: Volume_madei versus Volume_de_ma; Número_de_ár; ...
 Alpha-to-Enter: 0,05 Alpha-to-Remove: 0,05
Response is Volume_madeira_5anos on 4 predictors, with N = 55
Step 1 2
Constant 22,50 43,85
Volume_de_madeira 1,012 1,063
T-Value 49,79 44,52
P-Value 0,000 0,000
Idade_média_das_árvores-0,51
T-Value -3,36
P-Value 0,001
S 18,9 17,3
R-Sq 97,91 98,28
R-Sq(adj) 97,87 98,21
Mallows Cp 12,9 3,5
PRESS 21668,2 18167,8
R-Sq(pred) 97,60 97,99
3. Parte 3. Aplicação do Método Backward usando o nível de significância de 5%
para eliminação da variável do modelo em cada passo.
Passo 1: Ajusta-se o modelo completo com todas as 4 variáveis.
The regression equation is
Volume_madeira_5anos = 23,5 + 0,932 Volume_de_madeira + 0,734 Número_de_árvores
 - 0,498 Idade_média_das_árvores
 + 3,49 Volume_médio_de_madeira_por_árv
Predictor Coef SE Coef T P VIF
Constant 23,45 14,90 1,57 0,122
Volume_de_madeira 0,93209 0,08602 10,84 0,000 21,587
Número_de_árvores 0,7343 0,4721 1,56 0,126 7,298
Idade_média_das_árvores -0,4982 0,1520 -3,28 0,002 1,667
Volume_médio_de_madeira_por_árv 3,486 2,274 1,53 0,132 14,694
S = 17,1928 R-Sq = 98,4% R-Sq(adj) = 98,2%
Analysis of Variance
Source DF SS MS F P
Regression 4 887994 221998 751,03 0,000
Residual Error 50 14780 296
Total 54 902773
Source DF Seq SS
Volume_de_madeira 1 883880
Número_de_árvores 1 183
Idade_média_das_árvores 1 3237
Volume_médio_de_madeira_por_árv 1 694
==============================================================================
20
Conclusão do Passo 1. Existem duas variáveis não significativas (número de árvores por
plot e volume médio de madeira por árvore). No entanto a variável volume médio de
madeira por árvore deverá ser a eliminada do modelo já que a probabilidade de
significância é maior que a de número de árvores por plot, e é maior que 0,05 .
=============================================================================
Passo 2. Método Backward
Ajusta-se o modelo com as variáveis remanescentes como a seguir.
The regression equation is
Volume_madeira_5anos = 41,9 + 1,06 Volume_de_madeira + 0,085 Número_de_árvores
 - 0,503 Idade_média_das_árvores
Predictor Coef SE Coef T P VIF
Constant 41,874 8,928 4,69 0,000
Volume_de_madeira 1,05706 0,02771 38,15 0,000 2,182
Número_de_árvores 0,0853 0,2113 0,40 0,688 1,424
Idade_média_das_árvores -0,5028 0,1539 -3,27 0,002 1,667
S = 17,4186 R-Sq = 98,3% R-Sq(adj) = 98,2%
Analysis of Variance
Source DF SS MS F P
Regression 3 887300 295767 974,82 0,000
Residual Error 51 15474 303
Total 54 902773
Source DF Seq SS
Volume_de_madeira 1 883880
Número_de_árvores 1 183
Idade_média_das_árvores 1 3237
===============================================================================
Conclusão do Passo 2- Método Backward. A variável número de árvores por plot deve
ser eliminada do modelo.
====================================================================================
21
Passo 3. Método Backward – Ajusta-se o modelo completo com as variáveis
remanescentes.
The regression equation is
Volume_madeira_5anos = 43,8 + 1,06 Volume_de_madeira
 - 0,510 Idade_média_das_árvores
Predictor Coef SE Coef T P VIF
Constant 43,849 7,406 5,92 0,000
Volume_de_madeira 1,06261 0,02387 44,52 0,000 1,646
Idade_média_das_árvores -0,5098 0,1517 -3,36 0,001 1,646
S = 17,2778 R-Sq = 98,3% R-Sq(adj) = 98,2%
Analysis of Variance
Source DF SS MS F P
Regression 2 887250 443625 1486,06 0,000
Residual Error 52 15523 299
 Lack of Fit 51 15499 304 12,40 0,222
 Pure Error 1 25 25
Total 54 902773
 53 rows with no replicates
Source DF Seq SS
Volume_de_madeira 1 883880
Idade_média_das_árvores 1 3370
=============================================================================
Conclusão do Passo 3. Nenhuma variável deve ser eliminada do modelo . Assim, o
método Backward indica que as variáveis que devem ser incluídas no modelo de
regressão são X1 e X3.
No Minitab basta escolher o método Backward e indicar qual valor de nível de
significância será usado para eliminação de variáveis. Para 5% tem-se a saída
computacional apresentada a segiur.
22
Stepwise Regression: Volume_madei versus Volume_de_ma; Número_de_ár; ...
Backward elimination. Alpha-to-Remove: 0,05
Response is Volume_madeira_5anos on 4 predictors, with N = 55
Step 1 2 3
Constant 23,45 41,87 43,85
Volume_de_madeira 0,932 1,057 1,063
T-Value 10,84 38,15 44,52
P-Value 0,000 0,000 0,000
Número_de_árvores 0,73 0,09
T-Value 1,56 0,40
P-Value 0,126 0,688
Idade_média_das_árvores -0,50 -0,50 -0,51
T-Value -3,28 -3,27 -3,36
P-Value 0,002 0,002 0,001
Volume_médio_de_madeira_por_árv 3,5
T-Value 1,53
P-Value 0,132
S 17,2 17,4 17,3
R-Sq 98,36 98,29 98,28
R-Sq(adj) 98,23 98,19 98,21
Mallows Cp 5,0 5,3 3,5
PRESS 19055,9 19418,5 18167,8
R-Sq(pred) 97,89 97,85 97,99
==================================================================================
Parte 4. Aplicação do Método de Todas as Regressões Possíveis (Best Sets)
Para executar o método Best Sets no Minitab basta entrar em Stat, em Regression e em
Best Sets. No entanto, nem todos os modelos são apresentados apenas os melhores em
cada passo (o usuário pode escolher para ver os 5 melhores modelos em cada passo -
regressão simples, regressão com duas variáveis, etc.). Pela saída computacional observa-
se que utilizando-se os critérios do coeficiente de determinação ajustado, Cp de Mallows
e desvio-padrão estimado dos resíduos do modelo, conjuntamente, chega-se a conclusão
que o modelo com as variáveis X1 e X3 é o mais indicado. É importante observar que
para o modelo completo, ou seja ajustado com todas as 4 variáveis o desvio-padrão
estimado dos resíduos é o mínimo. No entanto, se avaliarmos as outras medidas que
levam em consideração o número de variáveis incluidas no modelo, vemos que o modelo
completo não é o melhor já que tem um valor de coeficiente de determinação ajustado
semelhante a outros modelos com um número menor de variáveis e um valor de Cp maior
que o modelo que tem apenas as variáveis X1 e X3.
23
24
25
Saída Computacional: Best Sets
Response is Volume_madeira_5anos
 V
 o
 l
 u
 m
 e
 _
 m
 I é
 d d
 a i
 d o
 e __ d
 V N m e
 o ú é _
 l m d m
 u e i a
 m r a d
 e o _ e
 _ _ d i
 d d a r
 e e s a
 _ _ _ _
 m á á p
 a r r o
 d v v r
 e o o _
 i r r á
 r e e r
Vars R-Sq R-Sq(adj) Mallows Cp S a s s v
 1 97,9 97,9 12,9 18,881 X
 1 63,5 62,8 1064,9 78,889 X
 1 32,7 31,5 2003,3 107,04 X
 1 29,6 28,2 2100,0 109,53 X
 2 98,3 98,2 3,5 17,278 X X
 2 97,9 97,8 14,3 18,969 X X
 2 97,9 97,8 14,9 19,061 X X
 2 94,5 94,3 119,5 30,949 X X
 2 66,1 64,8 985,9 76,698 X X
 3 98,3 98,2 5,3 17,419 X X X
 3 98,3 98,2 5,4 17,430 X X X
 3 98,0 97,9 13,7 18,763 X X X
 3 94,5 94,2 120,4 31,150 X X X
 4 98,4 98,2 5,0 17,193 X X X X

Outros materiais