Baixe o app para aproveitar ainda mais
Prévia do material em texto
Modelos de Regressão Linear Múltipla – Seleção de Variáveis 1. Problema: Dado uma variável resposta (ou dependente) Y e um conjunto de variáveis regressoras (explicativas ou independentes) 1 2 k( X , X ,...,X ) relacionadas com Y, deseja-se selecionar as variáveis regressoras mais importantes e que deverão ser incluídas no modelo de regressão múltipla final a ser ajustado. Tem-se então, um problema de Seleção de Variáveis. 2. Objetivos: (2.1) Ajustar um modelo que contenha informação sobre todos os fatores mais importantes e que influenciam o comportamento da variável resposta Y, e que consequentemente influenciam a predição de valores de Y; (2.2) Ajustar um modelo “parcimonioso”, ou seja com o menor número de variáveis regressoras possível. As variâncias das predições tendem a aumentar conforme o aumento do número de variáveis incluídas no modelo de regressão. Além disso, quanto maior o número de variáveis, mais problemas pode-se ter em relação a multicolinearidade e instabilidade na estimação de parâmetros e variâncias das distribuições amostrais dos estimadores de mínimos quadrados desses. (2.3) Ajustar um modelo com informação suficiente para explicar a variabilidade da variável resposta Y , com o menor número de variáveis regressoras possível de modo a minimizar os custos envolvidos na coleta de dados e otimizar o uso do modelo de regressão para fins futuros como o de predição. 3. Critérios que podem ser utilizados na Seleção de Variáveis Alguns critérios estatísticos que podem ser utilizados na comparação (e seleção) de modelos de regressão são apresentados a seguir. (3.1) O Coeficiente de Determinação 2R Para um modelo de regressão com p+1 parâmetros (p variáveis explicativas mais o intercepto) tem-se: 2 1 1p pp SQRegressao SQRSQResidual R SQTotal SQTotal SQT = = - = - % Cuidado: 2pR é uma função crescente de p. 2 (3.2) O Coeficiente de Determinação Ajustado 2adjR Para um modelo de regressão com p+1 parâmetros (p variáveis explicativas mais o intercepto), e um tamanho de amostra igual a n, tem-se: ( )2 211 11p padj n R R n p æ ö- = - -ç ÷- -è ø Nota: 2 padj R não necessariamente cresce com o aumento do número de variáveis explicativas no modelo. Sob esse critério o melhor modelo é aquele com maior valor de 2 padj R . Pode-se fazer um gráfico do coeficiente de determinação ajustado em função do número de variáveis preditoras no modelo e avaliar o gráfico com a finalidade de identificar a melhor solução. (3.3) Quadrado Médio Residual (Estimativa da Variância dos Erros do Modelo) É definido como: 1 p p SQR QMR n p = - - Critérios de Decisão: (A) Escolher p que resulte no valor mínimo do Quadrado Médio Residual; (B) Escolher p tal que o valor do Quadrado Médio Residual seja próximo àquele obtido com o ajuste do modelo completo, isto é, de kQMR , sendo k o número total de variáveis explicativas disponíveis para ajuste do modelo de regressão, k>p (C) Escolher p na vizinhança de valores para o qual pQMR é mínimo. Pode-se fazer um gráfico do Quadrado Médio Residual em função do número de variáveis preditoras no modelo e avaliar o gráfico com a finalidade de identificar a melhor solução. 3 Observe que: ( )2 21 11 1 11 1 1 1 1 1 1 p p padj p p SQRn n R R n p n p SQT SQRn n QMR SQT n p SQT æ öæ ö æ ö- - = - - = - ç ÷ç ÷ ç ÷ ç ÷- - - -è ø è ø è ø æ öæ ö æ ö- - = - = -ç ÷ç ÷ ç ÷ç ÷- -è ø è øè ø Sendo assim, quando o quadrado médio residual pQMR é mínimo, o valor de 2 padj R é máximo. Assim, os dois critérios são equivalentes bastando utilizar-se apenas um dos dois. (3.4) Estatística pC de Mallows É definida como: 2 1pp k SQR C n ( p ) QMR = - + + sendo k o número total de variáveis explicativas disponíveis para ajuste do modelo de regressão, k>p, ou seja o modelo completo com todas as variavéis possiveis . Critério de Decisão: Escolher modelos com valores pequenos de pC Observe que: (i) 21pE[SQR ] ( n p ) es= - - (ii) 2kE[QMR ] es= Assim, o valor de pE[C ] é próximo de p+1. O comum é fazer-se um gráfico dos valores de pC versus o número de variáveis explicativas no modelo como ilustra a Figura a seguir. Busca-se os modelos que resultam em valores de pC pequenos e que não estejam muito afastados do valor esperado (p+1) representado peloa reta de referência do gráfico. Na ilustração da Figura 1, os dois modelos A e C são os melhores candidatos. No entanto,o modelo correspondente ao Cp igual a C seria o mais adequado já que tem um valor numérico menor que o de A. 4 Figura 1: Valor esperado de Cp em função de p+1 (no. de variáveis explicativas e intercepto) Exemplo de Ilustração. (3.5) Soma de Quadrados dos Erros de Predição (PRESS) e 2R de Predição O coeficiente PRESS é definido por: 2 2 2 1 1 1 1 n n n i ( i ) i ( i ) i i i ii eˆPRESS e [Y Y ] h= = = æ ö = = - =å å å ç ÷ -è ø sendo iY o valor observado de Y para a i-ésima unidade amostral e ( i )Yˆ a estimativa Y realizada para a i-ésima unidade amostral através do modelo de regressão correspondente eliminando a i-ésima unidade amostral da estimação dos parâmetros do modelo, i i iˆe Y Y= - , iYˆ a estimativa Y realizada para a i-ésima unidade amostral utilizando- seo modelo de regressão ajustado com todas as n observações amostrais (ou seja incluindo a i-ésima observação). O coeficiente de Predição 2R é definido como: 2 1pred Press R SQTotal = - 121086420 12 10 8 6 4 2 0 p+1 E( Cp ) E(Cp) vs p+1 1pC p= +*C *B *A 5 Quanto maior valor desse coeficiente melhor é a capacidade preditiva do modelo. Em geral o coeficiente de Predição 2R é apresentado em forma percentual. Nota: Observe que os métodos propostos não levam em consideração outros fatores que interferem na qualidade de ajuste do modelo como: multicolinearidade, não-normalidade dos resíduos, não-aleatoriedade dos resíduos, variância não-constante dos resíduos. Assim, são critérios apenas iniciais de comparação sendo necessário portanto, o ajuste do modelo escolhido e a observação da qualidade do modelo nessas outras premissas. 4. Métodos Computacionais para Construção de Modelos de Regressão Existem vários métodos computacionais, disponíveis nos softwares estatísticos, que auxiliam na determinação das variáveis regressoras que deveriam fazer parte do modelo de regressão. Os métodos mais comuns são: (A) Ajuste de Todas as Regressões Possíveis (Best Sets). (B) “Forward Selection” (Método Forward) (C) “Backward Selection” (Método Backward) (D) “Stepwise” Regression (E) Método de Busca Direta via Estatística t-Student A seguir descreve-se esses métodos brevemente. 4.1 Ajuste de Todas as Regressões Possíveis (Best Sets). Neste procedimento avalia-se os resultados de ajuste de todas as regressões possíveis em termos das medidas apresentadas (ou algumas delas) na seção anterior e identifica-se aquele de melhor ajuste perante essas medidas. Considerando-se k variáveis explicativas candidatas a fazer parte do modelo de regressão e mais o intercepto tem-se k+1 parâmetros no modelo completo. É necessário ajustar todas as regressões possíveis com uma única variável explicativa, com duas, três, até chegar-se ao modelo completo. No total será necessário ajustar e avaliar a qualidade de ajuste de 2k modelos, já que o número total de regressões é dado por: 0 2 k k i k i= æ ö =å ç ÷ è ø Por exemplo, se k=3 tem-se 8 modelos a serem ajustados, isto é, um modelo sómente com o intercepto; 3 modelos cada um com uma única variável explicativa e o intercepto; 3 modelos com duas variáveis explicativas distintas e mais o intercepto; um modelo comas 3 variáveis explicativas e mais o intercepto. Se k=10 tem-se um total de 1024 regressões a serem ajustadas e avaliadas!! Desta forma, é claro o fato de que esse método é impraticável em muitas situações. 6 4.2 Modelo Forward O procedimento se inicia com o ajuste do modelo tendo apenas o intercepto. A partir daí as variáveis explicativas vão sendo inseridas no modelo uma de cada vez. A regressão é ajustada com a variável inserida e o valor da estatística F parcial observado do ajuste da regressão (da Tabela de Análise de Variância), é comparado com um valor de referência chamado de F de entrada ( INF ). Se o valor observado da estatística F for maior ao valor INF , a variável entra no modelo. Nos passos subsequentes a decisão sobre a entrada ou não da variável no modelo é feita via o valor da estatística F parcial. A seguir descrevemos os passos do procedimento Forward. Passo 1. Calcula-se a correlação de Pearson de Y com cada uma das k variáveis explicativas. Identifica-se a variável de maior correlação com Y , ajusta-se o modelo de regressão linear simples para Y usando apenas essa variável como preditora e observa-se o valor da estatística F na tabela de Análise de Variância correspondente. Como a variável é a de maior correlação com Y, o valor F correspondente é o máximo dentre aqueles de todas as regressões lineares simples possíveis de serem ajustadas com as k variáveis disponíveis. Esse procedimento é equivalente a ajustar todas as k regressões lineares simples e identificar aquela cujo valor observado de F é o maior. Compara-se o valor observado de F com o valor de referência INF e mantém-se a variável no modelo se F observado for maior que INF . Suponha como ilustração que a variável 1X tenha entrado no modelo. Passo 2. Ajusta-se o modelo de regressão múltiplo contendo a variável que entrou no passo 1 (essa deve ser a primeira a entrar no modelo) e cada uma das variáveis explicativas remanescentes, uma a uma. Assim tem-se k-1 modelos a serem ajustados. Para cada modelo observa-se o valor observado de F-parcial da variável candidata a entrar, isto é: 1 1 1j j SQRegressao(X | X ) F j QMR( X ,X ) = ¹ % Calcula-se o valor máximo dos F-parciais observados. Compara-se esse valor com o de INF . Se o valor for maior que INF a variável correspondente ao valor máximo de F- parcial é adicionada ao modelo. Suponha que no passo 2 a variável de maior F-parcial seja o da variável 2X e o valor seja maior que INF . Então 2X é adicionada ao modelo. O valor de F-parcial de 2X no modelo que já tem a variável 1X é dado por: 7 2 1 1 2 SQRegressao(X | X ) F QMR( X ,X ) = % Esse procedimento vai sendo repetido e terminará quando: a variável candidata a entrada tem um valor F-parcial abaixo do INF , ou quando não houver mais variáveis candidatas para serem inseridas no modelo. Nota: (1) A implementação do método Forward pode ser feita a partir da análise das probabilidades de significância em cada passo. Ao invés de se estabelecer um valor de INF , é estabelecido um valor para o nível de significância do teste. Em cada passo utiliza-se esse nível pré-especificado como referência para comparação, sendo que a variável mais significativa (em relação ao nível de significância estabelecido) é aquela que é inserida no modelo. (2) Como as regressões em cada passo do algoritmo são realizadas mantendo-se a ordem de entrada (de cada passo), o procedimento Forward é equivalente a observar-se o valor da estatística t-Student em cada passo, correspondente a variável candidata a entrar no modelo. As variáveis com maiores valores absolutos observados da estatística t-Student são as candidatas a entrar. Observa-se a probabilidade de significância correspondente e compara-se com o nível de significância pré- estabelecido. Aquela que for mais significativa é inserida no modelo. 4.3 Método Backward Ao contrário do método Forward, o método Backward se inicia com o ajuste do modelo completo (com todas as k variáveis preditoras), e vai eliminando aquelas de menor importância uma de cada vez. Os passos do algoritmo são os seguintes: Passo 1. Ajuste o modelo com todas as k variáveis explicativas e mais o intercepto. Calcule o valor da estatística F parcial para cada uma das k variáveis como se ela fosse a última a ter entrado no modelo de regressão múltipla. Identifique o menor valor de F observado e compare com o valor de referência chamado de OUTF . Se o valor de F observado for menor que o valor OUTF , a variável correspondente é retirada do modelo. Passo 2. Ajusta-se o modelo sem a variável que foi eliminada no passo 1, ou seja com k-1 variáveis explicativas. Novamente calcula-se os valores de F-parcial para cada uma das variáveis explicativas do modelo ajustado considerando a variável como a última a dar entrada no modelo, identifica-se o valor mínimo e compara-se esse valor com o OUTF , removendo a variável da regressão caso o valor de F-parcial observado seja menor que OUTF . 8 Esse procedimento é repetido até que o menor valor de F-parcial correspondente é maior que o valor OUTF . Nota: Do mesmo modo que no método Forward, o método Backward pode ser implementado a partir da análise das probabilidades de significância em cada passo. Ao invés de se estabelecer um valor de OUTF , é estabelecido um valor para o nível de significância do teste de saída da variável. Em cada passo utiliza-se esse nível pré- especificado como referência para comparação, sendo que a variável menos significativa (em relação ao nível de significância estabelecido) é aquela que é excluida do modelo. (2) O procedimento é equivalente a observar-se o valor da estatística t-Student em cada passo, correspondente a variável candidata a sair do modelo. As variáveis com menores valores absolutos observados da estatística t-Student são as candidatas a sair. Observa-se a probabilidade de significância correspondente e compara-se com o nível de significância pré-estabelecido. Aquela que for menos significativa é excluida do modelo. 4.4 Método Stepwise Esse procedimento é uma combinação dos dois apresentados anteriormente. É uma modificação do método Forward incluindo em cada passo do algoritmo um teste para avaliar se as variáveis que já estavam inseridas no modelo de regressão (nos passos anteriores), devem permanecer no modelo a partir da entrada da variável nova. Assim tem-se dois pontos de corte: INF e OUTF . Os passos do procedimento são descritos a seguir. Passo 1. O mesmo do método Forward. Suponha como ilustração que a variável 1X tenha entrado no modelo. Passo 2. O mesmo do método Forward . Suponha que no passo 2 a variável inserida seja 2X . A partir da entrada da variável 2X testa-se a importância da manutenção da variável 1X que havia entrado no passo anterior, calculando-se o valor de F parcial de 1X dado que 2X já está no modelo, isto é, 1 2 1 2 SQRegressao(X | X ) F QMR( X ,X ) = % Se o valor de F parcial de 1X for maior que OUTF a variável 1X é mantida e formará o modelo com a variável 2X . Caso contrário, mantém-se apenas a variável 2X . 9 Passo 3. Suponha que no passo 2 a variáveis 1X e 2X tenham sido mantidas no modelo. Suponha que 3X seja a variável de maior F parcial observado, que esse valor seja maior que INF , e 3X tenha sido adicionada ao modelo. Então, será necessário testar a saída do modelo das variáveis 1X e 2X calculando os valores dos F parciais correspondentes, isto é: 1 2 3 1 2 3 SQRegressao ( X | X , X ) F QMR(X ,X ,X ) = % 2 1 3 1 2 3 SQRegressao(X | X ,X ) F QMR(X ,X ,X ) = % Os valores são comparados ao de OUTF e avalia-se quais variáveis permanecem no modelo. Esse procedimento é repetido até que não haja variável com o valor de F-parcial suficiente para entrada no modelo, ou seja quando as variáveis remanescentessão tais que o valor de F parcial é menor que INF . Nota: (1) A implementação do método Stepwise pode ser feita a partir da análise das probabilidades de significância em cada passo. Ao invés de se estabelecer um valor de INF , é estabelecido um valor para o nível de significância do teste para entrada da variável no modelo. Em cada passo utiliza-se esse nível pré-especificado como referência para comparação, sendo que a variável mais significativa (em relação ao nível de significância estabelecido) é aquela que é inserida no modelo. O teste de saída das variáveis que já estavam inseridas no modelo é feita a partir da comparação das probabilidades de significância correspondentes com o nível de significância estabelecido para a remoção de variáveis, de se estabelecer um valor de OUTF . (2) O procedimento Stepwise é equivalente a observar-se o valor da estatística t-Student em cada passo, correspondente a variável candidata a entrar no modelo. As variáveis com maiores valores absolutos observados da estatística t-Student são as candidatas a entrar. Compara-se então, os valores das probabilidades de significância correspondentes com o valor de nível de significância pré-estabelecido, sendo inserida no modelo a variável mais significativa. Para o teste de saída, o mesmo procedimento é adotado, saindo a variável que é menos significativa de acordo com o nível de signficância estabelecido para a exclusão de variáveis do modelo. 10 4.5 Método de Busca Direta via Estatística t-Student Nesse procedimento o modelo de regressão completo é ajustado. Avalia-se então, os valores da estatística t-Student do parâmetro correspondente a cada variável explicativa do modelo sendo excluídas todas as variáveis não significativas. A partir daí, todas as regressões que envolvem as variáveis não excluídas deverão ser avaliadas. Por exemplo, se k=4 variáveis e 1X e 2X são as significativas (na análise do valor de t- Student), então, deverão ser pesquisados os modelos: 1X e 2X ; 1X , 2X e 3X ; 1X , 2X e 4X e 1 2 3 4X , X , X , X . 5. Considerações Gerais sobre os Métodos de Seleção de Variáveis O método Forward é o menos indicado já que tende a construir modelos com um número maior que o necessário. Os métodos Stepwise e Backward são os preferidos mas dependem da escolha dos valores de INF e OUTF . Usados em todos os passos dos algoritmos. É comum a escolha de INF = OUTF . No entanto o uso do nível de significância como referência em cada passo, facilita a implementação dos procedimentos. O método de busca direta via estatística t-Student é o menos indicado. 6. Exemplo de Aplicação dos Métodos de Seleção de Variáveis Considere a seguinte situação: um engenheiro florestal está interesado em predizer o volume de madeira a ser obtido num período de 5 anos numa área que contém um determinado tipo de árvore. Um experimento foi então conduzido da seguinte forma: a área em consideração foi dividida plots (sub-áreas) sendo 55 selecionadas aleatoriamente para participarem do experimento. Nesse 55 plots selecionados as seguintes variáveis foram medidas (variáveis explicativas): 1X : volume de madeira no plot ( em pés cúbicos) 2X : número de árvores no plot 3X : idade média das árvores do plot (em anos) 4X : volume médio de madeira por árvore do plot, ou seja, ( 1 2X / X ). Após 5 anos o volume de madeira em cada plot foi medido novamente (em pés cúbicos). Essa variável é a considerada como variável resposta nesse problema (Y). Qual seria o modelo de regressão mais indicado para ser usado na predição da variável Y? 11 Os métodos de seleção Forward, Stepwise, Backward e Best Sets são apresentados a seguir passo a passo, assim como as correpondentes saídas computacionais do software Minitab. Parte 1. Método Forward usando como ponto de corte para entrada de variáveis o nível de significância de 5%. Modelo 1 só com X1. The regression equation is Volume_madeira_5anos = 22,5 + 1,01 Volume_de_madeira Predictor Coef SE Coef T P Constant 22,505 4,161 5,41 0,000 Volume_de_madeira 1,01238 0,02033 49,79 0,000 S = 18,8808 R-Sq = 97,9% R-Sq(adj) = 97,9% Analysis of Variance Source DF SS MS F P Regression 1 883880 883880 2479,45 0,000 Residual Error 53 18894 356 Total 54 902773 Modelo 2. Só com X2 The regression equation is Volume_madeira_5anos = 34,4 + 5,25 Número_de_árvores Predictor Coef SE Coef T P Constant 34,42 35,45 0,97 0,336 Número_de_árvores 5,251 1,113 4,72 0,000 S = 109,528 R-Sq = 29,6% R-Sq(adj) = 28,2% Analysis of Variance Source DF SS MS F P Regression 1 266963 266963 22,25 0,000 Residual Error 53 635810 11996 Total 54 902773 Modelo 3. Só com X3 The regression equation is Volume_madeira_5anos = - 28,8 + 3,72 Idade_média_das_árvores Predictor Coef SE Coef T P Constant -28,75 44,76 -0,64 0,523 Idade_média_das_árvores 3,7215 0,7328 5,08 0,000 S = 107,040 R-Sq = 32,7% R-Sq(adj) = 31,5% Analysis of Variance Source DF SS MS F P Regression 1 295526 295526 25,79 0,000 Residual Error 53 607248 11458 Total 54 902773 12 Modelo 4. Só com X4 The regression equation is Volume_madeira_5anos = 39,5 + 26,1 Volume_médio_de_madeira_por_árv Predictor Coef SE Coef T P Constant 39,53 18,64 2,12 0,039 Volume_médio_de_madeira_por_árv 26,123 2,723 9,59 0,000 S = 78,8890 R-Sq = 63,5% R-Sq(adj) = 62,8% Analysis of Variance Source DF SS MS F P Regression 1 572929 572929 92,06 0,000 Residual Error 53 329844 6223 Total 54 902773 Conclusão Passo 1-Método Forward : Das 4 regressões lineares simples (todas foram significativas a 5%), a que apresentou maior valor de F observado (tabela de análise de variância) e logo menor valor de probabilidade de significância relacionada ao parâmetro da variável explicativa correspondente (e o maior valor da estatística t-Student em valor absoluto), é a do modelo que tem apenas a variável volume de madeira do plot. Assim essa variável é a primeira variável a entrar no modelo. ===================================================================================== Passo 2. Ajuste das Regressões de X1 com as outras variáveis, uma a uma. Modelo 1. Só com X1 e X2 The regression equation is Volume_madeira_5anos = 19,3 + 1,00 Volume_de_madeira + 0,163 Número_de_árvores Predictor Coef SE Coef T P VIF Constant 19,288 6,150 3,14 0,003 Volume_de_madeira 1,00309 0,02422 41,41 0,000 1,406 Número_de_árvores 0,1631 0,2286 0,71 0,479 1,406 S = 18,9689 R-Sq = 97,9% R-Sq(adj) = 97,8% Analysis of Variance Source DF SS MS F P Regression 2 884063 442031 1228,49 0,000 Residual Error 52 18711 360 Total 54 902773 Source DF Seq SS Volume_de_madeira 1 883880 Número_de_árvores 1 183 ================================================================================ 13 Modelo 2. Só com X1 e X3 The regression equation is Volume_madeira_5anos = 43,8 + 1,06 Volume_de_madeira - 0,510 Idade_média_das_árvores Predictor Coef SE Coef T P VIF Constant 43,849 7,406 5,92 0,000 Volume_de_madeira 1,06261 0,02387 44,52 0,000 1,646 Idade_média_das_árvores -0,5098 0,1517 -3,36 0,001 1,646 S = 17,2778 R-Sq = 98,3% R-Sq(adj) = 98,2% Analysis of Variance Source DF SS MS F P Regression 2 887250 443625 1486,06 0,000 Residual Error 52 15523 299 Lack of Fit 51 15499 304 12,40 0,222 Pure Error 1 25 25 Total 54902773 Source DF Seq SS Volume_de_madeira 1 883880 Idade_média_das_árvores 1 3370 ============================================================================== Modelo 3. Só com X1 e X4 The regression equation is Volume_madeira_5anos = 22,5 + 1,01 Volume_de_madeira - 0,00 Volume_médio_de_madeira_por_árv Predictor Coef SE Coef T P VIF Constant 22,510 4,542 4,96 0,000 Volume_de_madeira 1,01247 0,03461 29,25 0,000 2,843 Volume_médio_de_madeira_por_árv -0,003 1,109 -0,00 0,998 2,843 S = 19,0614 R-Sq = 97,9% R-Sq(adj) = 97,8% Analysis of Variance Source DF SS MS F P Regression 2 883880 441940 1216,33 0,000 Residual Error 52 18894 363 Total 54 902773 Source DF Seq SS Volume_de_madeira 1 883880 Volume_médio_de_madeira_por_árv 1 0 ================================================================================== Conclusão do passo 2- Método Forward. Das 3 regressões múltiplas feitas com duas variáveis sendo X1 sempre a primeira a entrar no modelo, a que apresentou maior F parcial (e consequentemente menor probabilidade de significância e maior valor de t- Student em valor absoluto), foi a do modelo com X1 e X3. Assim, X3 entra no modelo de regressão e passa a compô-lo com a variável X1. ================================================================================ 14 Passo 3. Ajuste das Regressões de X1 e X3 com as outras variáveis, uma a uma. Modelo 1. Só com X1, X3 e X2. The regression equation is Volume_madeira_5anos = 41,9 + 1,06 Volume_de_madeira - 0,503 Idade_média_das_árvores + 0,085 Número_de_árvores Predictor Coef SE Coef T P VIF Constant 41,874 8,928 4,69 0,000 Volume_de_madeira 1,05706 0,02771 38,15 0,000 2,182 Idade_média_das_árvores -0,5028 0,1539 -3,27 0,002 1,667 Número_de_árvores 0,0853 0,2113 0,40 0,688 1,424 S = 17,4186 R-Sq = 98,3% R-Sq(adj) = 98,2% Analysis of Variance Source DF SS MS F P Regression 3 887300 295767 974,82 0,000 Residual Error 51 15474 303 Total 54 902773 Source DF Seq SS Volume_de_madeira 1 883880 Idade_média_das_árvores 1 3370 Número_de_árvores 1 49 Modelo 2. Só com X1, X3 e X4 The regression equation is Volume_madeira_5anos = 43,5 + 1,06 Volume_de_madeira - 0,514 Idade_média_das_árvores + 0,31 Volume_médio_de_madeira_por_árv Predictor Coef SE Coef T P VIF Constant 43,547 7,537 5,78 0,000 Volume_de_madeira 1,05521 0,03413 30,92 0,000 3,307 Idade_média_das_árvores -0,5142 0,1537 -3,34 0,002 1,660 Volume_médio_de_madeira_por_árv 0,312 1,019 0,31 0,761 2,868 S = 17,4304 R-Sq = 98,3% R-Sq(adj) = 98,2% Analysis of Variance Source DF SS MS F P Regression 3 887279 295760 973,47 0,000 Residual Error 51 15495 304 Total 54 902773 Source DF Seq SS Volume_de_madeira 1 883880 Idade_média_das_árvores 1 3370 Volume_médio_de_madeira_por_árv 1 28 ============================================================================= 15 Conclusão do Passo 3- Método Forward. Nenhuma das variáveis remanescentes (X2 e X4), preenchem o requisito para entrada no modelo já que são não significativas a 5%. Conclusão Final do Método Forward: O melhor modelo seria aquele com as variáveis X1 e X3. No Minitab Para obter essa análise no Minitab basta entrar no módulo STAT, Regression e em Stepwise. Abrindo esse módulo o usuário deverá indicar qual é a variável resposta (Y) e quais são as variáveis explicativas candidatas a entrada no modelo (ou seja as disponíveis na análise). Entrando em Methods o usuário as 3 opções: Stepwise, Forward e Backward. Em cada opção o usuário deverá indicar se deseja usar o valor de nível de significância para entrada (e saída) de variáveis ou o valor de INF (no caso Forward) e INF , OUTF (no caso do Stepwise e Backward). Depois é só interpretar os resultados da saída computacional. A seguir mostramos como fazer o método Forward para o exemplo dado. 16 17 Stepwise Regression: Volume_madei versus Volume_de_ma; Número_de_ár; ... Forward selection. Alpha-to-Enter: 0,05 Response is Volume_madeira_5anos on 4 predictors, with N = 55 Step 1 2 Constant 22,50 43,85 Volume_de_madeira 1,012 1,063 T-Value 49,79 44,52 P-Value 0,000 0,000 Idade_média_das_árvores -0,51 T-Value -3,36 P-Value 0,001 S 18,9 17,3 R-Sq 97,91 98,28 R-Sq(adj) 97,87 98,21 Mallows Cp 12,9 3,5 PRESS 21668,2 18167,8 R-Sq(pred) 97,60 97,99 Parte 2. Aplicação do Método Stepwise usando 5% como nível de significância para entrada e saída de variáveis. Passo 1. Método Stepwise. É o mesmo feito no passo 1 do método Forward no qual a variável X1 deu entrada no modelo. Passo 2. (veja o passo 2 do método Forward). Das regressões com duas variáveis explicativas que contém X1 a variável que deve dar entrada no modelo é X3. A questão agora é: será que X1 deve ser mantida no modelo com a adição de X3? Ou seja qual é a necessidade de manter-se X1 no modelo já que X3 foi adicionada? Para responder essa pergunta ajusta-se o modelo de regressão no qual X3 é a primeira variável a entrar e X1 é a segunda, e observa-se se a variável X1 continua sendo significativa ou não. O modelo ajustado é dado a seguir. 18 The regression equation is Volume_madeira_5anos = 43,8 - 0,510 Idade_média_das_árvores + 1,06 Volume_de_madeira Predictor Coef SE Coef T P VIF Constant 43,849 7,406 5,92 0,000 Idade_média_das_árvores -0,5098 0,1517 -3,36 0,001 1,646 Volume_de_madeira 1,06261 0,02387 44,52 0,000 1,646 S = 17,2778 R-Sq = 98,3% R-Sq(adj) = 98,2% Analysis of Variance Source DF SS MS F P Regression 2 887250 443625 1486,06 0,000 Residual Error 52 15523 299 Lack of Fit 51 15499 304 12,40 0,222 Pure Error 1 25 25 Total 54 902773 Source DF Seq SS Idade_média_das_árvores 1 295526 Volume_de_madeira 1 591725 ============================================================================== Conclusão do Passo 2- Método Stepwise. A variável X1 não deve ser eliminada do modelo já que é significativa a 5% . Assim, o modelo será composto pelas variáveis X1 e X3. Passo 3. Método Stepwise. Ajusta-se os modelos de regressão com as variávels X1 e X3 juntamente com cada uma das variáveis remanescentes. Esses ajustes já foram feitos no passo 3 do método Forward e nenhuma das variáveis remanescentes cumpriu o critério para entrada no modelo. Assim, o método Stepwise é interrompido e o modelo final indicado é o que contém as variáveis X1 e X3. A seguir a saída do Minitab para o Método Stepwise. 19 Stepwise Regression: Volume_madei versus Volume_de_ma; Número_de_ár; ... Alpha-to-Enter: 0,05 Alpha-to-Remove: 0,05 Response is Volume_madeira_5anos on 4 predictors, with N = 55 Step 1 2 Constant 22,50 43,85 Volume_de_madeira 1,012 1,063 T-Value 49,79 44,52 P-Value 0,000 0,000 Idade_média_das_árvores-0,51 T-Value -3,36 P-Value 0,001 S 18,9 17,3 R-Sq 97,91 98,28 R-Sq(adj) 97,87 98,21 Mallows Cp 12,9 3,5 PRESS 21668,2 18167,8 R-Sq(pred) 97,60 97,99 3. Parte 3. Aplicação do Método Backward usando o nível de significância de 5% para eliminação da variável do modelo em cada passo. Passo 1: Ajusta-se o modelo completo com todas as 4 variáveis. The regression equation is Volume_madeira_5anos = 23,5 + 0,932 Volume_de_madeira + 0,734 Número_de_árvores - 0,498 Idade_média_das_árvores + 3,49 Volume_médio_de_madeira_por_árv Predictor Coef SE Coef T P VIF Constant 23,45 14,90 1,57 0,122 Volume_de_madeira 0,93209 0,08602 10,84 0,000 21,587 Número_de_árvores 0,7343 0,4721 1,56 0,126 7,298 Idade_média_das_árvores -0,4982 0,1520 -3,28 0,002 1,667 Volume_médio_de_madeira_por_árv 3,486 2,274 1,53 0,132 14,694 S = 17,1928 R-Sq = 98,4% R-Sq(adj) = 98,2% Analysis of Variance Source DF SS MS F P Regression 4 887994 221998 751,03 0,000 Residual Error 50 14780 296 Total 54 902773 Source DF Seq SS Volume_de_madeira 1 883880 Número_de_árvores 1 183 Idade_média_das_árvores 1 3237 Volume_médio_de_madeira_por_árv 1 694 ============================================================================== 20 Conclusão do Passo 1. Existem duas variáveis não significativas (número de árvores por plot e volume médio de madeira por árvore). No entanto a variável volume médio de madeira por árvore deverá ser a eliminada do modelo já que a probabilidade de significância é maior que a de número de árvores por plot, e é maior que 0,05 . ============================================================================= Passo 2. Método Backward Ajusta-se o modelo com as variáveis remanescentes como a seguir. The regression equation is Volume_madeira_5anos = 41,9 + 1,06 Volume_de_madeira + 0,085 Número_de_árvores - 0,503 Idade_média_das_árvores Predictor Coef SE Coef T P VIF Constant 41,874 8,928 4,69 0,000 Volume_de_madeira 1,05706 0,02771 38,15 0,000 2,182 Número_de_árvores 0,0853 0,2113 0,40 0,688 1,424 Idade_média_das_árvores -0,5028 0,1539 -3,27 0,002 1,667 S = 17,4186 R-Sq = 98,3% R-Sq(adj) = 98,2% Analysis of Variance Source DF SS MS F P Regression 3 887300 295767 974,82 0,000 Residual Error 51 15474 303 Total 54 902773 Source DF Seq SS Volume_de_madeira 1 883880 Número_de_árvores 1 183 Idade_média_das_árvores 1 3237 =============================================================================== Conclusão do Passo 2- Método Backward. A variável número de árvores por plot deve ser eliminada do modelo. ==================================================================================== 21 Passo 3. Método Backward – Ajusta-se o modelo completo com as variáveis remanescentes. The regression equation is Volume_madeira_5anos = 43,8 + 1,06 Volume_de_madeira - 0,510 Idade_média_das_árvores Predictor Coef SE Coef T P VIF Constant 43,849 7,406 5,92 0,000 Volume_de_madeira 1,06261 0,02387 44,52 0,000 1,646 Idade_média_das_árvores -0,5098 0,1517 -3,36 0,001 1,646 S = 17,2778 R-Sq = 98,3% R-Sq(adj) = 98,2% Analysis of Variance Source DF SS MS F P Regression 2 887250 443625 1486,06 0,000 Residual Error 52 15523 299 Lack of Fit 51 15499 304 12,40 0,222 Pure Error 1 25 25 Total 54 902773 53 rows with no replicates Source DF Seq SS Volume_de_madeira 1 883880 Idade_média_das_árvores 1 3370 ============================================================================= Conclusão do Passo 3. Nenhuma variável deve ser eliminada do modelo . Assim, o método Backward indica que as variáveis que devem ser incluídas no modelo de regressão são X1 e X3. No Minitab basta escolher o método Backward e indicar qual valor de nível de significância será usado para eliminação de variáveis. Para 5% tem-se a saída computacional apresentada a segiur. 22 Stepwise Regression: Volume_madei versus Volume_de_ma; Número_de_ár; ... Backward elimination. Alpha-to-Remove: 0,05 Response is Volume_madeira_5anos on 4 predictors, with N = 55 Step 1 2 3 Constant 23,45 41,87 43,85 Volume_de_madeira 0,932 1,057 1,063 T-Value 10,84 38,15 44,52 P-Value 0,000 0,000 0,000 Número_de_árvores 0,73 0,09 T-Value 1,56 0,40 P-Value 0,126 0,688 Idade_média_das_árvores -0,50 -0,50 -0,51 T-Value -3,28 -3,27 -3,36 P-Value 0,002 0,002 0,001 Volume_médio_de_madeira_por_árv 3,5 T-Value 1,53 P-Value 0,132 S 17,2 17,4 17,3 R-Sq 98,36 98,29 98,28 R-Sq(adj) 98,23 98,19 98,21 Mallows Cp 5,0 5,3 3,5 PRESS 19055,9 19418,5 18167,8 R-Sq(pred) 97,89 97,85 97,99 ================================================================================== Parte 4. Aplicação do Método de Todas as Regressões Possíveis (Best Sets) Para executar o método Best Sets no Minitab basta entrar em Stat, em Regression e em Best Sets. No entanto, nem todos os modelos são apresentados apenas os melhores em cada passo (o usuário pode escolher para ver os 5 melhores modelos em cada passo - regressão simples, regressão com duas variáveis, etc.). Pela saída computacional observa- se que utilizando-se os critérios do coeficiente de determinação ajustado, Cp de Mallows e desvio-padrão estimado dos resíduos do modelo, conjuntamente, chega-se a conclusão que o modelo com as variáveis X1 e X3 é o mais indicado. É importante observar que para o modelo completo, ou seja ajustado com todas as 4 variáveis o desvio-padrão estimado dos resíduos é o mínimo. No entanto, se avaliarmos as outras medidas que levam em consideração o número de variáveis incluidas no modelo, vemos que o modelo completo não é o melhor já que tem um valor de coeficiente de determinação ajustado semelhante a outros modelos com um número menor de variáveis e um valor de Cp maior que o modelo que tem apenas as variáveis X1 e X3. 23 24 25 Saída Computacional: Best Sets Response is Volume_madeira_5anos V o l u m e _ m I é d d a i d o e __ d V N m e o ú é _ l m d m u e i a m r a d e o _ e _ _ d i d d a r e e s a _ _ _ _ m á á p a r r o d v v r e o o _ i r r á r e e r Vars R-Sq R-Sq(adj) Mallows Cp S a s s v 1 97,9 97,9 12,9 18,881 X 1 63,5 62,8 1064,9 78,889 X 1 32,7 31,5 2003,3 107,04 X 1 29,6 28,2 2100,0 109,53 X 2 98,3 98,2 3,5 17,278 X X 2 97,9 97,8 14,3 18,969 X X 2 97,9 97,8 14,9 19,061 X X 2 94,5 94,3 119,5 30,949 X X 2 66,1 64,8 985,9 76,698 X X 3 98,3 98,2 5,3 17,419 X X X 3 98,3 98,2 5,4 17,430 X X X 3 98,0 97,9 13,7 18,763 X X X 3 94,5 94,2 120,4 31,150 X X X 4 98,4 98,2 5,0 17,193 X X X X
Compartilhar