Baixe o app para aproveitar ainda mais
Prévia do material em texto
ISBN 978-85-98031-60-6 ANÁLISE DE REGRESSÃO APLICADA À ENGENHARIA FLORESTAL 2ª Edição Paulo Renato Schneider Paulo Sérgio Pigatto Schneider Carlos Alberto Martinelli de Souza Santa Maria - RS FACOS - UFSM 2009 Análise de regressão aplicada à Engenharia Florestal ii Endereço: Universidade Federal de Santa Maria Centro de Ciências Rurais Departamento de Ciências Florestais Campus Universitário 97105-900 Santa Maria, RS. Brasil Fone: (55) 3220 8444 E-mail: paulors@smail.ufsm.br Catalogação na fonte por Luiz Marchiotti Fernandes – CRB 10-1160 Biblioteca Setorial do Centro de Ciências Rurais da Universidade Federal de Santa Maria. Schneider, Paulo Renato S359a Análise de regressão aplicada à Engenharia Florestal / Paulo Renato Schneider, Paulo Sérgio Pigatto Schneider, Carlos Alberto Martinelli de Souza . 2. ed. rev. e ampl. – Santa Maria: FACOS, 2009. 294 p. : il. ISBN 978-85-98031-60-6 1. Engenharia Florestal 2. Estatística 3. Regressão I. Schneider, Paulo Sérgio Pigatto II. Nascimento, Carlos Alberto Martinelli de Souza II. Título. CDU: 630:519.233.5 519.233.5:630 mailto:paulors@smail.ufsm.br Análise de regressão aplicada à Engenharia Florestal iii BIOGRAFIA DOS AUTORES Paulo Renato Schneider Natural de Caibaté-RS, nascido em 14/08/48, graduado Engenheiro Florestal em 1974 na UFSM, com Mestrado em Manejo Florestal em 1978, Doutorado em Economia e Manejo Florestal pela Universität Albert-Ludwig Freiburg, Alemanha, em 1984. Ingressou na UFSM em 1975, como professor auxiliar, lecionando disciplinas ligadas aos Engenharia Florestal. Atua na graduação e pós-graduação em Engenharia Florestal. É orientador no Programa de Pós-graduação em Engenharia Florestal, do qual foi coordenador, chefe do Departamento de Ciências Florestais e coordenador de Pós-graduação da UFSM. Foi representante de área na CAPES e CNPq. É pesquisador 1B do CNPq. Paulo Sérgio Pigatto Schneider Natural de Curitiba-PR, nascido em 12/05/77, graduado em Engenheiro Florestal em 2004 na UFSM, com Mestrado em Engenharia Florestal em 2008, especialista em Manejo Florestal. Carlos Alberto Martinelli de Souza Natural de Vitória-ES, nascido em 26/06/1979, graduado em Engenheiro Florestal em 2004 na UFES, com Mestrado em Produção Vegetal em 2005, doutorando em Engenharia Florestal na especialização de Manejo Florestal na UFSM. Dedicamos esta obra a todos que colaboraram na sua re-edição, e aqueles que venham a utilizá-la. Análise de regressão aplicada à Engenharia Florestal iv APRESENTAÇÃO Este trabalho foi elaborado com o objetivo de auxiliar os profissionais florestais que desejam aprimorar seus conhecimentos em análise de regressão, tendo em vista que, a grande maioria carece de tempo para extrair essas informações de textos extensos e muitas vezes complexos. Para isso, foram definidos alguns conceitos básicos de análise de regressão, bem como, a solução de modelos matemáticos comumente encontrados na literatura especializada e amplamente utilizados na Engenharia Florestal. A seqüência do conteúdo desta obra está baseada na observação de que a maioria das pessoas tem certas dificuldades em compreender os significados e as diferentes anuâncias que dificultam o entendimento desta parte da estatística. Devido a isto, muitos profissionais resistem em utilizar este instrumento estatístico no aprimoramento das pesquisas. Então, o propósito desta obra foi dar aos profissionais da área florestal mais uma alternativa de aprimoramento nesta especialização e, também, sensibilizá-los de que regressão é um procedimento estatístico simples e de fácil compreensão. Logo, procurou-se dar um enfoque totalmente direcionado a área, com exemplos práticos e de uso corrente na Engenharia Florestal. Para isso, foi realizado uma revisão de conteúdos de obras tradicionais que abordam a análise de regressão, que se encontram citadas nas referências bibliográficas. Destacamos um agradecimento especial ao Engenheiro Florestal Thiago Augusto da Cunha, mestrando em Manejo Florestal no Programa de Pós-graduação em Engenharia Florestal na UFSM, pela sua importante contribuição na elaboração de novos exemplos práticos e na revisão desta obra. Finalmente, desejamos agradecer a todas as pessoas que colaboram nas diferentes fase de desenvolvimento desta obra, especialmene na introdução novos conteúdos e ampliação dos exemplos práticos que julgamos ser do interesse profissional. Santa Maria, novembro de 2008. Paulo Renato Schneider Análise de regressão aplicada à Engenharia Florestal v SUMÁRIO I INTRODUÇÃO ............................................................................................... 1 1.1 Tipos de regressão ..................................................................................... 1 1.1.1 Regressão linear .................................................................................. 2 1.1.1.1 Regressão linear simples ............................................................... 2 1.1.1.2 Regressão linear múltipla .............................................................. 2 1.1.2 Regressão não linear ........................................................................... 3 1.2 Interpretação dos coeficientes ..................................................................... 3 1.3 Média em movimento ................................................................................ 4 1.4 Sistema de equações normais ..................................................................... 6 1.4.1 Equações normais para modelo linear simples ...................................... 6 1.4.2 Equações normais para modelo linear múltipla ..................................... 8 1.4.3 Forma prática de obtenção do sistema de equações normais ............... 10 1.5 Modelos matemáticos de regressão ........................................................... 11 1.6 Aplicação de regressão com variáveis relacionadas ................................... 15 II ELEMENTOS DE MATRIZ ALGÉBRICA ................................................... 19 2.1 Algumas terminologias ............................................................................ 19 2.2 Operações com matrizes ........................................................................... 20 2.3 Matriz algébrica em análise de regressão .................................................. 28 2.4 Operação com matriz no SAS – PROC IML ............................................. 31 2.4.1 Composição da matriz ....................................................................... 31 2.4.2 Multiplicação por escala .................................................................... 32 2.4.3 Adição e subtração de matriz ............................................................. 32 2.4.4 Multiplicação de matriz ..................................................................... 33 2.4.6 Matriz transposta ............................................................................... 33 2.4.7 Vetor unidade .................................................................................... 34 2.4.8 Matriz diagonal ................................................................................. 34 2.4.9 Matriz identidade .............................................................................. 34 2.4.10 Matriz inversa ................................................................................. 34 2.4.11 Determiante de matriz...................................................................... 35 2.4.12 Computação de somas de coluna e linha ...........................................35 2.4.13 Computação de média de coluna e linha ........................................... 36 2.4.14 Concatenação horizontal .................................................................. 36 2.4.15 Concatenação vertical (appending) ................................................... 36 III ANÁLISE DA VARIÂNCIA ........................................................................ 37 3.1 Introdução ............................................................................................... 37 3.2 Soma de quadrados de produtos corrigidos ............................................... 40 Análise de regressão aplicada à Engenharia Florestal vi 3.2.1 Aplicação: solução de equação por Soma de Quadrados e Produtos Corrigidos (SQPC) ..................................................................................... 42 3.3 Soma de quadrados e produtos não corrigidos ........................................... 45 3.4 Regressão linear múltipla sem o termo constante ...................................... 46 3.5 Regressão linear simples com termo constante .......................................... 47 3.6 Regressão condicionada ........................................................................... 48 3.6.1 Aplicação: solução de equação condicionada ..................................... 49 3.7 Ponderação dos mínimos quadrados ......................................................... 50 3.7.1 Regressão ponderada ......................................................................... 50 3.7.2 Aplicação: solução de regressão ponderada ........................................ 54 3.8 Teste de hipótese com soma de quadrados e produtos não corrigidos ......... 56 3.9 Teste de hipótese com soma de quadrado e produto corrigido .................. 59 3.10 Teste de hipótese para B2 = B3 = 0 .......................................................... 61 3.11 Teste de hipótese em regressão ponderada .............................................. 62 3.12 Uso do teste t ......................................................................................... 64 IV COMPLEMENTOS ESTATÍSTICOS .......................................................... 67 4.1 Intervalo de Confiança ............................................................................. 67 4.1.1 Equação geral do limite de confiança ................................................. 67 4.1.2 Intervalo de confiança para os coeficientes da regressão ..................... 67 4.1.3 Intervalo de confiança para valores estimados pela regressão.............. 68 4.1.4 Aplicação para regressão linear múltipla ............................................ 69 4.1.5 Aplicação para regressão linear simples ............................................. 71 4.1.6 Intervalo de confiança para valores individuais de Y .......................... 73 4.2 Coeficiente de correlação simples ............................................................. 74 4.3 Coeficiente de correlação parcial .............................................................. 75 4.4 Coeficiente de determinação..................................................................... 76 4.4.1 Em soma de quadrados e produtos corrigidos ..................................... 77 4.4.2 Em soma de quadrados e produtos não corrigidos............................... 77 4.5 Coeficiente de determinação em percentagem ........................................... 77 4.6 Índice de correlação ................................................................................. 78 4.7 Índice de determinação............................................................................. 78 4.8 Erro puro e falta de ajuste ......................................................................... 78 4.8.1 Aplicação: erro puro e falta de ajuste ................................................. 80 V - CONDICIONANTES DA REGRESSÃO..................................................... 83 5.1 Introdução ............................................................................................... 83 5.2 Homogeneidade de Variância ................................................................... 85 5.2.1 Teste de Bartlett ................................................................................ 85 5.2.2 Teste de White .................................................................................. 87 5.2.3 Teste de Cochran ............................................................................... 87 5.3 Normalidade ............................................................................................ 88 Análise de regressão aplicada à Engenharia Florestal vii 5.3.1 Teste do 2 ........................................................................................ 90 5.3.2 Teste de Kolmogorov-Smirnov .......................................................... 92 5.3.3 Teste de Anderson-Darling ................................................................ 93 5.3.4 Teste de Cramér-von-Mises ............................................................... 94 5.3.5 Teste de Shapiro-Wilk ....................................................................... 95 5.4 Independência .......................................................................................... 96 5.4.1 Correlação em série ........................................................................... 97 5.4.2 Método da diferença sucessiva do quadrado médio............................. 98 5.4.3 Teste de Durbin-Watson .................................................................... 98 5.5 Aplicação das condicionantes de regressão .............................................. 100 5.5.1 Prova de homogeneidade de variância para volume ........................... 100 5.5.2 Prova de homogeneidade de variâncias para peso de casca verde ....... 102 5.5.3 Prova de normalidade para volume ................................................... 103 5.5.4 Prova de normalidade para peso de casca verde ................................. 104 5.5.5 Prova de independência para volume ................................................ 106 5.5.6 Prova de independência para peso de casca verde .............................. 106 5.6 Determinação das condicionantes de regressão no SAS............................ 107 5.7 Multicolinearidade .................................................................................. 110 VI EXAME DOS RESÍDUOS .......................................................................... 115 6.1 Introdução .............................................................................................. 115 6.2 Distribuição de freqüência dos resíduos (Overall Plot) ............................ 115 6.3 Ploter em função do tempo ...................................................................... 116 6.4 Ploter contra iŶ ....................................................................................... 117 6.5 Avaliação de Outlier ............................................................................... 117 6.5.1 Teste de Grubbs para detecção de outlier .......................................... 121 6.5.2 Teste de Dixon para detecção de outlier ............................................ 122 6.6 Examinando sinais dos resíduos numa seqüência no tempo ...................... 126 6.7 Medidas para contornar problemas de outlier numa regressão .................. 127 6.8 Correlação entre resíduos ........................................................................ 137 VII SELEÇÃO DE REGRESSÃO E CRITÉRIOS ESTATÍSTICOS ................. 139 7.1 Critérios para seleção de equações ........................................................... 139 7.2 Coeficiente de determinação.................................................................... 139 7.3 Erro padrão da estimativa ........................................................................ 140 7.4 Índice de Furnival ...................................................................................140 7.5 Distribuição dos resíduos ........................................................................ 141 7.6 Discrepância logarítmica ......................................................................... 142 7.7 Testes de aderência de modelos de regressão ........................................... 143 7.8 Testes de validação de modelos de regressão ........................................... 145 7.9 Valor Ponderado de escores estatísticos ................................................... 147 Análise de regressão aplicada à Engenharia Florestal viii 7.10 Unidade da equação .............................................................................. 148 VIII MODELAGEM DE REGRESSÃO .......................................................... 153 8.1 Introdução .............................................................................................. 153 8.2 Métodos de modelagem de regressão ....................................................... 154 8.3 Aplicação: procedimento de regressão stepwise ....................................... 155 IX MODELOS ESPECIAIS ............................................................................. 161 9.1 Modelos lineares logarítmicos ................................................................. 161 9.2 Regressão não linear ............................................................................... 161 9.2.1 Método de Marquardt ....................................................................... 163 9.3 Medidas de ajuste de regressão não linear ................................................ 163 9.3.1 Erro padrão da estimativa de regressão não linear.............................. 164 9.3.2 Coeficiente de determinação de regressão não linear ......................... 164 9.3.3 Comparação do ajuste de duas equações usando o teste F .................. 166 9.3.4 Aplicação: Solução de modelos não lineares ..................................... 168 9.4 Funções splines ....................................................................................... 179 9.4.1 Spline 1: Função spline cúbica ......................................................... 180 9.4.2 Spline 2: Função spline do quinto grau ............................................. 181 9.4.3 Spline 3: Função spline “+” .............................................................. 182 9.4.4 Spline 4: Polinômio “Piecewise” ...................................................... 182 9.5 Funções de densidade probabilística ........................................................ 187 9.6 Modelos de regressão mistos ................................................................... 199 9.6.1 Modelos de regressão lineares de efeito misto ................................... 200 9.6.2 Modelos de regressão não lineares de efeito misto ............................. 208 X REGRESSÃO COM VARIÁVEL DUMMY ................................................. 215 10.1 Introdução............................................................................................. 215 10.2 Modelo geral de regressão com variável Dummy ................................... 218 10.3 Teste de identidade da regressão linear .................................................. 219 10.3.1 Grupos individuais e regressão máximo .......................................... 221 10.3.2 Análise preliminar da regressão máxima ......................................... 226 10.3.3 Teste de paralelismo das regressões individuais............................... 229 10.3.4 Teste de identidade de regressões paralelas ..................................... 234 10.3.5 Teste de eqüidistância entre regressões paralelas ............................. 237 10.4 Aplicação para volume de árvores ......................................................... 240 10.4.1 Estimativa das regressões individuais .............................................. 240 10.4.2 Teste de paralelismo das regressões funcionais ................................ 244 10.4.3 Teste de identidade entre regressões paralelas ................................. 247 10.4.5 Solução de equações de regressão com variável dummy no SAS ..... 249 XI ANÁLISE DE COVARIÂNCIA .................................................................. 255 11.1 Análise de covariância pelo método de Snedecor ................................... 256 11.2 Análise de covariância com variável Dummy......................................... 260 Análise de regressão aplicada à Engenharia Florestal ix 11.2.1 Aplicação: uso da variável Dummy em análise de covariância ......... 262 11.2.2 Covariância simples pelo método de Snedecor - solução no SAS ..... 267 11.2.3 Covariância com variável Dummy - solução no SAS ....................... 270 XII ANÁLISE DISCRIMINANTE ................................................................... 275 XIII BIBLIOGRAFIA CONSULTADA ........................................................... 281 Análise de regressão aplicada à Engenharia Florestal 1 I INTRODUÇÃO A análise de regressão tem sido usada com ênfase na solução de grande parte dos problemas florestais, especialmente quando se pretende obter estimativas de parâmetros da floresta, utilizando-se de relações biométricas que possibilitam obter valores estimados de forma indireta através de equações de regressão. Existem muitos problemas florestais que são solucionados com o objetivo de reduzir tempo e custo na coleta de dados utilizando-se de regressão, que é capaz de permitir estimativas com boa precisão e eficiência. Para este mesmo propósito é realizado a modelagem de regressão linear, que se constitui num procedimento estatístico para ajustar um modelo matemático qualquer que envolve várias variáveis que se relacionam mutuamente. Para isso, avalia-se a equação ajustada através de vários testes estatísticos, permitindo-se conseguir uma equação com a melhor precisão possível. A escolha das variáveis para um modelo de regressão deve ser feita a partir da correlação existente entre as mesmas. Assim, a variável dependente é equacionada como função das variáveis correlacionadas e a precisão das estimativas do modelo depende do grau de associação entre as variáveis. A mais comum aplicação de regressão visa os seguintes objetivos: a) Determinar uma função matemática, que possibilita descrever a relação entre uma variável dependente e uma ou mais variáveis independentes; b) Testar hipóteses sobre a relação entre a variável dependente e uma ou mais variáveis independentes. 1.1 Tipos de regressão As regressões podem ser classificadas em linear e não linear, sendo que as lineares podem ser simples ou múltiplas. Análise de regressão aplicada à Engenharia Florestal 2 1.1.1 Regressão linear A regressão linear constitui-se de um recurso estatístico da maior importância biométrica, pois permite explicar as relações existentes entre variáveis dendrométricas como: diâmetro, altura, volume, área basal, idade, etc. Uma regressão linear apresenta as seguintes propriedades características: a) O ponto médio situa-se sobre a linha de regressão, y,xP ; b) A soma dos desvios da regressão é nula, ou seja, 0, yx ; c) A soma dos quadrados dos desvios é mínima, mínimoy,x 2 . Todas as equações lineares podem ser solucionadas pelo método dos mínimos quadrados ordinários. Uma regressão é dita linear quando os coeficientes da equação apresentam-se na forma aditiva ou subtrativa e elevada ao expoente unitário, podendo ser expressa por: 1.1.1.1 Regressão linear simples Uma regressão é dita linear simples quando no modelo a variável dependente é explicado por uma única variável independente, ou seja: iii XY 10 Sendo: Yi = variável dependente; Xi = variável independente; 10 β,β coeficientes da regressão; i = erro estocástico. 1.1.1.2 Regressão linear múltipla Uma regressão é dita linear múltipla quandono modelo a variável dependente é explicada por duas ou mais variáveis independentes, ou seja: Análise de regressão aplicada à Engenharia Florestal 3 Y f X X X Xn 1 2 3, , , , . Como exemplo, pode-se citar o modelo: immi XXY ...110 1.1.2 Regressão não linear Uma regressão é considerada não linear quando os coeficientes do modelo encontram-se na forma de produto ou fração e elevados ao expoente não unitário. Como exemplo, pode-se citar os modelos: i X i iY 10. i XX i iiY 210 .. Os modelos não lineares não têm solução pelo método dos mínimos quadrados ordinários, a não ser que possam a ser linearizadas, aplicando propriedades logarítmicas, como por exemplo: 1.0 ii XY i10i lnXββlnY Então, esta equação passa a ter solução pelo método dos mínimos quadrados ordinários. 1.2 Interpretação dos coeficientes Partindo-se de um modelo linear simples do tipo: iii XY 10 O coeficiente 0 é definido como o intercepto e 1 como coeficiente angular, que dá a inclinação da reta ou curva, como mostra a Figura 01. COEF EM PRODUTO Análise de regressão aplicada à Engenharia Florestal 4 0 1 2 3 4 5 6 0 1 2 3 4 5 6 X Y FIGURA 01: Representação de uma reta que passa pelo ponto médio YXP , 1.3 Média em movimento Para se aplicar o conceito de média em movimento é necessário definir o modelo linear aditivo: iri εMY Sendo: Yi = cada observação da variável Y; Mr = média em movimento da variável Y obtido de uma equação matemática; i = desvios de Yi em relação à Mr, ou seja Yi - Mr. Considere como representação deste conceito um modelo simples, ou seja a equação abaixo, que se encontra representado na Figura 02. iεXββY i10i YXP , Análise de regressão aplicada à Engenharia Florestal 5 FIGURA 02: Representação da média em movimento (Mr) de uma equação linear simples. Assim, fixando-se pontos na variável X pode-se admitir que exista um grande número de observações para Y que se dispersam segundo uma tendência de distribuição normal. Como se pode observar na equação proposta: XBBM r 10 A reta que passa pelos pontos médios das diversas distribuições que descrevem a relação Y e X, que representa uma média em movimento Mr, no presente caso, segue o percurso descrito pela equação da reta. Se esta relação entre Y e X for mais bem representada por uma parábola, então a equação proposta será: 2 22110r XβXββM Neste caso, tem-se o modelo: i 2 22110i εXβXββY Análise de regressão aplicada à Engenharia Florestal 6 1.4 Sistema de equações normais Partindo-se do modelo linear aditivo, tem-se que: iri εMY ou rMYε ii Tomando-se o somatório dos desvios, tem-se que: n 1i ri n 1i i 0MYε SOMATÓRIO DOS DESVIOS=0 Como o somatório é nulo, então se deve tomar o quadrado dos desvios para se ter solução, como: n 1i n 1i 2 ri 2 i MYε mínimo QUADRADO DOS DESVIOS=MÍNIMO 1.4.1 Equações normais para modelo linear simples De uma equação linear simples tem-se que: n i n i iii XYS 1 1 2 10 2 Resolvendo-se o quadrado da expressão, tem-se que: )XB2YB2YXB2BXBB(YεS i1i0ii10 2 i 2 1 2 0 n 1i 2 i n 1i 2 i Para que essa expressão seja verdadeira é necessário que as derivadas parciais, relativas aos parâmetros B0 e B1 sejam nulas. Assim, a diferencial de S em relação a B0 é dada por: Análise de regressão aplicada à Engenharia Florestal 7 )222( 1 1 0 0 ii n i YXBB dB ds )(2 1 1 0 0 ii n i YXBB dB ds Multiplicando-se esta expressão por -1 e dividindo-a por 2, tem-se que: )( 1 1 0 0 i n i XBBY dB ds A diferencial de S em relação a B1 resulta: )222( 0 2 1 1 1 iiii n i XYXBXB dB ds Multiplicando-se esta expressão por -1 e dividindo por 2, tem-se que: )( 10 11 i n i ii XBBYX dB ds As estimativas de B0 e B1 são obtidas igualando-se a zero as derivadas parciais, ou seja: 0)( 10 1 i n i i XY 0)( 10 1 i n i ii XYX ou 0XβnβY n 1i i10 n 1i i 0XβXβYX n 1i 2 i1 n 1i i0i n 1i i )(2 01 11 ii n i i YBXBX dB ds Análise de regressão aplicada à Engenharia Florestal 8 Portanto, o sistema de equações normais passa a ser composto por: n 1i ii n 1i 2 11 n 1i i0 n 1i i n 1i i10 XYXβXβ YXβNβ Sendo: N = número de observações, representado o . 1.4.2 Equações normais para modelo linear múltipla Na condição de que uma variável dependente for explicada por duas ou mais variáveis independentes, expressa numa equação da forma: Y f X X X Xi n 1 2 3, , Sendo, então expressa por: iri MY Considerando-se o modelo com duas variáveis independentes, tem-se que: Mr = B0 + B1 X1 + B2 X2 Então, tomando-se a equação: Yi = B0 + B1 X1 + B2X2 + Ei Tem-se que: rii MYε 0)M(Yε r n 1i i n 1i i .positivo e mínimo)M(Yε n 1i 2 ri n 1i 2 i ou seja, 2 22110 n 1i i n 1i 2 i )XBXBB(YεS Resolvendo-se o quadrado da expressão, tem-se que: Análise de regressão aplicada à Engenharia Florestal 9 2211220 11022i11i0i 2 2 2 2 2 1 2 1 2 0 n 1i 2 i n 1i 2 i XBX2BXB2B XB2BXB2YXB2YB2YXBXBB(YE A derivada parcial de S em relação a B0 é dada por: dS dB B Y B X B Xi i n i n i n i n 0 0 1 1 111 2 2 1 2 2 2 2 0 Dividindo-se esta expressão por 2, tem-se que: n 1i n 1i 2211 n 1i 0 n 1i i XBXBBY A derivada parcial de S em relação a B1 resulta: 0 2 X n 1i 1 X 2 B2 n 1i 1 X 0 B2 n 1i 1 X i Y2 n 1i 2 1 X 1 B2 1 dB dS Dividindo-se esta expressão por 2, tem-se que: Y X B X B X B X Xi i n i n i n i n 1 1 0 1 1 1 1 2 1 2 1 1 2 E a derivada parcial de S em relação a B2 é dada por: n i n i n i i n i XXBXBXYXB dB dS 1 211 1 20 1 2 1 2 22 2 02222 n i n i n i n i i XBXXBXBXY 1 2 22 1 21 1 1202 1 De forma genérica, estas derivadas parciais podem ser obtidas através de: n i ji i XXBXBBY dBj dS 1 22110 )(.)( Portanto, o sistema de equações normais é dado por: Y B N B X B Xi i n i n i n 1 0 1 1 2 2 11 Análise de regressão aplicada à Engenharia Florestal 10 Y X B X B X B X Xi i n i n i n i n 1 1 0 1 1 1 1 2 1 2 1 1 2 n i n i n i n i i XBXXBXBXY 1 2 22 1 21 1 1202 1 1.4.3 Forma prática de obtenção do sistema de equações normais Uma maneira prática de se montar um sistema de equações normais de uma equação do tipo: 22110 XXYi a) Procede-se o somatório de 1 até n de todas as variáveis correspondente aos dados, tem se que: Y B B X B Xi i n i n i n i n 1 0 1 1 1 1 2 2 1 (1) b) Multiplicam-se os termos da equação (1) por X1 Y X B X B X B X Xi i n i n i n i n 1 1 0 1 1 1 1 2 2 1 1 1 2 c) Multiplicam-se todos os termos da equação (1) por X2 Y X B X B X X B Xi i n i n i n i n 1 2 0 2 1 1 2 2 11 2 2 1 Portanto, o sistema de equações normais é expresso por: n i n i n i n i i n i n i n i n i i n i n i n i i XBXXBXBXY XXBXBXBXY XBXBNBY 1 2 22 1 21 1 1202 1 2 1 12 1 2 11 1 101 1 1 1 22110 1Análise de regressão aplicada à Engenharia Florestal 11 1.5 Modelos matemáticos de regressão Partindo-se do modelo linear genérico expresso por: kk XXXY ...22110 Deste modelo linear genérico, por exemplo, pode-se definir uma equação expresso por uma parábola: 2 21110 XXY Esta equação pode originar dois tipos de curvas, conforme a Figura 03. Y Y ou X X FIGURA 03: Curvas descritas por um polinômio do 2o grau. Outro exemplo, quando se ajusta um modelo hiperbólico do tipo: 1/X.ββY 10 A forma da curva é ilustrada na Figura 04. Y Y B = (-) B = (+) X X FIGURA 04: Representação da hipérbole. Análise de regressão aplicada à Engenharia Florestal 12 Uma expressão exponencial pode ser representada pela função: X 10.ββY A forma da curva exponencial desta operação é ilustrada na Figura 05. Y Y ou X X FIGURA 05: Curva exponencial. Estas curvas são determinadas através desta equação, cujos coeficientes são obtidos pelo método dos mínimos quadrados ordinários através da regressão linearizada, expressa por: 10 βlnX.βYln Por outro lado, existem funções que não podem ser transformadas para um modelo linear, como por exemplo: X Y 10 Assim, como a função: 2)( 10 XY Estas funções devem ser ajustadas na forma não linear, utilizando um programa estatístico, como por exemplo, um método interativo para estimação dos coeficientes. Análise de regressão aplicada à Engenharia Florestal 13 Alguns casos específicos exigem o estudo ou aplicação de modelos derivados de princípios básicos, como por exemplo: a) O peso específico tem relação inversa com a concentração de auxina por unidade de área do câmbio (C) e diretamente proporcional à distância (T) do ápice. Este efeito é aditivo o que resulta um modelo do tipo: DT C 1 BAS Sendo: A , B e D = coeficientes. b) A forma parcial do tronco de uma árvore é aproximadamente uma parábola, assim o diâmetro do fuste (DT) a uma distância (T) do ápice pode ser representado por: TG.DT Sendo: G = constante ou coeficiente. c) A concentração de auxina pode variar inversamente com a área do câmbio e conseqüentemente com o diâmetro, então se tem que: C K DT 1 ou C K G T Sendo: K = constante ou coeficiente. Esse raciocínio conduz a definição de um modelo de regressão genérico do tipo: ).(G T K B DTAS Em termos de modelo linear genérico, tem-se que: 22110 XBXBBS Sendo: X1 = T e X2 = (G.√T) Análise de regressão aplicada à Engenharia Florestal 14 Em muitos casos a variável Yi pode ser uma expressão linear de X1. No entanto, introduzindo-se X2 no modelo deve-se considerar que mudanças em X2 produzem resultados em uma série de espaços paralelos iguais para uma relação de Y com X1, como mostra a Figura 06. Níveis de X2 10 15 20 25 30 35 40 45 5 6 7 8 9 10 X Y 1 2 3 4 FIGURA 06: Relação de Y como uma função de X1 e X2. Isto sugestiona que no modelo: Y = A + BX1, o coeficiente angular (B) permanece igual, mas o valor do intercepto de Y é uma função linear de X2, sendo dado por: A = A’ + B’X2. Então, substituindo-se A na relação entre Y e X1 , tem-se que: Y A B X BX 2 1 Ou, no modelo genérico, tem-se que: 22110 XXY Análise de regressão aplicada à Engenharia Florestal 15 Neste caso, observa-se que os efeitos de X1 e X2 são aditivos. Por outro lado, no caso de A permanecer constante, mas o coeficiente angular mudar linearmente (B=A’+B’X2) com mudanças de X2, tem-se o modelo: Y A A B X X Y A A X B X X Y B B X B X X X X 2 1 1 1 2 0 1 1 2 2 1 2 1.6 Aplicação de regressão com variáveis relacionadas Considerando-se os dados da Tabela 01 determina-se a relação de Y e X1 para vários níveis de X2. TABELA 01: Dados observados das variáveis Y X1 X2 Nível A 10 12 12 2 6,8776 4 1 7 3 3,4081 13 14 20 1 8,100 4 4 9 3 3,4081 1 1 2 4 1,7693 10 16 13 2 6,8726 8 8 10 2 6,8776 10 6 19 1 8,100 3 4 1 4 1,7693 4 12 3 4 1,7693 9 2 17 1 8,100 7 14 5 3 3,4081 5 8 8 3 3,4081 9 4 15 1 8,100 9 15 11 2 6,8776 8 6 14 2 6,8776 3 8 4 4 1,7693 12 14 18 1 8,100 3 16 1 4 1,7693 7 16 7 3 3,4081 Análise de regressão aplicada à Engenharia Florestal 16 Para os cálculos, os níveis de X2 foram classificados em: 51 )4 105 )3 1510 )2 2015 )1 2 2 2 2 X X X X A solução do problema passa pelos seguintes cálculos: a) Utilizando-se o modelo: 110 XββY Sendo os coeficientes igual a: β0 = 4,707077; β1 = 0,247836; r = 0,39. b) Determinando-se os coeficientes do modelo para todos os níveis, com a operação: 110 XββY (1) Os coeficientes para todos os níveis são apresentados na Tabela 02. TABELA 02: Parâmetros da equação da reta por níveis Nível 0β 1β R 1 8,1 0,3125 0,97 2 6,8776 0,1861 0,81 3 3,4081 0,2316 0,97 4 1,7693 0,1257 0,69 c) Com os coeficientes A dos níveis, relacionados a todos os valores de X2, obtém-se a equação: A = A’ + B’X2 (2) Sendo os coeficientes igual a: A’ = 1,0462; B’ = 0,4074; r = 0,95. d) Substituindo-se a equação 2 na 1, tem-se uma nova equação: Y = A’ + B’X2 + BX1 ou seja: Y = 1,04620 + 0,4074 X2 + 0,247836 X1 (3) Análise de regressão aplicada à Engenharia Florestal 17 Níveis de X2 0 2 4 6 8 10 12 14 0 5 10 15 X1 Y 20 15 10 5 e) Com a equação 3 pode-se gerar os valores de Y para os níveis, conforme mostra a Tabela 03. TABELA 03: Valores estimados de Y por níveis Nível X2 A X1 1 5 10 15 1 20 9,1942 9,4420 10,4334 11,6725 12,9117 2 15 7,1572 7,4050 8,3964 9,6355 10,8747 3 10 5,1202 5,3680 6,3594 7,5985 8,8377 4 5 3,0832 3,3310 4,3221 5,5616 6,8007 Os resultados da Tabela 03, colocados num gráfico mostram as tendências e a diferença entre os níveis de 1 a 5, como pode ser observado na Figura 07. FIGURA 07: Estimativas de Y em função de X1 com níveis de X2 Análise de regressão aplicada à Engenharia Florestal 18 Análise de regressão aplicada à Engenharia Florestal 19 II ELEMENTOS DE MATRIZ ALGÉBRICA 2.1 Algumas terminologias a) Matriz quadrada: é a que possui o número de linhas (i) igual ao número de colunas (j), sendo a diagonal caracterizada de um canto ao outro da matriz. Os números bidimensionais ou letras em uma matriz são referidos como elementos. Assim, a representação genérica de uma matriz é expressa por: a a a a a a a a a a a a a a a a mn m3m21 3n 333231 2n 232221 1n 131211 m ijaouA Esta representa uma matriz de dimensão “m” por “n” (m x n). Ela é simétrica quando se repetem os valores na diagonal, como nos exemplos: A B 3 1 1 3 1 3 1 3 1 3 1 3 3 b) Matriz identidade: é obtida quando os elementos da diagonal principalforem 1 e o restante 0 (zero) sendo simbolizada pela letra “I”, como no exemplo: I = 1 0 0 0 1 0 0 0 1 c) Matriz transposta: é a matriz formada pela rotação das linhas e colunas, assim linhas passam a ser colunas e colunas passam a ser linhas na nova matriz. Análise de regressão aplicada à Engenharia Florestal 20 Uma matriz transposta pode ser do tipo: 52 75 57 25 TAA A matriz transposta (A) é simbolizada por (A)t. 2.2 Operações com matrizes a) Adição de matrizes: duas matrizes de igual dimensão podem ser adicionadas, somando-se os elementos correspondentes, como no exemplo: 5 7 2 4 + 3 1 2 4 = 7 3 9 9 b) Subtração de matrizes: duas matrizes de igual dimensão podem ser subtraídas de outra, diminuindo-se os elementos correspondentes da matriz, como no exemplo: 4 2 7 5 - 3 1 2 4 = 1 1 5 1 c) Multiplicação de matrizes: duas matrizes somente podem ser multiplicadas se o número de colunas da primeira matriz for igual ao número de linhas da segunda. Se A é uma matriz de (4 x 3) e B uma matriz de (3 x 2), então C será uma matriz de (4 x 2), sendo possíveis de multiplicação. A representação matemática genérica da multiplicação de matrizes é dada por: n 1k kjikij b . aC Análise de regressão aplicada à Engenharia Florestal 21 O seguinte exemplo explica esse caso: 25 17 34 31 = (1x7)+(3x6) (1x2)+(3x5) (4x7)+(1x6) )24()51( = 7 2 6 5 x 1 3 4 1 xx d) Determinante ou menor complementar: o determinante de uma matriz pode ser obtido pelo método de Sarrus, Jordan ou Cramer, para matrizes com dimensão de (2 x 2). Método de Cramer: o processo consiste em obter o valor do determinante da matriz principal e de cada coeficiente, posteriormente, obtêm-se cada coeficiente dividindo-se o determinante de cada coeficiente pelo determinante da matriz principal. Então, o determinante é obtido pela diferença da multiplicação cruzada dos elementos da matriz. Aplicação: Considerando a equação e o sistema de equações normais respectivo: Y = B0 + B1X 10 10 31 = 17 4 13 O determinante principal é obtido por: p = 10 10 31 4 = 4x31 - 10x10 = 24 O determinante de B0 é obtido por: B0 = 10 17 31 13 = 13x31 - 17x10 = 233 B0 = 233 24 = 9,70833 Análise de regressão aplicada à Engenharia Florestal 22 E, o determinante de B1 é obtido por: B1 = 13 17 4 10 = 4x17 - 10x13 = -62 B1 = 24 62- = -2,58333 Método de Sarrus: usado para determinação do determinante de matrizes maiores. A solução dos coeficientes pode ser obtida, dividindo-se o determinante da matriz dos coeficientes pelo determinante da matriz principal. Aplicação: Considerando a equação: 332211 XXXY 182 28 53 28 172 19 - 53 19 460 = 448 256 226 O determinante da matriz principal é obtido por: p = 182 28 53 28 172 19 - 53 19 460 p = (182x172x460)+(28x19x-53)+(28x19x-53)-(-53x172x-53)- -(19x19x182)-(28x28x460) = 13.433.958 O determinante da matriz de B1 é obtido por: B1 = - 256 172 19 - 226 19 460 448 28 53 B1 = 36.658.656 O determinante da matriz de B2 é obtido por: Análise de regressão aplicada à Engenharia Florestal 23 B2 = - 28 - 256 19 - 53 - 226 460 182 448 53 B2 = -25.817.700 O determinante da matriz de B3 é obtido por: B3 = 226- 19 53- 256- 172 28 484 82 821 B3 = -1.310.064 Então, o valor dos coeficientes é o seguinte: 7290,2 13.433.958 36.658.656 B1 9218,1 13.433.958 25.817.700- B2 0975,0 13.433.958 1.310.064- B3 Cofator ou complemento algébrico (A’): os elementos Aij da matriz quadrada A é o produto do menor complementar ou determinante: (ij) por (-1)i+j Para isso, usa-se a fórmula genérica, expressa por: Aij = (-1)i+j. ij Matriz de cofatores (A’) é obtida substituindo-se cada elemento da matriz quadrada pelo seu cofator. Sendo dado à matriz A, a de cofatores será dada por: Análise de regressão aplicada à Engenharia Florestal 24 EXCLUI A LINHA E COLUNA DO ELEMENTO QUE QUER ACHAR O COFATOR E FAZER O DETERMINANTE A = a a a a a a a a a a a a a a a a mn m3m21 3n 333231 2n 232221 1n 131211 m A’ = A A A A A A A A A A A A A A A A 12 13 1n 22 23 2n 32 33 3n m2 m3 mn 11 21 31 1m Aplicação: Considerando a matriz A: A = 1 1 2 5 2 4 7 5 1 Os cofatores são os seguintes: A11 1 1 1 5 2 7 5 1 25 14 11 .( ) 2810.1 54 22 1 21 12 A A13 1 31 2 5 4 7 1 14 20 6 ( ) . A21 2 1 1 1 1 7 5 1 5 7 2 A22 2 2 1 1 1 4 5 1 5 4 1 A23 2 3 1 1 1 4 7 1 7 4 3 Análise de regressão aplicada à Engenharia Florestal 25 A31 3 1 1 1 1 5 2 1 2 5 3 A32 3 2 1 1 1 2 2 1 2 2 0 A33 3 3 1 1 1 2 5 1 5 2 3 Então, a matriz de cofatores (A’) é: A' 11 2 6 2 1 3 3 0 3 Matriz adjunta A : a matriz adjunta é a transposta da matriz de cofatores sendo dada pela fórmula: A A t Aplicação: A partir da matriz A’ obtém-se a matriz A adjunta 336 012 3211 303 312 6211 t A = A Matriz inversa: para que uma matriz tenha inversa é necessário que o seu determinante não seja nulo, sendo representada pelo símbolo: 0ΔA A #1 Corolário: Se A é uma matriz inversível a sua inversa é dada pela expressão: A A A 1 Análise de regressão aplicada à Engenharia Florestal 26 Sendo: A = matriz adjunta que é dada pela transposta da matriz de cofatores A A t . O inverso da matriz quadrada A é uma matriz chamada A inversa, sendo simbolizada por 1A . O produto da matriz principal com a sua inversa é uma matriz identidade expressa por: In.AA 1 O produto da matriz inversa com a principal resulta numa matriz identidade: In 100 010 001 350 241 121 255 133 012 A.A 1 Uma matriz quadrada A de ordem n se diz irreversível se existir uma matriz B, tal que: AB = BA = In. Propriedades: a) Se A é uma matriz inversível então a sua inversa é única. b) Se uma matriz A possui inversa A-1 então a inversa de A-1 é única e (A-1)-1 = A. c) Se A e B são matrizes inversíveis o produto AB também o é e (AB)-1= B-1.A-1 d) Nem toda a matriz possui inversa. Aplicação: Considerando como exemplo, a inversa da matriz A é: Análise de regressão aplicada à Engenharia Florestal 27 255 133 012 350 241 121 1AA Solução:* Determinante principal: A 1 2 1 1 4 2 0 5 3 A 1 4 3 1 5 1 2 2 0 0 4 1 1 2 3 5 2 1 A 12 5 0 0 6 10 A 17 16 1 * Matriz de cofatores: A A A A A A ? 11 1 1 12 1 2 13 1 3 21 2 1 22 2 2 1 4 2 5 3 1 12 10 2 1 1 2 0 3 1 3 0 3 1 1 4 0 5 1 5 0 5 1 2 1 5 3 1 6 5 1 1 1 1 0 3 1 3 0 3 5051 50 21 1 32 23 A 0441 24 12 1 13 31 A Análise de regressão aplicada à Engenharia Florestal 28 1121 21 11 1 23 32 A 2241 41 21 1 33 33 A 210 531 532 'A * Matriz adjunta: A A A t t ' 2 3 5 1 3 5 0 1 2 2 1 0 3 3 1 5 5 2 *Matriz inversa: ΔA A A 1 255 133 012 255 133 012 . 1 1 1 1 A A 2.3 Matriz algébrica em análise de regressão Para ilustrar, considere um sistema de equações normais para o ajuste de uma equação linear de Y com X1 e X2, sem termo constante, dada por: Análise de regressão aplicada à Engenharia Florestal 29 2211 XXY O sistema de equações normais é então: YXBXBXX YXBXXBX 22 2 2121 12211 2 1 ˆˆ ˆˆ ou na forma simplificada: a B a B R a B a B R 11 1 12 2 1 21 1 22 2 2 Fazendo a multiplicação destas matrizes, podemos escrever que: a a a a B B R R 11 12 21 22 1 2 1 2 ou seja: A B R. Sendo: A = matriz das somas e somas de quadrado de produtos; B= matriz de coeficientes a serem estimados; R = matriz das somas a direita do sinal de igualdade do sistema de equações. Como se pretende a estimativa dos coeficientes, deve-se isolar a matriz B que passa a ser igual ao inverso da matriz A-1 multiplicado pela matriz R, que é representada por: .B A R 1 Sendo os elementos da matriz inversa representado por Cij o sistema de equação equivalente é: B B C C C C R R 1 2 11 12 21 22 1 2 Efetuando-se a multiplicação dos elementos das matrizes, pode-se escrever que: Análise de regressão aplicada à Engenharia Florestal 30 B B C R C R C R C R 1 2 11 1 12 2 21 1 22 2 A fórmula geral para obtenção dos coeficientes é expressa por: Bj C Rji i k j 1 Aplicação: Considerando um simples exemplo numérico, calcular os coeficientes: 2 2 8 2 10 16 1 2 1 2 B B B B Na forma matricial as equações normais são: 2 2 2 10 8 16 1 2 B B Fazendo-se .B A R 1 , tem-se: * Matriz cofatores: A= ? 221 10101 21 12 11 11 A A 221 221 22 22 31 21 A A A' 10 2 2 2 *Matriz adjunta: tAA ' Análise de regressão aplicada à Engenharia Florestal 31 22 210 22 210 t A *Determinante principal: A 2 2 2 10 16 *Matriz inversa: ΔA A A 1 125,0125,0 125,0625,0 8 1 8 1 8 1 8 5 16 2 16 2 16 2 16 10 22 210 16 11A *Coeficientes B j: 16 8 8 1 8 1 8 1 8 5 ˆ ˆ 2 1 x B B 0,316 . 8 1 8 . 8 5 1 B 0,116 . 8 1 8 . 8 1ˆ 2 B *Equação: Y X X 3 0 1 01 2, , 2.4 Operação com matriz no SAS – PROC IML 2.4.1 Composição da matriz PROC IML; Análise de regressão aplicada à Engenharia Florestal 32 A = {2 1,3 2,-2 2}; PRINT A; A 2 1 3 2 -2 2 2.4.2 Multiplicação por escala C = 3; D = C*A; PRINT C D; C D 3 6 3 9 6 -6 6 2.4.3 Adição e subtração de matriz B = {1 1,4 2,-2 1}; PRINT B; B 1 1 4 2 -2 1 C = A + B; PRINT C; C 3 2 7 4 -4 3 D = A - B; PRINT D; D 1 0 -1 0 0 1 Análise de regressão aplicada à Engenharia Florestal 33 2.4.4 Multiplicação de matriz D = {2 1 3,-2 2 1}; C = D*A; PRINT D C; D C 2 1 3 1 10 -2 2 1 0 4 C = A*D; PRINT C; C 2 4 7 2 7 11 -8 2 -4 D = {2 1 3}; C = D*A; PRINT C D A; C D A 1 10 2 1 3 2 1 3 2 -2 2 C = A*D; ERRO: (execução) matriz não conforme para operação. 2.4.6 Matriz transposta AT = A`; ATT = AT`; PRINT AT ATT; AT ATT 2 3 -2 2 1 1 2 2 3 2 -2 2 Análise de regressão aplicada à Engenharia Florestal 34 2.4.7 Vetor unidade U = J(3,1,1); PRINT U; U 1 1 1 MATRIZ UNIDADE U = J(3,2,1); PRINT U; U 1 1 1 1 1 1 2.4.8 Matriz diagonal S = {2 1 4,3 2 2,-2 2 3}; D = DIAG(S); PRINT D S; D S 2 0 0 2 1 4 0 2 0 3 2 2 0 0 3 -2 2 3 2.4.9 Matriz identidade I = I(3); PRINT I; I 1 0 0 0 1 0 0 0 1 2.4.10 Matriz inversa A = {4 2 2,4 6 8,-2 2 4}; Análise de regressão aplicada à Engenharia Florestal 35 B = INV(A); C = B*A; D = A*B; PRINT A B C D; A 4 2 2 4 6 8 -2 2 4 B 1 -0.5 0.5 -4 2.5 -3 2.5 -1.5 2 C 1 4.441E-16 4.441E-16 -2.66E-15 1 0 2 0 -8.88E-16 D 1 0 0 -2.66E-15 1 0 -1.33E-15 -4.44E-16 1 2.4.11 Determiante de matriz D = DET(A); PRINT D; D 8 2.4.12 Computação de somas de coluna e linha X = {3 2,2 -2,4 6,3 1}; C = X(|+,|); R = X(|,+|); T = X(|+,+|); PRINT X C R T; Análise de regressão aplicada à Engenharia Florestal 36 X C R T 3 2 12 7 5 19 2 -20 4 6 10 3 1 4 2.4.13 Computação de média de coluna e linha C = X(|:,|); R = X(|,:|); G = X(|:,:|); C R G 3 1.75 2.5 2.375 0 5 2 2.4.14 Concatenação horizontal A = {2 1,3 2,-2 2}; B = {1 1,3 4,2 2}; C = A||B; PRINT C; C 2 1 1 1 3 2 3 4 -2 2 2 2 2.4.15 Concatenação vertical (appending) C = A//B; PRINT C; C 2 1 3 2 -2 2 1 1 3 4 2 2 Análise de regressão aplicada à Engenharia Florestal 37 III ANÁLISE DA VARIÂNCIA1 3.1 Introdução A análise da variância constitui-se no procedimento estatístico básico mais usado em todas as situações de análise de dados. Para o que, na prática são usado rotinas computacionais, onde vários métodos e testes de hipóteses podem ser implementados. Num procedimento computacional a variável Y é associada a variáveis Xi num modelo genérico, podendo-se testar as hipóteses em relação aos coeficientes , , , B B B0 1 4 em função de variáveis Xi, como é mostra a regressão: 443322110 XXXXYi Uma vez estimados os coeficientes da equação, pode-se determinar por Soma de Quadrados e Produtos Não Corrigidos (SQPNC) os elementos da análise de variância: a) A Soma dos Quadrados dos Resíduos (SQR) é obtido por: SQR Y Y Y B B X B X B X B Xi i i n i i i i i i n 2 1 0 1 1 2 2 3 3 4 4 2 1 Preferivelmente, a SQR é normalmente obtida por: SQR Y B Rj t j j 2 Sendo: Rj = valores a direita das jth equações normais; B j = coeficientes da regressão; Y = variável dependente. b) A Soma dos Quadrados Totais (SQT) é obtida por: 1 DRAPER, N.R.; SMITH, H. Applied Regression Analysis. New York: John Wiley & Sons, 1966, 709p . FRESSE, F. Linear Regression Methods for Forest Research. U.S.A.: U.S. Departament of Agriculture Forest Service, 1972, 132p. Análise de regressão aplicada à Engenharia Florestal 38 2YSQT c) A Soma dos Quadrados da Regressão (SQRE) é obtida por: j t j RB̂SQRE No caso da Soma de Quadrado e Produtos Corrigidos (SQPC) a SQT é obtida pelo resíduo da variável dependente, assim: YYSQT 2 E a SQRE é obtida sem o coeficiente B0 , ou seja, com o sistema de equações normais reduzido, assim: j t j RB̂SQRE Os graus de liberdade (GL) na análise de variância são obtidos conforme é demonstrado na Tabelas 04 e 05, para Soma de Quadrados e Produtos Não Corrigidos (SQPNC) e Soma de Quadrados e Produtos Corrigidos (SQPC), respectivamente. TABELA 04: Análise de variância por SQPNC Fonte de Variação GL SQ QM F Redução (RE) k SQRE K SQRE QMred QMres . . Resíduo (R) n - K SQR )( . Kn SQR Total n SQT Sendo: K = número de coeficientes; n = número de observações; SQRE = soma dos quadrados da redução; SQR = soma dos quadrados dos resíduos; SQT = soma dos quadrados totais, GL = graus de liberdade; SQ = soma dos quadrados; QM = quadrado média; F = valor de F. Nota-se que, utilizando a SQPNC não se perde graus de liberdade (GL) no total e redução, porque trabalha-se com os dados originais, o sistema de equações é completo, ou seja, com o coeficiente B0. Análise de regressão aplicada à Engenharia Florestal 39 TABELA 05: Análise de variância por SQPC Fonte de Variação GL SQ QM F Redução (RE) K - 1 SQRE )1( K SQRE . . QMres QMred Resíduo (R) (n - 1) - (K - 1) SQR 11 Kn SQR Total n - 1 SQT Sendo: K = número de coeficientes; n = número de observações; SQRE = soma dos quadrados da redução; SQR = soma dos quadrados dos resíduos; SQT = soma dos quadrados totais, GL = graus de liberdade; SQ = soma dos quadrados; QM = quadrado média; F = valor de F. No caso da soma de quadrados e produtos corrigidos (SQPC), perde-se um grau de liberdade no total (n-1) porque trabalha-se com a diferença entre os valores observados e os estimados e um GL na redução, porque o sistema de equações normais é reduzido (K–1), isto é sem o coeficiente B0. Teste F Parcial e F Sequencial Se num modelo de regressão tivermos vários termos pode-se colocá-los na equação em qualquer seqüência desejada, como segue: SQ B B B Bi k( / , , , )0 1 Sendo: i = 1, 2, ... K = coeficientes. Neste caso, tem-se um grau de liberdade (GL) para a soma de quadrados (SQ) que mede a contribuição na SQ da regressão de cada coeficiente Bi, pois todos os termos que não envolvem Bi já estavam no modelo. Em outras palavras, tem-se uma medida do valor da adição do termo Bi ao modelo original, que não o continha. O quadrado médio (QM) correspondente é igual a SQ desde que tenha um grau de liberdade e possa ser comparado com o Análise de regressão aplicada à Engenharia Florestal 40 teste F. Esse tipo particular de teste F é chamado de F parcial para os coeficientes Bi da equação. Quando um modelo está sendo construído, o teste F parcial é um critério usual para adicionar ou remover termos do modelo, para a definição de uma equação apropriada. O efeito da adição de uma nova variável Xq pode ser grande quando existe somente uma variável Xq -1 na equação de regressão. Entretanto, quando a mesma variável é encontrada na equação após outras variáveis. Isso pode afetar muito pouco a resposta, devido ao fato de que Xq é altamente correlacionada com variáveis que já estão na equação. O teste F parcial pode ser feito para todos os coeficientes da regressão desde que a variável correspondente seja a última a entrar na equação, para ver o efeito relativo de cada variável em suplementação de outras já existentes no modelo. O teste F sequencial é utilizado quando variáveis são adicionadas uma por uma na equação de regressão, sendo o F calculado para o modelo integral, com as variáveis totais incluídas na equação. 3.2 Soma de quadrados de produtos corrigidos Neste modelo de regressão o termo constante é determinado indiretamente, por isso é chamado de soma de quadrados e produtos corrigidos (SQPC), porque o B0 é obtido fora do modelo. Partindo-se de um modelo de regressão linear do tipo: Y B B X B X 0 1 1 2 2 As equações de sistema de equações normais desta equação são as seguintes: Análise de regressão aplicada à Engenharia Florestal 41 YXBXBXXB YXBXXBXB 22 2 21212 12211 2 11 ˆˆ: ˆˆ: O coeficiente B0 pode ser obtido indiretamente através da equação: B Y B X B X B Xk k0 1 1 2 2 Assim, pode-se escrever o modelo genérico para o cálculo dos coeficientes, com exclusão do B0, que é obtido de forma indireta da seguinte forma: Y Y B X X B X X B X Xk k k 1 1 1 2 2 2 ou y = B1x1 + B2x2 + ... + Bkxk Sendo: YYy jji XXx As equações normais deste modelo genérico são: x B x x B x x B x y x x B x B x x B x y x x B x x B x B x y k k k k k k k k k k 1 2 1 1 2 2 1 1 1 2 1 2 2 2 2 2 1 2 2 2 Sendo: 2 11 2 1 XXx 221121 . XXXXxx YYXXyx .111 Nota-se, que o sistema de equações é reduzido, sem o coeficiente B0, por isso se deve trabalhar com os desvios do valor observado em relação a média Análise de regressão aplicada à Engenharia Florestal 42 destes valores, portanto o sistema de equações normais perde os elementos da linha eda coluna de B0. 3.2.1 Aplicação: solução de equação por Soma de Quadrados e Produtos Corrigidos (SQPC) Partindo-se de um número de unidades (n = 13) tomadas aleatoriamente numa população amostral onde foram medidas as variáveis: Y, X1, X2 e X3, conforme Tabela 06. TABELA 06: Dados coletados na unidades amostrais de uma população Var. Unidades amostrais Soma Média 1 2 3 4 5 6 7 8 9 10 11 12 13 Y 15 27 10 2 39 32 35 14 8 18 3 7 24 234 18 X1 5 8 12 2 16 10 14 9 6 10 7 6 12 117 9 X2 3 2 14 4 5 2 5 11 10 8 9 8 10 91 7 X3 12 5 8 14 7 9 3 2 3 15 13 16 23 130 10 Sendo o modelo a ser utilizado o seguinte: 3322110 XXXY Pela SQPC, o modelo de equações normais para esta equação é expresso por: yxBxxBxxBxB 13312211211 ˆˆˆ: yxBxxBxBxxB 23322222212 ˆˆˆ: yxBxBxxBxxB 33232321313 ˆˆˆ: E, calculando-se por SQPC, o valor das variáveis são obtidos por: Análise de regressão aplicada à Engenharia Florestal 43 182 13 117 1285 2 2222 1 x 28 13 )91.(117 )10).(12()2).(8()3).(5(21 xx 448 13 )234.(117 )24).(12()27).(8()15).(5(1 yx Assim, obtém-se as demais soma de produtos e quadrados: x x x x x y x x x y 1 3 2 3 2 2 2 3 2 3 53 19 256 172 460 226 Substituindo-se estes valores no sistema de equações normais, tem-se que: 182 28 53 448 28 172 19 256 53 19 460 226 1 2 2 1 2 3 1 2 3 B B B B B B B B B A solução para este sistema de equações pode ser obtido através do Método de Sarrus. O procedimento consiste em obter o valor do determinante da matriz principal e de cada coeficiente e, posteriormente, obtém-se cada coeficiente dividindo-se o determinante de cada coeficiente pelo determinante da matriz principal. A solução das matrizes para obter o determinante com a aplicação da Regra de Sarrus é a seguinte: Matriz principal: Análise de regressão aplicada à Engenharia Florestal 44 4601953 1917228 5328182 P 18219194602828 5317253531928531928460172182ΔP 958.433.13P . .B1 448 28 53 256 172 19 226 19 460 36 658 656 . .B2 182 448 53 28 256 19 53 226 460 25817 700 . .B3 182 28 448 28 172 256 53 19 226 1310 064 Os coeficientes são obtidos por: . . . . , . . . . , . . . . , , ( ) , ( ) , ( ) , B B P B B P B B P B Y B X B X B X B B 1 1 2 2 3 3 0 1 1 2 2 3 3 0 0 36 658 656 13433958 2 7288 25817 700 13433958 1 9218 1310 064 13433958 0 0975 18 2 7288 9 1 9218 7 0 0975 10 7 8684 A equação resultante é expressa por: , , , ,Y X X X 7 8684 2 7288 19218 0 09751 2 3 Análise de regressão aplicada à Engenharia Florestal 45 Na Tabela 07 é apresentado a análise de variância para SQPC, onde o F calculado é igual a 53,37, significativo ao nível de 1 % de probabilidade. TABELA 07: Análise de variância para SQPC Fonte de Variação GL SQ QM F Redução 3 1736,5 578,8 53,6 Resíduo 9 97,5 10,8 Total 12 1834,0 3.3 Soma de quadrados e produtos não corrigidos No caso da soma de quadrados e produtos não corrigidos (SQPNC) o coeficiente B0 fica no modelo e o sistema de equações normais é completo, sem redução, e as variáveis não são corrigidas para a média isto é trabalha-se com os valores observados. Partindo-se do exemplo anterior: 3322110 XXXY Obtém-se por SQPNC o sistema de equações normais para os coeficientes da equação: YBXBXBXBnB 33221100 ˆˆˆˆ: YXBXXBXXBXBXB 1331221121011 ˆˆˆˆ: YXBXXBXBXXBXB 2332222121022 ˆˆˆˆ: YXBXBXXBXXBXB 3323232131033 ˆˆˆˆ: Análise de regressão aplicada à Engenharia Florestal 46 Substituindo-se os valores nas equações, tem-se que: 2114 1382 2554 234 ˆ1760ˆ929ˆ1117ˆ130 ˆ929ˆ809ˆ847ˆ91 ˆ1117ˆ847ˆ1235ˆ117 ˆ130ˆ91ˆ117ˆ13 ˆ 1 3210 3210 3210 3210 BBBB BBBB BBBB BBBB B j , , , , B j 7 8684 2 7288 1 9218 0 0975 Na Tabela 08 é apresentado os cálculos da análise de variância para soma de quadrados e produtos não corrigidos, onde observa-se que o F calculado é igual a 53,6, significativo ao nível de 1 % de probabilidade. TABELA 08: Análise de variância para SQPNC Fonte de Variação GL SQ QM F Redução 4 5948,5 1487,1 137,3 Resíduo 9 97,5 10,8 Total 13 6046,0 3.4 Regressão linear múltipla sem o termo constante Sendo dado a equação: 2211 XXY Neste caso, é preferível trabalhar com a SQPNC, pois o termo constante não está na equação, o sistema de equações normais é dado por: YXBXXBXB 12211211 ˆˆ: YXBXBXXB 22221212 ˆˆ: Análise de regressão aplicada à Engenharia Florestal 47 A solução deste sistema de equações normais é: 6204,1ˆ 1793,3ˆ 382,1 554,2 809847 847235,1 ˆ 2 1 1 B B B j A equação passa a ser: , ,Y X X 31793 162041 2 3.5 Regressão linear simples com termo constante Do modelo linear simples, com o termo constante B0, expressa por: 110 XββY Neste caso, para a solução por SQPC, o sistema de equações normais é simplesmente: yxBxB 11211 ˆ: Partindo-se da equação: 110 XY Obtém-se a equação normal em SQPC: yxBxB 11211 ˆ: 448ˆ182 1 B 4615,2182/448ˆ1 B Sendo o coeficiente B0 obtido por: , , B Y B X B B 0 1 1 0 0 18 2 4615 9 4 1535 A equação fica sendo expressa por: Análise de regressão aplicada à Engenharia Florestal 48 , ,Y Xi 4 1535 2 4615 1 3.6 Regressão condicionada Alguns casos de regressão impõe restrições aos valores dos coeficientes ajustados, sendo exemplo o ajuste do modelo sem o termo constante B0. Isso equivale impor a restrição de que B0 = 0, o que faz a regressão passar pela origem. Num outro exemplo, quando se pretende ajustar o seguinte modelo: 22110 XXY Ao qual impõe-se a seguinte restrição: B B2 1 1 Isto equivale a: B B2 11 Então, o modelo original é dado por: 212110 21110 1 XXXY XXY Fazendo: 21102 XXXY Assim, o modelo linear pode ser escrito por: Y B B X0 1 Sendo: Y Y X X X X 2 1 2 A equação normal para o ajuste dos coeficientes é então dada por: X B X Y2 1 Análise de regressão aplicada à Engenharia Florestal 49 3.6.1 Aplicação: solução de equação condicionada Com as informações constantes da Tabela 09, obtém-se que: x x y 2 298 848 TABELA 09: Diferença dos valores e somatórios Var. 1 2 3 4 5 6 7 8 9 10 11 12 13 Soma Média y’ 12 25 -4 -2 34 30 30 3 -2 10 -6 -1 14 143 11 x’ 2 6 -2 -2 11 8 9 -2 -4 2 -2 -2 2 26 2 Substituindo-se os valores na equação: X B X Y2 1 Tem-se que: 8456,2298/848ˆ 848ˆ298 1 B Bi E o coeficiente B0 é obtido por: 5,30882.2,845611B̂ xB̂yB̂ 0 10 A equação ajustada fica sendo expressa por: 21 21 212 1,8456X2,8456X5,3088Ŷ ou X2,845612,8456X5,3088Ŷ XX2,84565,3088Xy x2,84565,3088y Análise de regressão aplicadaà Engenharia Florestal 50 3.7 Ponderação dos mínimos quadrados A atribuição de peso aos mínimos quadrados, realizado quando as variâncias da variável dependente forem diferentes ou seja, a matriz V(E) não é da forma 2Iσ , portanto, a diagonal principal tem elementos diferentes. Pode ocorrer que os elementos fora da diagonal principal não sejam iguais a zero, isso pode demonstrar que as observações são correlacionadas. Quando um ou ambos os casos ocorrem o processo comum dos mínimos quadrados para a estimar os Bj não pode ser aplicado, sendo necessário modificar o processo para obter os estimadores da equação. Para isso, transforma-se as observações Y para outras variáveis Z que satisfaçam as suposições básicas de 2IσO,N , para que o teste F e o intervalo de confiança (IC) sejam válidos. A mais simples aplicação do método dos mínimos quadrados ponderados ocorre quando as observações são independentes, mas tem diferentes variâncias. 2 n 2 2 2 1 2 σ00 0σ0 00σ Vσ Neste caso, os valores 2 iσ podem ser iguais. Na prática, freqüentemente, é difícil obter informações específicas da forma da variância. Por esta razão, é necessário supor V2 = I (conhecidamente errado) e, então, tentar descobrir a influência da variância pelo exame dos resíduos na análise de regressão. 3.7.1 Regressão ponderada O procedimento de ajuste da regressão pode produzir tendências nos coeficientes estimados da regressão, quando as variâncias forem homogêneas ou Análise de regressão aplicada à Engenharia Florestal 51 não. Assim, se as variâncias não forem homogêneas o procedimento de regressão ponderada produz coeficientes estimados com maior precisão. Para cada desvio quadrado é determinado um peso (Wi) e os coeficientes da regressão são estimados para minimizar a Soma dos Quadrados dos Desvios Ponderados. Assim, pode-se escrever que: W E W Y B B X B X B Xi i i i i i k ki i n i n 2 0 1 1 2 2 2 11 Isso conduz ao sistema de equações normais expresso por: iikkiiiiiii YWBXWBXWBXWBWB ˆˆˆˆ: 221100 iiYikkiiiiiiiiii XWBXXWBXXWBXWBXWB 1122111011 ˆˆˆˆ: 2 iiikkiiiiiiiiii YXWBXXWBXWBXXWBXWB 2222121022 ˆˆˆˆ: 2 ikiikkiikiiikiiikiiK YXWBXWBXXWBXXWBXWB ˆˆˆˆ: 222110 Analisando os valores de Y em relação a X, distribuem-se na forma de um leque, aumentando a dispersão dos dados com o aumento dos valores de X. Este exemplo mostra que para valores grandes de X a variância é maior do que quando estes valores de X forem menores. Isto produz uma heterogeneidade de variância, porque as variâncias das classes de X são diferentes. Devido a isto, há necessidade de ponderação dos dados com um peso inversamente proporcional as variâncias. Segundo Freese(1972) devem ser consideradas três situações na ponderação de modelos: a) Quando a variância de Y for proporcional a X1. Neste caso, pode-se ponderar a regressão usando o seguinte peso: W X ii 1 1 Análise de regressão aplicada à Engenharia Florestal 52 b) Quando a variância de Y for proporcional a X1 2 . Neste caso, o peso pode ser: W X ii 1 1 2 c) Quando a variância de Y for homogênea. Neste caso, não é necessário ponderar a regressão, porque o peso Wi é igual a 1. Freese(1972) no seu estudo sobre regressão ponderada faz referência as dificuldades na determinação da ponderação apropriada para um modelo de regressão, principalmente, quando se desconhece a magnitude da variância em diferentes pontos sobre a linha de regressão. Furnival(1961) estudando uma ponderação apropriada para a equação de volume da variável combinada de Spurr, concluiu que o erro padrão da estimativa é proporcional a d2h , por isto propôs o uso do peso (d2h)-1, como sendo a ponderação ideal. Diz ainda, que as estimativas pelos mínimos quadrados são realmente eficientes somente quando a homogeneidade estiver presente. Quando ocorrer heterogeneidade há a necessidade de efetuar a ponderação destas equações. A tendência dos pesos de casca por classe da variável dependente d2h pode ser visto na Figura 08. Na Tabela 10 estão relacionados os pesos testados e a significância para o teste de 2 de Bartlett, para equações de peso de casca em Acacia mearnsii. Os pesos: 22 11 , 1 dh e dhd não apresentaram diferença significativa das variâncias ao nível de 0,01% de probabilidade. A melhor ponderação foi obtida com o peso 2 1 dh , sendo utilizado para a ponderação das equações aritméticas de peso de casca verde e seca. Análise de regressão aplicada à Engenharia Florestal 53 FIGURA 08: Tendência dos dados em função do peso de casca verde e d2h de Acacia mearnsii TABELA 10: Pesos testados para as equações ponderadas de peso de casca verde em Acacia mearnsii Número Peso (Wi) 2 1 d/1 32,6491** 2 2/1 d 14,5770 ns 3 3/1 d 128,4597** 4 h/1 83,7829** 5 2/1 h 50,2713** 6 3/1 h 24,2302** 7 dh/1 16,2216 ns 8 2/1 dh 13,7954 ns 9 hd 2/1 64,0507** 10 22/1 hd 125,0984** Sendo: ** = significativo a 1% de probabilidade de confiança; ns = não significativo. Segundo Paula Neto (1977) um método alternativo para corrigir a heterogeneidade de variância é a transformação das variáveis dependentes e independentes da equação em logaritmos. A ponderação da equação volumétrica Análise de regressão aplicada à Engenharia Florestal 54 por d2h-1 ou a transformação para a forma logarítmica resulta uma suficiente estabilidade da variância. Uma recomendação para encontrar o peso para ponderação dos mínimos quadrados é utilizar a seguinte expressão: p i i X 1 W Sendo: p = potência que elimina a heterogeneidade de variância dos resíduos do modelo utilizado, tornando não significativo o valor de 2 calculado. 3.7.2 Aplicação: solução de regressão ponderada Para ilustrar este problema assumiu-se que as variâncias de Yi são proporcionais a Xi, para o seguinte modelo: Yi = bo + b1 . Xi O peso apropriado a ser aplicado é expressa por: i i X W 1 Os dados básicos e pesos aplicados para solução desta operação encontram-se na Tabela 11. As equações normais são: iiiii YWBXWBWB 100 ˆˆ: iiiiiii YXWBXWBXWB 1201 ˆˆ: Substituindo-se os valores nas equações normais, tem-se que: 19129 13 24 6310 1, ,B B 234B̂117B̂13 10 Análise de regressão aplicada à Engenharia Florestal 55 TABELA 11: Valor das variáveis e pesos aplicados Número Yi Xi Wi WiYi WiXi WiXi 2 WiXiYi 1 15 5 0,2000 3,000 1 5 15 2 27 8 0,1250 3,375 1 8 27 3 10 12 0, 0833 0,833 1 12 10 4 2 2 0,5000 1,000 1 2 2 5 39 16 0,0625 2,438 1 16 39 6 32 10 0,1000 3,200 1 10 32 7 35 14 0,0714 2,500 1 14 35 8 14 9 0,1111 1,556 1 9 14 9 8 6 0,1667 1,333 1 6 8 10 18 10 0,1000 1,800 1 10 18 11 3 7 0,1429 0,429 1 7 3 12 7 6 0,1667 1,167 1 6 7 13 24 12 0,0833 2,000 1 12 24 Soma 234 117 1,9129 24,631 13 117 234 Média 18 9 - - - - - Solução: Determinante principal: p 54 8093, Determinante dos coeficientes: , , B B 0 1 160 173 127 4156 Coeficientes: , , , , , , B B 0 1 160 173 54 8093 2 9223 127 4156 54 8093 2 3247 Equação: Yi = 2,3247. Xi - 2,9223 Análise de regressão aplicada à Engenharia Florestal 56 3.8 Teste de hipótese com soma de quadrados e produtos não corrigidos Tomando-se por base o modelo: 3322110 XXXY E considerando-se as seguintes hipóteses: H B0 2 0: hipótese da nulidade; #0B:H 21 hipótese alternativa. Para se testar a hipótese acima, deve-se calcular, inicialmente, a soma dos quadrados do modelo máximo, obtendo-se as equações normais: 2.114B̂1.760B̂929B̂1.117B̂130 :B̂
Compartilhar