Baixe o app para aproveitar ainda mais
Prévia do material em texto
IF 228 – Dendrometria – Prof. Emanuel Araújo _____________________________________________________________________________________ FONTE: SCOLFORO, J.R.S.; THIERSCH, C.R. Biometria Florestal: Medição, Volumetria e Gravimetria. Lavras: UFLA/FAEPE. 2004. 285 p. 1 A IDÉIA GERAL DE REGRESSÃO Muitos profissionais que atuam na área técnica, na administração ou na pesquisa florestal necessitam, com freqüência, quantificar variáveis que apresentam um alto custo para que sejam determinadas em grande escala. Muitas vezes, mesmo com um alto custo, é totalmente inviável a sua determinação, já que implicam na restrição da base de dados. Pode-se citar, como exemplo, a determinação do volume de árvores, o seu peso de matéria seca, a densidade da madeira ou alguma outra característica tecnológica, os sortimentos que a árvore pode propiciar e muitas outras possibilidades. Uma alternativa que tem sido utilizada com sucesso é fazer uso de modelos de regressão nos quais procura-se estimar a variável mais complexa de ser determinada (variável dependente) através de uma ou mais variáveis ou, ainda, combinação destas, que sejam facilmente determinadas (variáveis independentes). Assim, esta publicação foi desenvolvida não para estatísticos, mas para profissionais que atuam nas áreas técnicas, na pesquisa, manejo, silvicultura, ecologia florestal e tecnologia da madeira. Por esta razão, a ênfase nos diversos capítulos estará centrada muito mais fortemente em como fazer e como analisar do que nos porquês. 1.1 REGRESSÃO - IDÉIA GERAL O conceito de média aritmética de variáveis ou de populações é familiar a qualquer profissional que utilize ou que seja exposto a qualquer método estatístico. As árvores de uma população podem ter seus volumes representados pela variável Yi. Para estas, há uma média (Y) acerca da qual os valores unitários são distribuídos de alguma maneira (Figura 1.1). Assim, o valor Y de um conjunto de unidades pode ser expresso como: i Y iY =μ +ε (1) IF 228 – Dendrometria – Prof. Emanuel Araújo _____________________________________________________________________________________ FONTE: SCOLFORO, J.R.S.; THIERSCH, C.R. Biometria Florestal: Medição, Volumetria e Gravimetria. Lavras: UFLA/FAEPE. 2004. 285 p. em que: Yi - É o valor da variável de interesse relacionado a i-ésima unidade Y- É a média aritmética de todos os valores de Y i- É a diferença ou desvio dos valores de Y da i-ésima unidade em relação à média da população (Yi - Y). A medida estatística que expressa, em média, este desvio, em relação à média (Y), é a variância e sua raiz quadrada, o desvio padrão. FIGURA 1.1 Representação dos valores individuais de cada população (Yi) e suas médias (i) Se for estabelecida uma linha ligando as médias das diferentes populações (Figura 1.2), ela estará retratando a relação entre Y e X e será chamada de função de regressão. Se a relação entre a média de Y (Y) e o valor de X é uma linha reta, então o modelo de regressão pode ser escrito como: Y 0 1μ =β +β X (2) em que: 0 - É a constante de regressão, que expressa o seu nível ou a interseção em Y 1 - É o coeficiente de regressão, que expressa a inclinação da reta ou a sua forma V al o re s in d iv id u ai s d a p o p u la çã o Y XX1 X2 X3 X4 X5 X6 X7 1 2 3 4 5 6 7 IF 228 – Dendrometria – Prof. Emanuel Araújo _____________________________________________________________________________________ FONTE: SCOLFORO, J.R.S.; THIERSCH, C.R. Biometria Florestal: Medição, Volumetria e Gravimetria. Lavras: UFLA/FAEPE. 2004. 285 p. FIGURA 1.2 Ilustra a relação linear entre as médias de Y e X O modelo (2) expressa, portanto, as mudanças na média com mudanças em X. Um dos pontos cruciais em regressão é encontrar esta relação. Substituindo (2) em (1), tem-se: 0 1 iY (3) Esta expressão (3) retrata não mais as mudanças da média em relação a X, mas sim as mudanças em Yi associadas às mudanças de Xi. No caso das populações serem caracterizadas por mais de uma variável X, por exemplo, X1 e X2, a média (Y) é associada a cada combinação de valores destas variáveis e funcionalmente relacionadas a elas como: Y 0 1 1 2 2 iX X (4) Então, substituindo (4) em (1), tem-se: 0 1 1 2 2 iY X X (5) Para modelos desta natureza, se as faixas dos valores de Y em torno da sua média é semelhante para todos os pontos na superfície de regressão ou todas as combinações de variáveis independentes, então a variância é dita ser homogênea. Se a faixa dos valores de Y não é semelhante em todos os pontos, a variância é heterogênea. Y X IF 228 – Dendrometria – Prof. Emanuel Araújo _____________________________________________________________________________________ FONTE: SCOLFORO, J.R.S.; THIERSCH, C.R. Biometria Florestal: Medição, Volumetria e Gravimetria. Lavras: UFLA/FAEPE. 2004. 285 p. A idéia geral da regressão foi desenvolvida a partir de várias populações que implicou em um valor de X para cada uma das populações ou, ainda, uma população para cada possível combinação dos valores para diferentes valores de X. No entanto, é mais comum pensar em termos de uma população sendo caracterizada por um valor de Y e um ou mais valores de X. 1.2 MODELO MATEMÁTICO O usuário de regressão tem normalmente dois objetivos. O primeiro consiste em encontrar um modelo para representar a relação funcional entre Y e X. O segundo consiste em testar hipóteses entre a variável dependente e uma ou mais variáveis independentes. Então, para que esta relação funcional seja ajustada, é preciso uma amostra onde tanto os valores de X como os valores de Y sejam determinações. Pode-se, então, utilizando o método de ajuste linear ou não- linear, quando for o caso, obter a estimativa dos parâmetros da regressão (is). Entre as várias modalidades de representar Y em função de X, pode-se considerar os modelos lineares e não-lineares. 1.2.1 Modelos lineares Os modelos lineares são aqueles em que os parâmetros estão na forma aditiva. Podem ser linear simples se associado a variável dependente (Y) existir uma única variável independente (X) ou linear múltiplo quando associado a variável dependente existem duas ou mais variáveis independentes (X’s). Os métodos para promover a estimativa dos parâmetros são normalmente os mínimos quadrados ordinários ou a máxima verossimilhança. Quando existe autocorrelação entre resíduos, uma alternativa é utilizar a regressão em 2 ou 3 estágios. Exemplos de modelos lineares a) Simples 0 1 iY X 2 0 1 iY Dap H 0 1 i 1 Y H b) Múltiplos 0 1 1 2 2 iY X X 2 2 0 1 2 3 iY Dap Dap H DapH 2 0 1 2 iY Dap Dap IF 228 – Dendrometria – Prof. Emanuel Araújo _____________________________________________________________________________________ FONTE: SCOLFORO, J.R.S.; THIERSCH, C.R. Biometria Florestal: Medição, Volumetriae Gravimetria. Lavras: UFLA/FAEPE. 2004. 285 p. 1.2.2 Modelos não lineares Os modelos não-lineares são aqueles em que pelo menos um dos parâmetros não esteja na forma aditiva. Eles podem ser linearizáveis por transformações, principalmente as logarítmicas, ou não serem linearizáveis, quando não existirem propriedades que permitam tal ação. Os métodos para promover as estimativas dos parâmetros são iterativos podendo-se destacar Marquardt, Gauss-Newton e o Gradiente. Exemplos de modelos não-lineares a) Linearizáveis 1 2 0V Dap H 0 1 2lnV ln lnDap lnH ou 0 1 1 2 2Y X X 1 0Y X 0 1lnY ln lnX ou 0 1Y X b) Não-linearizáveis X 0 1Y 1KI (1 m)W A(1 e ) 1.3 FORMA DOS MODELOS Um dos cuidados maiores que os usuários de regressão devem ter é o conhecimento da forma matemática dos modelos e, também, das relações funcionais da amostra que será utilizada para promover o ajuste dos modelos. a) Linha reta - 0 1Y X 0 e 1 positivos 0 positivo 1 negativo X X Y Y IF 228 – Dendrometria – Prof. Emanuel Araújo _____________________________________________________________________________________ FONTE: SCOLFORO, J.R.S.; THIERSCH, C.R. Biometria Florestal: Medição, Volumetria e Gravimetria. Lavras: UFLA/FAEPE. 2004. 285 p. X Y X Y 0 negativo 1 positivo 0 = 0 1 positivo IF 228 – Dendrometria – Prof. Emanuel Araújo _____________________________________________________________________________________ FONTE: SCOLFORO, J.R.S.; THIERSCH, C.R. Biometria Florestal: Medição, Volumetria e Gravimetria. Lavras: UFLA/FAEPE. 2004. 285 p. b) Parábola de 2o grau - 2 0 1 2Y X X c) Hipérbole - 0 1 1 Y X d) Polinômio de 3o grau - 2 3 0 1 2 3Y X X X X Y X Y 2 negativo 2 positivo b b aa b positivo b negativo X Y X Y a a a - Valor assintótico correspondente a 0 3 positivo 3 negativo 3 positivo X Y IF 228 – Dendrometria – Prof. Emanuel Araújo _____________________________________________________________________________________ FONTE: SCOLFORO, J.R.S.; THIERSCH, C.R. Biometria Florestal: Medição, Volumetria e Gravimetria. Lavras: UFLA/FAEPE. 2004. 285 p. e) Modelo linear - 0 1 10Y log X f) Modelo exponencial - X 0 1Y Se linearizado, o modelo assume a forma 0 1lnY ln lnX ou 0 1Y X e sua forma será exatamente a da reta (a). g) Modelo monomolecular: Wt = A (1 - b e-kt) h) Modelo autocatalístico ou logística: Wt = A / (1 + be-kt) 1 positivo 2 negativo Y X Y X Y XK = altura da curva wt = A(1-be ) t -Kt A w (assintota) IF 228 – Dendrometria – Prof. Emanuel Araújo _____________________________________________________________________________________ FONTE: SCOLFORO, J.R.S.; THIERSCH, C.R. Biometria Florestal: Medição, Volumetria e Gravimetria. Lavras: UFLA/FAEPE. 2004. 285 p. i) Modelo de GOMPERTZ: Wt = A ktbee j) Modelo de Chapman e Richards: Wt = A (1 - b e-kt)1/(1-m) em que: W = tamanho do organismo no tempo t; A = valor assintótico que o organismo pode atingir; t m w (assintota) A wt = A (0,5 de w) -Kt (1+ be ) K m (0.368 w) w A (assintota) t K -be wt = Ae -Kt m (variável em relação a w) A w (assintota) t K 0 wt = A (1-be )-Kt 1- m 1 IF 228 – Dendrometria – Prof. Emanuel Araújo _____________________________________________________________________________________ FONTE: SCOLFORO, J.R.S.; THIERSCH, C.R. Biometria Florestal: Medição, Volumetria e Gravimetria. Lavras: UFLA/FAEPE. 2004. 285 p. k = medida relativa da taxa de crescimento do organismo ou altura da curva; b = é usualmente sem importância biológica, refletindo somente a escolha do tempo zero; m = retrata o ponto de inflexão. IF 228 – Dendrometria – Prof. Emanuel Araújo _____________________________________________________________________________________ FONTE: SCOLFORO, J.R.S.; THIERSCH, C.R. Biometria Florestal: Medição, Volumetria e Gravimetria. Lavras: UFLA/FAEPE. 2004. 285 p. 2 REGRESSÃO LINEAR 2.1 REGRESSÃO LINEAR SIMPLES - MÉTODO DOS MÍNIMOS QUADRADOS Diz-se que uma regressão é linear simples, se associada à variável dependente, existe uma única variável independente. 2.1.1 Regressão linear do ponto de vista algébrico Para demonstrar como é obtido o ajuste, utilizar-se-á do modelo de Spurr. i 2 10 H Dap V , Este modelo pode ser redefinido como: iii X b a Y (1) onde: Y valor observado a + bXi propicia a estimativa i erro envolvido no processo estimativo Omitindo o índice de Y e X para fins de simplificação tem-se: bX - a - Y i (2) O método dos mínimos quadrados consiste na minimização da soma dos quadrados dos desvios. Portanto a expressão (2) sujeita a este conceito assume a seguinte forma: 22i bX - a -Y (3) A minimização é obtida através da derivada da função (3) em relação aos parâmetros a serem estimados de tal forma que: bX - a -Y 2 a 2 i (-1) (4) bX - a -Y 2 b 2 i (-X ) (5) IF 228 – Dendrometria – Prof. Emanuel Araújo _____________________________________________________________________________________ FONTE: SCOLFORO, J.R.S.; THIERSCH, C.R. Biometria Florestal: Medição, Volumetria e Gravimetria. Lavras: UFLA/FAEPE. 2004. 285 p. Igualando as expressões (4) e (5) a zero e dividindo por -2 tem-se: 0 X bX - a -Y 0 bX - a -Y 0 Xb - Xa -Y X 0 Xb - na -Y 2 XY Xb Xa Y Xb na 2 Resolvendo a expressão (10) em relação a (a) tem-se: (12) ou (13) Substituindo (12) em (11) tem-se: (14) XY X b n X b - n YX 2 2 (15) n YX -XYn X - X b 2 2 (16) n X - X n YX -XY b 2 2 (17) As expressões (13) e (17) possibilitam obter a estimativa dos parâmetros da regressão. No entanto, é necessário conhecer se a função está bem ajustada ou não. Para tal, é necessário conhecer as medidas de precisão da regressão, fato obtido através da tabela de análise de variância. Sabe-se que, a soma do quadrado total (SQTotal) é igual a soma do quadrado da regressão (SQreg) mais a soma do quadrado do resíduo ou erro (SQerro). Assim novamente a partir da equação da reta, tem-se: n X b - n Y a -- Xb - Y a XY Xb X n X b - n Y 2 ( 6) ( 7) ( 8) ( 9) ( 10) ( 11) IF 228 – Dendrometria – Prof. Emanuel Araújo _____________________________________________________________________________________ FONTE: SCOLFORO, J.R.S.; THIERSCH, C.R. Biometria Florestal: Medição, Volumetria e Gravimetria. Lavras: UFLA/FAEPE. 2004. 285 p. bX a Y ^ (1) __ Xb - Y a (2) bX Xb - Y Y _ _^ (3) )X - (X b Y Y __^ , multiplicando esta expressão por -1 e somando Y, tem- se: (4) )X - (X b Y - Y Y - Y __^ (5) , multiplicando esta expressão (6) por e elevando-a ao quadrado tem-se: (7) (8) Desenvolvendo especificamente (9), tem-se: ) X - (X b )Y - Y ( 2- __ (10) como: 2 _ __ )X - (X )Y -(Y )X - (X b (11) )Y -(Y )X - (X )X - (X b __ 2 _ (12) Substituindo (12) em (10), tem-se: )X - (X b 2 2 _ 2 (13) Esta expressão é similar a: )Y - Y( 2 2 _^ (14) Voltando a expressão (8) e substituindo )Y - Y( )Y -(Y 2 _^_ por (14) tem-se: 2 _^ 2 _^ 2 _ 2 ^ )Y - Y( )Y - Y( 2 )Y - Y ( )Y - Y( (15) )Y - Y( )Y - Y ( )Y - Y( 2 _^ 2 _ 2 ^ (16) )Y - Y( )Y - Y ( )Y - Y( _^_^ )Y - Y( - )Y -(Y )Y - Y( 2 _^_ 2 ^ 2 _^_^_ 2 _ 2 ^ )Y - Y( )Y - Y( )Y -(Y 2 )Y - Y ( )Y - Y( )Y - Y( )Y - Y ( 2- _^_ IF 228 – Dendrometria – Prof. Emanuel Araújo _____________________________________________________________________________________ FONTE: SCOLFORO, J.R.S.; THIERSCH, C.R. Biometria Florestal: Medição, Volumetria e Gravimetria. Lavras: UFLA/FAEPE. 2004. 285 p. )Y - Y( )Y - Y ( )Y - Y( 2 _^ 2 ^ 2 _ (17) Assim, a Análise de Variância assume a forma, mostrada na Tabela 2.1. TABELA 2.1 Tabela de análise de variância (ANAVA) onde: FV: fonte de variação GL: graus de liberdade SQ: soma de quadrado QM: quadrado médio n : número de observações p : número de variável(is) independente(s) Como para análise de uma única regressão, o F será sempre um valor altamente significativo, independente da regressão estar ou não bem ajustada ao conjunto de dados, é necessário trabalhar com as medidas de precisão, as quais são obtidas de ANAVA, e apresentadas a seguir: a) Coeficiente de Determinação (R2) Esta medida de precisão varia entre 0 e 100 %, sendo que, quanto mais próxima de 100 % mais eficiente é a equação ajustada. n Y - Y n YX -XY b R 2 2 2 n Y - Y n YX -XY n/X - X n/YX -XY R 2 2 22 2 FV GL SQ QM F Reg YX P 2 _^ )Y - Y( SQReg/GL reg erro QM reg QM Erro n-p-1 2 ^ )Y - Y( SQErro/GL erro Total n-1 2 _ )Y - Y( IF 228 – Dendrometria – Prof. Emanuel Araújo _____________________________________________________________________________________ FONTE: SCOLFORO, J.R.S.; THIERSCH, C.R. Biometria Florestal: Medição, Volumetria e Gravimetria. Lavras: UFLA/FAEPE. 2004. 285 p. n Y - Y n X - X n/YX XY R 2 2 2 2 2 2 ou ainda: Reg2 Total SQ R = SQ Esta medida de precisão expressa o quanto as variações da variável dependente são explicadas pela(s) variável(is) independente(s). O coeficiente de determinação (R2 ) deve ser corrigido ou ajustado em função do número de parâmetros envolvidos no modelo, como: R2 = 2 2Erro Total n -1 n -1SQ 1- ou R =1- 1-R n-p -1 SQ n-p -1 Intimamente ligado ao coeficiente de determinação está o coeficiente de correlação (R) que pode ser obtido como: 2R R ou: n Y - Y n X - X n YX -XY R 2 2 2 2 2 O coeficiente de correlação, expressa e permite verificar a correlação entre variáveis independentes e também a correlação entre variável independente e a dependente. Do ponto de vista de eficiência, é interessante que exista uma alta correlação entre a variável independente e a dependente e uma baixa ou inexistente correlação entre as variáveis independentes. O coeficiente de correlação varia entre –1 e +1 e pode assumir os comportamentos mostrados na Figura 2.1. IF 228 – Dendrometria – Prof. Emanuel Araújo _____________________________________________________________________________________ FONTE: SCOLFORO, J.R.S.; THIERSCH, C.R. Biometria Florestal: Medição,Volumetria e Gravimetria. Lavras: UFLA/FAEPE. 2004. 285 p. FIGURA 2.1 Correlação positiva entre variável independente e a dependente (a), Correlação negativa entre variável independente e a dependente (b), Inexistência de correlação entre variáveis independente e dependente(c) e Inexistência de correlação entre variáveis independentes(d) A situação mostrada na Figura 2.1(a) é bastante desejável e retrata que o aumento de uma implica no aumento da outra. A situação mostrada em 2.1(b) também é bastante desejável e retrata que o aumento de uma variável implica na diminuição da outra. A situação mostrada na Figura 2.1(c) expressa que o ajuste de modelos não é desejável já que a variável independente não explica as variações na variável dependente. Neste caso o uso da média aritmética é suficiente para retratar o fenômeno. Já a situação mostrada na Figura 2.1(d) é bastante desejável se X1 e X2 forem correlacionadas com a variável dependente. Este fato expressa que o fenômeno é perfeitamente explicado através de modelo matemático. b) Erro Padrão dos Resíduos (SYX) Esta medida de precisão expressa o quanto em termos médios os valores observados variam em relação aos valores estimados. É partir deste valor que se consegue o intervalo de confiança. A unidade de SYX, é a mesma unidade da variável dependente Y. Quanto mais próximo de zero este valor, mais eficiente tende a ser a regressão. YX ErroS QM YXYX S S % .100 Y No caso da variável dependente sofrer algum tipo de transformação, por exemplo (lnV; d D ; H ), o erro padrão dos resíduos deve ser retransformado, recalculando-se Yˆ na unidade da variável observada. Então ele é calculado como: 2 YX(Transformado) (Y Y) S n p 1 R + 1 X X YY R - 1 Y X R 0 X1 R 0 X2 (a) (b) (c) (d) IF 228 – Dendrometria – Prof. Emanuel Araújo _____________________________________________________________________________________ FONTE: SCOLFORO, J.R.S.; THIERSCH, C.R. Biometria Florestal: Medição, Volumetria e Gravimetria. Lavras: UFLA/FAEPE. 2004. 285 p. YX(Transformado) YX(Transformado) S S % .100 Y c) Soma de quadrados da predição É um critério importante para seleção de modelos lineares. Para implementá-lo deve-se observar a seqüência: 1) Apagar a i-ésima observação (Yi) do conjunto de dados e ajustar o modelo para os n-1 observações restantes. 2) Utilizando o modelo ajustado em 1, deve-se estimar ˆ i(i)Y para aquela observação que foi apagada em 1. 3) O erro de predição ao quadrado para a observação apagada é obtido por ˆ 2 i i(i)Y - Y 4) Esse procedimento deve ser realizado para cada uma das observações do conjunto de dados. 5) Pode-se obter então a soma dos valores de quadrado da predição. Quanto menor for esta soma, menor o erro de predição da equação e melhor o seu desempenho.
Compartilhar