Baixe o app para aproveitar ainda mais
Prévia do material em texto
3. ANÁLISE DE REGRESSÃO 3.1 ANÁLISE DE REGRESSÃO - Estudo da relação entre variáveis (dependente e independente); - Regressão é uma média; -Aplicação: Empregado para facilitar a obtenção de variáveis de difícil mensuração. Exemplo: Volume, Carbono, Matéria seca, diâmetros a várias alturas (afilamento), altura total, etc. Relação entre: (DAP e ht) x Volume Volume = f{DAP, Ht} - Conhecer inicialmente os dados antes de ajustar um modelo e verificar as tendências do modelo. 3.2 Conceitos iniciais a) Variável dependente - é o y do modelo e depende dos valores de x; b) Variável independente - é o x do modelo e não depende do y do modelo; c) Ajuste - é o processo de se aplicar a regressão e encontrar os valores dos parâmetros do modelo; d) Modelo - é a forma geral ou genérica, sendo sua forma matemática antes do ajuste; y = a + bx + erro parâmetros do modelo: a e b 0 2 4 6 8 10 12 14 0 5 10 15 20 25 HT (m) DAP (cm) Variável 1 Variável 2 e) Equação - é a forma específica para os dados já ajustados pela regressão, contendo os valores dos parâmetros; y = 2,36 + 7,997x coeficientes da equação: 2,36 e 7,997 3.3 Tipos de modelos a) lineares - são modelos que assumem a forma linear, ou seja, os parâmetros necessariamente se encontram na forma aditiva. formulação geral: a.1) linear simples - possui apenas uma variável independente no seu modelo. Y = B0 + B1x1 + e (1) 2= + +y a bDAP HT ε (2) 1 = + +y a b ε Ht (3) a.2) linear múltiplo - possui mais uma variável independente no modelo; Y = B0 + B1x1 + B2x2 + B3x3 + e (1) 1 2 = + + +y a bx cx ε (2) 2 3= + + + +y a bDAP cDAP cDAP ε (3) b) não lineares - quando pelo menos 1 parâmetro não está na forma linear. Y = B0x1 B1x2 B2 + e (1) = (1- ) + bx cy a e ε (2) 3.4 Métodos de ajuste a) Máxima verossimilhança b) Programação Linear (goal programming) c) Inteligência artificial d) Método dos mínimos quadrados ordinais- a regressão é uma média, e por isso o método tem como finalidade encontrar uma curva média que minimize o somatório do quadrado dos desvios (erros) entre os dados e a curva projetada. 3.5. Pressuposições e condições de uso a) Estimar somente dentro do limite estudado, tem-se maior segurança; b) A variável y deve ter distribuição normal ou aproximadamente normal (teste de Shapiro-Wilk); c) Os dados devem ter variância homogênea (teste de Bartlett); d) Os resíduos devem ser independentes (teste de Durbin-Watson); e) Validação da base de dados (análise exploratória): - identificação de erros de digitação/medição; - valores inconsistentes; - falta de medições; - presença de caracteres alfanuméricos; 3.6. Informações necessárias para o ajuste de um modelo - modelo volumétrico? - modelo hipsométrico? - função de afilamento? 3.7. Regressão do ponto de vista matricial 1 1 1 1 ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) l l l l l l l l l l Y XB erro X Y X XB X X X Y X X X X B X X X Y IB B X X X Y 3.8. Análise de variância (ANOVA) e medidas de precisão a) ANOVA Análise de variância (ANOVA) FV GL SQ QM Fcal Regressão P SQRegressão SQRegressão P QMRegressão QMResíduo Resíduo(erro) n-P-1 ou n-p* SQResíduo SQResíduo n-P-1 Total n-1 SQTotal Onde: P - número de variáveis independentes no modelo / p* - desconsiderando b0 n - número de observações. 𝑆𝑄𝑅𝑒𝑔𝑟𝑒𝑠𝑠ã𝑜 = ∑ (�̂� − �̅�) 2𝑛 𝑖=1 - é a variação explicada pela regressão 𝑆𝑄𝑇𝑜𝑡𝑎𝑙 = ∑ (𝑦 − �̅�) 2𝑛 𝑖=1 - é a variação total das observações. 𝑆𝑄𝑅𝑒𝑠í𝑑𝑢𝑜 = ∑ (𝑦 − �̂�) 2𝑛 𝑖=1 ou SQResíduo = SQTotal - SQRegressão - variação não explicada pela regressão (erro). b) Medidas de precisão b.1) R2 (coeficiente de determinação) - indica o quanto das variações de y são explicadas pelas variáveis independentes em porcentagem. 𝑅2 = 𝑆𝑄𝑅𝑒𝑔𝑟𝑒𝑠𝑠ã𝑜 𝑆𝑄𝑇𝑜𝑡𝑎𝑙 100 ou 𝑅2 = 𝑆𝑄𝑇𝑜𝑡𝑎𝑙−𝑆𝑄𝑅𝑒𝑠𝑖𝑑𝑢𝑜 𝑆𝑄𝑇𝑜𝑡𝑎𝑙 100 Exemplo: R2 = 89,5% - significa que 89,5% de toda a variação existente nos dados são explicadas pela regressão e apenas 10,5% são atribuídos ao erro. Assim, quanto mais próximo 1 ou 100% melhor. b.2) Rajustado2 (coeficiente de determinação) - idem acima, porém aplicado quando se deseja comprar modelos com diferentes números de parâmetros (p). 𝑅2 = (1 − ( 𝑛−1 𝑛−𝑝−1 ) 𝑆𝑄𝑅𝑒𝑠𝑖𝑑𝑢𝑜 𝑆𝑄𝑇𝑜𝑡𝑎𝑙 )100; n = número de observações c) Syx (erro padrão residual) - expressa o quanto em termos médios os valores estimados variam em relação aos valores observados. A unidade do erro padrão residual é a mesma da variável dependente ou em porcentagem. 𝑆𝑦𝑥 = √𝑄𝑀𝑟𝑒𝑠𝑖𝑑𝑢𝑜 ou 𝑆𝑦𝑥 (%) = 𝑆𝑦𝑥 �̅� 100 Exemplo: Syx = 1,25 m3 - indica que ao se estimar o volume pela equação ajustada o erro será de 1,25 m3 em média, para mais ou para menos. d) Gráfico de resíduo É uma representação gráfica do comportamento dos resíduos ao longo de todo o intervalo de dado estudado, sendo expressa de várias formas. Exemplo: - y x yest (mais comum); - yest x X; - Resíduo(%) x X; ˆ- Re (%) = 100 Y Y siduo Y - Resíduo padronizado x X; ˆ- R = Y Y padronizado Syx 3.9. Critério de seleção do melhor modelo Gráfico de resíduo > Syx > 𝑅𝑎𝑗𝑢𝑠𝑡𝑎𝑑𝑜 2 Exemplo hipotético: Modelo R2 Syx Syx(%) 1 98,84 0,00930 6,34 2 99,22 0,00936 6,38 3 98,85 0,00937 6,39 4 98,94 0,00933 6,36 >> melhor modelo o 1
Compartilhar