Prévia do material em texto
1 ANÁLISE DE REGRESSÃO LINEAR MÚLTIPLA 1 REGRESSÃO LINEAR Verificado, pelo valor de “r”, que ocorre uma significante correlação linear entre duas variáveis há necessidade de quantificar tal relação, o que é feito pela análise de regressão. Cálculo da equação de uma reta que, disposta num sistema de eixos cartesianos, com valores de yi (variável dependente) na ordenada e xi (variável independente) na abcissa, a soma dos quadrados dos desvios verticais dos pontos em relação a ela seja mínima. Y = a +bX, onde Y é o valor estimado para um específico valor xi; “b” revela a inclinação da reta, ou seja o acréscimo ou decréscimo do valor de y em relação à x; “a” localiza o ponto de interseção da reta em relação ao sistema de coordenada retangulares. 2 3 VERIFICAÇÃO DO AJUSTE A UMA RETA PELO COEFICIENTE DE DETERMINAÇÃO (R2) Proporção da variação total da variável dependente “zi” que é explicada pela variação da variável independente “xi” Variação total dos dados: SQT = Z2 – (Z)2/n Variação devido à linha calculada: SQP = Z*2–(Z*)2/n Variação devido aos resíduos: SQR = SQT - SQP Porcentagem de ajuste da linha: R2 = (SQP/SQT)100 O coeficiente de correlação “r” indica a relação entre variáveis e “r2” indica o quanto uma variável “explica” a outra, ou quanto a linha calculada se ajusta aos dados originais. 4 REGRESSÃO CURVILÍNEA • Variáveis independentes: potências crescentes de xi, • Cálculo dos coeficientes ai • Com potências crescentes de xi, curva mais complexa para ajuste • Processo por etapas (stepwise) • O modelo para a regressão polinomial de grau k é ...3X 3 a2X 2 aX 1 a 0 a*Y εk i X k α...2 i X 2 α i X 1 α o αY 5 FUNÇÃO QUADRÁTICA 6 2 FUNÇÃO CÚBICA 7 REGRESSÃO LINEAR MÚLTIPLA • Testa dependências cumulativas de uma única variável dependente (Y) em relação à diversas variáveis independentes (Xi) • Y = a0 + a1X + a2X 2 + a3X 3 + a4X 4 + ......+ e • A variância total de Y é em parte "explicada" pelas diversas variáveis X's e o restante pela variabilidade devido ao erro (e) • A proporção da variância dos Y observados "explicada" por uma equação de regressão ajustada é representada pelo coeficiente de determinação R², variando entre 0 e 1 • O termo "explicada" tem apenas um significado numérico não implicando necessariamente em um conhecimento causa-efeito sobre o porque da relação existente 8 • Os coeficiente “ai”, parciais de regressão, fornece a taxa de mudança na variável dependente correspondente à respectiva variável independente, mantendo constantes as demais variáveis independentes. • Coeficientes de regressão parciais fornecem porcentagens explicadas da soma de quadrados de Y segundo 2k-1 combinações, onde k é o número de variáveis independentes. • É verificada a contribuição pura de cada variável independente por comparações sucessivas entre os diversos resultados. • As relações entre as variáveis devem ser lineares 9 Evitar um número inferior de casos em relação ao número de variáveis consideradas; é recomendado que tal relação seja da ordem de 10 a 20 vezes superior Evitar variáveis independentes redundantes, isto é, que tenham um alto coeficiente de correlação entre si Verificar, utilizando resíduos, a presença de valores anomalos 10 • Regressão múltipla é multivariada no sentido de que mais de uma variável é medida simultaneamente em cada observação • Trata-se, porem de uma técnica univariada, pois o estudo é em relação à variação da variável dependente Y, sem que o comportamento das variáveis independentes, Xs, seja objeto de análise. 11 CÁLCULO DOS COEFICIENTES AI YX YX YX Y a a a a XXXX XXXXX XXXX XXN m 2 1 m 2 1 0 2 mm1m m2212 m1 2 11 m1 [A] = [X]-1.[Y] 12 3 13 14 15 16 PEREIRA BARRETO/RESERVATÓRIO DE TRES IRMÃOS: LOCALIZAÇÃO DOS PONTOS DE AMOSTRAGEM 7714000 4 9 0 0 0 0 4 8 6 0 0 0 7722000 4 9 4 0 0 0 7718000 C or re go A ze d a L a ra n ja C or re go P o n te P e n sa Rio Tiete P e re ir a B a rr e to 17 Qual variável condiciona mais o Nivel Hidrostático? 18 4 EQUAÇÕES E COEFICIENTES DE DETERMINAÇÃO (R2) H: VARIÁVEL DEPENDENTE Variável / Equação (R2) Topografia H = 91.568 + 0.694*Z (m) 0,842 Topografia / Coordenada Y H = - 49490.061 + 6.454E-03*Y (m) 0,881 Topografia / Coordenada Y / Coordenada X H = - 15369.721 + 0.503*Z (m) + 1.941E-03*Y (m) + 1.114E-03*X (m) 0,890 Topografia / Coordenada Y / Coordenada X / Espessura da Formação H = - 16597.215 + 0.493*Z (m) + 2.098E-03*Y (m) + 1.148E-03*X (m) - 8.751E-03*FM (m) 0,890 Topografia / Coordenada Y / Coordenada X / Espessura da Formação / Topo Basalto H = - 16687.963 + 0.588*Z (m) + 2.110E-03*Y (m) + 1.146E-03*X (m) - 9.567E-02*TB (m) - 0.105*FM (m) 0,890 19 CONTRIBUIÇÃO PERCENTUAL DE CADA VARIÁVEL INDEPENDENTE COM RELAÇÃO À VARIAVEL DEPENDENTE H (SUPERFÍCIE POTENCIOMÉTRICA DO AQÜÍFERO LIVRE). Variável Contribuição Topografia 84,2% (0,842) Coord. Y 3,9% (0,881-0,842) Coord. X 0,9% (0,890-0,881) Espess. aqüífero 0,0% (0,890-0,890) Topo basalto 0,0% (0,890-0,890) 20 SUPERFÍCIE POTENCIOMÉTRICA DO AQÜÍFERO LIVRE (NH) 21 MAPA TOPOGRÁFICO 22 ESPESSURA DA FORMAÇÃO AQÜÍFERA 23 CONTORNO DO TOPO DO BASALTO 24 5 TOPOGRAFIA E LENÇOL FREÁTICO 25 superfície potenciométrica topografia 26 y = 0.804x + 51.259 R 2 = 0.8104 270 290 310 330 350 370 390 270 290 310 330 350 370 390 Cota do Terreno (m) C o ta d o N ív e l d 'Á g u a ( m ) 27 APLICAÇÃO DO MODELO LINEAR MÚLTIPLO À CONFECÇÃO DE MAPAS: ANÁLISE DE SUPERFÍCIES DE TENDÊNCIA. A análise de superfícies de tendência é simplesmente um tipo de análise de regressão múltipla em que as variáveis independentes são as coordenadas geográficas E-W e N-S. Com a aplicação dessa análise consegue-se separar dados mapeáveis em duas componentes: uma de natureza regional, representada pela própria superfície, e outra que revela as flutuações locais, representadas pelos valores residuais. 28 )y,x(e]...yayxaxayaxaa[)Y,X(z iii 2 i5ii4 2 i3i2i10i ]Z[]A[]XY[ yz xz z 2a 1a 0a yyxy yxxix yxn ii ii i 2 iiii ii 2 i ii ]Z[]XY[]A[ 1 29 Dados originais Dados interpolados Ajustando uma superfície de tendência de 1º grau 30 6 i 2 i iii i 2 i ii ii i 1 4 i 3 ii 2 i 2 i 3 i 2 ii 2 i 3 ii 2 i 2 ii 3 i 2 ii 2 iii 2 i 2 ii 3 i 4 i 2 i 3 i 2 i 3 i 2 iii 2 i 2 iiii 2 iii 2 i 3 ii 2 ii 2 iii 2 iii 5 4 3 2 1 0 zy zyx zx zy zx z yyxyxyyxy yxyxyxyx i yxyx yxyxx i yxxx yyxyxyyxy yxyxx i yxxx yyxxyxn b b b b b b Coeficientes para uma superfície de 2º grau 31 Amostragem: Rio Paraiba/plancton 0 500 1000 1500 2000 2500 0 50 100 Entrada de efluente 32 SUPERFÍCIE LINEAR 0 500 1000 1500 2000 2500 0 50 100 0 500 1000 1500 2000 2500 0 50 100 Superfície linear ou de 1º grau 33 RESÍDUOS DA SUPERFÍCIE DE TENDÊNCIA 0 500 1000 1500 2000 2500 0 50 100 Resíduos positivos e negativos da superfície linear 34 35 Bacia hidrográfica do Araquá, localizada na região centro- oeste do estado de São Paulo, distribuída entre os municípios de São Manuel e Botucatu . (SILVA, R. F. B., 2011)36 64 pontos de amostragem. Variáveis medidas: areia, argila, fósforo (P), potássio (K) e saturação por bases (V%). 7 37 38 39 Areia 40 Argila EXERCÍCIO 01 As matrizes de dados a serem analisadas são compostas, cada uma, por 36 amostras provenientes de um levantamento de solos de parte do Horto Santa Terezinha, numa área de 1.573,96 ha, pertencente à Chamflora Agricola Ltda, localizado no município de Mogi-Guaçú/SP. A primeira matriz contem amostras retiradas de uma profundidade de 0-20 cm, tendo sido obtidos valores de areia (%), silte (%), argila (%), pH, Ca2+ (meq 100 g-1), Mg2+ (meq 100 g-1), K+ (meq 100 g-1), Al3+ (meq 100 g-1), H+ (meq 100 g-1), Passimilável (ug cm -3), MO (%). A segunda contem amostras retiradas de uma profundidade de 60-80 cm, tendo sido obtidos valores de areia (%), silte (%), argila (%), pH, Ca2+ (meq 100 g-1), K+ (meq 100 g-1), Al3+ (meq 100 g-1), H+ (meq 100 g-1), Passimilável (ug cm -3), MO (%). 4 1 XLSTAT: Distribuição espacial dos pontos de amostragem (Visualização de dados/Scatter plots) Histogramas e respectivo ajuste a uma distribuição normal (Modelagem de dados/Ajuste de uma distribuição). Matriz de coeficientes de correlação entre as variáveis (Descrição de dados/Matrizes de similaridades/similaridades) 4 2 8 43