Prévia do material em texto
1 Introdução à análise estatística de dados geológicos multivariados PAULO M. BARBOSA LANDIM Professor Emérito da Universidade Estadual Paulista/UNESP Professor Voluntário do Depto. Geologia Aplicada, UNESP/Rio Claro 2010 Reprodução autorizada desde que citada a fonte Norma 6023-2000/ABNT ( http://www.abnt.org.br): LANDIM, P.M.B. Introdução à análise estatística de dados geológicos multivariados. DGA,IGCE,UNESP/Rio Claro, Texto Didático 15, 229 pp., 2010. Disponível em <http://www.rc.unesp.br/igce/aplicada/textodi.html>. Acesso em:.... Dúvidas, questões, sugestões, etc. sobre o texto deverão ser encaminhadas para o endereço plandim@rc.unesp.br, as quais serão sempre bem recebidas 2 ÍNDICE 01. INTRODUÇÃO…………………………………………………………………………….. 03 02. NOÇÕES DE ÁLGEBRA MATRICIAL……………………………………………….. 13 03. REGRESSÃO LINEAR MÚLTIPLA………………………………………………….... 34 04. ANÁLISE DE AGRUPAMENTOS......................................................... 59 05. ANÁLISE DE COMPONENTES PRINCIPAIS........................................ 77 06. ANÁLISE DE FATORES................................................................... 98 07. ANÁLISE DE CORRESPONDÊNCIAS (ANÁLISE DE ASSOCIAÇÕES)..... 111 08. ANÁLISE DISCRIMINANTE.............................................................. 124 09. INTRODUÇÃO À GEOESTATÍSTICA.................................................. 142 10. CLASSIFICAÇÃO REGIONALIZADA................................................... 169 11. GEOESTATÍSTICA MULTIVARIADA................................................... 184 12. ANEXO: MATRIZ DE DADOS ........................................................... 205 3 1. INTRODUÇÃO A aplicação de métodos quantitativos em Geologia é muito antiga e dois exemplos emblemáticos podem ser citados. Agrícola (1556) utilisou trigonometria para mapeamento mineiro, como visto em seu clássico De Re Mettalica e, quando do início da Geologia como ciência moderna, Charles Lyell em 1830 ao classificar os estratos terciários da Bacia de Paris, o fez baseado na presença relativa de espécies recentes de moluscos, num procedimento estratigráfico-estatístico. A partir desse início, porém, a Geologia permanece qualitativa e puramente descritiva e apenas nos anos 20 do século passado é que o enfoque quantitativo começa a se tornar mais presente. Assim nessa época William C. Krumbein propõe a amostragem geológica em bases probabilísticas e introduz os modelos “processo-resposta”. O entendimento das relações de causa-e-efeito para a explicação dos processos geológicos leva Andrei Vistelius, no início dos anos 40, a iniciar a formulação da chamada Geologia Matemática. Em que pese essas iniciativas, entre outras, a Geologia até há bem pouco tempo, era freqüentemente considerada uma ciência baseada em interpretações puramente qualitativas dos fenômenos geológicos. Nos últimos 40 anos, porém, tem sido notável a mudança da fase descritiva para a utilização de métodos quantitativos, principalmente nas diversas áreas da Geologia Aplicada. Na área mineral, com destaque para a do petróleo, onde a interpretação geológica, alem de estar fundamentada em conceitos científicos, precisa ter aplicação econômica, observa-se uma marcante tendência quantitativa que vem possibilitando avanços importantes principalmente no uso de técnicas espaciais. Um consistente relato sobre a quantificação em Geologia encontra-se em MERRIAM (2004). Nas últimas décadas, graças a avanços tecnológicos tanto em termos computacionais como em equipamentos de laboratório e de campo mais refinados, tem sido intensa a obtenção de dados geológicos quantitativos. A sua análise, porem, esta muito aquém dessa imensa quantidade de informações coletadas. Basta ver os relatórios de pesquisa e mesmo os bancos de dados com um grande número de matrizes de informações não trabalhadas. Verbas e tempo são gastos com essa coleta que precisa ser devidamente manuseada e para essa análise dos dados o emprego de técnicas estatísticas multidimensionais torna-se 4 uma ferramenta fundamental. Isto porque, como os fenômenos geológicos são resultantes de diversos fatores condicionantes, o seu entendimento é facilitado quando o estudo é submetido a um tratamento quantitativo multidimensional. Deve ser enfatizado, porem, que a pura utilização de técnicas estatísticas, e hoje em dia bastante facilitada graças à vasta disposição de programas computacionais, não é condição suficiente se o estudo não for embasado num sólido conhecimento geológico. No caso de uma única variável ter sido medida em amostras, no sentido geológico, a análise de tais dados é feita por intermédio da estatística univariada. Se porém valores de diversas variáveis forem obtidos em cada uma das amostras, as técnicas para a análise desses dados são fornecidas pela estatística multivariada ou multidimensional. Tal análise estatística de mensurações múltiplas efetuadas sobre uma amostra fornece um melhor entendimento na razão direta do número de variáveis utilizadas e permite considerar simultaneamente a variabilidade existente nas diversas propriedades medidas. Os resultados de análises de dados uni ou bi variados podem se apresentar na forma de gráficos em 1D, 2D e mesmo 3D, de fácil compreensão. No caso porem de, por exemplo, 10 variáveis o resultado ocorre num espaço a 10 dimensões, concebível apenas de um modo abstrato. Uma das funções, porem, dos métodos multivariados é, ao apresentar os resultados, ser capaz de reduzir a dimensão dos dados tornando possível um melhor entendimento gráfico a duas ou três dimensões. Entre os métodos mais utilizados em Geociências destacam-se a análise de agrupamentos , a análise das componentes principais e a análise discriminante. A análise de agrupamentos é utilizada quando se deseja explorar as similaridades entre indivíduos (modo Q) ou entre variáveis (modo R) definindo-os em grupos, considerando simultaneamente, no primeiro caso, todas as variáveis observadas em cada indivíduo e, no segundo, todos os indivíduos nos quais foram feitas as mesmas medidas. Segundo esse método, procura-se por agrupamentos homogêneos de itens representados por pontos num espaço n-dimensional em um número conveniente de grupos relacionando-os através de coeficientes de similaridade ou de distância. 5 A análise das componentes principais procura interpretar a estrutura de um conjunto de dados multivariados, tanto em modo “Q” como em modo “R”, a partir da respectiva matriz de variâncias-covariâncias ou de correlações, pela obtenção de “autovalores” e “autovetores”. Consiste numa transformação linear das "m" variáveis originais correlacionadas entre si em "m" novas variáveis ortogonais e não deve ser confundida com a análise fatorial, segundo a qual supõe-se que as relações existentes dentro de um conjunto de "m" variáveis seja o reflexo das correlações de cada uma dessas variáveis com "p" fatores, mutuamente não correlacionáveis entre si, sendo "p" menor que "m". A matriz de carregamentos de cada variavel nas componentes principais, ao ser multiplicada pela matriz original de dados, fornece a matriz de contagens (scores) de cada caso em relação às componentes principais. A análise discriminante é aplicada quando em relação a um indivíduo, sobre o qual tenham sido feitas diversas medidas, é necessário decidir à qual de dois ou mais possíveis grupos, o mesmo pertence. A idéia básica é substituir o conjuntooriginal das diversas mensurações por um único valor Di, definido como uma combinação linear delas. Para fornecer um único valor os termos são adicionados nessa função linear e esta transformação é realizada de tal modo a fornecer a razão mínima entre a diferença entre pares de médias multivariadas e a variância multivariada dentro dos dois grupos. Conhecido os Di's, estes serão comparados com um certo Do , ou seja, o valor situado, ao longo da linha expressa pela função discriminante, a meio caminho entre os centros dos grupos, com a finalidade de verificar a qual deles os indivíduos pertencem. A utilidade dos métodos multivariados pode ser apresentada em termos geométricos. Assim, observações univariadas podem ser assinaladas sobre uma linha reta e se essa linha for dividida em intervalos de classes e contando o número de observações em cada intervalo, um histograma poderá ser construído. Esse histograma irá requerer duas dimensões para a sua representação. Observações bivariadas podem ser assinaladas em um sistema de dispersão a duas dimensões. Se o diagrama for dividido em celas, o número de observações em cada cela pode ser contado e o respectivo histograma construído. Esse histograma requer três dimensões e pode ser representado por um mapa de 6 isovalores. Observações trivariadas podem ser assinaladas em um gráfico de dispersão a três dimensões e a configuração nos pontos no espaço definirá uma elipsóide. Se o espaço tri-dimensional for dividido em cubos os números de observações dentro de cada figura geométrica poderão ser contados e obtida a distribuição de freqüências. Para a construção do respectivo histograma quatro dimensões serão necessárias. Em observações com quatro ou mais variáveis não é possível a representação gráfica segundo os métodos comuns, embora MERTIE (1949) tenha proposto para tanto complicados hipertetraedros. Utilizando, assim, a interpretação geométrica em três dimensões para observações trivariadas, os seguintes exemplos de procedimentos em estatística multidimensional podem ser apresentados: a) na análise de agrupamentos procura-se por grupos em que as distâncias ao respectivo centróide sejam minimizadas e as distâncias entre centróides dos grupos sejam maximizadas; b) na análise das componentes principais é verificado se as observações multivariadas ocupam um número de dimensões igual ao número de variáveis medidas inicialmente e para tanto os eixos do elipsóide devem ser sispostos de tal modo a colocar o centro do elipsóide coincidente com o centro do sistema de coordenadas; c) na análise discriminante localizam-se os centros dos elipsóides e calcula-se a distância entre pares de centros de elipsóides; Como salientado por DAVIS (1986), os métodos multivariados são poderosos, permitindo o pesquisador manipular diversas variáveis simultaneamente. São, porém, bastante complexos, tanto na sua estrutura teórica como na metodologia operacional. Em alguns casos os testes estatísticos a serem utilizados exigem requisitos muito rígidos e em outros, muitas vezes quando quer relacioná-los com problemas reais, não apresentam base estatística teórica e desse modo impossibilidade de testes de significância. De qualquer modo, são métodos extremamente promissores para a análise de dados geológicos tendo em vista que normalmente a maioria das situações geológica envolve um conjunto complexo de fatores atuando no sistema, sendo impossível isolá-los e estudá-los isoladamente. 7 Exemplos de situações que apresentam dados multivariados são comuns em Geociências, como: análises geoquímicas de elementos maiores e/ou elementos traços; caracteres morfológicos medidos em fósseis; características físicas de rochas sedimentares, como distribuição granulométrica, porosidade, permeabilidade; conteúdo mineralógico em rochas; variáveis fluviais, como descarga, material em suspensão, profundidade, sólidos dissolvidos, pH e conteúdo em oxigênio; características geotécnias de solos e rochas; bandas espectrais em imagens de satélites, etc.. Em alguns casos trata-se de simples extensão de problemas ligados à estatística univariada e outros pertencem, todavia, a uma nova classe de problemas. Esses métodos clássicos da análise estatística multivariada não levam, porém, em consideração a localização dos pontos de amostragem, nem as suas relações espaciais e também não refletem as diferenças quanto o suporte das amostras ou com relação ao suporte da região onde o estudo esta sendo realizado. A metodologia geoestatística univariada, de recente aplicação, tem essas propriedades, mas não é capaz de tratar da correlação espacial entre diversas variáveis. Ferramentas se tornaram, então, necessárias para incorporar essas importantes feições e daí a necessidade de métodos estatísticos que enfoquem a análise espacial de dados geológicos multivariados. Para tanto duas soluções tem sido apresentadas: uma, adaptativa, procurando, a partir dos resultados dos métodos clássicos, verificar se os mesmos apresentam uma organização espacial significativa e outra, específica, desenvolvendo metodologia própria para esta problemática, com destaque para a a cokrigagem e a krigagem fatorial. Caso as amostras, no sentido geológico, sejam georreferenciadas os grupos resultantes da análise de agrupamentos/modo Q poderão ser submetidos a uma verificação espacial para a constatação de algum padrão de distribuição espacial desses grupos. De modo idêntico os “scores”, calculados a partir da análise das componentes principais ou da análise de fatores, que tenham suas coordenadas geográficas conhecidas poderão fornecer mapas de distribuição ou de tendência espacial. A análise discriminante pode ser aplicada para avaliar e comparar alterações ocorridas a intervalos de tempo indicando que variáveis mais 8 contribuíram para essas mudanças. São adaptações de métodos estatísticos multivariados procurando modelar espacial ou cronologicamente fenômenos geológicos. Isso, porém, somente é possível se as amostras da matriz de dados multidimensionais apresentarem perfeitamente conhecidas as suas coordenadas geográficas. A cokrigagem é um procedimento geoestatístico segundo o qual diversas variáveis regionalizadas podem ser estimadas em conjunto, com base na correlação espacial entre si. É uma extensão multivariada do método da krigagem quando, para cada local amostrado, obtém-se um vetor de valores em lugar de um único valor. A aplicação da cokrigagem torna-se bastante evidente quando duas ou mais variáveis são amostradas nos mesmos locais dentro de um mesmo domínio espacial e apresentam significativo grau de correlação. Valores ausentes não se tornam problemáticos, pois o método deve ser usado exatamente quando uma das variáveis apresenta-se sub-amostrada em relação às demais. Essa variável é conhecida como “primária” e as demais como “secundárias”. O objetivo é, portanto, melhorar a estimativa da variável sub-amostrada utilizando aquelas mais densamente amostradas. No caso da krigagem fatorial deve-se efetuar: 1) modelagem de corregionalização das variáveis usando o denominado modelo linear de corregionalização: todos os p(p + 1)/2 variogramas diretos e cruzados das p variáveis são modelados por uma combinação linear dos N´s variogramas padronizados para um mesmo alcance (sill); nesta modelagem supõe-se que o comportamento espacial das variáveis é o resultado da interação de diferentes processos atuando independentemente a diferentes escalas espaciais; 2) analise da estrutura de correlações entre as variáveis, levando em consideração as diferentes escalas, com aplicação daanálise das componentes principais; um “círculo de correlações” entre as variáveis originais e os dois mais importantes fatores regionalizados é utilizado para resumir as relações entre as variáveis a cada escala espacial; 3) estimação das relações entre os fatores regionalizados e variáveis, como componentes espaciais, a diferentes escalas por cokrigagem, para, finalmente, mapeà-los. 9 Em qualquer das circunstâncias citadas a preocupação é com: Descrição dos dados: os dados precisam ser explorados, tanto espacial como cronologicamente, em sua estrutura multidimensional para o seu entendimento e constatação de eventuais valores anômalos que possam mascarar tal estrutura. Existem a disposição, graças à moderna tecnologia computacional, ferramentas gráficas que permitem a visualização simultânea de amostras no espaço e/ou no tempo e as primeiras idéias a respeito da estrutura multidimensional podem começar a surgir a partir dessas exibições gráficas. Interpretação: os produtos gráficos obtidos a partir das informações numéricas são avaliados levando em consideração tanto o conhecimento já adquirido com dados similares como fatos científicos relacionados às variáveis sob estudo. A interpretação da estrutura espacial ou temporal, as associações e as relações casuais entre variáveis devem, então, ser organizadas num modelo que se ajuste aos dados. Estimação: A modelagem, se correta, não apenas descreve o fenômeno nos locais amostrados, mas pode se tornar válida para interpolações em locais ou intervalos de tempo adjacentes, não amostrados, representando um passo alem com relação às informações contidas nos dados numéricos. Na verdade este é o grande desafio da análise multivariada de dados espaciais, a estimação de valores para situações de previsão quantitativa. A pretensão deste texto, escrito de maneira a mais simples possível, por um Professor de Geologia, é apresentar uma introdução aos métodos estatísticos multidimensionais que possam ser aplicados na análise de dados, sem uma abordagem matemática complexa, porem sempre, que possível, com um enfoque espacial e que permita ao usuário iniciar-se na Geologia Quantitativa. Não pretende ser um livro-texto detalhado. Pressume-se que os leitores tenham um conhecimento básico de estatística descritiva, alem de dominar conceitos simples de álgebra matricial e familiaridade com manuseio de computadores pessoais. Os exemplos são voltados às Geociências, mas a metodologia pode perfeitamente ser utilizada em outras áreas que disponham de dados com estas mesmas características, ou seja, multivariados e regionalizados. 10 Existe à disposição uma variedade muito grande de livros e pacotes computacionais e entre os principais livros textos que tratam de métodos quantitativos em Geologia podem ser citados: MILLER & KAHN (1962), SOKAL & SNEATH (1963), KRUMBEIN & GRAYBILL (1965), KOCH & LINK (1971), DAVIS (1973, 1986 E 2002), JORESKOG, KLOVAN & REYMENT (1976) , LE MAITRE (1982), HOWARTH & SIDING-LARSEN (1985), SWAN & SANDILANDS (1995), GRIFFITH & AMRHEIN (1997), REYMENT & SAVAZZI (1999) E WACKERNAGEL (2003). Em Geologia, principalmente em Geoquímica, é comum a existência de variáveis cuja soma é constante, isto é, quando os dados são composicionais apresentando-se os valores em porcentagem ou em razão. Nestes casos surgem problemas que acarretam resultados distorcidos. Existem, porém, diversas técnicas estatísticas para contornar tais situações como expostas, entre outros, em CHAYES & KRUSKAL (1966), CHAYES (1971), AITCHISON (1986), BARCELÓ ET AL. (1996), AITCHISON (1997) e PAWLOWSKY-GLAHN & OLEA (2004). Existem tambem diversos softwares estatísticos de aplicação geral, bem elaborados e completos como SAS, S-Plus, Statistica, Systat, todos em constante atualização. Dois outros, bastante amigáveis, para serem utilizados, e com boa saida gráfica, são o MVSP e o Xlstat, este baseado no aplicativo Excel®. Um pacote desenvolvido no Brasil voltado para aplicações em Ciências Biológicas e Médicas é o Bioestat e um outro proveniente da Noruega, com aplicações em Paleontologia, é o PAST, ambos obtidos gratuitamente nos endereços mizayres.bel@orm.com.br e http://folk.uio.no/ohammer/past Alem disso na revista “Computers & Geosciences”, editada pela International Association for Mathematical Geology, freqüentemente são apresentados programas listados e/ou executáveis descarregáveis a partir do endereço www.iamg.org. 11 REFERÊNCIAS BIBLIOGRÁFICAS AGRICOLA, G. (1556) – De Re Metallica: Froben, Basel (traduzido do Latim por Hoover, H.C., Hoover, L.H. 1912 e publicado por Dover Publ., New York, 1950) AITCHISON, J. (1986) – The Statistical Analysis of Compositional Data: Chapman and Hall. Reprinted in 2003 with additional material by the Blackburn Press. AITCHISON, J. (1997) – The one-hour course in compositional data analysis or compositional data analysis is easy, in Pawlowsky Glahn V., ed., Proceedings of the Third Annual Conference of the International Association for Mathematical Geology: CIMNE, Barcelona, p. 3-35. AYRES, M.; AYRES JR., M.; AYRES, D. L. & SANTOS, A. S. (2000) – BioEstat 2.0: aplicações estatísticas nas áreas das ciências biológicas e médicas: Sociedade Civil Mamirauá, MCT-CNPq, mizayres@zaz.com.br BARCELÓ, C., PAWLOWSKY, V. & GRUNSKY, E. (1996) – Some aspects of transformations of compositional data and the identification of outliers : Math. Geology, 28:501-518 CHAYES, F. (1971) - Ratio Correlation: A Manual for Students of Petrology and Geochemistry: University of Chicago Press. CHAYES. F. & KRUSKAL, W. (1966) - An Approximate Statistical Test for Correlation between Proportions: Jour. Geology, 74: 692-702. DAVIS, J.C. (1973) - Statistics and Data Analysis in Geology: John Wiley and Sons. DAVIS, J.C (1986) - Statistics and Data Analysis in Geology: 2nd ed., John Wiley and Sons. DAVIS, J.C (2002) - Statistics and Data Analysis in Geology: 3rd ed., John Wiley and Sons. GRIFFITH, D.A. & AMRHEIN, C.G. (1997) – Multivariate Statistical Analysis for Geographers – Prentice Hall. HAMMER. O. & HARPER, D.A.T. (2004) – PAST. PAlaentological STatistics, versão 1.20. http://folk.uio.no/ohammer/past HOWARTH, R.J. & SINDING-LARSEN, R. (1985) - Multivariate analysis: in (G.J.S. Govett, ed.) “Statistics and Data Analysis in Geochemical Prospecting”, vol. 2:207-289, Elsevier. JORESKOG, K.G., KLOVAN, J.E. & REYMENT, R.A. (1976) - Geological factor analysis: Elsevier. KOCH JR, G.S. & LINK, .F. (1971) - Statistical analysis of geological data: vol. 2, John Wiley & Sons. KRUMBEIN, W.C. & GRAYBILL, F.A. (1965) - An introduction to Statistical Model in Geology: McGraw Hill Book. LE MAITRE, R.W. (1982) - Numerical Petrology. Statistical Interpretation of Geochemical Data: Elsevier. 12 MERRIAM, D. F. (2004) – The quantification of geology: from abacus to Pentium. A chronicle of people, places, and phenomena: Earth-Science Reviews, 67:55-89 MERTIE JR, J.B. (1949) - Charting five and six variables on the bounding tetrahedral of hyper tetrahedral: Am. Mineralogist, 34:706-716. MILLER, R.L. & KAHN, J.S. (1962) - Statistical analysis in the geological sciences: John Wiley and Sons. MVSP – Multi-Variate Statistical Package: Kovach Computing Services, http://www.kovcomp.co.uk PAWLOWSKY-GLAHN, V., OLEA, R.A. (2004) – Geostatiitical Analysis of Compositional Data: I.A.M.G., Stud. Math. Geology n. 7, Oxford University Press REYMENT, R.A. & SAVAZZI, E. (1999) – Aspects of Multivariate Statistical Analysis in Geology - Elsevier. SAS – SAS Institute, http://www.sas.com SOKAL, R.R. & SNEATH, P.H.A. (1963) - Principles of numericaltaxonomy: W.H. Freeman. S-PLUS – Mathsoft, http://www.mathsoft.com STATISTICA – StatSoft Inc., http://www.statsoft.com SYSTAT – SPSS Inc., http://www.spss.com SWAN, A.R.H. & SANDILANDS (1995) – Introduction to Geological Data Analysis: Blackwell Science Ltd. WACKERNAGEL, H. (2003) – Multivariate Geostatistics. Springer. XLSTAT – AddinSoft SARL, http://www.xlstat.com 13 2. NOÇÕES DE ÁLGEBRA MATRICIAL Os métodos estatísticos multivariados são normalmente baseados em manipulação de matrizes, porque os dados multidimensionais são apresentados nesse formato, o que, inclusive, facilita a confecção de algoritmos a serem utilizados por computador. [ ] = n,m2,m1,m n,32,31,3 n,22,21,2 n,12,11,1 j,i xxx xxx xxx xxx X L MOMM L L L A álgebra matricial torna-se, portanto, uma ferramenta básica para o entendimento desses métodos e neste capítulo são apresentadas algumas noções elementares. Cada tópico é acompanhado por exemplos numéricos de pequenas dimensões. Maiores detalhes sobre álgebra linear podem ser encontrados, entre outros, em AYRES JR. (1962), DAVIS (1984), FERGUNSON (1988, cap. 6 e 7), GOLUB & VAN LOAN (1996) e HARVILLE (1997).. 2.1. Matrizes e vetores Matriz é um arranjo bidimensional constituído por elementos xij, onde i representa linha e j coluna. Normalmente as linhas são indivíduos ou casos ou objetos ou amostras, no sentido geológico, e as colunas, variáveis. [ ] = 4,43,42,41,4 4,33,32,31,3 4,23,22,21,2 4,13,12,11,1 4,4 xxxx xxxx xxxx xxxx X Se o número de linhas é igual ao número de colunas a matriz é conhecida como quadrada. [X] é, portanto, uma matriz quadrada. O número de linhas não precisa, porém, ser igual ao número de colunas, ou vice-versa: 14 [ ] [ ] = = 2,31,3 2,21,2 2,11,1 2,3 3,22,21,2 3,12,11,1 3,2 zz zz zz Z yyy yyy Y [Y] é uma matriz com 2 linhas e 3 colunas e [Z] é uma matriz com 3 linhas e 2 colunas, sendo ambas retangulares. Matriz diagonal é uma matriz quadrada onde os elementos fora da diagonal principal são todos iguais a 0 (zero): [ ] = 33 22 11 x00 0x0 00x X Matriz de identidade ou matriz unitária é uma matriz diagonal onde os elementos da diagonal principal são todos iguais a 1 e os demais 0 (zero): [ ] = 100 010 001 I O traço de uma matriz é a soma dos termos da diagonal principal, sendo definido somente para uma matriz quadrada Uma matriz com apenas uma linha é chamada de vetor linha e uma matriz com apenas uma coluna é chamada de vetor coluna: [ ] [ ] [ ] == n 2 1 m11 y y y Youx...xxX M Escalar é uma matriz com dimensões 1x1. 2.2. Operações com matrizes Transposição: permuta linhas por colunas e vice-versa; representada por [ ]’, de modo que um elemento aij em [A] passa a ser aji em [A]’ 15 = = 22935563 89784048 45122833 ]'A[então, 228945 937812 554028 634833 ]A[se Uma matriz simétrica é uma matriz quadrada que é imutável quando transposta, de modo que [S]’ = [S]. . Adição e subtração: similar à álgebra linear. O número de linhas e de colunas precisa ser igual nas duas matrizes a serem adicionadas ou subtraídas = ++ ++= + 115 83 4723 3512 42 31 73 52 Multiplicação: para efetuar a multiplicação, por exemplo [A]*[B]=[C], o número de linhas em [B] deve ser igual ao número de colunas em [A]. O resultado em [C] terá o mesmo número de linhas que [A] e o mesmo número de colunas que [B] ]C[]B[*]A[ lkjklj = A formula geral para determinar cada elemento em [C] é ∑ = = r 1k kjikij b*ac onde r é o número de colunas em [A] ou linhas em [B]. Isto significa que, por exemplo para c11, deve-se multiplicar a primeira linha em [A] vezes a primeira coluna em [B]; para encontrar c23 multiplicar a segunda linha de [A] pela terceira coluna de [B] = +++ +++ +++ = 101734 142142 121938 )2*3()1*4()3*3()2*4()6*3()4*2( )2*7()1*0()3*7()2*0()6*7()4*2( )2*5()1*2()3*5()2*2()6*5()4*2( 236 124 * 34 70 52 Importante notar que o resultado de [A]*[B] geralmente não é o mesmo que [B]*[A]: 16 = 5720 3712 34 70 52 * 236 124 Multiplicação por escalar: cada elemento da matriz é multiplicado pelo escalar = 219 153 73 52 *3 Determinantes: número singular associado a uma matriz quadrada. O determinante da matriz [A] é representado por |A|. Para uma matriz de dimensões 2x2 o determinante é calculado pelo produto dos elementos de uma diagonal menos o produto dos elementos da outra diagonal: )a*a()a*a( aa aa 21122211 2221 1211 −= Inverso de uma matriz Como não há divisão em álgebra matricial, o procedimento adotado é utilizar o inverso da matriz. Na álgebra linear se A*B = C, para resolver A calcula- se B C A = ou também B 1 *CA = . O inverso da matriz é análogo a B 1 . O inverso de uma matriz [X] é representado por [X]-1 e para o seu cálculo é necessário satisfazer a condição [X]*[X]-1=[I]. Em algumas situações isso não é possível porque é encontrada uma divisão por zero durante o processo de inversão. Nesse caso, de impossibilidade de inversão, a matriz é conhecida como singular. Esta é uma das mais importantes técnicas em álgebra matricial e essencial para a solução de sistema de equações simultâneas do tipo: [A]*[X]=[B], 17 onde [A] e [B] contém valores conhecidos e [X] valores desconhecidos a serem determinados. Multiplicando ambos os lados da equação por [A]-1 [A]-1*[A]*[X]=[A]-1*[B], Como [A]-1*[A]=[I], a equação se reduz para [X]=[A]-1*[B] Seja o seguinte sistema de equações onde se quer determinar x1 e x2 04x1+10x2= 38 10x1+30x2=110 Em notação matricial: = 110 038 x x * 3010 1004 2 1 Para encontrar os valores xi, basta inverter a matriz [A] e multiplicar o inverso pelo vetor coluna [B] O inverso de [A] é encontrado da seguinte maneira: 10 01 3010 1004 10 025,0 3010 5,201 − 15,2 025,0 0510 5,201 − 2,05,0 025,0 010 5,201 18 − − 2,05,0 5,05,1 10 01 Verificação da inversão de matriz: = − − 10 01 3010 1004 * 2,05,0 5,05,1 Cálculo dos xi: = − − 3 2 110 038 * 2,05,0 5,05,1 x1=2 e x2=3 2.3. Algumas matrizes especiais 2.3.1. Matriz de coeficientes de correlação A matriz original de dados é constituída por m indivíduos (unidades de observação) e n variáveis, em que cada linha i representa um indivíduo e cada coluna j uma variável. = n,m3,m2,m1,m n,33,32,31,3n,23,22,21,2 n,13,12,11,1 xxxx xxxx xxxx xxxx ]j,iX[ L MMMM L Para o cálculo de uma matriz de coeficientes de correlação a seguinte seqüência deve ser obedecida: 1. Encontrar para cada coluna a respectiva média e o desvio padrão: m x x jj Σ= ; 1m m )ix( ix S 2 2 j − Σ−Σ = ; 2ji ss = 2. Encontrar o valor zij para cada observação: 19 3. A partir daí, constituir a matriz [ ]Z , também de dimensões mxn: = n.m3,m2,m1,m n,33,32,31,3 n,23,22,21,2 n,13,12,11,1 zzzz zzzz zzzz zzzz ]Z[ L MMMM L 4. Encontrar o transposto da matriz [Z] = n,mn,3n,2n,1 2,m2,32,22,1 1,m1,31,21,1 ' zzzz zzzz zzzz ]Z[ MMMM 5. Multiplicando [Z]’ por [Z], encontrar a matriz [V], de dimensões nxn [V] = [Z]’ [Z] = 2 n2n1n n2 2 212 n121 2 1 vvvvv vvvvv vv...vvv ]V[ MMM 6. Finalmente, calcular a matriz de coeficientes de correlação, multiplicando o escalar 1m 1− por [V] [ ] =−= n,n2,n1,n n,22,21,2 n,12,11,1 rrr rrr rrr V 1m 1]R[ MMM L L j ij ij s jxxz −= 20 Exemplo = 444 345 321 432 321 ]X[ Médias: x1=2,6; x2=3,0; x3=3,4 Desvios padrão: s1 = 1,8; s2=1,0; s3=0,55 [ ] − −−− − −−− = 091,1000,1778,0 0727000,1333,1 727,0000,1889,0 091,1000,0333,0 727,0000,1889,0 Z [ ] −−− −− −−− = 091,1727,0727,0091,1727,0 000,1000,1000,1000,0000,1 778,0333,1889,0333,0889,0 Z | [ ] = 967,3818,1808,0 818,1000,4889,3 809,0889,3074,4 V [ ] = 000,1455,0202,0 455,0000,1972,0 202,0972,0000,1 R Cada elemento desta matriz se refere à correlação entre o par de variáveis em questão. 2.3.2. Matriz de variâncias e covariâncias A matriz original de dados é constituída por m indivíduos e n variáveis, em que cada linha i representa um indivíduo e cada coluna j uma variável. 21 = n.m3,m2,m1,m n,33,32,31,3 n,23,22,21,2 n,13,12,11,1 xxxx xxxx xxxx xxxx ]X[ L MOMMM L L L Para o cálculo de uma matriz de variâncias e covariâncias, a seguinte seqüência deve ser obedecida: 1. Encontrar a média de cada coluna e subtrair esse valor de cada elemento: m x x jj Σ= ; jij*ij xxx −= = n.m3,m2,m1,m n,33,32,31,3 n,23,22,21,2 n,13,12,11,1 *x*x*x*x *x*x*x*x *x*x*x*x *x*x*x*x *]X[ L MOMMM L L L 2. Criar uma matriz de somas de quadrados e produtos cruzados [A], pela multiplicação de [X*]’ por [X*], de dimensões mxm. = n,mn,3n,2n,1 2,m2,32,22,1 1,m1,31,21,1 ' *x*x*x*x *x*x*x*x *x*x*x*x *]X[ MMMM [A] = [X*]’[X*] = 2 n2n1an n2 2 212 n121 2 1 aaaa aaaaa aa...aaa ]A[ MMM 22 3. Finalmente criar uma matriz de variâncias e covariâncias [S] multiplicando o escalar 1n 1 − por [A] [ ] =−= n,n2,n1,n n,22,21,2 n,12,11,1 sss sss sss A 1m 1]S[ MMM L L Exemplo = 444 345 321 432 321 ]X[ Médias: x1=2,6; x2=3,0; x3=3,4 [ ] − −−− − −−− = 6,00,14,1 4,00,14,2 4,00,16,1 6,00,06,0 4,00,16,1 *X [ ] −−− −− −−− = 6,04,04,06,04,0 0,10,10,10,00,1 4,14,26,16,06,1 *X | [ ] = 2,10,18,0 0,10,40,7 8,00,72,13 A [ ] = 30,025,020,0 25,000,175,1 20,075,130,3 S 23 Cada elemento da diagonal se refere à variância de uma variável e fora da diagonal à covariância entre o par de variáveis em questão. A soma dos elementos da diagonal é a variância total no sistema. Notar que a matriz de correlações é a matriz de variâncias e covariância com cada elemento dividido pelo produto dos desvios padrões das respectivas variáveis. A matriz de correlações é também a matriz de variâncias e covariâncias de variáveis padronizadas. 2.3.3. Autovalores (eingenvalues) e Autovetores (eigenvectors) Este tópico é geralmente considerado de difícil entendimento dentro da álgebra matricial, não tanto pela maneira de cálculo, mas principalmente pelo entendimento que se possa ter de seu resultado. Uma interpretação geométrica como apresentada a seguir, baseada em GOULD (1967), pode ajudar a entender o significado de autovalores e autovetores. Considerando os valores de uma matriz como coordenadas de pontos num espaço multidimensional, autovalores e autovetores passam a ser propriedades geométricas do arranjo desses pontos. Seja um conjunto de 3 equações lineares: a11x1+a12x2+...+a1nxn=λx1 a21x1+a22x2+...+a2nxn=λx2 a31x1+a32x2+...+a3nxn=λx3 Essas equações podem ser escritas em forma de matriz, onde [A], contendo os coeficientes aij’s, multiplicada por um vetor [X], de desconhecidos xi’s, é igual a este vetor [X] multiplicado por um escalar λ. [A][X] = λ[X], Para encontrar os valores de λi que satisfaçam a relação acima, a equação pode ser reescrita como: ([A] – λ[I])[X] = 0, onde λ[I] é a matriz de identidade, de dimensões 3x3, multiplicada por λ: 24 λ λ λ 3 2 1 00 00 00 Cálculo das raízes da equação (autovalores) para uma matriz 3 x 3: (a11 – λ1)x1 + a12 x2 + a13x3 = 0 a21x1 + (a22 – λ2)x2 + a23x3 = 0 a31x1 + a32 x2 + (a33 – λ3)x3 = 0 Como exemplo, seja a seguinte matriz de dados: 158 237 324 421 Para essa matriz de dados é encontrada a seguinte matriz de coeficientes de correlação [A] −− − − = 000,1913,0980,0 913,0000,1820,0 980,0820,0000,1 ]A[ , com variância total no sistema: 1+1+1=3 e para o cálculo dos autovalores: 0 000,1913,0980,0 913,0000,1820,0 980,0820,0000,1 ]I[]A[ 3 2 1 = λ−−− −λ− −λ− =λ− Desenvolvendo: (1,000 - λ1)(1,000 - λ2)(1,000 - λ3) + (0,820)(- 0,913)(- 0,980) + (- 0,980)(0,820) (- 0,913) - (- 0,980)(1,000 - λ1)(- 0,980) - (1,000 - λ2)(- 0,913)(- 0,913) - (0,820)(0,820)(1,000 - λ3) = ≅ (λ1 - 2,810)(λ2 - 0,188)(λ3 - 0,002) Os autovalores são iguais a: λ1 = 2,810; λ2 = 0,188; λ3 = 0,002 (soma = 3) e a porcentagem da variância total explicada por cada autovalor: 25 λ1 = (2,810/3)*100 = 93,66 λ2 = (0,188/3)*100 = 6,27 λ3 = (0,002/3)*100 = 0,07 Para o cálculo dos correspondentes autovetores, calcular inicialmente as componentes do autovetor V1: (1,000 - 2,810)X1 + 0,820X2 - 0,980X3 = 0 0,820 - (1,000 - 2,810)X2 - 0,913X3 = 0 -0,980X1 - 0,913X2 - (1,000 - 2,810)X3 = 0 X1 = - 1,000; X2 = - 0,974; X3 = 1,032 V1 = - 1,000 - 0,974 1,032 Padronização do autovetor V1 para o tamanho unitário Q = -12 + (-0,974)2 + (1,032)2 = 3,012 Q = 1,735 Vn1 = -1/1,735 = -0,58 Vn1 = - 0,974/1,735 = - 0,56Vn1 = 1,032/1,734 = 0,59 Para as componentes do autovetor V2: (1,000 – 0,188)X1 + 0,820X2 - 0,980X3 = 0 0,820 - (1,000 – 0,188)X2 - 0,913X3 = 0 -0,980X1 - 0,913X2 - (1,000 – 0,188)X3 = 0 Vn2 = -0,60 Vn2 = 0,79 Vn2 = 016 ..... 26 Autovetores Variáveis V1 V2 V3 X1 -0.58 -0.60 0.56 X2 -0.56 0.79 0.26 X3 0.59 0.16 0.79 Factor loadings (carregamento das variáveis nas componentes principais): )dentecorresponautovaloropadronizadautovetor( ∗ ) F1 F2 F3 X1 -0.97 -0.26 0.03 X2 -0.94 0.34 0.01 X3 1.00 0.07 0.04 Em termos geométricos: Variáveis V1 V2 V3 -1 -0,5 0 0,5 1 -1 -0,5 0 0,5 1 Eixo F1: 94% E ix o F2 : 6 % 27 A matriz original de dados ao ser multiplicada pela matriz de autovalores fornecerá a matriz de pontuações (scores). “factor scores” = 158 237 324 421 * − −− 79,016,059,0 26,079,056,0 56,060,058,0 F1 F2 F3 Obs1 2.10 0.45 0.03 Obs2 0.93 -0.35 -0.07 Obs3 -0.69 -0.51 0.06 Obs4 -2.34 0.41 -0.02 Em termos geométricos: Observações A4 A3 A2 A1 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 Eixo F1: 93.66 % E ix o F2 : 6 .2 7 % 28 A orientação dos autovetores no espaço multivariado é determinada pela direção da máxima variância. Como a contribuição da variância para cada autovetor, em alguns casos, deve ser maximizada, há necessidade de rotação da matriz fatorial inicial. Matriz fatorial inicial: Fatores F1 F2 X1 0,966 -0,259 X2 0,940 0,340 X -0,997 0,070 Para o cálculo do ângulo de rotação dos fatores, pelo critério varimax, o seguinte procedimento deve ser adotado: A rotação ortogonal de uma matriz de carregamentos [X], em um novo conjunto de coordenadas [X’], requer uma matriz operacional [T] [X’] = [T] [X] ΘΘ Θ−Θ= 2 1 ' 2 ' 1 X X cossen sencos X X ângulo de rotação Θ = ?, para variavel “j” e fatores “p” e “q” 29 ]/n)XX(2-)XX[(-)XX(2-)X-X( ]/nXX)X-(X[4-)X-(XX2X4 4tan J 2 JQJP J 22 JQ 2 JP J 2 JQJP J 22 JQ 2 JP J JQJP J 2 JQ 2 JP J 2 JQ 2 JPJQJP ∑∑∑∑ ∑∑∑ Σ=Θ 2 JQ 2 JPJ XXU −= JQJPJ XX2V = ∑= J JUA = 2,6222; A 2 = 6,8789 ∑= J JVB = -0,0001; B 2 = 0,0000 ∑ −= J 2 J 2 J )VU(C = 1,6365 ∑= J JJ )VU(2D = -0,0797 n/)BA(C n/AB2D4tan 22 −− −=θ = - 0,1592/- 0,6555 = 0,2429 arctan 0,2429 = -166° 21’ = 4Θ; Θ = 41° 17’ sen Θ = - 0,6598 cos Θ = 0,7515 − −= 7515,06598,0 6598,07515,0 ]T[ − −= 2J 1J ' 2J ' 1J X X 7515,06598,0 6598,07515,0 X X 12121111 ' 11 XTXTX += X’1j = (0,9656)(0,715) + (- 0,2590)(- 0,6598) = 0,894 Matriz fatorial rotacionada: Fatores F’1 F’2 X1 0,894 0,447 X2 0,477 0,879 X3 -0,792 -0,609 30 Em termos geométricos: Variáveis V3 V2 V1 -1,1 -0,6 -0,1 0,4 0,9 -1,1 -0,6 -0,1 0,4 0,9 Eixo F1: 94.30 % E ix o F2 : 5 .7 0 % Variáveis depois da rotação varimax V3 V2 V1 -0,94 -0,74 -0,54 -0,34 -0,14 0,06 0,26 0,46 0,66 0,86 -0,9 4 -0,7 4 -0,5 4 -0,3 4 -0,14 0,06 0,26 0,46 0,66 0,86 Eixo F1: 54.82 Ei xo F 2: 4 5. 17 % 31 Observações A4 A3 A2 A1 -1,3 -0,8 -0,3 0,2 0,7 1,2 -1,3 -0,8 -0,3 0,2 0,7 1,2 Eixo F1: 94.30 % E ix o F2 : 5 .7 0 % Observações depois da rotação varimax A4 A3 A2 A1 -1,6 -1,1 -0,6 -0,1 0,4 0,9 1,4 -1,6 -1,1 -0,6 -0,1 0,4 0,9 1,4 Eixo F1: 54.82 % Ei xo F 2: 4 5. 17 % Gráfico mostrando o arranjo espacial dos pontos Xi, em 2D, antes e depois da rotação dos eixos F1 e F2: 32 33 REFERÊNCIAS BIBLIOGRAFICAS AYRES JR., F. (1962) – Schaum’s Outline of Theory and Problems of Matrices: Schaum Publ. Co. DAVIS, P.J. (1984) – The Mathematics of Matrices: R.E. Krieger Publ. Co FERGUNSON, J. (1988) – Mathematics in Geology: Allen & Unwin Ltd. GOLUB, G.H. & VAN LOAN, C.F. (1996) – Matrix Computations, 3rd. ed.: Johns Hopkins Univ. Press. GOULD, P. (1967) – On the geographic interpretation of eigenvalues: An initial exploration: Trans. Inst. British Geographers, n. 42, p. 53-86 HARVILLE, D. A. (1997) – Matrix Álgebra from a Statistician’s Perspective: Springer 34 3. REGRESSÃO LINEAR MÚLTIPLA As relações entre duas variáveis "X", considerada independente, e "Y", considerada dependente, pode ser representada num diagrama de dispersão, com os valores yi em ordenada e os xi em abscissa. Cada par de valores xi,yi fornecerá um ponto e utilizando-se, por exemplo, o método dos desvios mínimos ao quadrado, pode-se calcular a equação de uma curva de tendência que melhor se ajuste à nuvem de distribuição de pontos. O modelo mais simples que pode ser adotado é o da análise de regressão linear que fornece a equação de uma reta: yi = αι + βxi + εi onde α e β são constantes desconhecidas a serem determinadas e ε representa toda a fonte de variabilidade em Y não explicada por X. Operacionalmente encontra-se a equação da reta para a previsão dos valores yi segundo: ,bxay ii += onde a e b são os coeficientes que determinam a intersecção na ordenada e a inclinação da reta calculada. Não é raro, porém, que o termo εi seja numericamente mais importante que a explicação motivada pela variável X, significando que outras variáveis devem ser incorporadas ao modelo a fim de explicar o comportamento de Y. O modelo exige então uma "análise de regressão linear múltipla”. A regressão múltipla é usada, portanto, para testar dependências cumulativas de uma única variável dependente em relação à diversas variáveis independentes. Alguns cuidados, porem, que devem ser tomados quando da utilização da análise de regressão: as relações entre as variáveis devem ser lineares; evitar um número inferior de casos em relação ao número de variáveis consideradas, sendo recomendado que tal relação seja da ordem de 10 a 20 vezes superior; evitar variáveis independentes redundantes, isto é, que tenham um alto coeficiente de correlação entre si; verificar, utilizando resíduos, a presença de valores anômalos. O modelo geral é representado por inini11oi xxy ε+α++α+α= L A análise de regressão múltipla linear de quaisquer n variáveis independentes sobre uma variável dependente, sendo expressa por: nini22i11oi XaXaXaaY ++++= L 35 pode ser resolvida segundo: ]Y[]A[]X[ yx yx yx y a a a a xxxx xxxxx xxxx xxn ini ii2 ii1 i n 2 1 o 2 nii1nini nii2i1i2i2 nii1 2 i1i1 nii1 ∑ ∑ ∑ ∑ = ∑∑∑ ∑∑∑ ∑∑∑ ∑∑ MM L MOMM L L L Para a obtenção dos coeficientes ai a solução obedece à relação: ]Y[]X[]A[ 1−= Os coeficientes “ai” são conhecidos como parciais de regressãoporque cada um deles fornece a taxa de mudança na variável dependente correspondente à respectiva variável independente, mantendo constantes as demais variáveis independentes. Esses coeficientes terão valores diferentes, para cada variável, dos coeficientes de regressão totais obtidos pela análise de regressão simples entre a variável dependente e apenas uma variável independente considerada por vez. Na análise de regressão linear múltipla são consideradas todas as possíveis interações entre a variável dependente e as diversas combinações com e entre as variáveis independentes. Sendo calculadas a soma de quadrados da variável dependente, a soma de quadrados devido à análise linear múltipla e a soma de quadrados dos desvios, pode-se obter uma indicação da validade do resultado por uma análise de variância, sendo m o número total de observações: Variação total: ( )[ ]∑ ∑− m/yiy=SQT 22i Variação devido à análise de regressão linear múltipla: ( )[ ]∑ ∑− /mi*y*y=SQR 22i Variação devido aos desvios ou resíduos: SQD = SQT - SQR Porcentagem de ajuste da superfície: R2 = ( SQR/SQT ) 100% 36 Fonte de variação g.l. Soma de quadrados Média quadrática Razão F Regressão n SQR MQR MQR/MQD Resíduos m-n-1 SQD MQD Total m-1 SQT H0: α1= α2= α3=... αn=0 H1: pelo menos um α é diferente de 0 Ao recusar H0 e, portanto, aceitar H1, pode-se afirmar que as variáveis independentes “explicam” a variável dependente, mas não se pode afirmar qual variável é a mais importante. Ao afirmar, também, que a variância total de Y é em parte "explicada" pelas diversas variáveis X's e o restante pela variabilidade devido ao erro (ε ), fica implícito que o termo "explicada" tem apenas um significado numérico e não necessariamente um conhecimento, do tipo causa-efeito, sobre o porquê da relação existente. Os tamanhos relativos dessas duas componentes de variância são obviamente de grande interesse quando da aplicação da análise de regressão múltipla. A proporção da variância de Y "explicada" por uma equação de regressão ajustada é representada pelo coeficiente de determinação R². SQT SQR total) (variância regressão) de análise pela explicada Y de (variânciaR2 == , sendo a porcentagem de ajuste da superfície igual a R2 x 100. Valores de R2 estão no intervalo 0-1, fornecendo uma medida dimensional de quantidade do ajuste do modelo de regressão múltipla aos dados. Se o valor de R² for próximo de 1 isso significa que as diversas variáveis X's medidas são responsáveis quase que totalmente pela variabilidade de Y. Caso contrário, R² apresentará um valor próximo a zero. O R2 pode ser ajustado em função dos graus de liberdade: MQT MQR1)R1( nm 1m1R 22aj −=−− −−= Embora a regressão múltipla seja multivariada no sentido de que mais de uma variável é medida simultaneamente em cada observação, trata-se na realidade de uma técnica univariada, pois o enfoque é apenas em relação à 37 variação da variável dependente Y, sem que o comportamento das variáveis independentes X’s seja objeto de análise. Uma das mais importantes aplicações da análise de regressão linear múltipla é a escolha, entre diversas variáveis independentes, daquelas mais úteis na previsão de Y. A questão se torna, então, saber se certas variáveis explanatórias podem ser retiradas, ou não, do modelo de regressão. O método mais usual para essa seleção é a regressão múltipla “passo-a- passo” (stepwise multiple regression). O processo de seleção é iniciado com a adição da variável com a maior contribuição para o modelo. A partir daí são estabelecidas probabilidades limiares tanto para a retirada como para inclusão de novas variáveis ao modelo. Se uma segunda variável apresenta uma probabilidade menor do que a probabilidade "de entrada", ela é adicionada ao modelo. O mesmo para uma terceira variável. Após a terceira variável ser adicionado, o impacto da remoção de cada variável presente no modelo, depois de ter sido adicionada, é avaliada. Se a probabilidade é maior do que a probabilidade "de remoção", a variável é removida. O processo continua até que não haja mais variáveis que possam ser acrescentadas ou removidas. Outra maneira é calcular os valores de R2 segundo 2n-1 combinações, onde n é o número de variáveis independentes. Ao final verifica-se a contribuição de cada variável independente por comparações sucessivas entre os diversos resultados. 3.1. Exemplos 3.1.1. DAWSON & WHITTEN (1962), num estudo petrográfico sobre o complexo granítico da região de Lacorne, La Motte e Preissac, no Canadá, obtiveram valores para peso específico, quartzo, índice de cor (porcentagem de silicatos escuros ou máficos), feldspato, e as coordenadas N-S e E-W para cada ponto de amostragem (Matriz de dados 3.1., no Apêndice ao final do texto) . Para verificar se o peso específico pode ser previsto em função das outras 5 variáveis, aplica-se a análise de regressão múltipla para a indicação das variáveis por ordem de importância nessa previsão. 38 Inicialmente é feita uma análise de regressão levando em consideração todas as 5 variáveis, consideradas independentes, e uma análise de variância para verificar a validade do modelo (Tabela 3.1.). A equação inicial encontrada é: Y = 4,0607 -0,0158X1 -0,0106X2 -0,0143X3 + 0,0080X4 -0,0006X5, com R2 = 0,9177 Tabela 3.1. ANOVA Fonte de variação g.l. Soma de quadrados Médias quadráticas Razão F Teste F(0,05) Modelo 5 0,249 0,050 50 2,45 Residuos 38 0,022 0,001 Total 43 0,271 Este resultado mostra que as 5 variáveis explicam 92% da variabilidade de Y e que o modelo pode ser aceito, pois a razão F encontrada, em confronto com o teste F crítico tabelado indica que essas variáveis reduzem significativamente a variação da variável dependente. O interesse, porém, é verificar a contribuição específica de cada variável, tendo em vista que há correlações entre as mesmas (Tabela 3.2.) Tabela 3.2. Matriz de coeficientes de correlação (Pearson) Peso spc. Quartzo Cor Feldspato NS EW Peso spc. 1 -0,853 0,917 -0,369 0,571 0,684 Quartzo -0,853 1 -0,840 -0,011 -0,389 -0,663 Cor 0,917 -0,840 1 -0,532 0,403 0,655 Feldspato -0,369 -0,011 -0,532 1 -0,147 -0,185 NS 0,571 -0,389 0,403 -0,147 1 0,526 EW 0,684 -0,663 0,655 -0,185 0,526 1 Estabelecendo probabilidades limiares igual 0,10 tanto para a retirada como para a entrada de uma variável no modelo o seguinte resultado foi encontrado: No. de variáveis Variáveis Variável IN/OUT Status MQE R² 1 Cor Máficos IN 0.00103 0.840 2 Cor / NS NS IN 0.00074 0.889 3 Cor/NS/Quartzo Quartzo IN 0.00064 0.906 4 Cor/NS/Quartzo/ Feldspato Feldspato IN 0.00058 0.917 39 Parâmetros do modelo: Fonte Valor Erro padrão t Pr > |t| Intercepto 4.00673 0.59719 6.70934 < 0.0001 Quartzo -0.01528 0.00599 -2.55232 0.01473 Cor -0.01014 0.00599 -1.69193 0.09864 Feldspato -0.01377 0.00601 -2.28959 0.02754 NS 0.00767 0.00187 4.10426 0.00020 EW 0.00000 0.00000 Isto significa que as variáveis, em ordem de importância para a explicação do peso específico, são: cor, N-S, quartzo, feldspato, sendo praticamente nula a contribuição de E-W. Uma outra maneira para verificar essa ordenação, segundo KRUMBEIN & GRAYBILL (1965), é calcular os coeficientes R2s referentes às variáveis independentes, uma de cada vez e, em seguida, combinadas duas a duas, três a três e quatro a quatro. Esse procedimento fornece um número total de combinações da ordem de 25 – 1, isto é, 31. A seguir estão os coeficientes que apresentaram os maiores resultados(Tabela 3.3.): Tabela 3.3. Coeficientes de R2 Variáveis R2s Cor 0,8404 Quartzo 0,7277 EW 0,4673 NS 0,3258 Feldspato 0,1364 Cor+NS 0,8887 Cor+Quartzo 0,8640 Cor+Feldspato 0.8600 Cor+EW 0,8526 Cor+NS+Quartzo 0,9061 Cor+NS+Feldspato 0,9034 Cor+NS+EW 0,8896 Quarzto+EW+Felspato 0,8750 Cor+NS+Quartzo+Feldspato 0,9172 Cor+NS+Quartzo+EW 0,9061 Cor+NS+Quartzo+Feldspato+EW 0,9177 A contribuição específica de cada variável independente, com vistas ao seu ordenamento por importância, é encontrada da seguinte maneira: a variável cor é a primeira a ser selecionada com 84,04% do total da soma de quadrados de Y a 40 ela atribuída; em seguida apresentam-se cor+NS com 88,87% e desse modo a variável NS é escolhida com a contribuição de 88,87 – 84,04 = 4,83% para a explicação de Y; de modo idêntico quartzo é escolhida como a terceira variável com 1,74%, resultado de 90,61 – 88,87; feldspato, como a quarta variável, com 1,11%, resultado de 91,72 – 90,61 e, finalmente, EW com 0,05%. Desse modo, a explicação para o comportamento da variável peso específico é mostrada na Tabela 3.4.: Tabela 3.4. Contribuição específica de cada variável independente Máficos 84,04% N-S 4,83% Quartzo 2,24% Feldspato 0,61% E-W 0,05% Esses resultados indicam novamente que, para a explicação do comportamento do peso específico, a variável mais importante é a cor, o que é coerente pois esta variável nada mais é que o resultado da presença de minerais máficos. Além disso, como a segunda variável em importância é a coordenada NS isso também esta a indicar que a variabilidade do peso específico ocorre mais ao longo dessa direção do que no sentido EW. Como se tem à disposição a coordenada geográfica, o que não é muito comum nesse tipo de análise, pode-se examinar o comportamento espacial das três variáveis, quartzo, feldspato e cor, em confronto com a distribuição do peso específico (Figura 3.1). Novamente é constatada, por simples comparação visual entre os mapas, a semelhança entre os mapas para peso específico e para cor. Também pode ser observada a maior variabilidade no sentido norte-sul para o peso específico e a relação inversa entre esta variável e quartzo, como já indicada pelo coeficiente de correlação. 41 Figura 3.1. Mapa com valores interpolados para as varáveis estudadas 42 3.1.2. Comparação entre mapas têm sido preocupação dos geólogos, pela sua utilidade na localização espacial e mesmo interpretação de qualquer banco de dados temático. Se existem, porém, diversos algoritmos à disposição para a confecção de mapas o mesmo não pode ser afirmado em relação à comparação entre mapas. Alguns trabalhos que tratam do assunto podem ser encontrados em BROWER & MERRIAM (1990, 1992) usando técnicas estatísticas; e HERZFELD & SONDERGARD (1988); HERZFELD & MERRIAM (1991) usando técnicas algébricas orientadas para uso em computador. Um interessante enfoque é apresentado por BROWER & MERRIAM (2001) que utilizam a análise de regressão múltipla para comparar mapas de contorno estrutural com finalidade de entender a história geológica de uma certa região. Se a variável considerada dependente for a camada mais jovem e as demais camadas as variáveis independentes, pode-se verificar qual delas teve maior influência na configuração dessa camada mais jovem. Utilizando essa idéia LEITE & LANDIM (2003) aplicaram a análise de regressão múltipla para quantificar a influência de diversas variáveis no comportamento da superfície potenciométrica de um aqüífero livre (superfície), considerada como variável dependente. As variáveis consideradas independentes foram cota do terreno (topografia), base da formação aqüífera ou cota do topo do basalto (basalto), espessura da formação aqüífera (espessura), e coordenadas UTM (X e Y). Esses valores foram obtidos a partir de 188 poços (Matriz de dados 3.2.). O local objeto do estudo compreendeu a área urbana do município de Pereira Barreto/SP, situada junto ao Reservatório de Três Irmãos, formado no rio Tietê, pela construção da barragem de mesmo nome, com extensão de aproximadamente 150 km. A cidade de Pereira Barreto situa-se na vertente sul de uma colina ampla, de topo aplainado, com altitude máxima de aproximadamente 450 m, limitada ao sul pelo remanso do reservatório da barragem Três Irmãos no rio Tietê e a norte pelo remanso do reservatório de Ilha Solteira (rio Paraná) no tributário São José dos Dourados, em zona de transição dos grupos Caiuá e Bauru, com afloramentos de basaltos do grupo São Bento restritos às proximidades das margens do rio Tietê. A superfície potenciométrica do aqüífero livre na área ocupada pela cidade, anteriormente à formação do reservatório encontrava-se 43 entre os níveis 310-350 m, com profundidades máximas do nível d’água (N.A.) pouco superiores a 10 metros. Figura 3.2. Mapa da superfície potenciométrica Os maiores coeficientes de determinação obtidos foram : Variável Coeficientes R2 Topografia 0,814 Topografia + Coord X 0,830 Topografia + Coord X + Espessura do aquífero 0,833 Topografia + Coord X + Espessura do aquífero + Coord Y 0,836 Topografia + Coord X + Espessura do aquífero + Coord Y + Topo Basalto 0,836 44 Com estes resultados, estabelece-se a contribuição específica de cada variável independente para a variabilidade da variável dependente H, isto é, superfície potenciométrica do aqüífero livre: Variável Contribuição Topografia 81,4% (0,814) Coordenada X 1,6% (0,830 - 0,814) Espessura do aquífero 0,3% (0,833 – 0,830) Coordenada Y 0,3% (0,836 – 0,833) Topo do basalto 0,0% (0,836 – 0,836) Analisando-se o peso de cada variável dependente observa-se que a variável Topografia do Terreno é a que melhor explica a variação da Superfície Potenciométrica, da ordem de 81,4%, fato esse já bem conhecido em Hidrogeologia. As demais variáveis apresentam pequenas interferências na variabilidade da potenciometria. Os resultados encontrados confirmam quantitativamente que a superfície potenciométrica do aqüífero livre se comporta, em linhas gerais, como a superfície topográfica do terreno. Observa-se, no entanto, que apesar da excelente correlação obtida no processo de comparação entre o mapa potenciométrico e o mapa topográfico, a variável Superfície Potenciométrica não é totalmente explicada pela variável Topografia do Terreno, ou seja, devem existir outros fatores que auxiliam no condicionamento desse comportamento. 45 Figura 3.3. Mapa da topografia local com pontos de amostragem. Neste caso a análise de regressão múltipla foi efetuada a partir de 188 pontos, com coordenadas X-Y. Pode-se, porém, efetuar este mesmo tipo de análise, comparando superfícies segundo metodologia encontrada no software IDRISI 3.2 (2001). Um exemplo pode ser encontrado em LOURENÇO & LANDIM (2004) 3.3. Aplicação do modelo linear múltiplo à confecção de mapas: análise de superfícies de tendência. A análise de superfícies de tendência é simplesmente um tipo de análise de regressão múltipla em que as variáveis independentes são as coordenadas geográficas E-W e N-S. 46 O comportamento espacial de variáveis mapeáveis pode ser mostrado com os valores distribuindo-se segundo curvas de mesmo valor, também conhecidas como isopletas. Tais mapas, como os topográficos ou os de isópacas, com linhas de mesma espessura de camadas, fornecem importantes informações, porém, em algumas situações os padrões de variação não se mostram muito claros devido a flutuações locais ou a valores anômalos. É comum nessascircunstâncias falar-se em tendências regionais que são mascaradas por anomalias locais. O método da análise de superfícies de tendência pode, então, ser utilizado para evidenciar tal situação, pois, segundo esse procedimento define-se, além das grandes e sistemáticas mudanças existentes na área, aquelas pequenas, aparentemente não ordenadas flutuações, que se impõem aos padrões mais gerais. Esta metodologia foi originalmente introduzida nas Ciências da Terra por OLDHAM & SUTHERLAND (1955), KRUMBEIN (1956,1959), GRANT (1957) e WHITTEN (1959). Esses Autores usaram o método para obter mapas gravitacionais, mapas estratigráficos, mapas de isópacas e mapas com atributos específicos em rochas sedimentares e ígneas. Desde então, o número de aplicações tem crescido significantemente e o método em si sido generalizado e refinado. A análise de superfícies de tendência é uma técnica relativamente simples e muito útil quando os mapas de tendência e os respectivos resíduos podem ser interpretados a partir de um ponto de vista espacial ou então quando o número de observações é limitado de modo que a interpolação possa ser baseada nesses poucos dados. Com a aplicação dessa análise consegue-se separar dados mapeáveis em duas componentes: uma de natureza regional, representada pela própria superfície, e outra que revela as flutuações locais, representadas pelos valores residuais. Se as coordenadas forem determinadas a partir de uma grade regular em que os intervalos são iguais segundo cada uma das duas direções e se existe a possibilidade da variação de zi ocorrer segundo um padrão cíclico, o modelo da análise das séries de Fourier pode ser aplicado. Se as observações, porém, não obedecem a uma periodicidade e são coletadas segundo uma grade regular é possível efetuar uma análise de tendência a partir de polinômios ortogonais. 47 A coleta tendo sido feita, porém, de modo irregular, o que normalmente acontece em Geologia, o recurso a ser usado é o do método dos polinômios não ortogonais, tentando encaixar a preliminarmente uma superfície linear aos dados, em seguida uma quadrática, uma cúbica e assim por diante. O método usual para o ajustamento aos dados é o da regressão pelos mínimos quadrados. Em alguns casos, como em problemas de suavização, o interesse é pelo melhor ajuste aos dados e assim procura-se pela superfície de mais alto grau possível. Em outros, como na detecção de anomalias, o que interessa são os resíduos e calculam-se, então, superfícies de baixo grau com os respectivos mapas de resíduos positivos e negativos. 3.3.1. Cálculo das superfícies O modelo para a representação da superfície pelo método dos polinômios não ortogonais é: )y,x(e]...yayxaxayaxaa[)Y,X(z iii 2 i5ii4 2 i3i2i10i +++++++= , onde )Y,X(zi é a variável mapeada em função das coordenadas xi e yi e )y,x(e iii representa os resíduos, ou seja, a fonte não-sistemática de variação. A representação de uma superfície linear é dada por: ii2i10 eyaxaa)Y,X(z +++= Para o cálculo dos coeficientes ai, dispõe-se os dados num sistema de equações normais, sendo resolvido por cálculo matricial: ]Z[]A[]XY[ yz xz z 2a 1a 0a yyxy yxxix yxn ii ii i 2 iiii ii 2 i ii ∑ ∑ ∑ = ∑∑∑ ∑∑∑ ∑∑ [XY] [A] = [Z] ]Z[]XY[]A[ 1−= Para o cálculo do vetor de coeficientes [A] basta inverter a matriz [XY] e multiplicar esse resultado pelo vetor [Z]. A superfície quadrática é representada por: 48 ieybiyixbxbybxbb)Y,X(iz 2 i54 2 i3i2i10 ++++++= , e a determinação dos coeficientes b0, b1, b2, b3 ,b4 e b5 para a superfície de grau 2 torna-se: ∑ ∑ ∑ ∑ ∑ ∑ ∑∑∑∑∑∑ ∑∑∑∑∑∑ ∑∑∑∑∑∑ ∑∑∑∑∑∑ ∑∑∑∑∑∑ ∑∑∑∑∑ = − i 2 i iii i 2 i ii ii i 1 4 i 3 ii 2 i 2 i 3 i 2 ii 2 i 3 ii 2 i 2 ii 3 i 2 ii 2 iii 2 i 2 ii 3 i 4 i 2 i 3 i 2 i 3 i 2 iii 2 i 2 iiii 2 iii 2 i 3 ii 2 ii 2 iii 2 iii 5 4 3 2 1 0 zy zyx zx zy zx z yyxyxyyxy yxyxyxyxiyxyx yxyxxiyxxx yyxyxyyxy yxyxxiyxxx yyxxyxn b b b b b b As superfícies de grau superior a dois seguem o mesmo processo de desenvolvimento polinomial. Alguns cuidados devem ser tomados quando da aplicação da análise de tendência: a) procurar tecer considerações apenas em relação à área coberta pelos pontos evitando as extremidades dos mapas, pois a extrapolação pode apresentar distorções; b) o número de pontos deve ser maior que o número de coeficientes do polinômio a ser calculado; c) o arranjo dos pontos, ainda que irregular, deve ser casual e razoavelmente bem distribuído, evitando agrupamentos; d) quando da inversão da matriz, por programas em microcomputador, podem ocorrer problemas com os resultados obtidos para superfícies de mais alto grau, isso porque em sistemas com valores de diversos dígitos, tipo UTM, a precisão computacional se deteriora exigindo formato de dupla precisão. Mesmo assim podem ocorrer limitações e, então, a solução é a transformação das coordenadas xi e yi, conforme as equações, que fornecem valores para as coordenadas entre 0 e 1 e não modifica a forma das superfícies: minmax mini xx xx*x − −= minmax mini yy yy*y − −= 3.3.2. Verificação do ajuste das superfícies de tendência aos dados observados e intervalos de confiança 49 Sendo computadas a soma de quadrados da variável dependente, a soma de quadrados devido à superfície polinomial e a soma de quadrados dos resíduos, pode-se obter uma indicação da validade da superfície de tendência calculada por uma análise de variância: variação total: ( )[ ]∑ ∑− n/yiy=SQT 22i variação devido à superfície calculada: ( )[ ]∑ ∑− n/i*y*y=SQP 22i variação devido aos resíduos ou desvios: SQR = SQT - SQP porcentagem de ajuste da superfície: R2 = ( SQP / SQT ) 100% Tabela 3.5. Análise de variância para verificação do ajuste de superfície Fontes de variação SQ g.l. MQ F Regressão polinomial SQP m MSP MSR MSP Resíduos SQR n - m - 1 MSR T o t a l SQT n - 1 m: número de coeficientes da equação polinomial, não contando o termo a0 n: número de observações H0: variância dos dados estimados pela superfície encontrada é igual à variância dos dados originais, ou seja, não ocorre ajuste significativo da superfície aos dados. H1: variância dos dados estimados pela superfície encontrada é menor que a variância dos dados originais, ou seja, ocorre ajuste significativo da superfície aos dados. Na análise de tendência é usual calcular uma série de equações polinomiais de graus sucessivamente superiores e tentar adaptá-las aos dados. Nesse tipo de análise a soma de quadrados devido a regressão polinomial aumentará conforme aumentar o grau de superfície. Para verificar qual a contribuição dos sucessivos coeficientes parciais de regressão e fornecer uma medida do ajustamento aos dados devido a cada um dos incrementos da equação polinomial, é utilizada também a análise de variância. Desse modo para a verificação de qual, entre duas superfícies, que melhor ajustou-se aos dados o seguinte teste é efetuado (DAVIS, 1986): 50 Tabela 3.6. Análise de variância para verificação da contribuição do incremento polinomialFontes de Variação SQ g.l. MQ F Regressão de grau “p” SQP k MSP Resíduos referentes à “p” SQR n - k - 1 MSR (1)MSP/MSR Regressão de grau “p+1” SQP1 m MSP1 Resíduos referentes à “p+1” SQR1 n - m - 1 MSR1 (2) MSP1/MSR1 Regressão devido ao incremento de “p” para “p+1” grau SQI=SQP1 - SQP m - k MSI (3) MSI/MSR1 T o t a l SQT n - 1 n: número de observações grau p: k coeficientes, não contando o termo a0 grau p+1: m coeficientes, não contando o termo b0 (1) teste de significância relativo à superfície de tendência de grau p (2) teste de significância relativo à superfície de tendência de grau p+1 (3) teste de significância relativo à melhoria de ajuste da superfície p+1 em comparação com a superfície p H0: a contribuição do incremento polinomial para o ajuste aos dados é nula. H1: a contribuição do incremento polinomial para o ajuste aos dados é significativa. Na prática cuidados devem ser tomados em relação à aplicação destes testes estatísticos porque os mesmos somente fornecem resultados confiáveis quando os resíduos são estocasticamente independentes, o que nem sempre ocorre, pois freqüentemente os resíduos apresentam uma significante autocorrelação espacial. Ver uma discussão a respeito desse tema em AGTERBERG (1964, 1984a) e WATSON (1971). Se considerado o modelo linear z(X,Y) = a00 + a10Xi + a01Yj+ eij , e assumindo que os eij tenham média zero, sejam não correlacionados e normalmente distribuídos com variância σ2, superfícies representando intervalos de confiança podem ser determinadas segundo: ]s)y,x(QkF[)y,x(*z 2ji 2 ji α± 51 z*(xi,yj): valores estimados pela superfície de tendência; k: número de coeficientes da superfície, igual a 3 para o caso da linear; Fα: valor a ser comparado, com k e n-k graus de liberdade e nível de significância α n: número total de pontos utilizados para a obtenção da superfície. s2: estimativa da variância da população, estimada pela média quadrática; )y,x(Q ji 2 : valor a ser computado para pontos com coordenadas xi e yi = − 1 y x]S][yx1[)y,x(Q j i 1 jiji 2 [S]: matriz de somas não corrigidas de quadrados e produtos de zi Geralmente a aplicação desta metodologia ocorre em situações em que se procura estudar o comportamento de uma única variável espacial, ou um único fenômeno, sobre uma determinada área. Existem, porém, situações mais complexas, tais como: a) distribuição de uma variável por diversas áreas diferentes como, por exemplo porcentagem de feldspatos em diversos corpos graníticos; b) distribuição de uma variável numa mesma área, porém a intervalos de tempo diferentes, por exemplo variação do diâmetro médio dos sedimentos em uma praia no transcorrer de um ano; c) distribuição de diversas variáveis, correlacionadas entre si, sobre uma mesma área com valores obtidos não necessariamente nos mesmos locais de amostragem, por exemplo, distribuição geoquímica de elementos-traço. Nessas situações surge sempre a questão de como comparar as superfícies de tendência obtidas e para tanto existem alguns procedimentos para medir o grau de semelhança entre elas, os quais podem ser baseados em diferentes critérios. Ver a propósito LANDIM (2003). Para o cálculo de superfícies de tendência existem na literatura diversos programas. O primeiro foi publicado por KRUMBEIN (1959) e entre os que se seguiram podem ser citados, entre outros, aqueles desenvolvidos por PEIKERT (1963); HARBAUGH (1964); FOX (1967), que trata da análise de dados vetoriais; 52 SAMPSON & DAVIS (1967); HARBAUGH & MERRIAM (1968); PFLUG (1976); CLARK (1977) e HAINING (1987). 3.3.3. Exemplos São aqui apresentadas duas aplicações desta metodologia, a primeira quando se elaborou um mapa topográfico suavizado da região centro-sul do Brasil com vistas ao estudo da superfície Sul Americana (SOARES & LANDIM, 1976), e a segunda sobre a avaliação do impacto ambiental causado por uma pluma de contaminação em um corpo de água receptor (BERNARDI ET AL., 2001). No estudo sobre os depósitos cenozóicos na região centro-sul do Brasil, foi investigada a posição da superfície de cimeira denominada "Sul Americana" por KING (1956), onde os testemunhos mais elevados de sedimentação cenozóica ocorrem. Para tanto, foram escolhidos os pontos de maior altitude, na carta ao milionésimo dessa região do Brasil por cela de 1º x 1º, e a partir dessas cotas topográficas calculou-se superfícies de tendência desde grau 1 até grau 6 (Figura 3.4. e Matriz de dados 3.3.). Nesse trabalho o interesse dos Autores era verificar, em escala regional, a configuração suavizada da Superfície Sul Americana. Os resultados para as superfícies de grau 1 até grau 5 estão na Figura 3.5. Os coeficientes de ajuste, R2, para cada uma das superfícies foram: 0,638 para grau 1; 0,678 para grau 2; 0,750para grau 3; 0,816 para grau 4; 0,855 para grau 5. Na Figura 3.6. esta a superfície de grau 6, com R2 igual a 0,881, com a localização dos pontos, drenagem e algumas localidades associadas para facilitar a visualização geográfica da área estudada. 53 Figura 3.4. Mapa topográfico da Superfície Sul Americana e pontos com altitudes coletadas. 54 FIGURA 3.5. Mapas de tendência de graus 1 à 5 referentes às cotas topográficas da “Superfície Sul Americana”. Bolivia Paraguai Ponta Porã Paranavaí Londrina Pres. Prudente Araçatuba Marília S. J. Do R. Preto Barretos R. Preto Campinas Sorocaba São Paulo Guaratinguetá 300 700 700 1100 400 600 800 1000 1200 1400 1600 7400 7600 7800 Figura 3.6. Configuração da “Superfície Sul Americana” suavizada pela análise de tendência de grau 6. O outro exemplo de aplicação da análise de superfície de tendência foi verificar o impacto da emissão de um efluente no Rio Paraíba do Sul, nas 55 cercanias de Pindamonhangaba (SP), utilizando como variável a distribuição espacial de gêneros do plâncton (Matriz de dados 3.4.). A área estudada, com 2.900 m de comprimento por 100 m de largura, corresponde à fase meandrante do rio, porem retificado no trecho estudado. Foram coletados 90 pontos distribuídos, em malha regular, com intervalos ao longo da coordenada “X”, paralela ao leito do rio, de 100 m e ao longo da coordenada “Y”, perpendicular ao canal, com intervalos de 50 m a partir da margem direita (0 m), localizando-se o ponto 50 na região central e o ponto 100 na margem esquerda. O efluente entra no receptor a 1.100 m a jusante do ponto zero. A superfície de tendência de primeiro grau mostrou uma tendência de aumento do número de gêneros da margem direita para a esquerda. Esta configuração está ligada à entrada do efluente, que fica na margem direita, como mostrado na Figura 3.7. O mapa de resíduos correspondente a essa superfície indica com clareza a distribuição espacial do número de gêneros antes da entrada do efluente e, principalmente, depois delimitando a pluma resultante dentro da malha de estudo e caracterizada por valores negativos (Figura 3.8.). FIGURA 3.7. Superfície de tendência de grau 1 mostrando a distribuição do numero de gêneros do plâncton diminuindo para a margem direita. Estão assinalados também os locais de coleta (•). FIGURA 3.8. Mapa de resíduos da superfície de 1o. grau. A região com valores positivos indica valores para o numero de gêneros do plâncton acima da media regional, representada pela curva 0, e valores negativos valores abaixo dessa média. 56 O controle de agentes poluidores, pelos órgãos competentes,