Baixe o app para aproveitar ainda mais
Prévia do material em texto
Análise estatística espacial de dados geológicos multivariados PAULO M. BARBOSA LANDIM Professor Emérito da Universidade Estadual Paulista Professor Voluntário do Depto. Geologia Aplicada-UNESP/Rio Claro UNESP/campus de Rio Claro Departamento de Geologia Aplicada - IGCE ― Laboratório de Geomatemática ― Texto Didático 15 2006 2 Reprodução autorizada desde que citada a fonte Norma 6023-2000/ABNT ( http://www.abnt.org.br): LANDIM, P.M.B. Análise estatística espacial de dados geológicos multivariados.. DGA,IGCE,UNESP/Rio Claro, Lab. Geomatemática,Texto Didático 15, 158 pp. 2006. Disponível em <http://www.rc.unesp.br/igce/aplicada/textodi.html>. Acesso em:.... SUGESTÕES Dúvidas, questões, sugestões, etc. sobre o texto deverão ser encaminhadas para o endereço plandim@rc.unesp.br, as quais serão sempre bem recebidas 3 1. INTRODUÇÃO As primeiras aplicações de métodos quantitativos em Geologia coincide com o seu estabelecimento como ciência moderna, e um exemplo disso é a subdivisão do Terciário, por Charles Lyell em 1830, baseada na presença relativa de espécies recentes de moluscos nos diversos estratos da Bacia de Paris, num procedimento estatístico. A partir desse início, porém, a Geologia permanece qualitativa e puramente descritiva e apenas nos anos 20 do século passado é que o enfoque quantitativo começa a se tornar mais presente. Assim nessa época William C. Krumbein propõe a amostragem geológica em bases probabilísticas e introduz os modelos “processo-resposta”. O entendimento das relações de causa-e-efeito para a explicação dos processos geológicos leva Andrei Vistelius, no início dos anos 40, a iniciar a formulação da chamada Geologia Matemática. Em que pese essas iniciativas, entre outras, a Geologia até há bem pouco tempo, era freqüentemente considerada uma ciência baseada em interpretações puramente qualitativas dos fenômenos geológicos. Nos últimos 40 anos, porém, tem sido notável a mudança da fase descritiva para a utilização de métodos quantitativos, principalmente na área da Geologia Aplicada. Na área mineral, com destaque para a do petróleo, onde a interpretação geológica, alem de estar fundamentada em conceitos científicos, precisa ter enfoque econômico, observa- se, felizmente, uma marcante tendência quantitativa que vem possibilitando avanços importantes principalmente no uso de técnicas espaciais. Ver a propósito HOULDING (2000). Nas últimas décadas, graças a avanços tecnológicos tanto em termos computacionais como em equipamentos de laboratório e de campo mais refinados, tem sido intensa a obtenção de dados geológicos quantitativos. A sua análise, porem, esta muito aquém dessa imensa quantidade de informações coletadas. Basta ver os relatórios de pesquisa e mesmo os bancos de dados com um grande número de matrizes de informações não trabalhadas. Verbas e tempo são gastos com essa coleta que precisa ser devidamente manuseada e para essa análise dos dados o emprego de técnicas estatísticas multidimensionais torna-se uma ferramenta fundamental. Isto porque, como os fenômenos geológicos são resultantes de diversos fatores condicionantes, o seu entendimento é facilitado quando o estudo é submetido a um enfoque quantitativo multidimensional. Deve 4 ser enfatizado, porem, que a pura utilização de técnicas estatísticas, e hoje em dia bastante facilitada graças à vasta disposição de programas computacionais, não é condição suficiente se o estudo não for embasado num sólido conhecimento geológico. No caso de uma única variável ter sido medida em espécimes de uma amostra, no sentido estatístico, a análise de tais dados é feita por intermédio da estatística univariada. Se porém valores de diversas variáveis forem obtidos em cada um dos espécimes dessa mesma amostra, as técnicas para a análise desses dados são fornecidas pela estatística multivariada ou multidimensional. Tal análise estatística de mensurações múltiplas efetuadas sobre uma amostra fornece um melhor entendimento na razão direta do número de variáveis utilizadas e permite considerar simultaneamente a variabilidade existente nas diversas propriedades medidas. Pode-se afirmar que a análise multivariada é a área da análise estatística que se preocupa com as relações entre variáveis e como tal apresenta duas características principais: os valores das diferentes variáveis devem ser obtidos sobre os mesmos indivíduos e as mesmas devem ser interdependentes e consideradas simultaneamente (KENDAL, 1963). Entre os métodos mais utilizados em Geociências destacam-se a análise de agrupamentos , a análise das componentes principais e a análise discriminante. A análise de agrupamentos é utilizada quando se deseja explorar as similaridades entre indivíduos (modo Q) ou entre variáveis (modo R) definindo-os em grupos, considerando simultaneamente, no primeiro caso, todas as variáveis observadas em cada indivíduo e, no segundo, todos os indivíduos nos quais foram feitas as mesmas medidas. Segundo esse método, procura-se por agrupamentos homogêneos de itens representados por pontos num espaço n- dimensional em um número conveniente de grupos relacionando-os através de coeficientes de similaridade ou de distância. A análise das componentes principais procura interpretar a estrutura de um conjunto de dados multivariados, tanto em modo “Q” como em modo “R”, a partir da respectiva matriz de variâncias-covariâncias ou de correlações, pela obtenção de “autovalores” e “autovetores”. Consiste numa transformação linear das "m" variáveis originais correlacionadas entre si em "m" novas variáveis ortogonais e não deve ser confundida com a análise fatorial, segundo a qual supõe-se que as 5 relações existentes dentro de um conjunto de "m" variáveis seja o reflexo das correlações de cada uma dessas variáveis com "p" fatores, mutuamente não correlacionáveis entre si, sendo "p" menor que "m". A análise discriminante é aplicada quando em relação a um indivíduo, sobre o qual tenham sido feitas diversas medidas, é necessário decidir à qual de dois ou mais possíveis grupos, o mesmo pertence. A idéia básica é substituir o conjunto original das diversas mensurações por um único valor Di, definido como uma combinação linear delas. Para fornecer um único valor os termos são adicionados nessa função linear e esta transformação é realizada de tal modo a fornecer a razão mínima entre a diferença entre pares de médias multivariadas e a variância multivariada dentro dos dois grupos. Conhecido os Di's, estes serão comparados com um certo Do , ou seja, o valor situado, ao longo da linha expressa pela função discriminante, a meio caminho entre os centros dos grupos, com a finalidade de verificar a qual deles os indivíduos pertencem. A utilidade dos métodos multivariados pode ser apresentada em termos geométricos. Assim, observações univariadas podem ser assinaladas sobre uma linha reta e se essa linha for dividida em intervalos de classes e contando o número de observações em cada intervalo, um histograma poderá ser construído. Esse histograma irá requerer duas dimensões para a sua representação. Observações bivariadas podem ser assinaladas em um sistema de dispersão a duas dimensões. Se o diagrama for dividido em celas, o número de observações em cada cela pode ser contado e o respectivo histograma construído. Esse histograma requer três dimensões e pode ser representado por um mapa de isovalores. Observações trivariadas podem ser assinaladas em um gráfico de dispersão a três dimensões e a configuração nos pontos no espaço definiráuma elipsóide. Se o espaço tri-dimensional for dividido em cubos os números de observações dentro de cada figura geométrica poderão ser contados e obtida a distribuição de freqüências. Para a construção do respectivo histograma quatro dimensões serão necessárias. Em observações com quatro ou mais variáveis não é possível a representação gráfica segundo os métodos comuns, embora MERTIE (1949) tenha proposto para tanto complicados hipertetraedros. Utilizando, assim, a interpretação geométrica em três dimensões para observações trivariadas, os seguintes exemplos de procedimentos em estatística multidimensional podem ser apresentados: 6 a) na análise das componentes principais é verificado se as observações multivariadas ocupam um número de dimensões igual ao número de variáveis medidas inicialmente e para tanto os eixos do elipsóide devem ser sispostos de tal modo a colocar o centro do elipsóide coincidente com o centro do sistema de coordenadas. b) na análise discriminante localizam-se os centros dos elipsóides e calcula-se a distância entre pares de centros de elipsóides; Como salientado por DAVIS (1986), os métodos multivariados são poderosos, permitindo o pesquisador manipular diversas variáveis simultaneamente. São, porém, bastante complexos, tanto na sua estrutura teórica como na metodologia operacional. Em alguns casos os testes estatísticos a serem utilizados exigem requisitos muito rígidos e em outros, muitas vezes quando quer relacioná-los com problemas reais, não apresentam base estatística teórica e desse modo impossibilidade de testes de significância. De qualquer modo, são métodos extremamente promissores para a análise de dados geológicos tendo em vista que normalmente a maioria das situações geológica envolve um conjunto complexo de fatores atuando no sistema, sendo impossível isolá-los e estudá-los isoladamente. Exemplos de situações que apresentam dados multivariados são comuns em Geologia, como: análises geoquímicas de elementos maiores e/ou elementos traços; caracteres morfológicos medidos em fósseis; características físicas de rochas sedimentares, como distribuição granulométrica, porosidade, permeabilidade; conteúdo mineralógico em rochas; variáveis fluviais, como descarga, material em suspensão, profundidade, sólidos dissolvidos, pH e conteúdo em oxigênio, etc.. Em alguns casos trata-se de simples extensão de problemas ligados à estatística univariada e outros pertencem, todavia, a uma nova classe de problemas. Esses métodos clássicos da análise estatística multivariada não levam, porém, em consideração a localização das amostras, no sentido geológico, nem as suas relações espaciais e também não refletem as diferenças quanto o suporte das amostras ou com relação ao suporte da região onde o estudo esta sendo realizado. Por outro lado a metodologia geoestatística univariada tem essas propriedades, mas não é capaz de tratar da correlação espacial entre diversas 7 variáveis. Ferramentas se tornaram, então, necessárias para incorporar essas importantes feições e daí a necessidade de métodos estatísticos que enfoquem a análise espacial de dados geológicos multivariados. Para tanto duas soluções tem sido apresentadas: uma, adaptativa, procurando, a partir dos resultados dos métodos clássicos, verificar se os mesmos apresentam uma organização espacial significativa e outra, específica, desenvolvendo metodologia própria para esta problemática, com destaque para a krigagem fatorial. Caso as amostras, no sentido geológico, sejam georreferenciadas os grupos resultantes da análise de agrupamentos/modo Q poderão ser submetidos a uma verificação espacial para a constatação de algum padrão de distribuição espacial desses grupos. De modo idêntico os “scores”, calculados a partir da análise das componentes principais ou da análise de fatores, que tenham suas coordenadas geográficas conhecidas poderão fornecer mapas de distribuição ou de tendência espacial. A análise discriminante pode ser aplicada para avaliar e comparar alterações ocorridas a intervalos de tempo indicando que variáveis mais contribuíram para essas mudanças. São adaptações de métodos estatísticos multivariados procurando modelar espacial ou cronologicamente fenômenos geológicos. Isso, porém, somente é possível se as amostras da matriz de dados multidimensionais apresentarem perfeitamente conhecidas as suas coordenadas geográficas. No caso da krigagem fatorial deve-se efetuar: 1) modelagem de corregionalização das variáveis usando o denominado modelo linear de corregionalização: todos os p(p + 1)/2 variogramas diretos e cruzados das p variáveis são modelados por uma combinação linear dos N´s variogramas padronizados para um mesmo alcance (sill); nesta modelagem supõe-se que o comportamento espacial das variáveis é o resultado da interação de diferentes processos atuando independentemente a diferentes escalas espaciais; 2) analise da estrutura de correlações entre as variáveis, levando em consideração as diferentes escalas, com aplicação da análise das componentes principais; um “círculo de correlações” entre as variáveis originais e os dois mais importantes fatores regionalizados é utilizado para resumir as relações entre as variáveis a cada escala espacial; 3) estimação das relações entre os fatores regionalizados e 8 variáveis, como componentes espaciais, a diferentes escalas por cokrigagem, para, finalmente, mapeà-los. Em qualquer das circunstâncias citadas a preocupação é com: Descrição dos dados: os dados precisam ser explorados, tanto espacial como cronologicamente, em sua estrutura multidimensional para o seu entendimento e constatação de eventuais valores anômalos que possam mascarar tal estrutura. Existem a disposição, graças à moderna tecnologia computacional, ferramentas gráficas que permitem a visualização simultânea de amostras no espaço e/ou no tempo e as primeiras idéias a respeito da estrutura multidimensional podem começar a surgir a partir dessas exibições gráficas. Interpretação: os produtos gráficos obtidos a partir das informações numéricas são avaliados levando em consideração tanto o conhecimento já adquirido com dados similares como fatos científicos relacionados às variáveis sob estudo. A interpretação da estrutura espacial ou temporal, as associações e as relações casuais entre variáveis devem, então, ser organizadas num modelo que se ajuste aos dados. Estimação: A modelagem, se correta, não apenas descreve o fenômeno nos locais amostrados, mas pode se tornar válida para interpolações em locais ou intervalos de tempo adjacentes, não amostrados, representando um passo alem com relação às informações contidas nos dados numéricos. Na verdade este é o grande desafio da análise multivariada de dados espaciais, a estimação de valores para situações de previsão quantitativa. A pretensão deste texto escrito, de maneira a mais simples possível, por um Professor de Geologia, é apresentar uma introdução aos métodos estatísticos multidimensionais que possam ser aplicados na análise de dados, sem uma abordagem matemática complexa, porem sempre com um enfoque espacial e que permita ao usuário iniciar-se na Geologia Quantitativa. Os exemplos são voltados às Geociências, mas a metodologia pode perfeitamente ser utilizada em outras áreas que disponham de dados com estas mesmas características, ou seja, multivariados e regionalizados. Existe à disposição uma variedade muito grande de livros e pacotes computacionais e entre os principais livros textos que tratam de métodos quantitativos em Geologia podem ser citados: MILLER & KAHN (1962), SOKAL& SNEATH (1963), KRUMBEIN & GRAYBILL (1965), KOCH & LINK (1971), DAVIS (1973, 1986 9 E 2002), JORESKOG, KLOVAN & REYMENT (1976) , LE MAITRE (1982), HOWARTH & SIDING-LARSEN (1985), GRIFFITH & AMRHEIN (1997), REYMENT & SAVAZZI (1999) E WACKERNAGEL (2003). Existem tambem diversos softwares estatísticos de aplicação geral, bem elaborados e completos como SAS, S-Plus, Statistica, Systat, todos em constante atualização. Dois outros, bastante amigáveis, para serem utilizados, e com boa saida gráfica, são o MVSP e o Xlstat, este baseado no aplicativo Excel®. Um pacote desenvolvido no Brasil voltado para aplicações em Ciências Biológicas e Médicas é o Bioestat e um outro proveniente da Noruega, com aplicações em Paleontologia, é o PAST, ambos obtidos gratuitamente nos endereços mizayres.bel@orm.com.br e http://folk.uio.no/ohammer/past Alem disso na revista “Computers & Geosciences”, editada pela International Association for Mathematical Geology, freqüentemente são apresentados programas listados e/ou executáveis descarregáveis a partir do endereço www.iamg.org. 10 REFERÊNCIAS BIBLIOGRÁFICAS AYRES, M.; AYRES JR., M.; AYRES, D. L. & SANTOS, A. S. (2000) – BioEstat 2.0: aplicações estatísticas nas áreas das ciências biológicas e médicas: Sociedade Civil Mamirauá, MCT- CNPq, mizayres@zaz.com.br DAVIS, J.C. (1973) - Statistics and Data Analysis in Geology: John Wiley and Sons. DAVIS, J.C (1986) - Statistics and Data Analysis in Geology: 2nd ed., John Wiley and Sons. DAVIS, J.C (2002) - Statistics and Data Analysis in Geology: 3rd ed., John Wiley and Sons. GRIFFITH, D.A. & AMRHEIN, C.G. (1997) – Multivariate Statistical Analysis for Geographers – Prentice Hall. HAMMER. O. & HARPER, D.A.T. (2004) – PAST. PAlaentological STatistics, versão 1.20. http://folk.uio.no/ohammer/past HOULDING, S. W. (2000) - Practical Geostatistics: Modeling and Spatial Analysis: Springer Verlag. HOWARTH, R.J. & SINDING-LARSEN, R. (1985) - Multivariate analysis: in (G.J.S. Govett, ed.) “Statistics and Data Analysis in Geochemical Prospecting”, vol. 2:207-289, Elsevier. JORESKOG, K.G., KLOVAN, J.E. & REYMENT, R.A. (1976) - Geological factor analysis: Elsevier. KOCH JR, G.S. & LINK, .F. (1971) - Statistical analysis of geological data: vol. 2, John Wiley & Sons. KRUMBEIN, W.C. & GRAYBILL, F.A. (1965) - An introduction to Statistical Model in Geology: McGraw Hill Book. LE MAITRE, R.W. (1982) - Numerical Petrology. Statistical Interpretation of Geochemical Data: Elsevier. MERTIE JR, J.B. (1949) - Charting five and six variables on the bounding tetrahedral of hyper tetrahedral: Am. Mineralogist, 34:706-716. MILLER, R.L. & KAHN, J.S. (1962) - Statistical analysis in the geological sciences: John Wiley and Sons. MVSP – Multi-Variate Statistical Package: Kovach Computing Services, http://www.kovcomp.co.uk REYMENT, R.A. & SAVAZZI, E. (1999) – Aspects of Multivariate Statistical Analysis in Geology - Elsevier. SAS – SAS Institute, http://www.sas.com SOKAL, R.R. & SNEATH, P.H.A. (1963) - Principles of numerical taxonomy: W.H. Freeman. S-PLUS – Mathsoft, http://www.mathsoft.com STATISTICA – StatSoft Inc., http://www.statsoft.com SYSTAT – SPSS Inc., http://www.spss.com WACKERNAGEL, H. (2003) – Multivariate Geostatistics. Springer. XLSTAT – AddinSoft SARL, http://www.xlstat.com 11 2. ÁLGEBRA MATRICIAL Os métodos estatísticos multivariados são quase todos eles baseados em manipulação de matrizes, especialmente quando calculados por computador. A álgebra matricial torna-se, portanto, uma ferramenta básica para o entendimento desses métodos e neste capítulo são apresentadas noções elementares. Cada tópico é acompanhado por exemplos numéricos de pequenas dimensões no lugar de teoremas matemáticos e suas provas, que estão fora do escopo deste texto. Maiores detalhes sobre álgebra linear podem ser encontrados, entre outros, em AYRES JR. (1962), DAVIS (1984), FERGUNSON (1988, cap. 6 e 7) e GOLUB & VAN LOAN (1996). 2.1. Matriz Matriz é um arranjo bidimensional constituído por elementos xij, onde i representa linha e j coluna. Normalmente as linhas são indivíduos e as colunas, variáveis. = 44434241 34333231 24232221 14131211 xxxx xxxx xxxx xxxx X Se o número de linhas é igual ao número de colunas a matriz é conhecida como quadrada. [X] é, portanto, uma matriz quadrada. O número de linhas, porém, não precisa ser igual ao número de colunas: = = 3231 2221 1211 232221 131211 zz zz zz Z yyy yyy Y [Y] é uma matriz com 2 linhas e 3 colunas e [Z] é uma matriz com 3 linhas e 4 colunas, sendo ambas retangulares. Uma matriz com apenas uma linha é chamada de vetor linha e uma matriz com apenas uma coluna é chamada de vetor coluna: 12 [ ] == n 2 1 n11 y y y Youx...xxX M Escalar é uma matriz com dimensões 1x1. Matriz diagonal é uma matriz quadrada onde os elementos fora da diagonal principal são todos iguais a 0 (zero): = 33 22 11 x00 0x0 00x X Matriz de identidade ou matriz unitária é uma matriz quadrada onde os elementos da diagonal principal são todos iguais a 1 e os demais 0 (zero): = 100 010 001 I 2.2. Operações com matrizes Transposição: permuta linhas por colunas e vice-versa; representada por [ ]’, de modo que um elemento aij em [A] passa a ser aji em [A]’ = = 935563 784848 122833 'Aentão, 937812 554028 634833 Ase Adição e subtração: similar à álgebra linear. O número de linhas e de colunas precisa ser igual nas duas matrizes a serem adicionadas ou subtraídas = ++ ++= + 115 83 4723 3512 42 31 73 52 13 Multiplicação: para efetuar a multiplicação, por exemplo [A]*[B]=[C], o número de linhas em [B] deve ser igual ao número de colunas em [A]. O resultado em [C] terá o mesmo número de linhas que [A] e o mesmo número de colunas que [B] lkjklj CB*A = A formula geral para determinar cada elemento em [C] é ∑ = = r 1k kjikij b*ac onde r é o número de colunas em [A] ou linhas em [B]. Isto significa que, por exemplo para c11, deve-se multiplicar a primeira linha em [A] vezes a primeira coluna em [B]; para encontrar c23 multiplicar a segunda linha de [A] pela terceira coluna de [B] = +++ +++ +++ = 101734 142142 121938 )2*3()1*4()3*3()2*4()6*3()4*2( )2*7()1*0()3*7()2*0()6*7()4*2( )2*5()1*2()3*5()2*2()6*5()4*2( 236 124 * 34 70 52 Importante notar que o resultado de [A]*[B] geralmente não é o mesmo que [B]*[A]: = 5720 3712 34 70 52 * 236 124 Multiplicação por escalar: cada elemento da matriz é multiplicado pelo escalar = 219 153 73 52 *3 Determinantes: número singular associado a uma matriz quadrada. O determinante da matriz [A] é representado por |A|. Para uma matriz de dimensões 2x2 o determinante é calculado pelo produto e uma diagonal menos o produto da outra diagonal: 14 )a*a()a*a( aa aa 21122211 2221 1211 −= Inverso de uma matriz Como não há divisão em álgebra matricial,o procedimento adotado é utilizar o inverso da matriz. Na álgebra linear se A*B = C, para resolver A calcula- se B CA = ou também B 1*CA = . O inverso da matriz é análogo a B 1 . O inverso de uma matriz [X] é representado por [X]-1 e para o seu cálculo é necessário satisfazer a condição [X[*[X]-1=[I]. Em algumas situações isso não é possível porque é encontrada uma divisão por zero durante o processo de inversão. Nesse caso, de impossibilidade de inversão, a matriz é conhecida como singular. Esta é uma das mais importantes técnicas em álgebra matricial e essencial para a solução de sistema de equações simultâneas do tipo: [A]*[X]=[B], onde [A] e [B] contem valores conhecidos e [X] valores desconhecidos a serem determinados. . Multiplicando ambos os lados da equação por [A]-1 [A]-1*[A]*[X]=[A]-1*[B], Como [A]-1*[A]=[I], a equação se reduz para [X]=[A]-1*[B] Seja o seguinte sistema de equações onde se quer determinar x1 e x2 04x1+10x2= 38 10x1+30x2=110 Em notação matricial: = 110 038 x x * 3010 1004 2 1 Para encontrar os valores xi, basta inverter a matriz [A] e multiplicar o inverso pelo vetor coluna [B] 15 O inverso de [A] é encontrado da seguinte maneira: 10 01 3010 1004 10 025,0 3010 5,201 − 15,2 025,0 0510 5,201 − 2,05,0 025,0 010 5,201 − − 2,05,0 5,05,1 10 01 Verificação da inversão de matriz: = − − 10 01 3010 1004 * 2,05,0 5,05,1 Cálculo dos xi: = − − 3 2 110 038 * 2,05,0 5,05,1 x1=2 e x2=3 2.3. Algumas matrizes especiais 2.3.1. Matriz de coeficientes de correlação A matriz original de dados é constituída por m indivíduos e n variáveis, em que cada linha i representa um indivíduo e cada coluna j uma variável. 16 = n.m3,m2,m1,m n,33,32,31,3 n,23,22,21,2 n,13,12,11,1 xxxx xxxx xxxx xxxx ]X[ L MMMM L Para o cálculo de uma matriz de coeficientes de correlação a seguinte seqüência deve ser obedecida: 1. Encontrar para cada coluna a respectiva média e o desvio padrão: m x x jj Σ= ; 1m m )ix( ix S 2 2 j − Σ−Σ = ; 2ji ss = 2. Encontrar o valor zij para cada observação: 3. A partir daí, constituir a matriz [ ]Z , também de dimensões nxm: = n.m3,m2,m1,m n,33,32,31,3 n,23,22,21,2 n,13,12,11,1 zzzz zzzz zzzz zzzz ]Z[ L MMMM L 4. Encontrar o transposto da matriz [Z] = n,mn,3n,2n,1 2,m2,32,22,1 1,m1,31,21,1 ' zzzz zzzz zzzz ]Z[ MMMM 5. Multiplicando [Z]’ por [Z], encontrar a matriz [V], de dimensões nxn [V] = [Z]’ [Z] j ij ij s jxxz −= 17 = 2 n2n1n n2 2 212 n121 2 1 vvvvv vvvvv vv...vvv ]V[ MMM 6. Finalmente, calcular a matriz de coeficientes de correlação, multiplicando o escalar 1m 1− por [V] [ ] =−= n,n2,n1,n n,22,21,2 n,12,11,1 rrr rrr rrr V 1m 1]R[ MMM L L Exemplo = 444 345 321 432 321 ]X[ Médias: x1=2,6; x2=3,0; x3=3,4 Desvios padrão: s1 = 1,8; s2=1,0; s3=0,55 -0,889 -1,000 -0,727 -0,333 0,000 1,091 [Z] = -0,889 -1,000 -0,727 1,333 1,000 -0,727 0,778 1,000 1,091 -0,889 -0,333 -0,889 1,333 0,778 [Z]'= -1,000 0,000 -1,000 1,000 1,000 -0,727 1,091 -0,727 -0,727 1,091 4,074 3,889 0,809 [V]= 3,889 4,000 1,818 0,808 1,818 3,967 18 1,000 0,972 0,202 [R]= 0,972 1,000 0,455 0,202 0,455 1,000 2.3.2. Matriz de variâncias e covariâncias A matriz original de dados é constituída por m indivíduos e n variáveis, em que cada linha i representa um indivíduo e cada coluna j uma variável. = n.m3,m2,m1,m n,33,32,31,3 n,23,22,21,2 n,13,12,11,1 xxxx xxxx xxxx xxxx ]X[ L MMMM L Para o cálculo de uma matriz de variâncias e covariâncias a seguinte seqüência deve ser obedecida: 1. Encontrar a média de cada coluna e subtrair esse valor de cada elemento: m x x jj Σ= ; jij*ij xxx −= = n.m3,m2,m1,m n,33,32,31,3 n,23,22,21,2 n,13,12,11,1 *x*x*x*x *x*x*x*x *x*x*x*x *x*x*x*x *]X[ L MMMM L 2. Criar uma matriz de somas de quadrados e produtos cruzados [A], pela multiplicação de [X*]’ por [X*], de dimensões nxn. = n,mn,3n,2n,1 2,m2,32,22,1 1,m1,31,21,1 ' *x*x*x*x *x*x*x*x *x*x*x*x *]X[ MMMM [A] = [X*]’ [X*] 19 = 2 n2n1an n2 2 212 n121 2 1 aaaa aaaaa aa...aaa ]A[ MMM 3. Finalmente criar uma matriz de variâncias e covariâncias [S] multiplicando o escalar 1m 1− por [A] [ ] =−= n,n2,n1,n n,22,21,2 n,12,11,1 sss sss sss A 1m 1]S[ MMM L L Exemplo = 444 345 321 432 321 ]X[ Médias: x1=2,6; x2=3,0; x3=3,4 -1,6 -1 -0,4 -0,6 0 0,6 [X*]= -1,6 -1 -0,4 2,4 1 -0,4 1,4 1 0,6 -1,6 -0,6 -1,6 2,4 1,4 [X*]’= -1 0 -1 1 1 -0,4 0,6 -0,4 -0,4 0,6 13,2 7 0,8 [A]= 7 4 1 0,8 1 1,2 20 3,30 1,75 0,20 [S]= 1,75 1,00 0,25 0,20 0,25 0,30 2.3.3. Autovalores (eingenvalues) e Autovetores (eigenvectors) Este tópico é geralmente considerado de difícil entendimento dentro da álgebra matricial, não tanto pela maneira de cálculo, mas principalmente pelo entendimento que se possa ter de seu resultado. Uma interpretação geométrica como apresentada a seguir, baseada em GOULD (1967), pode ajudar a entender o significado de autovalores e autovetores. Considerando os valores de uma matriz como coordenadas de pontos num espaço multidimensional, autovalores e autovetores passam a ser propriedades geométricas do arranjo desses pontos. Seja um conjunto de equações simultâneas: [A][X] = λ[X], onde a matriz de coeficientes aij’s [A] multiplicada por um vetor de desconhecidos xi’s [X] é igual a este vetor [X] multiplicado por uma constante λ. Para encontrar os valores de λi que satisfaçam a relação acima, a equação pode ser reescrita como: ([A] – λ[I])[X] = 0, onde λ[I] é a matriz de identidade, de dimensões 3x3, multiplicada por λ: λ λ λ 00 00 00 Cálculo das raizes da equação (autovalores) para uma matriz 3 x 3: (a11 – λ)x1 + a12 x2 + a13x3 = 0 a21x1 + (a22 – λ)x2 + a23x3 = 0 a31x1 + a32 x2 + (a33 – λ)x3 = 0 Como exemplo, seja a seguinte matriz de dados: 21 158 237 324 421 Para essa matriz de dados é encontrada a seguinte matriz de coeficientes de correlação [A] −− − − = 000,1913,0980,0 913,0000,1820,0 980,0820,0000,1 ]A[ , com variância total no sistema: 1+1+1=3 •Para o calculo dos autovalores: 0 000,1913,0980,0 913,0000,1820,0 980,0820,0000,1 ]I[]A[ = λ−−− −λ− −λ− =λ− Desenvolvendo: (1,000 - λ)(1,000 - λ)(1,000 - λ) + (0,820)(- 0,913)(- 0,980) + (- 0,980)(0,820) (- 0,913) - (- 0,980)(1,000 - λ)(- 0,980) - (1,000 - λ)(- 0,913)(- 0,913) - (0,820)(0,820)(1,000 - λ) = ≅ (λ - 2,810)(λ - 0,188)(λ - 0,002) Autovalores são iguais a: λ1 = 2,810; λ2 = 0,188; λ3 = 0,002 (soma = 3) % da variância total explicada por cada autovalor: λ1 = (2,810/3)*100 = 93,66 λ2 = (0,188/3)*100 = 6,27 λ3 = (0,002/3)*100 = 0,07 • Para o cálculo dos correspondentes autovetores: Componentes do autovetor V1: (1,000 - 2,810)X1 + 0,820X2 - 0,980X3 = 0 0,820 - (1,000 - 2,810)X2 - 0,913X3 = 0 -0,980X1 - 0,913X2 - (1,000 - 2,810)X3 = 0 22 X1 = - 1,000; X2 = - 0,974; X3 = 1,032 V1 = - 1,000 - 0,974 1,032 Padronização do autovetor V1 para o tamanhao unitário Q = -12 + (-0,974)2 + (1,032)2 = 3,012 Q = 1,735 Vn1 = -1/1,735 = -0,58 Vn1 = - 0,974/1,735 = - 0,56 Vn1 = 1,032/1,734 = 0,59 Componentes do autovetor V2: (1,000 – 0,188)X1 + 0,820X2 - 0,980X3 = 0 0,820 - (1,000 – 0,188)X2 - 0,913X3 = 0 -0,980X1 - 0,913X2 - (1,000 – 0,188)X3 = 0 Vn2 = -0,60 Vn2 = 0,79 Vn2 = 016 ..... Autovetores F1 F2 F3 Var1 -0.58 -0.60 0.56 Var2 -0.56 0.79 0.26 Var3 0.59 0.16 0.79 Factor loadings (carregamento das variáveis nas componentes principais): )dentecorresponautovaloropadronizadautovetor( ∗ ) F1 F2 F3 Var1 -0.97 -0.26 0.03 Var2 -0.94 0.34 0.01 Var3 1.00 0.07 0.04 23 Em termos geométricos: Variáveis V1 V2 V3 -1 -0,5 0 0,5 1 -1 -0,5 0 0,5 1 Eixo F1: 94% E ix o F2 : 6 % A matriz original de dados ao ser multiplicada pela matriz de autovalores fornecera a matriz de contagens (scores). “factor scores” = 158 237 324 421 * − −− 79,016,059,0 26,079,056,0 56,060,058,0 F1 F2 F3 Obs1 2.10 0.45 0.03 Obs2 0.93 -0.35 -0.07 Obs3 -0.69 -0.51 0.06 Obs4 -2.34 0.41 -0.02 24 Em termos geométricos: Observações A4 A3 A2 A1 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 Eixo F1: 93.66 % E ix o F2 : 6 .2 7 % • Rotação de matriz A orientação dos autovetores no espaço multivariado é determinada pela direção da máxima variância. Como a contribuição da variância para cada autovetor deve ser maximizada, há necessidade de rotação da matriz fatorial inicial Matriz fatorial inicial: Fatores F1 F2 X1 0,966 - 0,259 X2 0,940 0,340 X3 - 0,997 0,070 • Rotação dos fatores (pelo critério varimax): Rotação ortogonal de uma matriz de carregamentos [X], em um novo conjunto de coordenadas [X’], requer uma matriz operacional [T] [X’] = [T] [X] 25 ΘΘ Θ−Θ= 2 1 ' 2 ' 1 X X cossen sencos X X ângulo de rotação Θ = ?, para variavel “j” e fatores “p” e “q” ]/n)XX(2-)XX[(-)XX(2-)X-X( ]/nXX)X-(X[4-)X-(XX2X4 4tan J 2 JQJP J 22 JQ 2 JP J 2 JQJP J 22 JQ 2 JP J JQJP J 2 JQ 2 JP J 2 JQ 2 JPJQJP ∑∑∑∑ ∑∑∑ Σ=Θ 2 JQ 2 JPJ XXU −= JQJPJ XX2V = ∑= J JUA = 2,6222; A 2 = 6,8789 ∑= J JVB = -0,0001; B 2 = 0,0000 ∑ −= J 2 J 2 J )VU(C = 1,6365 ∑= J JJ )VU(2D = -0,0797 n/)BA(C n/AB2D4tan 22 −− −=θ = - 0,1592/- 0,6555 = 0,2429 arctan 0,2429 = -166° 21’ = 4Θ; Θ = 41° 17’ sen Θ = - 0,6598 cos Θ = 0,7515 − −= 7515,06598,0 6598,07515,0 ]T[ − −= 2J 1J ' 2J ' 1J X X 7515,06598,0 6598,07515,0 X X 12121111 ' 11 XTXTX += X’1j = (0,9656)(0,715) + (- 0,2590)(- 0,6598) = 0,894 26 • matriz fatorial rotacionada: Fatores F’1 F’2 X1 0,894 0,447 X2 0,477 0,879 X3 - 0,792 - 0,609 Em termos geométricos: Variáveis V3 V2 V1 -1,1 -0,6 -0,1 0,4 0,9 -1,1 -0,6 -0,1 0,4 0,9 Eixo F1: 94.30 % E ix o F2 : 5 .7 0 % 27 Variáveis depois da rotação varimax V3 V2 V1 -0,94 -0,74 -0,54 -0,34 -0,14 0,06 0,26 0,46 0,66 0,86 -0,9 4 -0,7 4 -0,5 4 -0,3 4 -0,14 0,06 0,26 0,46 0,66 0,86 Eixo F1: 54.82 Ei xo F 2: 4 5. 17 % Observações A4 A3 A2 A1 -1,3 -0,8 -0,3 0,2 0,7 1,2 -1,3 -0,8 -0,3 0,2 0,7 1,2 Eixo F1: 94.30 % E ix o F2 : 5 .7 0 % 28 Observações depois da rotação varimax A4 A3 A2 A1 -1,6 -1,1 -0,6 -0,1 0,4 0,9 1,4 -1,6 -1,1 -0,6 -0,1 0,4 0,9 1,4 Eixo F1: 54.82 % Ei xo F 2: 4 5. 17 % Gráfico mostrando o arranjo espacial dos pontos Xi em 2D antes e depois da rotação dos eixos F1 e F2 29 REFERÊNCIAS BIBLIOGRAFICAS AYRES JR., F. (1962) – Schaum’s Outline of Theory and Problems of Matrices: Schaum Publ. Co. DAVIS, P.J. (1984) – The Mathematics of Matrices: R.E. Krieger Publ. Co FERGUNSON, J. (1988) – Mathematics in Geology: Allen & Unwin Ltd. GOLUB, G.H. & VAN LOAN, C.F. (1996) – Matrix Computations, 3rd. ed.: Johns Hopkins Univ. Press. GOULD, P. (1967) – On the geographic interpretation of eigenvalues: An initial exploration: Trans. Inst. British Geographers, n. 42, p. 53-86 30 3. REGRESSÃO LINEAR MÚLTIPLA As relações entre duas variáveis "X", considerada independente, e "Y", considerada dependente, pode ser representada num diagrama de dispersão, com os valores yi em ordenada e os xi em abcissa. Cada par de valores xi e yi fornecerá um ponto e utilizando-se, por exemplo, o método dos desvios mínimos ao quadrado, pode-se calcular a equação de uma curva de tendência que melhor se ajuste à nuvem de distribuição. O método mais simples que pode ser adotado é o da análise de regressão linear simples que fornece a equação de uma reta: ,iixiy ε+β+α= onde α e β são constantes desconhecidas a serem determinadas e εi representa toda a fonte de variabilidade em Y não explicada por X. Operacionalmente neste caso encontra-se a equação da reta para a previsão dos valores yi : ,bxay += onde a e b são os coeficientes que determinam a intersecção e a inclinação da linha de tendência. Não é raro, porém, que o termo εi seja numericamente mais importante que a explicação motivada pela variável X, significando que outras variáveis devem ser incorporadas ao modelo a fim de explicar o comportamento de Y. O modelo exige então uma "análise de regressão linear múltipla”. A regressão múltipla é usada, portanto, para testar dependências cumulativas de uma única variável dependente em relação à diversas variáveis independentes. Cada uma dessas variáveis é isolada e mantida constante enquanto as variáveis restantes variam sistematicamente, sendo observados os seus efeitos sobre a variável dependente. A variável a ser inicialmente mantida constante é aquela que ocasiona a maior influência na variabilidadeda variável dependente. O modelo geral é representado por imimi11oi xxy ε+α++α+α= L A condição inicial, como na regressão linear simples, é descrita por ,exaay 1x1o ++= onde xi é a variável independente, responsável pela maior variabilidade, ao e a1 são os coeficientes e e1 é o erro, isto é, a variabilidade em Y não explicada pela relação linear. A variável que, em seguida, mais reduz a variabilidade do erro é em seqüência adicionada de tal modo que 31 22211o exbxbby +++= , sendo 21o beb,b calculados e 12 ee < . O processo segue por etapas até que o comportamento de todas as variáveis independentes em relação à dependente seja verificado. Os coeficiente “bi” são conhecidos como parciais de regressão porque cada um deles fornece a taxa de mudança na variável dependente correspondente à respectiva variável independente, mantendo constantes as demais variáveis independentes. A equação que representa a relação linear entre uma variável dependente (yi) e uma única variável independente (xi) é: 11oi xaaY += As equações normais que fornecem os valores de ao e a1 são: 211o1 xanaY ∑+−∑ ( 1 ) 211ioii xaXaYX ∑+∑+∑ ( 2 ) As equações ( 1 ) e ( 2 ) constituem um par de equações normais a duas incógnitas, as quais podem ser resolvidas para a obtenção dos coeficientes, por cálculo matricial, segundo: YXA ]Y[]A[]X[ = Multiplicando ambos os termos da equação pelo inverso de [X], isto é, 1]X[ − : Y]X[]A[]X[]X[ 11 −− = Como ]I[]X[.]X[ 1 =− (matriz de identidade) e ]A[]A[]I[ = ]Y[]X[]A[ 1 =− Por extensão, a análise de regressão múltipla linear de quaisquer m variáveis independentes sobre uma variável dependente, sendo expressa por: mimi22i11oi XbXbXbbY ++++= L pode ser resolvida segundo: 32 ]Y[]B[]X[ yx yx yx y b b b b xxxx xxxxx xx xxn imi ii2 ii1 i m 2 1 o 2 mii1mimi mii2i1i2i2 mixi1 2 i1xi1 mii1 ∑ ∑ ∑ ∑ = ∑∑∑ ∑∑∑ ∑∑∑ ∑∑ L M L L L ]Y[]X[]B[ 1−= Para verificar se o modelo obedece a uma regressão múltipla é aplicada a análise de variância (ANOVA). Fonte de variação g.l. Soma de quadrados Média quadrática Razão F Regressão m SSR MSR MSR/MSD Resíduos n-m-1 SSD MSD Total n-1 H0: β1= β2= β3=... βm=0 H1: pelo menos um β é diferente de 0 A variância total de Y é em parte "explicada" pelas diversas variáveis X's e o restante pela variabilidade devido ao erro (ε1). É claro que o termo "explicada" tem apenas um significado numérico não implicando necessariamente em um conhecimento causa-efeito sobre o porquê da relação existente. Os tamanhos relativos dessas duas componentes de variância são obviamente de grande interesse quando da aplicação da análise de regressão múltipla. A proporção da variância dos Y observados "explicada" por uma equação de regressão ajustada é representada pelo coeficiente de determinação R². 2 y 2 y2 s s total) (variância regressão) de análise pela explicada Y de (variânciaR == Valores de R2 irão dispor-se no intervalo 0-1, fornecendo uma medida dimensional de quantidade do ajuste do modelo de regressão múltipla aos dados. Se o valor de R² for próximo de 1 isso significa que as diversas variáveis X's medidas são responsáveis quase que totalmente pela variabilidade de Y. Caso contrário, R² apresentará um valor próximo a zero. 33 Uma das mais importantes aplicações da análise de regressão múltipla é a escolha, entre diversas variáveis independentes, daquelas mais úteis na previsão de Y. A questão se torna, então, saber se certas variáveis explanatórias podem ser retiradas, ou não, do modelo de regressão. Teste de hipótese par βk: t* = bk/sbk H0: βk = 0 H1: βk ≠ 0 Critério do teste: Se |t* |≤t(1-α/2;n-p), aceita-se a hipótese nula, caso contrário rejeita-se a mesma. Como os coeficientes de regressão são parciais devem ser obtidas as porcentagens explicadas da soma de quadrados de Y segundo 2 1k − combinações, onde k é o número de variáveis independentes. Finalmente verifica- se a contribuição pura de cada variável independente por comparações sucessivas entre os diversos resultados. Outra maneira para a ordenação das variáveis pela sua importância na previsão da variável dependente é a padronização dos coeficientes de regressão parciais, convertendo-os em unidades de desvio padrão, (Bk ), (LI 1964, p. 136): B b S Sk k k Y = , onde bk = coeficiente de regressão parcial; Sk= desvio padrão de Xk ; Sy= desvio padrão de Y. Pela comparação direta dos Bk determinam-se as variáveis mais eficientes. Embora a regressão múltipla seja multivariada no sentido de que mais de uma variável é medida simultaneamente em cada observação, trata-se na realidade de uma técnica univariada, pois o estudo é apenas em relação à variação da variável dependente Y, sem que o comportamento das variáveis independentes, Xs, seja objeto de análise. Finalmente, alguns cuidados que se deve tomar quando da utilização da análise de regressão: a) as relações entre as variáveis devem ser lineares 34 b) evitar um número inferior de casos em relação ao número de variáveis consideradas; é recomendado que tal relação seja da ordem de 10 a 20 vezes superior c) evitar variáveis independentes redundantes, isto é, que tenham um alto coeficiente de correlação entre si d) verificar, utilizando resíduos, a presença de valores anomalos 3.1. Exemplo com enfoque “clássico” HARRISON &KRUMBEIN (1964), estudaram a influência de alguns processos praiais no condicionamento do ângulo de inclinação do fundo oceânico situado logo após à linha da maré baixa a estirâncio (variável dependente, Yi). Quatro processos independentes foram medidos: período das ondas, em segundos (X2i); altura das ondas, em pés (X3i); ângulo de aproximação das ondas, em pés (X4i); profundidade da lâmina d’água, em pés (X5i); Além disso foi considerada uma variável, que está condicionada por essas quatro, ou seja, o diâmetro médio, em mm, do sedimento do fundo oceânico (X1i), mas que também é independente em relação à inclinação do fundo oceânico. Locais Yi X1i X2i X3i X4i X5i 01 0.68 0.79 7.80 1.82 30.00 12.40 02 0.85 0.65 8.00 8.84 25.00 11.40 03 0.66 0.81 9.03 5.12 35.00 10.70 04 0.50 0.74 6.56 5.43 40.00 11.60 05 1.86 0.22 5.90 1.42 30.00 11.30 06 2.33 0.23 8.40 1.09 30.00 10.70 07 2.17 0.25 12.00 1.15 25.00 11.10 08 1.83 0.26 4.80 8.53 25.00 12.80 09 1.68 0.41 10.80 6.11 10.00 13.30 10 2.05 0.55 10.40 1.60 30.00 13.30 11 1.83 0.47 10.80 1.04 30.00 14.10 12 1.84 0.59 7.90 1.02 35.00 13.40 13 1.87 0.47 4.30 1.11 30.00 13.50 14 1.82 0.50 10.80 0.62 35.00 13.30 15 1.85 0.52 3.80 1.69 30.00 14.40 16 1.75 0.47 4.10 1.22 20.00 14.10 17 1.51 0.42 4.50 2.13 30.00 15.30 18 1.38 0.37 6.10 1.47 20.00 14.00 A questão é saber qual a importância de cada uma dessas 5 variáveis para o controle da inclinação do fundo oceânico. Para tanto, inicialmente, foi aplicada uma análise de variância aos dados. 35 Fonte g.l. Soma de quadrados Média quadrática Razão F Pr > F Regressão 5 3,9727 0,7945 8,7969 0,001 4 Resíduos 12 1,0839 0,0903 Total 51 2 5,0566 . A análise de variância aplicada forneceu um F calculado igual a 8,7969, superior ao F tabelado (F0.05;5,12 = 3,1059). O valor de F é significativo (p = 0,0014) indicando rejeição à hipótese nula e aceitação da hipótese alternativade que pelo menos uma das variáveis independentes condiciona o comportamento da variável dependente. . A equação para a regressão linear múltipla encontrada foi: YI = 1,1858 – 2,3524X1I + 0,0447X2 – 0,0459X3 + 0,0082X4 + 0,0854X5 com um coeficiente de determinação ( R² ) igual a 0,7857, significando que as variáveis independentes explicam 78,7% do comportamento de Yi. Com relação aos coeficientes parciais de regressão, confrontados com o teste “t”, os seguintes resultados foram obtidos Coeficiente Valor Variável Teste t Pr > t b0 1,1858 0,9984 0,3377 b1 -2,3524 X1 -4,8511 0,0004 b2 0,0447 X2 1,4496 0,1727 b3 -0,0459 X3 -1,3560 0,2000 b4 0,0082 X4 0,5922 0,5647 b5 0,0854 X5 1,2841 0,2233 Como na tabela de distribuição teórica de “t” encontra-se o valor crítico t(0.05:12) = 1.782, pode-se concluir que apenas o coeficiente parcial de regressão b1 é significante. Em outras palavras a granulometria media do sedimento é a variável que mais explica a variação do fundo oceânico na zona de “surf”. Adotando o critério “stepwise” (passo a passo), para verificar a evolução do R2 à medida que novas variáveis são adicionadas para a analise de regressão, os seguintes resultados foram obtidos Variáveis no modelo de regressão Variável mais importante escolhida R² 1 X1 0,629 2 X3 0,739 3 X2 0,756 4 X5 0,779 36 Uma outra maneira para determinar a importância relativa de cada uma dessas variáveis é verificar todas as possíveis combinações dos coeficientes parciais: Combinações Porcentagem da soma de quadrados de Y explicada X1 63,1 X2 1,1 X3 23,7 X4 5,6 X5 5,2 1,2 65,5 1,3 74,1 1,4 64,2 1,5 66,4 2,3 24,4 2,4 6,5 2,5 9,1 3,4 36,1 3,5 24,4 4,5 8,9 1,2,3 75,9 1,2,4 66,8 1,2,5 71,8 1,3,4 74,1 1,3,5 74,8 1,4,5 68,6 2,3,4 36,5 2,3,5 25,9 2,4,5 12,0 3,4,5 36,2 1,2,3,4 75,9 1,2,3,5 78,1 1,2,4,5 75,3 1,3,4,5 74,9 2,3,4,5 36,5 X1, X2, X3, X4, X5 78,7 37 Combinações mais importantes Porcentagem da soma de X1 X2 X3 X4 X5 quadrados de Y explicada 1 63,1 3 23,7 uma por vez 4 5,6 1 3 74,1 1 5 66,4 duas por vez 1 2 65,5 1 2 3 75,9 1 3 5 74,8 três por vez 1 3 4 74,1 1 2 3 5 78,1 1 2 3 4 75,9 quatro por vez 1 2 4 5 74,9 1 2 3 4 5 78,7 cinco por vez Contribuição pura em % de cada variável Granulometria média 63.1 Altura da onda 74,1 – 63,1 11.0 Período da onda 75,9 – 74,1 1.8 Profundidade 78,1 – 75,9 2.2 Ângulo de aproximação 78,7 – 78,1 0.6 78.7 Novamente a variável mais importantes para o “controle” da inclinação do fundo oceânico foi granulometria média (Xi), seguida de altura da onda (X3). 3.2. Exemplo com enfoque “espacial” Comparação entre mapas têm sido preocupação dos geólogos, pela sua utilidade na localização espacial e mesmo interpretação de qualquer banco de dados temático. Se existem, porém, diversos algoritmos à disposição para a confecção de mapas o mesmo não pode ser afirmado em relação à comparação entre mapas. Alguns trabalhos que tratam do assunto podem ser encontrados em 38 BROWER & MERRIAM (1990, 1992) usando técnicas estatísticas; e HERZFELD & SONDERGARD (1988); HERZFELD & MERRIAM (1991) usando técnicas algébricas orientadas para uso em computador. Um interessante enfoque é apresentado por BROWER & MERRIAM (2001) que utilizam a análise de regressão múltipla para comparar mapas de contorno estrutural com finalidade de entender a história geológica de uma certa região. Se a variável considerada dependente for a camada mais jovem e as demais camadas as variáveis independentes, pode-se verificar qual delas teve maior influência na configuração dessa camada mais jovem. Utilizando essa idéia LEITE & LANDIM (2003) aplicaram a análise de regressão múltipla para quantificar a influência de diversas variáveis no comportamento da superfície potenciométrica de um aqüífero livre (H), considerada como variável dependente. As variáveis consideradas independentes foram cota do terreno (Z), base da formação aqüífera ou cota do topo do basalto (TB), espessura da formação aqüífera (FM), e coordenadas UTM (X e Y). Esses valores foram obtidos a partir de 188 poços. ID X Y H Z TB FM 1 486450 7714380 291.189 296.429 217.2 79.23 2 486630 7714170 289.067 290.612 217.2 73.41 3 486850 7717900 315.241 329.716 217.2 112.52 4 486680 7718240 317.682 344.277 217.2 127.08 5 486690 7717400 309.052 328.542 217.2 111.34 6 486580 7717100 308.604 328.274 217.2 111.07 7 486480 7716800 304.559 327.428 217.2 110.23 8 486560 7716520 302.352 315.592 217.2 98.39 9 486400 7716100 299.957 311.337 217.2 94.14 10 486070 7716150 303.822 325.457 217.2 108.26 11 485900 7715630 294.954 309.294 217.2 92.09 12 485510 7716020 293.871 318.611 217.2 101.41 13 492430 7719100 340.94 350.875 217.2 133.67 14 492610 7718200 342.341 354.741 217.2 137.54 15 490450 7716520 314.986 323.636 217.2 106.44 16 490800 7717170 315.645 318.945 217.2 101.74 17 491110 7719280 339.994 357.334 276.61 80.73 18 490970 7718950 339.635 343.945 275.98 67.96 19 490780 7718340 331.465 348.535 271.98 76.55 20 490500 7718030 329.644 345.289 272.92 72.37 21 490180 7716840 309.333 309.333 255.97 53.37 22 489940 7716980 314.421 324.011 266.19 57.82 23 489680 7716700 309.574 314.339 273.96 40.38 24 489240 7716800 320.553 336.913 289.16 47.75 25 488910 7716510 319.572 331.902 295.78 36.12 39 26 489070 7716340 313.844 325.134 291.7 33.43 27 489310 7716190 306.693 319.468 286.14 33.32 28 489930 7715900 309.23 319.175 217.2 101.97 29 489060 7715800 306.059 322.889 295.57 27.32 30 488850 7715240 301.6 309.85 305.17 4.68 31 489380 7714810 304 315.205 217.2 98 32 487880 7715530 303.3 315.88 306.75 9.13 33 487100 7715460 293.445 315.035 311.5 3.53 34 487310 7715940 301.393 321.143 314.05 7.1 35 487510 7716030 306.945 330.475 311.62 18.85 36 487240 7716270 301.731 313.431 320.52 0 37 487670 7716830 314.373 329.643 318.09 11.56 38 487600 7717580 314.439 320.469 317.13 3.34 39 487400 7716640 313.914 316.489 320.33 0 40 487340 7717370 312.307 312.387 318.25 0 41 487110 7717370 310.257 314.562 217.2 97.36 42 487060 7717710 313.124 321.144 217.2 103.94 43 487290 7718000 314.958 318.208 217.2 101.01 44 487279 7718226 316.01 326.695 217.2 109.49 45 487800 7717970 318.55 330.06 319.17 10.89 46 488240 7718560 326.71 340.665 323.48 17.19 47 488070 7718660 322.91 330.4 322.85 7.55 48 488320 7718900 326.546 335.166 322.59 12.58 49 488510 7719040 328.253 340.693 322.07 18.63 50 487050 7718560 319.844 341.789 217.2 124.59 51 490100 7719190 343.673 369.283 295.23 74.06 52 487400 7716960 310.772 318.922 320.25 0 53 487790 7717160 315.613 330.443 317.1 13.34 54 487835 7717675 319.285 330.405 317.77 12.63 55 488025 7717850 322.906 338.746 319.09 19.66 56 488400 7718215 329.23 351.46 322.49 28.97 57 488460 7717960 329.427 350.687 319.97 30.72 58 487850 7716770 316.643 335.043 315.46 19.59 59 488095 7717515 323.488 336.278 316.84 19.43 60 488100 7717310 322.822 338.492 315.61 22.88 61 488499 7718069 330.254 352.544 321.14 31.41 62 487820 7716415 313.403 339.123 312.73 26.4 63 488070 7716830 319.43 336.13 312.93 23.2 64 488790 7718370 333.417 352.867 323.95 28.92 65 489300 7718935 340.285 356.655 317.83 38.83 66 488280 7716265 318.283 334.233 305.48 28.75 67 488478 7716358 319.171 333.491 303.23 30.26 68 489263 7717831 329.833 344.383 308.58 35.8 69 489330 7717190 326.779 339.849 291.86 47.99 70 489645 7717725 331.372 344.902 294.1 50.81 71 489660 7718870 342.73 363.79 310 53.79 72 489625 7718700 342.445362.875 311.94 50.93 73 489800 7718850 342.888 364.883 305.94 58.94 74 489890 7718595 342.712 357.112 302.56 54.55 75 490470 7718670 340.816 354.331 284.36 69.97 76 488990 7719165 335.329 348.12 318.71 29.41 77 489210 7718470 339.618 361.278 322.9 38.38 78 489070 7718485 338.763 361.883 324.09 37.79 79 488765 7717920 332.309 359.319 318.04 41.28 40 80 489110 7717710 332.627 350.717 308.95 41.77 81 489125 7718720 339.86 360.53 322.76 37.77 82 489220 7719400 338.511 355.581 312.38 43.2 83 488690 7719920 333.997 342.407 217.2 125.21 84 488810 7720120 336.713 347.553 217.2 130.35 85 489400 7720480 340.446 342.806 217.2 125.61 86 489240 7720870 343.336 357.056 217.2 139.86 87 489010 7720840 342.626 359.596 217.2 142.4 88 489650 7721570 291.189 359 217.2 141.8 89 489977 7721238 349.795 359.005 302.72 56.29 90 492730 7721150 349.267 366.367 217.2 149.17 91 492450 7721460 343.002 367.242 217.2 150.04 92 492370 7722130 364.586 378.991 217.2 161.79 93 493120 7722800 347.574 363.194 217.2 145.99 94 491340 7720510 345.68 359.545 281.92 77.62 95 491120 7720180 346.502 362.602 282.4 80.21 96 491080 7720640 347.757 361.987 284.77 77.22 97 492950 7720350 349.514 366.264 217.2 149.06 98 491530 7720200 342.489 354.074 278.74 75.33 99 491300 7719690 342.434 358.899 277.4 81.5 100 490213 7719747 347.297 360.467 290.36 70.11 101 490210 7719840 347.486 361.236 290.59 70.64 102 490400 7720080 341.665 371.099 289.5 81.6 103 490280 7719380 346.235 363.575 290.22 73.36 104 491920 7725350 324.4 350.985 217.2 133.78 105 489250 7722740 357.81 372 217.2 154.8 106 489740 7721580 351.352 359.722 217.2 142.52 107 485840 7716520 310.637 339.087 217.2 121.89 108 487670 7715190 301.426 322.166 308.26 13.9 109 489350 7717470 329.952 341.102 297.09 44.01 110 492660 7723500 326.29 367.647 217.2 150.45 111 492780 7720710 347.513 366.743 217.2 149.54 112 493800 7723830 353.549 363.384 217.2 146.18 113 493170 7723530 346.161 357.281 217.2 140.08 114 492370 7724150 331.013 358.983 217.2 141.78 115 493100 7722150 352.799 374.599 217.2 157.4 116 492420 7722820 342.155 373.115 217.2 155.91 117 492050 7723500 333.039 364.689 217.2 147.49 118 491540 7721530 339.815 370.835 282.15 88.68 119 490740 7723250 351.821 364.151 217.2 146.95 120 490080 7722980 344.837 357.577 217.2 140.38 121 490280 7721630 354.373 371.483 217.2 154.28 122 490560 7720870 352.056 377.076 291.68 85.4 123 490750 7720170 349.969 364.979 286.26 78.72 124 489880 7720300 345.489 361.639 297.22 64.42 125 489060 7719850 335.555 339.695 311 28.69 126 489590 7719520 344.656 359.046 303.15 55.89 127 488600 7718760 332.881 351.45 323.84 27.61 128 488700 7717180 327.97 350.45 307.06 43.39 129 488280 7715657 308.118 327.258 304.72 22.54 130 489112 7716700 320.736 337.896 291.92 45.97 131 488558 7716928 325.005 342.795 306.54 36.26 132 487975 7717228 319.315 336.535 316.09 20.44 133 490213 7719747 347.297 360.467 290.36 70.11 41 134 486990. 2 7716692 301 301 217.2 83.8 135 487014. 2 7716773 302 302 217.2 84.8 136 487038. 2 7716857 303 303 217.2 85.8 137 487042. 2 7716952 304 304 217.2 86.8 138 487079. 9 7717039 305 305 217.2 87.8 139 487140. 6 7717120 306 306 217.2 88.8 140 487208. 2 7717201 307 307 217.2 89.8 141 487247. 6 7717282 308 308 217.2 90.8 142 487271. 7 7717361 309 309 217.2 91.8 143 487277 7717395 310 310 217.2 92.8 144 487313. 2 7717479 311 311 217.2 93.8 145 487298 7717600 312 312 217.2 94.8 146 487279. 6 7717716 313 313 217.2 95.8 147 487392. 2 7717847 314 314 217.2 96.8 148 487441. 6 7717990 315 315 217.2 97.8 149 487515. 7 7718130 316 316 217.2 98.8 150 487603. 5 7718264 317 317 217.2 99.8 151 487669. 4 7718388 318 318 217.2 100.8 152 487702. 4 7718528 319 319 217.2 101.8 153 487776 7718714 320 320 217.2 102.8 154 487835. 7 7718797 321 321 217.2 103.8 155 487927. 5 7718904 322 322 217.2 104.8 156 488052. 3 7718979 323 323 217.2 105.8 157 488131. 3 7719042 324 324 217.2 106.8 158 488189 7719112 325 325 217.2 107.8 159 488236 7719144 326 326 217.2 108.8 160 488473 7719462 327 327 217.2 109.8 161 488584 7719570 328 328 217.2 110.8 162 488584 7719626 328 328 217.2 110.8 163 488663 7719722 329 329 217.2 111.8 164 488722 7719732 330 330 217.2 112.8 165 489016 7715190 300 300 217.2 82.8 166 489101. 2 7715325 301 301 217.2 83.8 167 489168. 8 7715483 302 302 217.2 84.8 168 489293. 6 7715640 303 303 217.2 85.8 42 169 489453. 8 7715832 304 304 217.2 86.8 170 489580. 8 7716058 305 305 279.85 25.15 171 489740. 3 7716223 306 306 273.52 32.48 172 489911. 7 7716328 307 307 217.2 89.8 173 490055. 8 7716478 308 308 217.2 90.8 174 490177. 4 7716682 309 309 217.2 91.8 175 490345 7716855 310 310 217.2 92.8 176 490432. 9 7716910 311 311 217.2 93.8 177 490577. 9 7717018 312 312 217.2 94.8 178 490632. 5 7717185 313 313 217.2 95.8 179 490725. 9 7717337 314 314 217.2 96.8 180 490855. 5 7717489 315 315 217.2 97.8 181 490962. 5 7717613 316 316 217.2 98.8 182 491075. 2 7717715 317 317 217.2 99.8 183 491214. 5 7717850 318 318 217.2 100.8 184 491317. 6 7717955 319 319 217.2 101.8 185 491403 7718100 320 320 217.2 102.8 186 491396. 7 7718108 320 320 217.2 102.8 187 491679 7718877 325 325 217.2 107.8 188 492030 7719830 330 330 217.2 112.8 O local objeto do estudo compreendeu a área urbana do município de Pereira Barreto/SP, situada junto ao Reservatório de Três Irmãos, formado no rio Tietê, pela construção da barragem de mesmo nome, com extensão de aproximadamente 150 km. A cidade de Pereira Barreto situa-se na vertente sul de uma colina ampla, de topo aplainado, com altitude máxima de aproximadamente 450 m, limitada ao sul pelo remanso do reservatório da barragem Três Irmãos no rio Tietê e a norte pelo remanso do reservatório de Ilha Solteira (rio Paraná) no tributário São José dos Dourados, em zona de transição dos grupos Caiuá e Bauru, com afloramentos de basaltos do grupo São Bento restritos às proximidades das margens do rio Tietê. A superfície potenciométrica do aqüífero livre na área ocupada pela cidade, anteriormente à formação do reservatório encontrava-se entre os níveis 310-350 m, com profundidades máximas do nível d’água (N.A.) pouco superiores a 10 metros. 43 1 2 3 4 5 6 7 8 910 11 12 13 14 15 16 17 18 19 20 21 22 2324 25 26 27 2829 30 31 3233 3435 36 37 38 39 4041 42 43 44 45 4647 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 6667 68 69 70 71 72 73 74 75 76 7778 79 80 81 82 83 84 85 8687 88 89 90 91 92 93 94 95 96 97 98 99100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123124 125 126 127 128 129 130 131 132 133 134135 136137 138139 140141 142143144 145146 147 148 149150 151 152 153154 155156 157158159 160161 162163164 165166 167 168 169 170 171172 173 174 175176 177 178 179 180181 182183 184 185186 187 188 486000 487000 488000 489000 490000 491000 492000 493000 7715000 7716000 7717000 7718000 7719000 7720000 7721000 7722000 7723000 7724000 7725000 Os maiores coeficientes de determinação obtidos foram : Variável Coeficiente de Determinação R2 Topografia 0,814 Topografia + Coord X 0,830 Topografia + Coord X + Espessura FM 0,833 Topografia + Coord X + EspessuraFM + Coord Y 0,836 Topografia + Coord X + Espessura FM + Coord Y + Topo Basalto 0,836 Com estes resultados, estabelece-se a contribuição pura de cada variável independente para a variabilidade da variável dependente H, isto é, superfície potenciométrica do aqüífero livre: 44 Variável Contribuição Topografia 81,4% (0,814) Topografia/Coord X 1,6% (0,830 - 0,814) Topografia/Coord X/Espessura FM 0,3% (0,833 – 0,830) Topografia/Coord X/Espessura FM/Coord Y 0,3% (0,836 – 0,833) Topografia/Coord X/ Espessura FM/Coord Y/Topo Basalto 0,0% (0,836 – 0,836) Analisando-se o peso de cada variável dependente observa-se que a variável Topografia do Terreno (Z) é a que melhor explica a variação da Superfície Potenciométrica (H), da ordem de 81,4%. As demais variáveis apresentam pequenas interferências na variabilidade da potenciometria. Os resultados encontrados confirmam quantitativamente que a superfície potenciométrica do aqüífero livre se comporta, em linhas gerais, como a superfície topográfica do terreno. Observa-se, no entanto, que apesar da excelente correlação obtida no processo de comparação entre o mapa potenciométrico e o mapa topográfico, a variável Superfície Potenciométrica não é totalmente explicada pela variável Topografia do Terreno, ou seja existem outros fatores que condicionam também essa variação. 45 486000 487000 488000 489000 490000 491000 492000 493000 7715000 7716000 7717000 7718000 7719000 7720000 7721000 7722000 7723000 7724000 7725000 Superfície potenciometrica 486000 487000 488000 489000 490000 491000 492000 493000 7715000 7716000 7717000 7718000 7719000 7720000 7721000 7722000 7723000 7724000 7725000 486000 488000 490000 492000 7716000 7718000 7720000 7722000 7724000 Topografia Neste caso a análise de regressão múltipla foi efetuada a partir de 188 pontos “xyz”. Pode-se, porém, efetuar este mesmo tipo de análise, em que as 46 variáveis se apresentam em forma de superfícies, adotando metodologia encontrada no software IDRISI 3.2 (2001). Um exemplo pode ser encontrado em LOURENÇO & LANDIM (2004) 47 REFERÊNCIAS BIBLIOGRAFICAS DAWSON, K. R. & WHITTEN, E. H. T. (1962) – The quantitative mineralogical composition and variation of the Lacorne, La Motte, and Preissac granitic complex, Quebec, Canada: Jour. Petrology, 3(1):1-37 BROWER, J.C. & MERRIAM, D.F. (1990). Geological map analysis and comparison of adjacent multivariate algorithms. Geol Survey Canada Paper 89-9, p. 123-134.Thematic map analysis using multiple regression: Math. Geology, v. 33(3), p. 353-368 BROWER, J.C. & MERRIAM, D.F. (1992). A simple method for comparison of adjacent points on thematic maps, in Kurzl, H. and Merriam, D.F., ed. Use microcomputers in geology. Plenum Press, New York, p. 227-240. BROWER, J.C. & MERRIAM, D.F. (2001). Thematic map analysis using multiple regression: Math. Geology, v. 33(3), p. 353-368 HARRISON, W. & KRUMBEIN, W.C. (1964) – Interactions of the beach-ocean-atmosphere system at Virginia Beach, Virginia: U.S. Army, Coastal Eng. Res. Center, Tech. Mem., no. 7 HERZFELD, H.C. & SONDERGARD, M.A., (1988), MAPCOMP - A FORTRAN program for weighted thematic map comparison: Computers & Geosciences, v.14, no.5, p.699-713. HERZFELD, U.C. & MERRIAM, D.F. (1991). A map comparitson technique utilizing weighted input parameters, in GAAL G., and MERRIAM, D.F. Eds. Computer applications in resource estimations. Pergamon Press, Oxford, p. 43-52. IDRISI 32 (2001) – Clark Labs, Clark University, MA, USA. LEITE, C.B.B. & LANDIM, P.M.B. (2003) –Relação entre mapas temáticos por meio da Análise de Regressão Múltipla. Solos e Rochas – Revista Latino-americana de Geotecnia, 26(3):195-203 LI, C.C. (1964) - Introduction to Experimental Statistics: McGraw Hill, Inc. LOURENÇO, R. W. & LANDIM, P.M.B. (2004) - Análise de regressão múltipla espacial. UNESP/Rio Claro, IGCE, DGA, Lab. Geomatemática,Texto Didático 13, 34 pp. Disponível em <http://www.rc.unesp.br/igce/aplicada/textodi.html 48 4. ANÁLISE DE AGRUPAMENTOS 4.1. Introdução Análise de agrupamentos (cluster analysis) é um termo usado para descrever diversas técnicas numéricas cujo propósito fundamental é classificar os valores de uma matriz de dados sob estudo em grupos discretos. A técnica classificatória multivariada da análise de agrupamentos pode ser utilizada quando se deseja explorar as similaridades entre indivíduos (modo Q) ou entre variáveis (modo R) definindo-os em grupos, considerando simultaneamente, no primeiro caso, todas as variáveis medidas em cada indivíduo e, no segundo, todos os indivíduos nos quais foram feitas as mesmas mensurações. Segundo esse método, desenvolvido, inicialmente em Zoologia por taxonomistas numéricos, procura-se por agrupamentos homogêneos de itens representados por pontos num espaço n-dimensional em um número conveniente de grupos relacionando- os através de coeficientes de similaridades ou de correspondências. A aplicação desta análise é controversa entre os pesquisadores, pois pouco se sabe a respeito dos pressupostos estatísticos dos seu vários métodos e apenas testes limitados são conhecidos para verificar a significância dos resultados. Na análise introdutória de matrizes de dados tornam-se, porem, bastante eficientes para auxiliar na formulação de hipóteses a respeito da homogeneidade ou não desses dados. 4.2. Métodos de classificação Segundo DAVIS (1986) os diversos métodos para a análise de agrupamentos podem ser enquadrados em quatro tipos gerais: a) Métodos de partição: procuram classificar regiões no espaço, definido em função de variáveis, que sejam densamente ocupados em termos de observações daqueles com ocupação mais esparsa. b) Métodos com origem arbitrária: procuram classificar as observações segundo “k” conjuntos previamente definidos; neste caso “k” pontos arbitrários servirão como centróides iniciais e as observações irão se agrupando, por similaridade, em torno desses centróides para formar agrupamentos. 49 c) Métodos por similaridade mútua: procuram agrupar observações que tenham uma similaridade comum com outras observações; inicialmente uma matriz n x n de similaridades entre todos os pares da observação é calculada; em seguida, as similaridades entre colunas são repetidamente recalculadas; colunas representando membros de um único agrupamento tenderão apresentar intercorrelações próximas a 1 e valores menores com não membros. d) Métodos por agrupamentos hierárquicos: são as técnicas mais comumente usadas em Geologia; a partir da matriz inicial de dados obtém-se uma matriz simétrica de similaridades e incia-se a detecção de pares de casos com a mais alta similaridade, ou a mais baixa distância; para essa combinação, segundo níveis hierárquicos de similaridade, escolhe-se entre os diversos procedimentos aglomerativo de tal modo que cada ciclo de agrupamento obedeça a uma ordem sucessiva no sentido do decréscimo de similaridade. 4.2.1. Metodologia para agrupamentos hierárquicos Partindo de uma matriz inicial de dados [n*p], onde "n" linhas representam casos ou espécimes ou amostras, no sentido geológico, e as "p" colunas as variáveis, feitas as comparações, usando um coeficiente de similaridade qualquer entre linhas, obtém-se uma matriz inicial de coeficiente de similaridade de tamanho [ ]n n* , que será utilizada no modo Q. Se a comparação for entre colunas, obter-se-á uma matriz inicial de coeficientes de similaridade inicial [ ]p p* , que será utilizada no modo R. Embora diversas medidas de similaridadetenham sido propostas, somente duas são geralmente usadas: o coeficiente de correlação de Pearson e a medida de distância euclideana. Se as variáveis forem padronizadas a partir da matriz inicial de dados, dando o mesmo peso a cada uma delas, qualquer um desses coeficientes poderá ser diretamente transformado no outro. Na matriz inicial de coeficientes de similaridade estes representam o grau de semelhança entre pares de objetos e os mesmos deverão ser arranjados de acordo com os respectivos graus de similaridade de modo a ficarem agrupados segundo uma disposição hierárquica. Os resultados quando organizados em gráfico, do tipo dendrograma, mostrarão as relações das amostras agrupadas. 50 Várias técnicas de agrupamentos tem sido propostas, e os métodos mais comumente usados são: “ligação simples” (single linkage method ou nearest neighbor); “ligação completa” (complete linkage method ou farthest neighbor); ”agrupamento pareado proporcionalmente ponderado" (weighted pair-group method, WPGM); “agrupamento pareado igualmente ponderado” (unweighted pair-group method”, UPGM); “variância mínima” (minimum variance clustering ou Ward’s method of sum-of-squares method). No método de ligação simples os grupos iniciais são determinados pelos mais altos coeficientes de associação mútua. Para admissão de novos membros aos grupos é suficiente encontrar quais os que representam os maiores coeficientes de associação com um dos elementos de determinado grupo. A ligação será estabelecida a esse nível de associação com todo o grupo. No método de ligação completa os gupos são determinados pelos mais baixos coeficientes de associação mútua. Ambos são os métodos mais simples, mas tambem os que apresentam os resultados mais distorcidos. Com o uso dos métodos de ligações completas espera-se obter resultados mais rigorosos. No método de agrupamento pareado procura-se também inicialmente pelos mais altos coeficientes de associação mútua. Em seguida esses pares de casos fornecerão valores médios originando um novo elemento singular. No "método de agrupamento pareado igualmente ponderado" para o cálculo dos valores médios atribui-se sempre o mesmo peso aos dois elementos que estão sendo integrados. No método de agrupamento pareado proporcionalmente ponderado para cada agrupamento é dado um peso proporcional ao número de objetos que o constitui, de tal modo que a incorporação e um novo elemento a um grupo baseia-se no nível médio de similaridade desse elemento com todos os que fazem parte do grupo. Tanto num caso como no outro, alternativamente, em vez de obter valores medios entre os casos podem ser utilizados centroides e verificados as distâncias entre os mesmos. No método de agrupamento pela variância mínima o enfoque é sobre a variabilidade que existe dentro de cada caso e os agrupamentos são efetuados ao se determinar que pares de casos, quando tomados em conjunto, apresentam o menor acrescimo de variabilidade. 51 No método de ligações singulares as ligações tendem a ocorrer a níveis mais altos do que nos métodos de agrupamento pareado. No método de agrupamento pareado igualmente ponderado como cada membro adicionado ao agrupamento tem sempre o mesmo peso, isso traz como efeito que os últimos elementos a se integrarem tem maior influência que os primeiros. No caso do método de agrupamento pareado proporcionalmente ponderado, tal não acontece. Existindo à disposição diversas técnicas para a análise de agrupamentos e não havendo testes estatísticos válidos para os resultados obtidos, o pesquisador geralmente fica em dúvida sobre qual método aplicar. Entendendo que esta análise sempre deve ser aplicada com caráter introdutório, e nesse sentido tem o seu mérito, a consideração de ordem pragmática a ser adotada é que o melhor método é aquele que fornece os resultados mais coerentes com a realidade geológica em estudo. Eventualmente, testes, como o de Hotteling ou a análise generalizada de variâncias, podem ser aplicados aos agrupamentos encontrados para a verificação da sua validade estatística. Aplicações desta metodologia tem mostrado que os métodos pareados igualmente ponderado são superiores aos demais e que o coeficiente distância usualmente agrupa melhor espécimes ou amostras, no sentido geológico, enquanto o coeficiente de correlação é recomentado para o agrupamento entre variáveis. Essas afirmações são baseadas na correlação cofenética que ao apresenrar valores abaixo de 0,8 indicam distorções significativas no dendrograma obtido. O método hierárquico tem sido preferido em relação ao que utilisa centróides. Este porém mostra-se, em termos computacionais, mais útil quando se tem que manipular grandes matrizes de dados, por exemplo com mais de 1.000 casos. Como “k” geralmente é pequeno, da ordem de 5 por exemplo, é mais rápido o manuseio de uma matriz de similaridade “k x n” do que uma com dimensões “n x n”. 4.2.2. Dendrograma A forma gráfica mais usada para representar o resultado final dos diversos agrupamentos é o dendrograma (Figura 4.1.) Nele estão dispostos linhas ligadas segundo os níveis de similaridade que agruparam pares de espécimes ou de 52 variáveis. Como este gráfico é uma simplificação em duas dimensões de uma relação n-dimensional é inevitável que algumas distorções quanto à similaridade apareçam. A medida de tal distorção pode ser obtida por um coeficiente de correlação, dito "cofenético", entre os valores da matriz inicial de similaridade e aqueles derivados do dendrograma. Visualmente isso pode ser também verificado por meio da construção de um sistema de eixos ortogonais. Nele os valores dos coeficientes de similaridade originais estarão na abcissa e os coeficientes de similaridade a partir do dendrograma em ordenada. Se ambas as matrizes forem idênticas os pontos cairão sobre uma linha reta que passa pela origem do sistema. Desvios dos pontos em relação a essa reta indicarão as distorções. Se situadas acima da reta indicarão coeficientes de similaridade apontados pelo dendrograma mais altos que os originais e vice-versa. Dendrograma Método: UPGM Distância euclidiana V al or es p ar a ag ru pa m en to 0 50 100 150 200 250 C_9 C_13 C_6 C_5 C_8 C_12 C_4 C_3 C_2 C_15 C_14 C_11 C_10 C_7 C_1 53 Figura 4.1. Formatos de dendrogramas A construção de um dendrograma pode ser esquematizada, de acordo com o exposto na Figura 4.2. Nessa Figura, inicialmente, os mais altos índices de correlação ocorrem entre as amostras D e E (0,66) e entre as amostras A e B (0,57) que irão constituir novos casos na matriz de correlações já pareadas. Nessa matriz os mais altos coeficientes de correlação ocorrem entre DE e F (0,41) e AB e C(0,29). Finalmente a correlação final ocorre ao nível de –0,59 entre ABC e DEF. Figura 4.2. Esquema de construção de um dendrograma pelo método de agrupamentos pareados igualmente ponderados (adaptado de DAVIS, 1986) Dendrograma Método: UPGM Distância euclidiana V al or es p ar a ag ru pa m en to 0 50 100 150 200 250 C_9 C_13 C_6 C_5 C_8 C_12 C_4 C_3 C_2 C_15 C_14 C_11 C_10 C_7 C_1 54 4.2.3. Coeficientes de Similaridade Os coeficientes de similaridade mais usuais, obtidos num espaço multidimensional, podem ser subdivididos em três categorias: a) os que
Compartilhar