Análise estatística espacial de dados geológicos multivariados

•
UFG

Guilherme Santana
08.10.2013
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 158 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 158 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 158 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Geoestatística Multivariável e Simulação

10 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
Análise estatística espacial de dados 
geológicos multivariados 
 
 
 
 
 
 
PAULO M. BARBOSA LANDIM 
Professor Emérito da Universidade Estadual Paulista 
 Professor Voluntário do Depto. Geologia Aplicada-UNESP/Rio Claro 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
UNESP/campus de Rio Claro 
Departamento de Geologia Aplicada - IGCE 
― Laboratório de Geomatemática ― 
Texto Didático 15 
2006 
 
 2
 
 
 
Reprodução autorizada desde que citada a fonte 
Norma 6023-2000/ABNT ( http://www.abnt.org.br): 
LANDIM, P.M.B. Análise estatística espacial de dados geológicos multivariados.. 
DGA,IGCE,UNESP/Rio Claro, Lab. Geomatemática,Texto Didático 15, 158 pp. 2006. 
Disponível em <http://www.rc.unesp.br/igce/aplicada/textodi.html>. Acesso em:.... 
 
 
SUGESTÕES 
 
Dúvidas, questões, sugestões, etc. sobre o texto deverão ser encaminhadas para o endereço 
plandim@rc.unesp.br, as quais serão sempre bem recebidas 
 3
1. INTRODUÇÃO 
 
As primeiras aplicações de métodos quantitativos em Geologia coincide 
com o seu estabelecimento como ciência moderna, e um exemplo disso é a 
subdivisão do Terciário, por Charles Lyell em 1830, baseada na presença relativa 
de espécies recentes de moluscos nos diversos estratos da Bacia de Paris, num 
procedimento estatístico. A partir desse início, porém, a Geologia permanece 
qualitativa e puramente descritiva e apenas nos anos 20 do século passado é que 
o enfoque quantitativo começa a se tornar mais presente. Assim nessa época 
William C. Krumbein propõe a amostragem geológica em bases probabilísticas e 
introduz os modelos “processo-resposta”. O entendimento das relações de 
causa-e-efeito para a explicação dos processos geológicos leva Andrei Vistelius, 
no início dos anos 40, a iniciar a formulação da chamada Geologia Matemática. 
Em que pese essas iniciativas, entre outras, a Geologia até há bem pouco tempo, 
era freqüentemente considerada uma ciência baseada em interpretações 
puramente qualitativas dos fenômenos geológicos. Nos últimos 40 anos, porém, 
tem sido notável a mudança da fase descritiva para a utilização de métodos 
quantitativos, principalmente na área da Geologia Aplicada. Na área mineral, com 
destaque para a do petróleo, onde a interpretação geológica, alem de estar 
fundamentada em conceitos científicos, precisa ter enfoque econômico, observa-
se, felizmente, uma marcante tendência quantitativa que vem possibilitando 
avanços importantes principalmente no uso de técnicas espaciais. Ver a propósito 
HOULDING (2000). 
Nas últimas décadas, graças a avanços tecnológicos tanto em termos 
computacionais como em equipamentos de laboratório e de campo mais 
refinados, tem sido intensa a obtenção de dados geológicos quantitativos. A sua 
análise, porem, esta muito aquém dessa imensa quantidade de informações 
coletadas. Basta ver os relatórios de pesquisa e mesmo os bancos de dados com 
um grande número de matrizes de informações não trabalhadas. Verbas e tempo 
são gastos com essa coleta que precisa ser devidamente manuseada e para essa 
análise dos dados o emprego de técnicas estatísticas multidimensionais torna-se 
uma ferramenta fundamental. Isto porque, como os fenômenos geológicos são 
resultantes de diversos fatores condicionantes, o seu entendimento é facilitado 
quando o estudo é submetido a um enfoque quantitativo multidimensional. Deve 
 4
ser enfatizado, porem, que a pura utilização de técnicas estatísticas, e hoje em 
dia bastante facilitada graças à vasta disposição de programas computacionais, 
não é condição suficiente se o estudo não for embasado num sólido 
conhecimento geológico. 
No caso de uma única variável ter sido medida em espécimes de uma 
amostra, no sentido estatístico, a análise de tais dados é feita por intermédio da 
estatística univariada. Se porém valores de diversas variáveis forem obtidos em 
cada um dos espécimes dessa mesma amostra, as técnicas para a análise 
desses dados são fornecidas pela estatística multivariada ou multidimensional. Tal 
análise estatística de mensurações múltiplas efetuadas sobre uma amostra 
fornece um melhor entendimento na razão direta do número de variáveis 
utilizadas e permite considerar simultaneamente a variabilidade existente nas 
diversas propriedades medidas. 
Pode-se afirmar que a análise multivariada é a área da análise estatística 
que se preocupa com as relações entre variáveis e como tal apresenta duas 
características principais: os valores das diferentes variáveis devem ser obtidos 
sobre os mesmos indivíduos e as mesmas devem ser interdependentes e 
consideradas simultaneamente (KENDAL, 1963). Entre os métodos mais utilizados 
em Geociências destacam-se a análise de agrupamentos , a análise das 
componentes principais e a análise discriminante. 
 A análise de agrupamentos é utilizada quando se deseja explorar as 
similaridades entre indivíduos (modo Q) ou entre variáveis (modo R) definindo-os 
em grupos, considerando simultaneamente, no primeiro caso, todas as variáveis 
observadas em cada indivíduo e, no segundo, todos os indivíduos nos quais 
foram feitas as mesmas medidas. Segundo esse método, procura-se por 
agrupamentos homogêneos de itens representados por pontos num espaço n-
dimensional em um número conveniente de grupos relacionando-os através de 
coeficientes de similaridade ou de distância. 
 A análise das componentes principais procura interpretar a estrutura de um 
conjunto de dados multivariados, tanto em modo “Q” como em modo “R”, a partir 
da respectiva matriz de variâncias-covariâncias ou de correlações, pela obtenção 
de “autovalores” e “autovetores”. Consiste numa transformação linear das "m" 
variáveis originais correlacionadas entre si em "m" novas variáveis ortogonais e 
não deve ser confundida com a análise fatorial, segundo a qual supõe-se que as 
 5
relações existentes dentro de um conjunto de "m" variáveis seja o reflexo das 
correlações de cada uma dessas variáveis com "p" fatores, mutuamente não 
correlacionáveis entre si, sendo "p" menor que "m". 
 A análise discriminante é aplicada quando em relação a um indivíduo, 
sobre o qual tenham sido feitas diversas medidas, é necessário decidir à qual de 
dois ou mais possíveis grupos, o mesmo pertence. A idéia básica é substituir o 
conjunto original das diversas mensurações por um único valor Di, definido como 
uma combinação linear delas. Para fornecer um único valor os termos são 
adicionados nessa função linear e esta transformação é realizada de tal modo a 
fornecer a razão mínima entre a diferença entre pares de médias multivariadas e 
a variância multivariada dentro dos dois grupos. Conhecido os Di's, estes serão 
comparados com um certo Do , ou seja, o valor situado, ao longo da linha 
expressa pela função discriminante, a meio caminho entre os centros dos grupos, 
com a finalidade de verificar a qual deles os indivíduos pertencem. 
 A utilidade dos métodos multivariados pode ser apresentada em termos 
geométricos. Assim, observações univariadas podem ser assinaladas sobre uma 
linha reta e se essa linha for dividida em intervalos de classes e contando o 
número de observações em cada intervalo, um histograma poderá ser construído. 
Esse histograma irá requerer duas dimensões para a sua representação. 
Observações bivariadas podem ser assinaladas em um sistema de dispersão a 
duas dimensões. Se o diagrama for dividido em celas, o número de observações 
em cada cela pode ser contado e o respectivo histograma construído. Esse 
histograma requer três dimensões e pode ser representado por um mapa de 
isovalores. Observações trivariadas podem ser assinaladas em um gráfico de 
dispersão a três dimensões e a configuração nos pontos no espaço definiráuma 
elipsóide. Se o espaço tri-dimensional for dividido em cubos os números de 
observações dentro de cada figura geométrica poderão ser contados e obtida a 
distribuição de freqüências. Para a construção do respectivo histograma quatro 
dimensões serão necessárias. Em observações com quatro ou mais variáveis não 
é possível a representação gráfica segundo os métodos comuns, embora MERTIE 
(1949) tenha proposto para tanto complicados hipertetraedros. 
 Utilizando, assim, a interpretação geométrica em três dimensões para 
observações trivariadas, os seguintes exemplos de procedimentos em estatística 
multidimensional podem ser apresentados: 
 6
a) na análise das componentes principais é verificado se as observações 
multivariadas ocupam um número de dimensões igual ao número de variáveis 
medidas inicialmente e para tanto os eixos do elipsóide devem ser sispostos de 
tal modo a colocar o centro do elipsóide coincidente com o centro do sistema de 
coordenadas. 
b) na análise discriminante localizam-se os centros dos elipsóides e calcula-se a 
distância entre pares de centros de elipsóides; 
 Como salientado por DAVIS (1986), os métodos multivariados são 
poderosos, permitindo o pesquisador manipular diversas variáveis 
simultaneamente. São, porém, bastante complexos, tanto na sua estrutura teórica 
como na metodologia operacional. Em alguns casos os testes estatísticos a 
serem utilizados exigem requisitos muito rígidos e em outros, muitas vezes 
quando quer relacioná-los com problemas reais, não apresentam base estatística 
teórica e desse modo impossibilidade de testes de significância. De qualquer 
modo, são métodos extremamente promissores para a análise de dados 
geológicos tendo em vista que normalmente a maioria das situações geológica 
envolve um conjunto complexo de fatores atuando no sistema, sendo impossível 
isolá-los e estudá-los isoladamente. 
 Exemplos de situações que apresentam dados multivariados são comuns 
em Geologia, como: análises geoquímicas de elementos maiores e/ou elementos 
traços; caracteres morfológicos medidos em fósseis; características físicas de 
rochas sedimentares, como distribuição granulométrica, porosidade, 
permeabilidade; conteúdo mineralógico em rochas; variáveis fluviais, como 
descarga, material em suspensão, profundidade, sólidos dissolvidos, pH e 
conteúdo em oxigênio, etc.. Em alguns casos trata-se de simples extensão de 
problemas ligados à estatística univariada e outros pertencem, todavia, a uma 
nova classe de problemas. 
Esses métodos clássicos da análise estatística multivariada não levam, 
porém, em consideração a localização das amostras, no sentido geológico, nem 
as suas relações espaciais e também não refletem as diferenças quanto o suporte 
das amostras ou com relação ao suporte da região onde o estudo esta sendo 
realizado. Por outro lado a metodologia geoestatística univariada tem essas 
propriedades, mas não é capaz de tratar da correlação espacial entre diversas 
 7
variáveis. Ferramentas se tornaram, então, necessárias para incorporar essas 
importantes feições e daí a necessidade de métodos estatísticos que enfoquem 
a análise espacial de dados geológicos multivariados. 
Para tanto duas soluções tem sido apresentadas: uma, adaptativa, 
procurando, a partir dos resultados dos métodos clássicos, verificar se os 
mesmos apresentam uma organização espacial significativa e outra, específica, 
desenvolvendo metodologia própria para esta problemática, com destaque para a 
krigagem fatorial. 
Caso as amostras, no sentido geológico, sejam georreferenciadas os 
grupos resultantes da análise de agrupamentos/modo Q poderão ser submetidos 
a uma verificação espacial para a constatação de algum padrão de distribuição 
espacial desses grupos. De modo idêntico os “scores”, calculados a partir da 
análise das componentes principais ou da análise de fatores, que tenham suas 
coordenadas geográficas conhecidas poderão fornecer mapas de distribuição ou 
de tendência espacial. A análise discriminante pode ser aplicada para avaliar e 
comparar alterações ocorridas a intervalos de tempo indicando que variáveis mais 
contribuíram para essas mudanças. São adaptações de métodos estatísticos 
multivariados procurando modelar espacial ou cronologicamente fenômenos 
geológicos. Isso, porém, somente é possível se as amostras da matriz de dados 
multidimensionais apresentarem perfeitamente conhecidas as suas coordenadas 
geográficas. 
No caso da krigagem fatorial deve-se efetuar: 1) modelagem de 
corregionalização das variáveis usando o denominado modelo linear de 
corregionalização: todos os p(p + 1)/2 variogramas diretos e cruzados das p 
variáveis são modelados por uma combinação linear dos N´s variogramas 
padronizados para um mesmo alcance (sill); nesta modelagem supõe-se que o 
comportamento espacial das variáveis é o resultado da interação de diferentes 
processos atuando independentemente a diferentes escalas espaciais; 2) analise 
da estrutura de correlações entre as variáveis, levando em consideração as 
diferentes escalas, com aplicação da análise das componentes principais; um 
“círculo de correlações” entre as variáveis originais e os dois mais importantes 
fatores regionalizados é utilizado para resumir as relações entre as variáveis a 
cada escala espacial; 3) estimação das relações entre os fatores regionalizados e 
 8
variáveis, como componentes espaciais, a diferentes escalas por cokrigagem, 
para, finalmente, mapeà-los. 
 Em qualquer das circunstâncias citadas a preocupação é com: 
Descrição dos dados: os dados precisam ser explorados, tanto espacial 
como cronologicamente, em sua estrutura multidimensional para o seu 
entendimento e constatação de eventuais valores anômalos que possam 
mascarar tal estrutura. Existem a disposição, graças à moderna tecnologia 
computacional, ferramentas gráficas que permitem a visualização simultânea de 
amostras no espaço e/ou no tempo e as primeiras idéias a respeito da estrutura 
multidimensional podem começar a surgir a partir dessas exibições gráficas. 
Interpretação: os produtos gráficos obtidos a partir das informações 
numéricas são avaliados levando em consideração tanto o conhecimento já 
adquirido com dados similares como fatos científicos relacionados às variáveis 
sob estudo. A interpretação da estrutura espacial ou temporal, as associações e 
as relações casuais entre variáveis devem, então, ser organizadas num modelo 
que se ajuste aos dados. 
Estimação: A modelagem, se correta, não apenas descreve o fenômeno 
nos locais amostrados, mas pode se tornar válida para interpolações em locais ou 
intervalos de tempo adjacentes, não amostrados, representando um passo alem 
com relação às informações contidas nos dados numéricos. Na verdade este é o 
grande desafio da análise multivariada de dados espaciais, a estimação de 
valores para situações de previsão quantitativa. 
A pretensão deste texto escrito, de maneira a mais simples possível, por 
um Professor de Geologia, é apresentar uma introdução aos métodos estatísticos 
multidimensionais que possam ser aplicados na análise de dados, sem uma 
abordagem matemática complexa, porem sempre com um enfoque espacial e 
que permita ao usuário iniciar-se na Geologia Quantitativa. Os exemplos são 
voltados às Geociências, mas a metodologia pode perfeitamente ser utilizada em 
outras áreas que disponham de dados com estas mesmas características, ou 
seja, multivariados e regionalizados. 
Existe à disposição uma variedade muito grande de livros e pacotes 
computacionais e entre os principais livros textos que tratam de métodos 
quantitativos em Geologia podem ser citados: MILLER & KAHN (1962), SOKAL& 
SNEATH (1963), KRUMBEIN & GRAYBILL (1965), KOCH & LINK (1971), DAVIS (1973, 1986 
 9
E 2002), JORESKOG, KLOVAN & REYMENT (1976) , LE MAITRE (1982), HOWARTH & 
SIDING-LARSEN (1985), GRIFFITH & AMRHEIN (1997), REYMENT & SAVAZZI (1999) E 
WACKERNAGEL (2003). 
 Existem tambem diversos softwares estatísticos de aplicação geral, bem 
elaborados e completos como SAS, S-Plus, Statistica, Systat, todos em constante 
atualização. Dois outros, bastante amigáveis, para serem utilizados, e com boa 
saida gráfica, são o MVSP e o Xlstat, este baseado no aplicativo Excel®. Um 
pacote desenvolvido no Brasil voltado para aplicações em Ciências Biológicas e 
Médicas é o Bioestat e um outro proveniente da Noruega, com aplicações em 
Paleontologia, é o PAST, ambos obtidos gratuitamente nos endereços 
mizayres.bel@orm.com.br e http://folk.uio.no/ohammer/past 
Alem disso na revista “Computers & Geosciences”, editada pela 
International Association for Mathematical Geology, freqüentemente são 
apresentados programas listados e/ou executáveis descarregáveis a partir do 
endereço www.iamg.org. 
 
 10
REFERÊNCIAS BIBLIOGRÁFICAS 
 
AYRES, M.; AYRES JR., M.; AYRES, D. L. & SANTOS, A. S. (2000) – BioEstat 2.0: aplicações 
estatísticas nas áreas das ciências biológicas e médicas: Sociedade Civil Mamirauá, MCT-
CNPq, mizayres@zaz.com.br 
DAVIS, J.C. (1973) - Statistics and Data Analysis in Geology: John Wiley and Sons. 
DAVIS, J.C (1986) - Statistics and Data Analysis in Geology: 2nd ed., John Wiley and Sons. 
DAVIS, J.C (2002) - Statistics and Data Analysis in Geology: 3rd ed., John Wiley and Sons. 
GRIFFITH, D.A. & AMRHEIN, C.G. (1997) – Multivariate Statistical Analysis for Geographers – 
Prentice Hall. 
HAMMER. O. & HARPER, D.A.T. (2004) – PAST. PAlaentological STatistics, versão 1.20. 
http://folk.uio.no/ohammer/past 
 
HOULDING, S. W. (2000) - Practical Geostatistics: Modeling and Spatial Analysis: Springer 
Verlag. 
HOWARTH, R.J. & SINDING-LARSEN, R. (1985) - Multivariate analysis: in (G.J.S. Govett, ed.) 
“Statistics and Data Analysis in Geochemical Prospecting”, vol. 2:207-289, Elsevier. 
JORESKOG, K.G., KLOVAN, J.E. & REYMENT, R.A. (1976) - Geological factor analysis: Elsevier. 
KOCH JR, G.S. & LINK, .F. (1971) - Statistical analysis of geological data: vol. 2, John Wiley & 
Sons. 
KRUMBEIN, W.C. & GRAYBILL, F.A. (1965) - An introduction to Statistical Model in Geology: 
McGraw Hill Book. 
LE MAITRE, R.W. (1982) - Numerical Petrology. Statistical Interpretation of Geochemical Data: 
Elsevier. 
MERTIE JR, J.B. (1949) - Charting five and six variables on the bounding tetrahedral of hyper 
tetrahedral: Am. Mineralogist, 34:706-716. 
MILLER, R.L. & KAHN, J.S. (1962) - Statistical analysis in the geological sciences: John Wiley and 
Sons. 
MVSP – Multi-Variate Statistical Package: Kovach Computing Services, http://www.kovcomp.co.uk 
REYMENT, R.A. & SAVAZZI, E. (1999) – Aspects of Multivariate Statistical Analysis in Geology - 
Elsevier. 
SAS – SAS Institute, http://www.sas.com 
SOKAL, R.R. & SNEATH, P.H.A. (1963) - Principles of numerical taxonomy: W.H. Freeman. 
S-PLUS – Mathsoft, http://www.mathsoft.com 
STATISTICA – StatSoft Inc., http://www.statsoft.com 
SYSTAT – SPSS Inc., http://www.spss.com 
WACKERNAGEL, H. (2003) – Multivariate Geostatistics. Springer. 
XLSTAT – AddinSoft SARL, http://www.xlstat.com 
 11
2. ÁLGEBRA MATRICIAL 
 
 Os métodos estatísticos multivariados são quase todos eles baseados em 
manipulação de matrizes, especialmente quando calculados por computador. A 
álgebra matricial torna-se, portanto, uma ferramenta básica para o entendimento 
desses métodos e neste capítulo são apresentadas noções elementares. Cada 
tópico é acompanhado por exemplos numéricos de pequenas dimensões no lugar 
de teoremas matemáticos e suas provas, que estão fora do escopo deste texto. 
Maiores detalhes sobre álgebra linear podem ser encontrados, entre outros, em 
AYRES JR. (1962), DAVIS (1984), FERGUNSON (1988, cap. 6 e 7) e GOLUB & VAN LOAN 
(1996). 
 
2.1. Matriz 
 Matriz é um arranjo bidimensional constituído por elementos xij, onde i 
representa linha e j coluna. Normalmente as linhas são indivíduos e as colunas, 
variáveis. 
 










=
44434241
34333231
24232221
14131211
xxxx
xxxx
xxxx
xxxx
X 
 
 Se o número de linhas é igual ao número de colunas a matriz é conhecida 
como quadrada. [X] é, portanto, uma matriz quadrada. 
 O número de linhas, porém, não precisa ser igual ao número de colunas: 
 








=

=
3231
2221
1211
232221
131211
zz
zz
zz
Z
yyy
yyy
Y 
 [Y] é uma matriz com 2 linhas e 3 colunas e [Z] é uma matriz com 3 linhas 
e 4 colunas, sendo ambas retangulares. 
 Uma matriz com apenas uma linha é chamada de vetor linha e uma matriz 
com apenas uma coluna é chamada de vetor coluna: 
 
 12
[ ]








==
n
2
1
n11
y
y
y
Youx...xxX M
 
 
 Escalar é uma matriz com dimensões 1x1. 
 Matriz diagonal é uma matriz quadrada onde os elementos fora da diagonal 
principal são todos iguais a 0 (zero): 
 








=
33
22
11
x00
0x0
00x
X 
 
Matriz de identidade ou matriz unitária é uma matriz quadrada onde os 
elementos da diagonal principal são todos iguais a 1 e os demais 0 (zero): 
 








=
100
010
001
I 
 
 
2.2. Operações com matrizes 
Transposição: permuta linhas por colunas e vice-versa; representada por 
[ ]’, de modo que um elemento aij em [A] passa a ser aji em [A]’ 
 








=








=
935563
784848
122833
'Aentão,
937812
554028
634833
Ase 
 
Adição e subtração: similar à álgebra linear. O número de linhas e de 
colunas precisa ser igual nas duas matrizes a serem adicionadas ou subtraídas 
 


=


++
++=

+


115
83
4723
3512
42
31
73
52
 
 13
Multiplicação: para efetuar a multiplicação, por exemplo [A]*[B]=[C], o 
número de linhas em [B] deve ser igual ao número de colunas em [A]. O resultado 
em [C] terá o mesmo número de linhas que [A] e o mesmo número de colunas 
que [B] 
lkjklj CB*A = 
A formula geral para determinar cada elemento em [C] é 
 
∑
=
=
r
1k
kjikij b*ac 
onde r é o número de colunas em [A] ou linhas em [B]. Isto significa que, por 
exemplo para c11, deve-se multiplicar a primeira linha em [A] vezes a primeira 
coluna em [B]; para encontrar c23 multiplicar a segunda linha de [A] pela terceira 
coluna de [B] 








=








+++
+++
+++
=










101734
142142
121938
)2*3()1*4()3*3()2*4()6*3()4*2(
)2*7()1*0()3*7()2*0()6*7()4*2(
)2*5()1*2()3*5()2*2()6*5()4*2(
236
124
*
34
70
52
 
 Importante notar que o resultado de [A]*[B] geralmente não é o mesmo que 
[B]*[A]: 


=











5720
3712
34
70
52
*
236
124
 
 
Multiplicação por escalar: cada elemento da matriz é multiplicado pelo 
escalar 


=


219
153
73
52
*3 
 
Determinantes: número singular associado a uma matriz quadrada. O 
determinante da matriz [A] é representado por |A|. 
 Para uma matriz de dimensões 2x2 o determinante é calculado pelo 
produto e uma diagonal menos o produto da outra diagonal: 
 
 14
)a*a()a*a(
aa
aa
21122211
2221
1211 −= 
 
 
 Inverso de uma matriz 
 Como não há divisão em álgebra matricial,o procedimento adotado é 
utilizar o inverso da matriz. Na álgebra linear se A*B = C, para resolver A calcula-
se 
B
CA = ou também 
B
1*CA = . O inverso da matriz é análogo a 
B
1 . 
 O inverso de uma matriz [X] é representado por [X]-1 e para o seu cálculo é 
necessário satisfazer a condição [X[*[X]-1=[I]. Em algumas situações isso não é 
possível porque é encontrada uma divisão por zero durante o processo de 
inversão. Nesse caso, de impossibilidade de inversão, a matriz é conhecida como 
singular. 
 Esta é uma das mais importantes técnicas em álgebra matricial e 
essencial para a solução de sistema de equações simultâneas do tipo: 
[A]*[X]=[B], 
onde [A] e [B] contem valores conhecidos e [X] valores desconhecidos a serem 
determinados. . 
 Multiplicando ambos os lados da equação por [A]-1 
[A]-1*[A]*[X]=[A]-1*[B], 
Como [A]-1*[A]=[I], a equação se reduz para 
[X]=[A]-1*[B] 
 
Seja o seguinte sistema de equações onde se quer determinar x1 e x2 
04x1+10x2= 38 
10x1+30x2=110 
 
Em notação matricial: 


=




110
038
x
x
*
3010
1004
2
1 
 
Para encontrar os valores xi, basta inverter a matriz [A] e multiplicar o 
inverso pelo vetor coluna [B] 
 15
O inverso de [A] é encontrado da seguinte maneira: 
 





10
01
3010
1004
 
 





10
025,0
3010
5,201
 
 



−


15,2
025,0
0510
5,201
 
 
 


−


2,05,0
025,0
010
5,201
 
 



−
−



2,05,0
5,05,1
10
01
 
 
Verificação da inversão de matriz: 


=




−
−
10
01
3010
1004
*
2,05,0
5,05,1
 
 
Cálculo dos xi: 
 


=




−
−
3
2
110
038
*
2,05,0
5,05,1
 
 
x1=2 e x2=3 
 
2.3. Algumas matrizes especiais 
2.3.1. Matriz de coeficientes de correlação 
A matriz original de dados é constituída por m indivíduos e n variáveis, em 
que cada linha i representa um indivíduo e cada coluna j uma variável. 
 16










=
n.m3,m2,m1,m
n,33,32,31,3
n,23,22,21,2
n,13,12,11,1
xxxx
xxxx
xxxx
xxxx
]X[
L
MMMM
L
 
 
 Para o cálculo de uma matriz de coeficientes de correlação a seguinte 
seqüência deve ser obedecida: 
1. Encontrar para cada coluna a respectiva média e o desvio padrão: 
m
x
x jj
Σ= ; 
1m
m
)ix(
ix
S
2
2
j −
Σ−Σ
= ; 2ji ss = 
 
2. Encontrar o valor zij para cada observação: 
 
 
 
3. A partir daí, constituir a matriz [ ]Z , também de dimensões nxm: 
 










=
n.m3,m2,m1,m
n,33,32,31,3
n,23,22,21,2
n,13,12,11,1
zzzz
zzzz
zzzz
zzzz
]Z[
L
MMMM
L
 
 
4. Encontrar o transposto da matriz [Z] 








=
n,mn,3n,2n,1
2,m2,32,22,1
1,m1,31,21,1
'
zzzz
zzzz
zzzz
]Z[ MMMM 
 
5. Multiplicando [Z]’ por [Z], encontrar a matriz [V], de dimensões nxn 
 [V] = [Z]’ [Z] 
j
ij
ij s
jxxz
−=
 17










=
2
n2n1n
n2
2
212
n121
2
1
vvvvv
vvvvv
vv...vvv
]V[
MMM
 
 
6. Finalmente, calcular a matriz de coeficientes de correlação, multiplicando o 
escalar 1m
1− por [V] 
[ ]








=−=
n,n2,n1,n
n,22,21,2
n,12,11,1
rrr
rrr
rrr
V
1m
1]R[ MMM
L
L
 
 
Exemplo 










=
444
345
321
432
321
]X[ 
Médias: x1=2,6; x2=3,0; x3=3,4 
Desvios padrão: s1 = 1,8; s2=1,0; s3=0,55 
 
 -0,889 -1,000 -0,727
-0,333 0,000 1,091
[Z] = -0,889 -1,000 -0,727
1,333 1,000 -0,727
0,778 1,000 1,091
 
 -0,889 -0,333 -0,889 1,333 0,778
[Z]'= -1,000 0,000 -1,000 1,000 1,000
 -0,727 1,091 -0,727 -0,727 1,091
 
 
 4,074 3,889 0,809
[V]= 3,889 4,000 1,818
0,808 1,818 3,967
 
 18
1,000 0,972 0,202
[R]= 0,972 1,000 0,455
0,202 0,455 1,000
 
 
2.3.2. Matriz de variâncias e covariâncias 
A matriz original de dados é constituída por m indivíduos e n variáveis, em 
que cada linha i representa um indivíduo e cada coluna j uma variável. 










=
n.m3,m2,m1,m
n,33,32,31,3
n,23,22,21,2
n,13,12,11,1
xxxx
xxxx
xxxx
xxxx
]X[
L
MMMM
L
 
 
 Para o cálculo de uma matriz de variâncias e covariâncias a seguinte 
seqüência deve ser obedecida: 
1. Encontrar a média de cada coluna e subtrair esse valor de cada elemento: 
m
x
x jj
Σ= ; jij*ij xxx −= 










=
n.m3,m2,m1,m
n,33,32,31,3
n,23,22,21,2
n,13,12,11,1
*x*x*x*x
*x*x*x*x
*x*x*x*x
*x*x*x*x
*]X[
L
MMMM
L
 
 
2. Criar uma matriz de somas de quadrados e produtos cruzados [A], pela 
multiplicação de [X*]’ por [X*], de dimensões nxn. 
 








=
n,mn,3n,2n,1
2,m2,32,22,1
1,m1,31,21,1
'
*x*x*x*x
*x*x*x*x
*x*x*x*x
*]X[ MMMM 
 
 
 [A] = [X*]’ [X*] 
 19










=
2
n2n1an
n2
2
212
n121
2
1
aaaa
aaaaa
aa...aaa
]A[
MMM
 
 
3. Finalmente criar uma matriz de variâncias e covariâncias [S] multiplicando o 
escalar 1m
1− por [A] 
 [ ]








=−=
n,n2,n1,n
n,22,21,2
n,12,11,1
sss
sss
sss
A
1m
1]S[ MMM
L
L
 
 
 
Exemplo 










=
444
345
321
432
321
]X[ 
 
Médias: x1=2,6; x2=3,0; x3=3,4 
 
 -1,6 -1 -0,4
 -0,6 0 0,6
[X*]= -1,6 -1 -0,4
 2,4 1 -0,4
 1,4 1 0,6
 
 -1,6 -0,6 -1,6 2,4 1,4
[X*]’= -1 0 -1 1 1
 -0,4 0,6 -0,4 -0,4 0,6
 
 13,2 7 0,8
[A]= 7 4 1
 0,8 1 1,2
 
 20
 3,30 1,75 0,20
[S]= 1,75 1,00 0,25
 0,20 0,25 0,30
 
 
 
2.3.3. Autovalores (eingenvalues) e Autovetores (eigenvectors) 
Este tópico é geralmente considerado de difícil entendimento dentro da 
álgebra matricial, não tanto pela maneira de cálculo, mas principalmente pelo 
entendimento que se possa ter de seu resultado. Uma interpretação geométrica 
como apresentada a seguir, baseada em GOULD (1967), pode ajudar a entender o 
significado de autovalores e autovetores. Considerando os valores de uma matriz 
como coordenadas de pontos num espaço multidimensional, autovalores e 
autovetores passam a ser propriedades geométricas do arranjo desses pontos. 
Seja um conjunto de equações simultâneas: 
[A][X] = λ[X], 
onde a matriz de coeficientes aij’s [A] multiplicada por um vetor de desconhecidos 
xi’s [X] é igual a este vetor [X] multiplicado por uma constante λ. 
Para encontrar os valores de λi que satisfaçam a relação acima, a equação 
pode ser reescrita como: 
([A] – λ[I])[X] = 0, 
onde λ[I] é a matriz de identidade, de dimensões 3x3, multiplicada por λ: 








λ
λ
λ
00
00
00
 
 
Cálculo das raizes da equação (autovalores) para uma matriz 3 x 3: 
(a11 – λ)x1 + a12 x2 + a13x3 = 0 
a21x1 + (a22 – λ)x2 + a23x3 = 0 
a31x1 + a32 x2 + (a33 – λ)x3 = 0 
 Como exemplo, seja a seguinte matriz de dados: 
 
 21








158
237
324
421
 
Para essa matriz de dados é encontrada a seguinte matriz de coeficientes 
de correlação [A] 








−−
−
−
=
000,1913,0980,0
913,0000,1820,0
980,0820,0000,1
]A[ , 
com variância total no sistema: 1+1+1=3 
 
 
•Para o calculo dos autovalores: 
 
0
000,1913,0980,0
913,0000,1820,0
980,0820,0000,1
]I[]A[ =








λ−−−
−λ−
−λ−
=λ− 
 
 Desenvolvendo: 
(1,000 - λ)(1,000 - λ)(1,000 - λ) + (0,820)(- 0,913)(- 0,980) + (- 0,980)(0,820) 
(- 0,913) - (- 0,980)(1,000 - λ)(- 0,980) - (1,000 - λ)(- 0,913)(- 0,913) - 
(0,820)(0,820)(1,000 - λ) = 
≅ (λ - 2,810)(λ - 0,188)(λ - 0,002) 
Autovalores são iguais a: λ1 = 2,810; λ2 = 0,188; λ3 = 0,002 (soma = 3) 
% da variância total explicada por cada autovalor: 
λ1 = (2,810/3)*100 = 93,66 
λ2 = (0,188/3)*100 = 6,27 
λ3 = (0,002/3)*100 = 0,07 
 
• Para o cálculo dos correspondentes autovetores: 
Componentes do autovetor V1: 
(1,000 - 2,810)X1 + 0,820X2 - 0,980X3 = 0 
0,820 - (1,000 - 2,810)X2 - 0,913X3 = 0 
-0,980X1 - 0,913X2 - (1,000 - 2,810)X3 = 0 
 22
 
X1 = - 1,000; X2 = - 0,974; X3 = 1,032 
V1 = - 1,000 
 - 0,974 
 1,032 
Padronização do autovetor V1 para o tamanhao unitário 
Q = -12 + (-0,974)2 + (1,032)2 = 3,012 
Q = 1,735 
Vn1 = -1/1,735 = -0,58 
Vn1 = - 0,974/1,735 = - 0,56 
Vn1 = 1,032/1,734 = 0,59 
 
Componentes do autovetor V2: 
(1,000 – 0,188)X1 + 0,820X2 - 0,980X3 = 0 
0,820 - (1,000 – 0,188)X2 - 0,913X3 = 0 
-0,980X1 - 0,913X2 - (1,000 – 0,188)X3 = 0 
Vn2 = -0,60 
Vn2 = 0,79 
Vn2 = 016 
..... 
Autovetores 
 F1 F2 F3 
Var1 -0.58 -0.60 0.56
Var2 -0.56 0.79 0.26
Var3 0.59 0.16 0.79
 
 
Factor loadings (carregamento das variáveis nas componentes principais): 
)dentecorresponautovaloropadronizadautovetor( ∗ ) 
 
 F1 F2 F3 
Var1 -0.97 -0.26 0.03
Var2 -0.94 0.34 0.01
Var3 1.00 0.07 0.04
 
 
 23
Em termos geométricos: 
 
Variáveis 
V1
V2
V3
-1
-0,5
0
0,5
1
-1 -0,5 0 0,5 1
Eixo F1: 94%
E
ix
o 
F2
: 6
%
 
 
 
A matriz original de dados ao ser multiplicada pela matriz de autovalores 
fornecera a matriz de contagens (scores). 
 
 
“factor scores” = 








158
237
324
421
*








−
−−
79,016,059,0
26,079,056,0
56,060,058,0
 
 
 
 F1 F2 F3 
Obs1 2.10 0.45 0.03
Obs2 0.93 -0.35 -0.07
Obs3 -0.69 -0.51 0.06
Obs4 -2.34 0.41 -0.02
 
 
 
 
 24
Em termos geométricos: 
 
Observações
A4
A3 A2
A1
-2,5
-2
-1,5
-1
-0,5
0
0,5
1
1,5
2
2,5
-2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5
Eixo F1: 93.66 %
E
ix
o 
F2
: 6
.2
7 
%
 
 
 
 
• Rotação de matriz 
A orientação dos autovetores no espaço multivariado é determinada pela 
direção da máxima variância. Como a contribuição da variância para cada 
autovetor deve ser maximizada, há necessidade de rotação da matriz fatorial 
inicial 
Matriz fatorial inicial: 
 Fatores 
 F1 F2 
 X1 0,966 - 0,259 
 X2 0,940 0,340 
 X3 - 0,997 0,070 
 
• Rotação dos fatores (pelo critério varimax): 
Rotação ortogonal de uma matriz de carregamentos [X], em um novo 
conjunto de coordenadas [X’], requer uma matriz operacional [T] 
[X’] = [T] [X] 
 25
 





ΘΘ
Θ−Θ=



2
1
'
2
'
1
X
X
cossen
sencos
X
X
 
ângulo de rotação Θ = ?, para variavel “j” e fatores “p” e “q” 
 
]/n)XX(2-)XX[(-)XX(2-)X-X(
]/nXX)X-(X[4-)X-(XX2X4 
4tan
J
2
JQJP
J
22
JQ
2
JP
J
2
JQJP
J
22
JQ
2
JP
J
JQJP
J
2
JQ
2
JP
J
2
JQ
2
JPJQJP
∑∑∑∑
∑∑∑
Σ=Θ 
2
JQ
2
JPJ XXU −= 
JQJPJ XX2V = 
∑=
J
JUA = 2,6222; A
2 = 6,8789 
∑=
J
JVB = -0,0001; B
2 = 0,0000 
∑ −=
J
2
J
2
J )VU(C = 1,6365 
∑=
J
JJ )VU(2D = -0,0797 
n/)BA(C
n/AB2D4tan 22 −−
−=θ = - 0,1592/- 0,6555 = 0,2429 
 
arctan 0,2429 = -166° 21’ = 4Θ; Θ = 41° 17’ 
sen Θ = - 0,6598 
cos Θ = 0,7515 
 



−
−=
7515,06598,0
6598,07515,0
]T[ 
 





−
−=



2J
1J
'
2J
'
1J
X
X
7515,06598,0
6598,07515,0
X
X
 
12121111
'
11 XTXTX += X’1j = (0,9656)(0,715) + (- 0,2590)(- 0,6598) = 0,894 
 
 
 
 
 26
• matriz fatorial rotacionada: 
 Fatores 
 F’1 F’2 
 X1 0,894 0,447 
 X2 0,477 0,879 
 X3 - 0,792 - 0,609 
 
 
 Em termos geométricos: 
 
Variáveis 
V3
V2
V1
-1,1
-0,6
-0,1
0,4
0,9
-1,1 -0,6 -0,1 0,4 0,9
Eixo F1: 94.30 %
E
ix
o 
F2
: 5
.7
0 
%
 
 27
Variáveis depois da rotação 
varimax
V3
V2
V1
-0,94
-0,74
-0,54
-0,34
-0,14
0,06
0,26
0,46
0,66
0,86
-0,9
4
-0,7
4
-0,5
4
-0,3
4
-0,14 0,06 0,26 0,46 0,66 0,86
Eixo F1: 54.82
Ei
xo
 F
2:
 4
5.
17
 %
 
 
 
 
 
 
 
Observações
A4
A3
A2
A1
-1,3
-0,8
-0,3
0,2
0,7
1,2
-1,3 -0,8 -0,3 0,2 0,7 1,2
Eixo F1: 94.30 %
E
ix
o 
F2
: 5
.7
0 
%
 
 28
Observações depois da rotação 
varimax
A4
A3 A2
A1
-1,6
-1,1
-0,6
-0,1
0,4
0,9
1,4
-1,6 -1,1 -0,6 -0,1 0,4 0,9 1,4
Eixo F1: 54.82 %
Ei
xo
 F
2:
 4
5.
17
 %
 
 
 
 Gráfico mostrando o arranjo espacial dos pontos Xi em 2D antes e depois 
da rotação dos eixos F1 e F2 
 
 
 29
REFERÊNCIAS BIBLIOGRAFICAS 
 
AYRES JR., F. (1962) – Schaum’s Outline of Theory and Problems of Matrices: Schaum Publ. Co. 
 
DAVIS, P.J. (1984) – The Mathematics of Matrices: R.E. Krieger Publ. Co 
 
FERGUNSON, J. (1988) – Mathematics in Geology: Allen & Unwin Ltd. 
 
GOLUB, G.H. & VAN LOAN, C.F. (1996) – Matrix Computations, 3rd. ed.: Johns Hopkins Univ. 
Press. 
 
GOULD, P. (1967) – On the geographic interpretation of eigenvalues: An initial exploration: Trans. 
Inst. British Geographers, n. 42, p. 53-86 
 30
3. REGRESSÃO LINEAR MÚLTIPLA 
 
 As relações entre duas variáveis "X", considerada independente, e "Y", 
considerada dependente, pode ser representada num diagrama de dispersão, 
com os valores yi em ordenada e os xi em abcissa. Cada par de valores xi e yi 
fornecerá um ponto e utilizando-se, por exemplo, o método dos desvios mínimos 
ao quadrado, pode-se calcular a equação de uma curva de tendência que melhor 
se ajuste à nuvem de distribuição. O método mais simples que pode ser adotado 
é o da análise de regressão linear simples que fornece a equação de uma reta: 
 ,iixiy ε+β+α= onde α e β são constantes desconhecidas a serem 
determinadas e εi representa toda a fonte de variabilidade em Y não explicada 
por X. Operacionalmente neste caso encontra-se a equação da reta para a 
previsão dos valores yi : 
 ,bxay += onde a e b são os coeficientes que determinam a intersecção e 
a inclinação da linha de tendência. 
 Não é raro, porém, que o termo εi seja numericamente mais importante 
que a explicação motivada pela variável X, significando que outras variáveis 
devem ser incorporadas ao modelo a fim de explicar o comportamento de Y. O 
modelo exige então uma "análise de regressão linear múltipla”. 
 A regressão múltipla é usada, portanto, para testar dependências 
cumulativas de uma única variável dependente em relação à diversas variáveis 
independentes. Cada uma dessas variáveis é isolada e mantida constante 
enquanto as variáveis restantes variam sistematicamente, sendo observados os 
seus efeitos sobre a variável dependente. A variável a ser inicialmente mantida 
constante é aquela que ocasiona a maior influência na variabilidadeda variável 
dependente. 
 O modelo geral é representado por 
 imimi11oi xxy ε+α++α+α= L 
 A condição inicial, como na regressão linear simples, é descrita por 
 ,exaay 1x1o ++= onde xi é a variável independente, responsável pela 
maior variabilidade, ao e a1 são os coeficientes e e1 é o erro, isto é, a variabilidade 
em Y não explicada pela relação linear. A variável que, em seguida, mais reduz a 
variabilidade do erro é em seqüência adicionada de tal modo que 
 31
 22211o exbxbby +++= , sendo 21o beb,b calculados e 12 ee < . 
O processo segue por etapas até que o comportamento de todas as 
variáveis independentes em relação à dependente seja verificado. Os coeficiente 
“bi” são conhecidos como parciais de regressão porque cada um deles fornece a 
taxa de mudança na variável dependente correspondente à respectiva variável 
independente, mantendo constantes as demais variáveis independentes. 
 A equação que representa a relação linear entre uma variável dependente 
(yi) e uma única variável independente (xi) é: 
 11oi xaaY += 
 As equações normais que fornecem os valores de ao e a1 são: 
 211o1 xanaY ∑+−∑ ( 1 ) 
 211ioii xaXaYX ∑+∑+∑ ( 2 ) 
 As equações ( 1 ) e ( 2 ) constituem um par de equações normais a duas 
incógnitas, as quais podem ser resolvidas para a obtenção dos coeficientes, por 
cálculo matricial, segundo: 
 
YXA
]Y[]A[]X[
= 
 Multiplicando ambos os termos da equação pelo inverso de [X], isto é, 
1]X[ − : 
 Y]X[]A[]X[]X[ 11 −− = 
 Como ]I[]X[.]X[ 1 =− (matriz de identidade) 
 e ]A[]A[]I[ = 
 ]Y[]X[]A[ 1 =− 
 Por extensão, a análise de regressão múltipla linear de quaisquer m 
variáveis independentes sobre uma variável dependente, sendo expressa por: 
 
mimi22i11oi XbXbXbbY ++++= L 
 pode ser resolvida segundo: 
 
 32
]Y[]B[]X[
yx
yx
yx
y
b
b
b
b
xxxx
xxxxx
xx
xxn
imi
ii2
ii1
i
m
2
1
o
2
mii1mimi
mii2i1i2i2
mixi1
2
i1xi1
mii1










∑
∑
∑
∑
=




















∑∑∑
∑∑∑
∑∑∑
∑∑
L
M
L
L
L
 
 
]Y[]X[]B[ 1−= 
 
 Para verificar se o modelo obedece a uma regressão múltipla é aplicada a 
análise de variância (ANOVA). 
Fonte de 
variação g.l. 
Soma de 
quadrados 
Média 
quadrática Razão F 
Regressão m SSR MSR MSR/MSD 
Resíduos n-m-1 SSD MSD 
Total n-1 
 
 H0: β1= β2= β3=... βm=0 
 H1: pelo menos um β é diferente de 0 
 A variância total de Y é em parte "explicada" pelas diversas variáveis X's e 
o restante pela variabilidade devido ao erro (ε1). É claro que o termo "explicada" 
tem apenas um significado numérico não implicando necessariamente em um 
conhecimento causa-efeito sobre o porquê da relação existente. 
 Os tamanhos relativos dessas duas componentes de variância são 
obviamente de grande interesse quando da aplicação da análise de regressão 
múltipla. A proporção da variância dos Y observados "explicada" por uma 
equação de regressão ajustada é representada pelo coeficiente de determinação 
R². 
 2
y
2
y2
s
s
total) (variância
regressão) de análise pela explicada Y de (variânciaR == 
Valores de R2 irão dispor-se no intervalo 0-1, fornecendo uma medida 
dimensional de quantidade do ajuste do modelo de regressão múltipla aos dados. 
Se o valor de R² for próximo de 1 isso significa que as diversas variáveis X's 
medidas são responsáveis quase que totalmente pela variabilidade de Y. Caso 
contrário, R² apresentará um valor próximo a zero. 
 33
Uma das mais importantes aplicações da análise de regressão múltipla é a 
escolha, entre diversas variáveis independentes, daquelas mais úteis na previsão 
de Y. A questão se torna, então, saber se certas variáveis explanatórias podem 
ser retiradas, ou não, do modelo de regressão. 
Teste de hipótese par βk: t* = bk/sbk 
H0: βk = 0 
H1: βk ≠ 0 
Critério do teste: 
Se |t* |≤t(1-α/2;n-p), aceita-se a hipótese nula, caso contrário rejeita-se a 
mesma. 
Como os coeficientes de regressão são parciais devem ser obtidas as 
porcentagens explicadas da soma de quadrados de Y segundo 2 1k − 
combinações, onde k é o número de variáveis independentes. Finalmente verifica-
se a contribuição pura de cada variável independente por comparações 
sucessivas entre os diversos resultados. 
 Outra maneira para a ordenação das variáveis pela sua importância na 
previsão da variável dependente é a padronização dos coeficientes de regressão 
parciais, convertendo-os em unidades de desvio padrão, (Bk ), (LI 1964, p. 136): 
 B b S
Sk k
k
Y
= , 
onde bk = coeficiente de regressão parcial; Sk= desvio padrão de Xk ; 
Sy= desvio padrão de Y. 
 Pela comparação direta dos Bk determinam-se as variáveis mais 
eficientes. 
 Embora a regressão múltipla seja multivariada no sentido de que mais de 
uma variável é medida simultaneamente em cada observação, trata-se na 
realidade de uma técnica univariada, pois o estudo é apenas em relação à 
variação da variável dependente Y, sem que o comportamento das variáveis 
independentes, Xs, seja objeto de análise. 
 Finalmente, alguns cuidados que se deve tomar quando da utilização da 
análise de regressão: 
a) as relações entre as variáveis devem ser lineares 
 34
b) evitar um número inferior de casos em relação ao número de variáveis 
consideradas; é recomendado que tal relação seja da ordem de 10 a 20 vezes 
superior 
c) evitar variáveis independentes redundantes, isto é, que tenham um alto 
coeficiente de correlação entre si 
d) verificar, utilizando resíduos, a presença de valores anomalos 
 
3.1. Exemplo com enfoque “clássico” 
 HARRISON &KRUMBEIN (1964), estudaram a influência de alguns processos 
praiais no condicionamento do ângulo de inclinação do fundo oceânico situado 
logo após à linha da maré baixa a estirâncio (variável dependente, Yi). Quatro 
processos independentes foram medidos: período das ondas, em segundos (X2i); 
altura das ondas, em pés (X3i); ângulo de aproximação das ondas, em pés (X4i); 
profundidade da lâmina d’água, em pés (X5i); Além disso foi considerada uma 
variável, que está condicionada por essas quatro, ou seja, o diâmetro médio, em 
mm, do sedimento do fundo oceânico (X1i), mas que também é independente em 
relação à inclinação do fundo oceânico. 
 
Locais Yi X1i X2i X3i X4i X5i 
01 0.68 0.79 7.80 1.82 30.00 12.40 
02 0.85 0.65 8.00 8.84 25.00 11.40 
03 0.66 0.81 9.03 5.12 35.00 10.70 
04 0.50 0.74 6.56 5.43 40.00 11.60 
05 1.86 0.22 5.90 1.42 30.00 11.30 
06 2.33 0.23 8.40 1.09 30.00 10.70 
07 2.17 0.25 12.00 1.15 25.00 11.10 
08 1.83 0.26 4.80 8.53 25.00 12.80 
09 1.68 0.41 10.80 6.11 10.00 13.30 
10 2.05 0.55 10.40 1.60 30.00 13.30 
11 1.83 0.47 10.80 1.04 30.00 14.10 
12 1.84 0.59 7.90 1.02 35.00 13.40 
13 1.87 0.47 4.30 1.11 30.00 13.50 
14 1.82 0.50 10.80 0.62 35.00 13.30 
15 1.85 0.52 3.80 1.69 30.00 14.40 
16 1.75 0.47 4.10 1.22 20.00 14.10 
17 1.51 0.42 4.50 2.13 30.00 15.30 
18 1.38 0.37 6.10 1.47 20.00 14.00 
 
 A questão é saber qual a importância de cada uma dessas 5 variáveis para 
o controle da inclinação do fundo oceânico. 
Para tanto, inicialmente, foi aplicada uma análise de variância aos dados. 
 35
Fonte g.l. 
Soma de 
quadrados 
Média 
quadrática Razão F Pr > F 
Regressão 5 3,9727 0,7945 8,7969 
0,001
4 
Resíduos 12 1,0839 0,0903 
Total 
51
2 5,0566 
. 
 A análise de variância aplicada forneceu um F calculado igual a 8,7969, 
superior ao F tabelado (F0.05;5,12 = 3,1059). O valor de F é significativo (p = 0,0014) 
indicando rejeição à hipótese nula e aceitação da hipótese alternativade que pelo 
menos uma das variáveis independentes condiciona o comportamento da variável 
dependente. 
. A equação para a regressão linear múltipla encontrada foi: 
 YI = 1,1858 – 2,3524X1I + 0,0447X2 – 0,0459X3 + 0,0082X4 + 0,0854X5 
com um coeficiente de determinação ( R² ) igual a 0,7857, significando que as 
variáveis independentes explicam 78,7% do comportamento de Yi. 
 Com relação aos coeficientes parciais de regressão, confrontados com o 
teste “t”, os seguintes resultados foram obtidos 
Coeficiente Valor Variável Teste t Pr > t 
b0 1,1858 0,9984 0,3377 
b1 -2,3524 X1 -4,8511 0,0004 
b2 0,0447 X2 1,4496 0,1727 
b3 -0,0459 X3 -1,3560 0,2000 
b4 0,0082 X4 0,5922 0,5647 
b5 0,0854 X5 1,2841 0,2233 
 
 
 Como na tabela de distribuição teórica de “t” encontra-se o valor crítico 
t(0.05:12) = 1.782, pode-se concluir que apenas o coeficiente parcial de regressão b1 é 
significante. Em outras palavras a granulometria media do sedimento é a variável 
que mais explica a variação do fundo oceânico na zona de “surf”. 
 Adotando o critério “stepwise” (passo a passo), para verificar a evolução do 
R2 à medida que novas variáveis são adicionadas para a analise de regressão, os 
seguintes resultados foram obtidos 
 
Variáveis no modelo 
de regressão 
Variável mais 
importante escolhida R² 
1 X1 0,629 
2 X3 0,739 
3 X2 0,756 
4 X5 0,779 
 36
 
 
 
Uma outra maneira para determinar a importância relativa de cada uma 
dessas variáveis é verificar todas as possíveis combinações dos coeficientes 
parciais: 
 
Combinações Porcentagem da soma de 
quadrados de Y explicada 
X1 63,1 
X2 1,1 
X3 23,7 
X4 5,6 
X5 5,2 
 
1,2 65,5 
1,3 74,1 
1,4 64,2 
1,5 66,4 
2,3 24,4 
2,4 6,5 
2,5 9,1 
3,4 36,1 
3,5 24,4 
4,5 8,9 
 
1,2,3 75,9 
1,2,4 66,8 
1,2,5 71,8 
1,3,4 74,1 
1,3,5 74,8 
1,4,5 68,6 
2,3,4 36,5 
2,3,5 25,9 
2,4,5 12,0 
3,4,5 36,2 
 
1,2,3,4 75,9 
1,2,3,5 78,1 
1,2,4,5 75,3 
1,3,4,5 74,9 
2,3,4,5 36,5 
 
X1, X2, X3, X4, X5 78,7 
 
 
 
 
 
 37
 
 
 
Combinações mais importantes Porcentagem da soma de 
X1 X2 X3 X4 X5 quadrados de Y explicada 
 
1 63,1 
 3 23,7 uma por vez 
 4 5,6 
 
1 3 74,1 
1 5 66,4 duas por vez 
1 2 65,5 
 
1 2 3 75,9 
1 3 5 74,8 três por vez 
1 3 4 74,1 
 
1 2 3 5 78,1 
1 2 3 4 75,9 quatro por vez 
1 2 4 5 74,9 
 
1 2 3 4 5 78,7 cinco por vez 
 
 
 
 
 Contribuição pura em % de cada variável 
Granulometria média 63.1
Altura da onda 74,1 – 63,1 11.0
Período da onda 75,9 – 74,1 1.8
Profundidade 78,1 – 75,9 2.2
Ângulo de aproximação 78,7 – 78,1 0.6
 78.7
 
 
 Novamente a variável mais importantes para o “controle” da inclinação do 
fundo oceânico foi granulometria média (Xi), seguida de altura da onda (X3). 
 
3.2. Exemplo com enfoque “espacial” 
Comparação entre mapas têm sido preocupação dos geólogos, pela sua 
utilidade na localização espacial e mesmo interpretação de qualquer banco de 
dados temático. Se existem, porém, diversos algoritmos à disposição para a 
confecção de mapas o mesmo não pode ser afirmado em relação à comparação 
entre mapas. Alguns trabalhos que tratam do assunto podem ser encontrados em 
 38
BROWER & MERRIAM (1990, 1992) usando técnicas estatísticas; e HERZFELD & 
SONDERGARD (1988); HERZFELD & MERRIAM (1991) usando técnicas algébricas 
orientadas para uso em computador. Um interessante enfoque é apresentado por 
BROWER & MERRIAM (2001) que utilizam a análise de regressão múltipla para 
comparar mapas de contorno estrutural com finalidade de entender a história 
geológica de uma certa região. Se a variável considerada dependente for a 
camada mais jovem e as demais camadas as variáveis independentes, pode-se 
verificar qual delas teve maior influência na configuração dessa camada mais 
jovem. 
Utilizando essa idéia LEITE & LANDIM (2003) aplicaram a análise de 
regressão múltipla para quantificar a influência de diversas variáveis no 
comportamento da superfície potenciométrica de um aqüífero livre (H), 
considerada como variável dependente. As variáveis consideradas independentes 
foram cota do terreno (Z), base da formação aqüífera ou cota do topo do basalto 
(TB), espessura da formação aqüífera (FM), e coordenadas UTM (X e Y). Esses 
valores foram obtidos a partir de 188 poços. 
 
ID X Y H Z TB FM 
1 486450 7714380 291.189 296.429 217.2 79.23 
2 486630 7714170 289.067 290.612 217.2 73.41 
3 486850 7717900 315.241 329.716 217.2 112.52 
4 486680 7718240 317.682 344.277 217.2 127.08 
5 486690 7717400 309.052 328.542 217.2 111.34 
6 486580 7717100 308.604 328.274 217.2 111.07 
7 486480 7716800 304.559 327.428 217.2 110.23 
8 486560 7716520 302.352 315.592 217.2 98.39 
9 486400 7716100 299.957 311.337 217.2 94.14 
10 486070 7716150 303.822 325.457 217.2 108.26 
11 485900 7715630 294.954 309.294 217.2 92.09 
12 485510 7716020 293.871 318.611 217.2 101.41 
13 492430 7719100 340.94 350.875 217.2 133.67 
14 492610 7718200 342.341 354.741 217.2 137.54 
15 490450 7716520 314.986 323.636 217.2 106.44 
16 490800 7717170 315.645 318.945 217.2 101.74 
17 491110 7719280 339.994 357.334 276.61 80.73 
18 490970 7718950 339.635 343.945 275.98 67.96 
19 490780 7718340 331.465 348.535 271.98 76.55 
20 490500 7718030 329.644 345.289 272.92 72.37 
21 490180 7716840 309.333 309.333 255.97 53.37 
22 489940 7716980 314.421 324.011 266.19 57.82 
23 489680 7716700 309.574 314.339 273.96 40.38 
24 489240 7716800 320.553 336.913 289.16 47.75 
25 488910 7716510 319.572 331.902 295.78 36.12 
 39
26 489070 7716340 313.844 325.134 291.7 33.43 
27 489310 7716190 306.693 319.468 286.14 33.32 
28 489930 7715900 309.23 319.175 217.2 101.97 
29 489060 7715800 306.059 322.889 295.57 27.32 
30 488850 7715240 301.6 309.85 305.17 4.68 
31 489380 7714810 304 315.205 217.2 98 
32 487880 7715530 303.3 315.88 306.75 9.13 
33 487100 7715460 293.445 315.035 311.5 3.53 
34 487310 7715940 301.393 321.143 314.05 7.1 
35 487510 7716030 306.945 330.475 311.62 18.85 
36 487240 7716270 301.731 313.431 320.52 0 
37 487670 7716830 314.373 329.643 318.09 11.56 
38 487600 7717580 314.439 320.469 317.13 3.34 
39 487400 7716640 313.914 316.489 320.33 0 
40 487340 7717370 312.307 312.387 318.25 0 
41 487110 7717370 310.257 314.562 217.2 97.36 
42 487060 7717710 313.124 321.144 217.2 103.94 
43 487290 7718000 314.958 318.208 217.2 101.01 
44 487279 7718226 316.01 326.695 217.2 109.49 
45 487800 7717970 318.55 330.06 319.17 10.89 
46 488240 7718560 326.71 340.665 323.48 17.19 
47 488070 7718660 322.91 330.4 322.85 7.55 
48 488320 7718900 326.546 335.166 322.59 12.58 
49 488510 7719040 328.253 340.693 322.07 18.63 
50 487050 7718560 319.844 341.789 217.2 124.59 
51 490100 7719190 343.673 369.283 295.23 74.06 
52 487400 7716960 310.772 318.922 320.25 0 
53 487790 7717160 315.613 330.443 317.1 13.34 
54 487835 7717675 319.285 330.405 317.77 12.63 
55 488025 7717850 322.906 338.746 319.09 19.66 
56 488400 7718215 329.23 351.46 322.49 28.97 
57 488460 7717960 329.427 350.687 319.97 30.72 
58 487850 7716770 316.643 335.043 315.46 19.59 
59 488095 7717515 323.488 336.278 316.84 19.43 
60 488100 7717310 322.822 338.492 315.61 22.88 
61 488499 7718069 330.254 352.544 321.14 31.41 
62 487820 7716415 313.403 339.123 312.73 26.4 
63 488070 7716830 319.43 336.13 312.93 23.2 
64 488790 7718370 333.417 352.867 323.95 28.92 
65 489300 7718935 340.285 356.655 317.83 38.83 
66 488280 7716265 318.283 334.233 305.48 28.75 
67 488478 7716358 319.171 333.491 303.23 30.26 
68 489263 7717831 329.833 344.383 308.58 35.8 
69 489330 7717190 326.779 339.849 291.86 47.99 
70 489645 7717725 331.372 344.902 294.1 50.81 
71 489660 7718870 342.73 363.79 310 53.79 
72 489625 7718700 342.445362.875 311.94 50.93 
73 489800 7718850 342.888 364.883 305.94 58.94 
74 489890 7718595 342.712 357.112 302.56 54.55 
75 490470 7718670 340.816 354.331 284.36 69.97 
76 488990 7719165 335.329 348.12 318.71 29.41 
77 489210 7718470 339.618 361.278 322.9 38.38 
78 489070 7718485 338.763 361.883 324.09 37.79 
79 488765 7717920 332.309 359.319 318.04 41.28 
 40
80 489110 7717710 332.627 350.717 308.95 41.77 
81 489125 7718720 339.86 360.53 322.76 37.77 
82 489220 7719400 338.511 355.581 312.38 43.2 
83 488690 7719920 333.997 342.407 217.2 125.21 
84 488810 7720120 336.713 347.553 217.2 130.35 
85 489400 7720480 340.446 342.806 217.2 125.61 
86 489240 7720870 343.336 357.056 217.2 139.86 
87 489010 7720840 342.626 359.596 217.2 142.4 
88 489650 7721570 291.189 359 217.2 141.8 
89 489977 7721238 349.795 359.005 302.72 56.29 
90 492730 7721150 349.267 366.367 217.2 149.17 
91 492450 7721460 343.002 367.242 217.2 150.04 
92 492370 7722130 364.586 378.991 217.2 161.79 
93 493120 7722800 347.574 363.194 217.2 145.99 
94 491340 7720510 345.68 359.545 281.92 77.62 
95 491120 7720180 346.502 362.602 282.4 80.21 
96 491080 7720640 347.757 361.987 284.77 77.22 
97 492950 7720350 349.514 366.264 217.2 149.06 
98 491530 7720200 342.489 354.074 278.74 75.33 
99 491300 7719690 342.434 358.899 277.4 81.5 
100 490213 7719747 347.297 360.467 290.36 70.11 
101 490210 7719840 347.486 361.236 290.59 70.64 
102 490400 7720080 341.665 371.099 289.5 81.6 
103 490280 7719380 346.235 363.575 290.22 73.36 
104 491920 7725350 324.4 350.985 217.2 133.78 
105 489250 7722740 357.81 372 217.2 154.8 
106 489740 7721580 351.352 359.722 217.2 142.52 
107 485840 7716520 310.637 339.087 217.2 121.89 
108 487670 7715190 301.426 322.166 308.26 13.9 
109 489350 7717470 329.952 341.102 297.09 44.01 
110 492660 7723500 326.29 367.647 217.2 150.45 
111 492780 7720710 347.513 366.743 217.2 149.54 
112 493800 7723830 353.549 363.384 217.2 146.18 
113 493170 7723530 346.161 357.281 217.2 140.08 
114 492370 7724150 331.013 358.983 217.2 141.78 
115 493100 7722150 352.799 374.599 217.2 157.4 
116 492420 7722820 342.155 373.115 217.2 155.91 
117 492050 7723500 333.039 364.689 217.2 147.49 
118 491540 7721530 339.815 370.835 282.15 88.68 
119 490740 7723250 351.821 364.151 217.2 146.95 
120 490080 7722980 344.837 357.577 217.2 140.38 
121 490280 7721630 354.373 371.483 217.2 154.28 
122 490560 7720870 352.056 377.076 291.68 85.4 
123 490750 7720170 349.969 364.979 286.26 78.72 
124 489880 7720300 345.489 361.639 297.22 64.42 
125 489060 7719850 335.555 339.695 311 28.69 
126 489590 7719520 344.656 359.046 303.15 55.89 
127 488600 7718760 332.881 351.45 323.84 27.61 
128 488700 7717180 327.97 350.45 307.06 43.39 
129 488280 7715657 308.118 327.258 304.72 22.54 
130 489112 7716700 320.736 337.896 291.92 45.97 
131 488558 7716928 325.005 342.795 306.54 36.26 
132 487975 7717228 319.315 336.535 316.09 20.44 
133 490213 7719747 347.297 360.467 290.36 70.11 
 41
134
486990.
2 7716692 301 301 217.2 83.8 
135
487014.
2 7716773 302 302 217.2 84.8 
136
487038.
2 7716857 303 303 217.2 85.8 
137
487042.
2 7716952 304 304 217.2 86.8 
138
487079.
9 7717039 305 305 217.2 87.8 
139
487140.
6 7717120 306 306 217.2 88.8 
140
487208.
2 7717201 307 307 217.2 89.8 
141
487247.
6 7717282 308 308 217.2 90.8 
142
487271.
7 7717361 309 309 217.2 91.8 
143 487277 7717395 310 310 217.2 92.8 
144
487313.
2 7717479 311 311 217.2 93.8 
145 487298 7717600 312 312 217.2 94.8 
146
487279.
6 7717716 313 313 217.2 95.8 
147
487392.
2 7717847 314 314 217.2 96.8 
148
487441.
6 7717990 315 315 217.2 97.8 
149
487515.
7 7718130 316 316 217.2 98.8 
150
487603.
5 7718264 317 317 217.2 99.8 
151
487669.
4 7718388 318 318 217.2 100.8 
152
487702.
4 7718528 319 319 217.2 101.8 
153 487776 7718714 320 320 217.2 102.8 
154
487835.
7 7718797 321 321 217.2 103.8 
155
487927.
5 7718904 322 322 217.2 104.8 
156
488052.
3 7718979 323 323 217.2 105.8 
157
488131.
3 7719042 324 324 217.2 106.8 
158 488189 7719112 325 325 217.2 107.8 
159 488236 7719144 326 326 217.2 108.8 
160 488473 7719462 327 327 217.2 109.8 
161 488584 7719570 328 328 217.2 110.8 
162 488584 7719626 328 328 217.2 110.8 
163 488663 7719722 329 329 217.2 111.8 
164 488722 7719732 330 330 217.2 112.8 
165 489016 7715190 300 300 217.2 82.8 
166
489101.
2 7715325 301 301 217.2 83.8 
167
489168.
8 7715483 302 302 217.2 84.8 
168
489293.
6 7715640 303 303 217.2 85.8 
 42
169
489453.
8 7715832 304 304 217.2 86.8 
170
489580.
8 7716058 305 305 279.85 25.15 
171
489740.
3 7716223 306 306 273.52 32.48 
172
489911.
7 7716328 307 307 217.2 89.8 
173
490055.
8 7716478 308 308 217.2 90.8 
174
490177.
4 7716682 309 309 217.2 91.8 
175 490345 7716855 310 310 217.2 92.8 
176
490432.
9 7716910 311 311 217.2 93.8 
177
490577.
9 7717018 312 312 217.2 94.8 
178
490632.
5 7717185 313 313 217.2 95.8 
179
490725.
9 7717337 314 314 217.2 96.8 
180
490855.
5 7717489 315 315 217.2 97.8 
181
490962.
5 7717613 316 316 217.2 98.8 
182
491075.
2 7717715 317 317 217.2 99.8 
183
491214.
5 7717850 318 318 217.2 100.8 
184
491317.
6 7717955 319 319 217.2 101.8 
185 491403 7718100 320 320 217.2 102.8 
186
491396.
7 7718108 320 320 217.2 102.8 
187 491679 7718877 325 325 217.2 107.8 
188 492030 7719830 330 330 217.2 112.8 
 
O local objeto do estudo compreendeu a área urbana do município de 
Pereira Barreto/SP, situada junto ao Reservatório de Três Irmãos, formado no rio 
Tietê, pela construção da barragem de mesmo nome, com extensão de 
aproximadamente 150 km. A cidade de Pereira Barreto situa-se na vertente sul de 
uma colina ampla, de topo aplainado, com altitude máxima de aproximadamente 
450 m, limitada ao sul pelo remanso do reservatório da barragem Três Irmãos no 
rio Tietê e a norte pelo remanso do reservatório de Ilha Solteira (rio Paraná) no 
tributário São José dos Dourados, em zona de transição dos grupos Caiuá e 
Bauru, com afloramentos de basaltos do grupo São Bento restritos às 
proximidades das margens do rio Tietê. A superfície potenciométrica do aqüífero 
livre na área ocupada pela cidade, anteriormente à formação do reservatório 
encontrava-se entre os níveis 310-350 m, com profundidades máximas do nível 
d’água (N.A.) pouco superiores a 10 metros. 
 43
 
 
1
2
3
4
5
6
7
8
910
11
12
13
14
15
16
17
18
19
20
21
22
2324
25
26
27
2829
30
31
3233
3435
36
37
38
39
4041
42
43
44
45
4647
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
6667
68
69
70
71
72
73
74 75
76
7778
79
80
81
82
83
84
85
8687
88
89 90
91
92
93
94
95
96
97
98
99100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123124
125
126
127
128
129
130
131
132
133
134135
136137
138139
140141
142143144
145146
147
148
149150
151
152
153154
155156
157158159
160161
162163164
165166
167
168
169
170
171172
173
174
175176
177
178
179
180181
182183
184
185186
187
188
486000 487000 488000 489000 490000 491000 492000 493000
7715000
7716000
7717000
7718000
7719000
7720000
7721000
7722000
7723000
7724000
7725000
 
 
Os maiores coeficientes de determinação obtidos foram : 
 
Variável Coeficiente de Determinação R2 
Topografia 0,814 
Topografia + Coord X 0,830 
Topografia + Coord X + Espessura FM 0,833 
Topografia + Coord X + EspessuraFM + Coord Y 0,836 
Topografia + Coord X + Espessura FM + Coord Y + Topo 
Basalto 
0,836 
 
 
Com estes resultados, estabelece-se a contribuição pura de cada variável 
independente para a variabilidade da variável dependente H, isto é, superfície 
potenciométrica do aqüífero livre: 
 44
 
 
Variável Contribuição 
Topografia 81,4% (0,814) 
Topografia/Coord X 1,6% (0,830 - 0,814) 
Topografia/Coord X/Espessura FM 0,3% (0,833 – 0,830) 
Topografia/Coord X/Espessura FM/Coord Y 0,3% (0,836 – 0,833) 
Topografia/Coord X/ Espessura FM/Coord Y/Topo Basalto 0,0% (0,836 – 0,836) 
 
Analisando-se o peso de cada variável dependente observa-se que a 
variável Topografia do Terreno (Z) é a que melhor explica a variação da Superfície 
Potenciométrica (H), da ordem de 81,4%. As demais variáveis apresentam 
pequenas interferências na variabilidade da potenciometria. 
Os resultados encontrados confirmam quantitativamente que a superfície 
potenciométrica do aqüífero livre se comporta, em linhas gerais, como a superfície 
topográfica do terreno. Observa-se, no entanto, que apesar da excelente 
correlação obtida no processo de comparação entre o mapa potenciométrico e o 
mapa topográfico, a variável Superfície Potenciométrica não é totalmente 
explicada pela variável Topografia do Terreno, ou seja existem outros fatores que 
condicionam também essa variação. 
 45
 
486000 487000 488000 489000 490000 491000 492000 493000
7715000
7716000
7717000
7718000
7719000
7720000
7721000
7722000
7723000
7724000
7725000
Superfície potenciometrica
486000 487000 488000 489000 490000 491000 492000 493000
7715000
7716000
7717000
7718000
7719000
7720000
7721000
7722000
7723000
7724000
7725000
486000 488000 490000 492000
7716000
7718000
7720000
7722000
7724000
Topografia
 
 
 Neste caso a análise de regressão múltipla foi efetuada a partir de 188 
pontos “xyz”. Pode-se, porém, efetuar este mesmo tipo de análise, em que as 
 46
variáveis se apresentam em forma de superfícies, adotando metodologia 
encontrada no software IDRISI 3.2 (2001). Um exemplo pode ser encontrado em 
LOURENÇO & LANDIM (2004) 
 47
REFERÊNCIAS BIBLIOGRAFICAS 
 
DAWSON, K. R. & WHITTEN, E. H. T. (1962) – The quantitative mineralogical composition and 
variation of the Lacorne, La Motte, and Preissac granitic complex, Quebec, Canada: Jour. 
Petrology, 3(1):1-37 
 
BROWER, J.C. & MERRIAM, D.F. (1990). Geological map analysis and comparison of adjacent 
multivariate algorithms. Geol Survey Canada Paper 89-9, p. 123-134.Thematic map analysis using 
multiple regression: Math. Geology, v. 33(3), p. 353-368 
 
BROWER, J.C. & MERRIAM, D.F. (1992). A simple method for comparison of adjacent points on 
thematic maps, in Kurzl, H. and Merriam, D.F., ed. Use microcomputers in geology. Plenum Press, 
New York, p. 227-240. 
 
BROWER, J.C. & MERRIAM, D.F. (2001). Thematic map analysis using multiple regression: Math. 
Geology, v. 33(3), p. 353-368 
 
HARRISON, W. & KRUMBEIN, W.C. (1964) – Interactions of the beach-ocean-atmosphere system 
at Virginia Beach, Virginia: U.S. Army, Coastal Eng. Res. Center, Tech. Mem., no. 7 
 
HERZFELD, H.C. & SONDERGARD, M.A., (1988), MAPCOMP - A FORTRAN program for 
weighted thematic map comparison: Computers & Geosciences, v.14, no.5, p.699-713. 
 
HERZFELD, U.C. & MERRIAM, D.F. (1991). A map comparitson technique utilizing weighted input 
parameters, in GAAL G., and MERRIAM, D.F. Eds. Computer applications in resource estimations. 
Pergamon Press, Oxford, p. 43-52. 
 
IDRISI 32 (2001) – Clark Labs, Clark University, MA, USA. 
 
LEITE, C.B.B. & LANDIM, P.M.B. (2003) –Relação entre mapas temáticos por meio da Análise de 
Regressão Múltipla. Solos e Rochas – Revista Latino-americana de Geotecnia, 26(3):195-203 
 
LI, C.C. (1964) - Introduction to Experimental Statistics: McGraw Hill, Inc. 
 
LOURENÇO, R. W. & LANDIM, P.M.B. (2004) - Análise de regressão múltipla espacial. 
UNESP/Rio Claro, IGCE, DGA, Lab. Geomatemática,Texto Didático 13, 34 pp. Disponível em 
<http://www.rc.unesp.br/igce/aplicada/textodi.html 
 
 
 48
4. ANÁLISE DE AGRUPAMENTOS 
 
4.1. Introdução 
 Análise de agrupamentos (cluster analysis) é um termo usado para 
descrever diversas técnicas numéricas cujo propósito fundamental é classificar os 
valores de uma matriz de dados sob estudo em grupos discretos. A técnica 
classificatória multivariada da análise de agrupamentos pode ser utilizada quando 
se deseja explorar as similaridades entre indivíduos (modo Q) ou entre variáveis 
(modo R) definindo-os em grupos, considerando simultaneamente, no primeiro 
caso, todas as variáveis medidas em cada indivíduo e, no segundo, todos os 
indivíduos nos quais foram feitas as mesmas mensurações. Segundo esse 
método, desenvolvido, inicialmente em Zoologia por taxonomistas numéricos, 
procura-se por agrupamentos homogêneos de itens representados por pontos 
num espaço n-dimensional em um número conveniente de grupos relacionando-
os através de coeficientes de similaridades ou de correspondências. 
 A aplicação desta análise é controversa entre os pesquisadores, pois 
pouco se sabe a respeito dos pressupostos estatísticos dos seu vários métodos e 
apenas testes limitados são conhecidos para verificar a significância dos 
resultados. Na análise introdutória de matrizes de dados tornam-se, porem, 
bastante eficientes para auxiliar na formulação de hipóteses a respeito da 
homogeneidade ou não desses dados. 
 
4.2. Métodos de classificação 
 Segundo DAVIS (1986) os diversos métodos para a análise de 
agrupamentos podem ser enquadrados em quatro tipos gerais: 
a) Métodos de partição: procuram classificar regiões no espaço, definido em 
função de variáveis, que sejam densamente ocupados em termos de 
observações daqueles com ocupação mais esparsa. 
b) Métodos com origem arbitrária: procuram classificar as observações segundo 
“k” conjuntos previamente definidos; neste caso “k” pontos arbitrários servirão 
como centróides iniciais e as observações irão se agrupando, por similaridade, 
em torno desses centróides para formar agrupamentos. 
 49
c) Métodos por similaridade mútua: procuram agrupar observações que tenham 
uma similaridade comum com outras observações; inicialmente uma matriz n x 
n de similaridades entre todos os pares da observação é calculada; em 
seguida, as similaridades entre colunas são repetidamente recalculadas; 
colunas representando membros de um único agrupamento tenderão 
apresentar intercorrelações próximas a 1 e valores menores com não 
membros. 
d) Métodos por agrupamentos hierárquicos: são as técnicas mais comumente 
usadas em Geologia; a partir da matriz inicial de dados obtém-se uma matriz 
simétrica de similaridades e incia-se a detecção de pares de casos com a mais 
alta similaridade, ou a mais baixa distância; para essa combinação, segundo 
níveis hierárquicos de similaridade, escolhe-se entre os diversos 
procedimentos aglomerativo de tal modo que cada ciclo de agrupamento 
obedeça a uma ordem sucessiva no sentido do decréscimo de similaridade. 
 
4.2.1. Metodologia para agrupamentos hierárquicos 
 Partindo de uma matriz inicial de dados [n*p], onde "n" linhas representam 
casos ou espécimes ou amostras, no sentido geológico, e as "p" colunas as 
variáveis, feitas as comparações, usando um coeficiente de similaridade qualquer 
entre linhas, obtém-se uma matriz inicial de coeficiente de similaridade de 
tamanho [ ]n n* , que será utilizada no modo Q. Se a comparação for entre 
colunas, obter-se-á uma matriz inicial de coeficientes de similaridade inicial 
[ ]p p* , que será utilizada no modo R. Embora diversas medidas de similaridadetenham sido propostas, somente duas são geralmente usadas: o coeficiente de 
correlação de Pearson e a medida de distância euclideana. Se as variáveis forem 
padronizadas a partir da matriz inicial de dados, dando o mesmo peso a cada 
uma delas, qualquer um desses coeficientes poderá ser diretamente transformado 
no outro. 
 Na matriz inicial de coeficientes de similaridade estes representam o grau 
de semelhança entre pares de objetos e os mesmos deverão ser arranjados de 
acordo com os respectivos graus de similaridade de modo a ficarem agrupados 
segundo uma disposição hierárquica. Os resultados quando organizados em 
gráfico, do tipo dendrograma, mostrarão as relações das amostras agrupadas. 
 50
Várias técnicas de agrupamentos tem sido propostas, e os métodos mais 
comumente usados são: “ligação simples” (single linkage method ou nearest 
neighbor); “ligação completa” (complete linkage method ou farthest neighbor); 
”agrupamento pareado proporcionalmente ponderado" (weighted pair-group 
method, WPGM); “agrupamento pareado igualmente ponderado” (unweighted 
pair-group method”, UPGM); “variância mínima” (minimum variance clustering ou 
Ward’s method of sum-of-squares method). 
 No método de ligação simples os grupos iniciais são determinados pelos 
mais altos coeficientes de associação mútua. Para admissão de novos membros 
aos grupos é suficiente encontrar quais os que representam os maiores 
coeficientes de associação com um dos elementos de determinado grupo. A 
ligação será estabelecida a esse nível de associação com todo o grupo. No 
método de ligação completa os gupos são determinados pelos mais baixos 
coeficientes de associação mútua. Ambos são os métodos mais simples, mas 
tambem os que apresentam os resultados mais distorcidos. Com o uso dos 
métodos de ligações completas espera-se obter resultados mais rigorosos. 
 No método de agrupamento pareado procura-se também inicialmente 
pelos mais altos coeficientes de associação mútua. Em seguida esses pares de 
casos fornecerão valores médios originando um novo elemento singular. No 
"método de agrupamento pareado igualmente ponderado" para o cálculo dos 
valores médios atribui-se sempre o mesmo peso aos dois elementos que estão 
sendo integrados. No método de agrupamento pareado proporcionalmente 
ponderado para cada agrupamento é dado um peso proporcional ao número de 
objetos que o constitui, de tal modo que a incorporação e um novo elemento a um 
grupo baseia-se no nível médio de similaridade desse elemento com todos os 
que fazem parte do grupo. Tanto num caso como no outro, alternativamente, em 
vez de obter valores medios entre os casos podem ser utilizados centroides e 
verificados as distâncias entre os mesmos. 
 No método de agrupamento pela variância mínima o enfoque é sobre a 
variabilidade que existe dentro de cada caso e os agrupamentos são efetuados ao 
se determinar que pares de casos, quando tomados em conjunto, apresentam o 
menor acrescimo de variabilidade. 
 51
 No método de ligações singulares as ligações tendem a ocorrer a níveis 
mais altos do que nos métodos de agrupamento pareado. No método de 
agrupamento pareado igualmente ponderado como cada membro adicionado ao 
agrupamento tem sempre o mesmo peso, isso traz como efeito que os últimos 
elementos a se integrarem tem maior influência que os primeiros. No caso do 
método de agrupamento pareado proporcionalmente ponderado, tal não 
acontece. 
 Existindo à disposição diversas técnicas para a análise de agrupamentos e 
não havendo testes estatísticos válidos para os resultados obtidos, o pesquisador 
geralmente fica em dúvida sobre qual método aplicar. Entendendo que esta 
análise sempre deve ser aplicada com caráter introdutório, e nesse sentido tem o 
seu mérito, a consideração de ordem pragmática a ser adotada é que o melhor 
método é aquele que fornece os resultados mais coerentes com a realidade 
geológica em estudo. Eventualmente, testes, como o de Hotteling ou a análise 
generalizada de variâncias, podem ser aplicados aos agrupamentos encontrados 
para a verificação da sua validade estatística. 
 Aplicações desta metodologia tem mostrado que os métodos pareados 
igualmente ponderado são superiores aos demais e que o coeficiente distância 
usualmente agrupa melhor espécimes ou amostras, no sentido geológico, 
enquanto o coeficiente de correlação é recomentado para o agrupamento entre 
variáveis. Essas afirmações são baseadas na correlação cofenética que ao 
apresenrar valores abaixo de 0,8 indicam distorções significativas no 
dendrograma obtido. 
 O método hierárquico tem sido preferido em relação ao que utilisa 
centróides. Este porém mostra-se, em termos computacionais, mais útil quando 
se tem que manipular grandes matrizes de dados, por exemplo com mais de 
1.000 casos. Como “k” geralmente é pequeno, da ordem de 5 por exemplo, é 
mais rápido o manuseio de uma matriz de similaridade “k x n” do que uma com 
dimensões “n x n”. 
 
4.2.2. Dendrograma 
 A forma gráfica mais usada para representar o resultado final dos diversos 
agrupamentos é o dendrograma (Figura 4.1.) Nele estão dispostos linhas ligadas 
segundo os níveis de similaridade que agruparam pares de espécimes ou de 
 52
variáveis. Como este gráfico é uma simplificação em duas dimensões de uma 
relação n-dimensional é inevitável que algumas distorções quanto à similaridade 
apareçam. A medida de tal distorção pode ser obtida por um coeficiente de 
correlação, dito "cofenético", entre os valores da matriz inicial de similaridade e 
aqueles derivados do dendrograma. 
 Visualmente isso pode ser também verificado por meio da construção de 
um sistema de eixos ortogonais. Nele os valores dos coeficientes de similaridade 
originais estarão na abcissa e 
os coeficientes de similaridade a partir do dendrograma em ordenada. Se ambas 
as matrizes forem idênticas os pontos cairão sobre uma linha reta que passa pela 
origem do sistema. Desvios dos pontos em relação a essa reta indicarão as 
distorções. Se situadas acima da reta indicarão coeficientes de similaridade 
apontados pelo dendrograma mais altos que os originais e vice-versa. 
 
 
 
 
 
 
 
 
 
Dendrograma
Método: UPGM
Distância euclidiana
V
al
or
es
 p
ar
a 
ag
ru
pa
m
en
to
0
50
100
150
200
250
 C_9
 C_13
 C_6
 C_5
 C_8
 C_12
 C_4
 C_3
 C_2
 C_15
 C_14
 C_11
 C_10
 C_7
 C_1
 53
 
 
Figura 4.1. Formatos de dendrogramas 
 
A construção de um dendrograma pode ser esquematizada, de acordo com 
o exposto na Figura 4.2. Nessa Figura, inicialmente, os mais altos índices de 
correlação ocorrem entre as amostras D e E (0,66) e entre as amostras A e B 
(0,57) que irão constituir novos casos na matriz de correlações já pareadas. 
Nessa matriz os mais altos coeficientes de correlação ocorrem entre DE e F 
(0,41) e AB e C(0,29). Finalmente a correlação final ocorre ao nível de –0,59 entre 
ABC e DEF. 
 
 Figura 4.2. Esquema de construção de um dendrograma pelo método de 
agrupamentos pareados igualmente ponderados (adaptado de DAVIS, 1986) 
Dendrograma
Método: UPGM
Distância euclidiana
V
al
or
es
 p
ar
a 
ag
ru
pa
m
en
to
0
50
100
150
200
250
 C_9
 C_13
 C_6
 C_5
 C_8
 C_12
 C_4
 C_3
 C_2
 C_15
 C_14
 C_11
 C_10
 C_7
 C_1
 54
 
4.2.3. Coeficientes de Similaridade 
 Os coeficientes de similaridade mais usuais, obtidos num espaço 
multidimensional, podem ser subdivididos em três categorias: 
a) os que