cap_08_Técnicas de estatística multivariada aplicadas

•

Engenharias

ROBERTO PORDEUS

27/05/2021

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Irrigação e Drenagem

1.178 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Técnicas de estatística multivariada aplicadas
a estudos de qualidade de água e solo
Eunice M. de Andrade1, Ana C. M. Meireles1 & Helba A. Q. Palácio2
1 Universidade Federal do Ceará
2 Instituto Federal de Educação Ciência e Tecnologia do Ceará - Campus Iguatu
Manejo da salinidade na agricultura: Estudos básicos e aplicados
ISBN 978-85-7563-489-9
Fortaleza - CE
2010
Introdução
Estatística multivariada
Análise de agrupamento
Medidas de similaridade
Algoritmo de agrupamento
Número de grupos
Estudo de caso: Salinidade nos solos na Chapada do Apodi
Análise de componentes principais - ACP
Estudo de caso: Qualidade das águas na bacia hidrográfica do rio Acaraú, Ceará
Referências
INTRODUÇÃO
Nos últimos anos, a importância da água e do solo tem
se tornado cada vez mais evidente, tanto pela sua
escassez como pela larga demanda em decorrência do
crescimento da população mundial. A maior demanda
pela produção de alimentos vem impulsionando o uso da
irrigação, não só para complementar as necessidades
hídricas das regiões úmidas, mas também para tornar
produtivas as regiões áridas e semiáridas do globo.
A prática da irrigação, associada ao regime irregular
das chuvas e às elevadas taxas de evapotranspiração nas
regiões secas promovem alterações nos teores de sais
nos solos e nas águas com consequente elevação na
concentração de íons tóxicos. Ante esta condição, torna-
se imprescindível o conhecimento do status salino no
solo e na água, bem como quais os sais que estão se
acumulando, uma vez que os mesmos atuam
diferentemente sobre a estrutura do solo.
No monitoramento de sais adotam-se medidas de
múltiplos parâmetros, as quais são efetuadas em
diferentes épocas e originadas de diferentes áreas,
gerando uma complexa matriz multivariada de difícil
interpretação decorrente do grande número de
informações interdependentes contidas na mesma.
Em oposição a este fato, intuitivamente, o ser humano
tende a analisar as variáveis de um fenômeno qualquer
isoladamente e a partir desta análise fazer inferências
sobre a realidade. Esta simplificação tem vantagens e
desvantagens. Quando um fenômeno depende de muitas
variáveis, geralmente este tipo de análise falha, pois não
basta conhecer informações estatísticas isoladas, mas é
necessário também conhecer a totalidade destas
informações fornecida pelo conjunto das variáveis. Desta
maneira as relações existentes entre as variáveis não são
percebidas e assim efeitos antagônicos ou sinérgicos
entre variáveis dificultam a interpretação do fenômeno
(Everitt, 1993).
Um caminho que pode ser adotado para se reduzir
esta limitação é o emprego da estatística multivariada. A
denominação “Análise Multivariada” corresponde a um
grande número de métodos e técnicas que utilizam
simultaneamente todas as variáveis na interpretação
teórica do conjunto de dados obtidos, sendo, portanto,
ferramentas estatísticas que apresentam uma visão mais
global do fenômeno que aquela possível numa abordagem
univariada (Everitt & Dunn, 1991).
Há mais de duas décadas que pesquisadores de
diferentes partes do mundo (Nathan & MCmahon, 1990;
Mohan & Arumugam, 1996; Singh et al., 2004) vêm
empregando técnicas de estatística multivariada nas
ciências naturais para auxiliar na interpretação de
matrizes geradas pelo monitoramento dos processos
naturais multivariados. Recentemente, pesquisadores
como Andrade et al. (2008); Meireles (2007) e Palácio
(2004) iniciaram a aplicação de técnicas de estatística
multivariada - análise de agrupamento hierárquico e
análise fatorial/análise de componentes principais na
identificação de grupos similares e dos fatores
determinantes da qualidade das águas em áreas irrigadas
no estado do Ceará, respectivamente.
Neste capítulo serão apresentadas as etapas de como
se aplicar as técnicas de análise de agrupamento
hierárquico e análise fatorial/análise de componentes
principais em investigações sobre processos de salinidade
no solo e na água.
ESTATISTICA MULTIVARIADA
Análise de agrupamento
Pode-se dizer que análise de agrupamento consiste de
uma técnica multivariada cujo objetivo primário é formar
Técnicas de estatística multivariada aplicadas
a estudos de qualidade de água e solo
120 Eunice M. de Andrade et al.
grupos de objetos homogêneos com base na semelhança
de suas características. Deste modo, cada objeto deverá
apresentar a maior semelhança possível com outros no
agrupamento com relação aos critérios de seleção
predeterminados. Um dos métodos mais utilizado de
análise multivariada, para se classificar objetos em
categorias de similaridade, é a análise de agrupamento.
Os agrupamentos resultantes dos objetos deverão
então apresentar elevada homogeneidade interna (dentro
dos grupos) e elevada heterogeneidade externa (entre
grupos). De fato, trata-se de uma metodologia
classificatória com base em métodos numéricos onde se
considera um conjunto inicial de objetos aos quais são
associadas medidas de várias grandezas, denominadas
variáveis classificatórias. Essas grandezas são utilizadas
para se definir grupos de objetos similares em relação
aos valores assumidos por essas variáveis (Everitt, 1993).
Um ponto importante que não pode ser esquecido
pelo pesquisador, no momento de empregar a técnica de
análise de agrupamento, é investigar as unidades e as
escalas de grandeza das variáveis que serão empregadas
na definição de grupos homogêneos. A similaridade entre
as variáveis é extremamente dependente da escala e das
unidades em que as mesmas são expressas (Dillon &
Goldstein, 1984).
Esta dependência de escala ou unidade é superada
efetuando-se a padronização dos dados. A forma mais
comum de padronização é a conversão de cada variável
para escore padrão (escores Z), a qual consiste em
subtrair a média da variável X e dividir por seu desvio
padrão (Eq. 1). Este processo converte cada valor do dado
original em um valor padronizado para  = 0 e  = 1.
em que:
Xij - representa o valor observado da j-ésima e
i-ésima variável;
Xi - representa a média da amostra Xij;
Si - representa o desvio padrão da variável Xij;
Xsij - representa a observação da variável
j-ésima e i-ésima normalizada;
i = 1...m - variáveis;
j = 1...n - amostragens.
Finalizada a padronização dos dados, torna-se
necessário responder os seguintes pontos:
Qual a medida de similaridade ou de distância entre
os grupos a ser empregada?
Qual o algoritmo de agrupamento a ser selecionado?
Qual o número de grupos a ser formado?
A resposta a cada uma destas indagações será
abordada nos três sub-itens subsequentes.
Medidas de similaridade
Na análise de agrupamentos (cluster analysis), a
similaridade entre duas amostras pode ser expressa
como uma função da distância entre os dois pontos
representativos destas amostras no espaço n-
dimensional. A maneira mais usual de calcular a
distância entre dois pontos a e b no espaço n-dimensional
é conhecida por distância Euclidiana. No entanto,
existem outros métodos para se calcular distâncias, tais
como: quadrado da distância Euclidiana, a distância de
Mahalanobis, entre outras (Moita Neto & Moita, 1998).
Como em estudos de qualidade de água ou dos sais
no solo as variáveis classificatórias escolhidas são
variáveis reais e, portanto, são mensuradas em uma
escala de intervalo, convencionou-se adotar uma medida
de distância com propriedades métricas, tendo a escolha
recaída no quadrado da distância Euclidiana (Eq. 2), por
a mesma ser bastante utilizada em estudos de recursos
naturais (Nathan & MCmahon, 1990).
em que:
De é a distância Euclidiana; e Pp,j e Pk,j são as
variáveis quantitativas j dos pontos de amostragem p e k,
respectivamente.
Algoritmo de agrupamento
Muitos são os algoritmos propostos para se efetuar a
análise de agrupamento. O algoritmo ou conjunto de
regras mais usado no agrupamento de objetos similares
podem ser classificados em duas categorias: hierárquicos
e não hierárquicos. Existem basicamente dois tipos de
procedimentos hierárquicos de agrupamento
aglomerativos e divisivos.
Entre as técnicas supra citadas, será abordada a
hierárquicaaglomerativa, a qual produz um arranjo
hierárquico em forma de árvore, conhecido como
dendrograma, onde as amostras semelhantes, segundo as
variáveis escolhidas, são agrupadas entre si. A suposição
básica de sua interpretação é esta: quanto menor a
distância entre os pontos, maior a semelhança entre as
amostras (Moita Neto & Moita, 1998).
Uma primeira idéia do que seja um dendrograma é
apresentada na Figura 1. Este dendrograma expressa o
(1)
(2)
121Técnicas de estatística multivariada aplicadas a estudos de qualidade de água e solo
arranjo hierárquico da qualidade das águas coletadas em
sete pontos de amostragem no açude Orós, Ceará. O
arranjo de similaridade das águas do Orós se fundamentou
nos seguintes atributos: Condutividade Elétrica (CE), pH, Ca,
Mg, Na, K, Cl, HCO3, SO4, NH4, NO3, PT, PO4, Oxigênio
Dissolvido (OD), Demanda Bioquímica de Oxigênio (DBO),
sólidos totais, sólidos totais fixos e voláteis, total de sólidos
em suspensão, sólidos em suspensão fixos e voláteis,
turbidez, cor verdadeira e aparente, transparência,
temperatura e Razão de Adsorção de Sódio (RAS). As
informações utilizadas na elaboração deste dendrograma
são oriundas do projeto de pesquisa “Aplicabilidade de
sensoriamento remoto como sistema de suporte ao
monitoramento da qualidade das águas superficiais do
semiárido cearense”, financiado pelo CNPq.
Os cinco tipos de algoritmos aglomerativos mais
utilizados na definição de grupos semelhantes são: ligação
individual (single linkage), ligação completa (complete
linkage), ligação média (average linkage), método de
Ward (Ward’s method) e método do centróide (Centroid
method) (Hair et al., 2005).
No método de Ward, a distância entre dois
agrupamentos é a soma dos quadrados entre ambos, feita
sobre todas as variáveis. Em cada estágio do procedimento
de agrupamento, a soma interna de quadrados é
minimizada sobre todas as partições (o conjunto completo
de agrupamentos disjuntos ou separados) que podem
ser obtidas pela combinação de dois agregados do
estágio anterior. Esse procedimento tende a combinar
agrupamentos com um pequeno número de observações
(Hair et al., 2005).
Número de grupos
Possivelmente, a questão mais complexa quando se
utiliza a análise de agrupamentos é a determinação do
número final de classes a serem formadas (também
Figura 1. Dendrograma de análise de agrupamento hierárquico pelo método de Ward dos sete pontos de coleta de água
no açude Orós
chamada regra de parada). Infelizmente não existe um
procedimento padrão objetivo de seleção. Como não há
critério estatístico interno usado para inferência, tal como
os testes de significância estatística de outros métodos
multivariados, vários critérios e guias para tratar do
problema foram desenvolvidos.
O principal obstáculo é que existem muitos
procedimentos de ocasião (ad hoc), envolvendo técnicas
bastante complexas que devem ser computadas (Corrar
et al., 2009). Um tipo de regra de parada relativamente
simples é examinar alguma medida de similaridade ou
distância entre grupos. A parada deverá ocorrer quando
a distância de similaridade exceder a um valor
especificado ou quando ocorrer uma súbita elevação. As
medidas de similaridades, comumente, empregadas nesta
tomada de decisão são os coeficientes aglomerativos e
a distância reescalonada.
O coeficiente de aglomeração é particularmente
utilizado para uso em uma regra de parada que avalie
as mudanças no coeficiente em cada estágio do
processo hierárquico. Pequenos coeficientes indicam
que agrupamentos bem homogêneos estão sendo
fundidos. Reunir dois agregados de baixa similaridade
resulta em um elevado coeficiente ou uma grande
variação percentual no coeficiente. Desta forma, para
ajudar na identificação de grandes aumentos na
homogeneidade dos agrupamentos, calcula-se o
percentual de mudança no coeficiente de agrupamento
(Hair et al., 2005).
ESTUDO DE CASO: SALINIDADE NOS
SOLOS NA CHAPADA DO APODI
Para ilustrar a aplicação de análise de agrupamento
serão investigadas as concentrações de sais presentes no
122 Eunice M. de Andrade et al.
extrato de saturação do solo em áreas irrigadas e
campos naturais da Chapada do Apodi, Ceará.
A pesquisa foi desenvolvida em três áreas, sendo uma
com campos naturais (Mata Nativa) e duas irrigadas do
Distrito de Irrigação Jaguaribe-Apodi (DIJA), nos
municípios de Limoeiro do Norte e Quixeré. As áreas
estão localizadas entre as coordenadas geográficas
05o06’38” e 05o11’39” de latitude Sul e ao Oeste de
Greenwich entre os paralelos 37o52’21” e 37o56’05” de
longitude. A região apresenta clima quente e semi-árido,
BSw’h’, com temperatura média mensal sempre superior
a 18 ºC. A pluviosidade média de 750 mm, sendo que o
período mais seco ocorre de julho a dezembro. A
evaporação média anual da região é de 3.215 mm e a
umidade relativa média anual é de 62%.
O questionamento a ser investigado será: Tomando-
se variáveis indicadoras da salinidade do solo, é possível
identificar padrões significativos de similaridade ou
dissimilaridade, que permitam afirmar a existência de
grupos semelhantes ou distintos entre e dentre os solos
explorados pela agricultura irrigada e sob condições de
campos naturais?
As variáveis selecionadas na investigação foram
CEes (Condutividade Elétrica do extrato de saturação do
solo), Ca2+ + Mg2+, Cl-, Na+ e K+ e a RAS (Razão de
Adsorção do Sódio). As análises resultaram em uma
matriz de 6 colunas e 30 linhas totalizando 180 entradas
(Tabela 1). Optou-se por uma matriz de poucas entradas
para uma melhor compreensão e interpretação dos dados
obtidos pela técnica de análise de agrupamento.
Entre os pacotes computacionais que executam
análises multivariadas e que podem ser usados sem
grandes dificuldades por iniciantes em estatística
multivariada cita-se o SPSS, MINITAB e Stata.
Destaca-se que o SPSS, v. 13 ou superior apresenta a
elaboração de gráficos de boa qualidade e de uma
interface bem amigável.
Investigando-se a matriz (Tabela 1) observa-se que
os dados apresentam três unidades distintas (dS m-1,
mmolc L-1, (mmolc L-1)0,5) e números variando em até
1 Local, camada e data de coleta de solo. DJ –DIJA, MN – mata nativa e QX - Quixeré
Tabela 1. Dados empregados na investigação de similaridade das condições salinas em solos da Chapada do Apodi, Ceará
0 - 30
30 - 60
0 - 30
30 - 60
0 - 30
30 - 60
(mmol L-1)0,5
123Técnicas de estatística multivariada aplicadas a estudos de qualidade de água e solo
três magnitudes (0,04 – 35,96), portanto os dados
necessitam ser padronizados para ( = 0;  = 1). Os
pacotes estatísticos que executam este tipo de análise
oferecem a opção de padronizar os dados por ocasião de
realização das análises, não havendo a necessidade de
efetuar a padronização antecipadamente. Bem como, em
caso de matrizes compostas por um grande número de
colunas e linhas, se torna imprópria a realização de uma
padronização antecipada.
Como já definido anteriormente no início deste
capítulo, a similaridade foi estimada por meio da distância
Euclidiana ao quadrado, uma vez que se trata de
variáveis quantitativas, e na definição dos agregados
empregou-se o algoritmo de Ward. A escolha recaiu
sobre o método de Ward devido o mesmo ser usado por
diferentes pesquisadores em estudos de água e solo
(Palácio et al., 2009; Meireles, 2007; Andrade, 1997).
O resultado final da técnica de análise multivariada/
análise de agrupamento é expresso em um gráfico com
forma de árvore, conhecido como dendrograma (Figura
2). De acordo com o output gerado observa-se
claramente a existência da similaridade e dissimilaridade
entre os objetos investigados (Na+, Cl-, Ca2+ + Mg2+, K+,
CEes e a RAS para distintas camadas, datas e local de
coletas). O dendrograma expressa claramente que a
similaridade da salinidade do solo para as áreas
estudadas foi definida pelo uso da terra, não ocorrendo
uma maior influência da variabilidade temporal ou
espacial. Na construção dos arranjos, os objetos
representativos da área não cultivada se agruparam
separadamente daqueles que representam as áreas
irrigadas do DIJAe do Quixeré de forma independente
da data de amostragem.
Neste estudo, o número ótimo de grupos a serem
formados foi definido examinando-se a medida de
similaridade ou distância entre grupos, a cada passo. A
solução foi definida quando os sucessivos valores entre
os passos tiveram uma súbita elevação, evidenciando um
substancial decréscimo na similaridade (Tabela 2).
Figura 2. Dendrograma das amostras de solos agrupadas
quanto a concentração iônica em áreas de mata nativa e
campos irrigados na Chapada do Apodi, Ceará
Tabela 2. Coeficientes de agrupamentos gerados para
determinação do ponto ótimo de corte
No dendrograma estes aumentos são representados
pelos maiores valores da distância reescalonada da
combinação de agregados (Corrar et al., 2009). Este fato
foi registrado entre o estágio 28 e 29 quando a diferença
entre os coeficientes de aglomeração foi de 48%, o que
corresponde a uma variação na distância reescalonada
de 12,9, originando dois grupos.
O grupo 1 contém todas as coletas realizadas nos
solos da Mata Nativa, nove oriundas do DIJA e uma do
Quixeré, independentemente da profundidade amostrada
ou da época de coleta. Identifica-se que dentro do grupo,
as variáveis investigadas (Na+, Cl-, Ca2+ + Mg2+, K+,
124 Eunice M. de Andrade et al.
CEes e a RAS para distintas camadas, datas e local de
coletas) para a mata nativa apresentaram a maior
similaridade, visto que todos os objetos se uniram com o
menor valor da distância reescalonada. A homogeneidade
das variáveis para a Mata Nativa expressa a sua
condição de equilíbrio com relação aos sais solúveis no
extrato de saturação do solo.
Percebe-se, também, que embora não exista
diferença significativa ao nível de 5% entre os objetos
que compõem o grupo 1, existe uma dissimilaridade entre
as informações representativas da mata nativa e aquelas
oriundas do DIJA e do Quixeré. Esta diferença expressa
a sensibilidade do teste em identificar as diferenças entre
os objetos do mesmo grupo, embora a diferença entre as
mesmas não seja estatisticamente significativa.
O grupo 2 foi composto por nove informações
provenientes das amostras realizadas no campo irrigado
do Quixeré e uma oriunda do DIJA, expressando uma
completa dissimilaridade das informações da Mata Nativa,
visto que nenhuma informação desta área se faz
presente neste grupo. Investigando-se o dendrograma
com um pouco mais de detalhe se observa que as
informações representativas da profundidade de 15 cm
(QX15) para as datas de 11/2001 e 12/2001 apresentam
um menor grau de homogeneidade em relação as
informações representativas das outras datas e camadas.
Esta característica identificada pelo teste de
agrupamento pode ser confirmada na Tabela 1, onde se
observa que os maiores valores dos atributos
investigados foram registrados nestes dois meses.
O grupo 2 é composto por solos que receberam
maiores adições de sais pelo manejo da irrigação. Estes
maiores acúmulos podem ser explicados pela qualidade da
água empregada na irrigação, C3S1, e pelo emprego da
fertiirrigação (D’Almeida, 2002). Destaca-se que embora
no período estudado o total precipitado (1.275 mm) tenha
sido 62% superior a média da região, a mesma não foi
suficiente para efetuar a lixiviação dos sais adicionados
pelo manejo da irrigação. Portanto a técnica de análise de
agrupamento mostra-se como uma ferramenta que pode
ser empregada na identificação de áreas similares com
maiores ou menores riscos de salinidade
ANALISE DE COMPONENTES
PRINCIPAIS - ACP
A análise de componentes principais (ACP) é uma
técnica estatística de análise multivariada, que
transforma linearmente um conjunto original de variáveis
num conjunto substancialmente menor de variáveis não
correlacionadas, que contêm a maior parte das
informações do conjunto original. Esta idéia foi
desenvolvida por Hotteling (1933), embora Pearson
(1901) já o tivesse lançado de forma geométrica. O
objetivo da ACP é similar ao da Análise Fatorial, no
sentido de que ambas as técnicas tentam explicar parte
da variabilidade de um conjunto de dados.
Resumidamente, a principal diferença entre as duas
técnicas é a de que a ACP parte da ausência de um
modelo estatístico e focaliza a explicação da variância
total das variáveis observadas, baseando-se nas
propriedades da variância máxima dos componentes
principais. A análise fatorial, por outro lado, parte de um
modelo estatístico prévio que divide a variância total
(Dunteman, 1989). Atualmente, estas técnicas são
também utilizadas no campo da sociologia, medicina,
tecnologia de alimentos, educação, economia, agronomia,
liminologia e hidrologia (Shoji et al., 1966; Possoli, 1984;
Vidal et al., 2000; Bressan et al., 2001; Silveira &
Andrade, 2002).
Esta técnica possibilita, em investigações com um
grande número de dados disponíveis, a identificação das
medidas responsáveis pelas maiores variações entre os
resultados sem perdas significativas de informações. O
conjunto de dados referentes a um trabalho contém muitas
inter-relações imperceptíveis numa avaliação inicial, pois
os resultados correspondentes às variáveis podem ser
diferentes em ordem de magnitude. Assim, na ACP, os
valores das medidas são transformados em escalas
padronizadas, onde as distâncias entre os pontos individuais
(dados referentes a uma unidade experimental) são
interpretadas em termos de similaridade padrão, e o
tamanho da variação é representado pela extensão do
vetor a partir do ponto de origem.
Um problema comumente encontrado na aplicação
de modelos estatísticos multivariados é que estes são
dependentes das unidades e escalas em que as variáveis
foram medidas (Nathan & MCmahon, 1990). Por
exemplo, enquanto a condutividade elétrica é expressa
em desissimens por metro (dS m-1); o cálcio é
determinado em milimol carga por litro (mmolc L-1), o pH
(admensional) e os sólidos suspensos em miligrama por
litro (mg L-1).
A solução padrão para este problema é a
normalização dos dados ( = 0;  = 1). Esta forma é
assumida pelas variáveis no momento em que se calcula
a matriz de correlação. A nível de entendimento serão
apresentadas as etapas de como efetuar o cálculo da
matriz de correção, no entanto esclarece-se que todo
este processo é efetuado pelo pacote computacional que
executa análises multivariadas.
Os dados em forma de matriz corrigida são
representados pelas Eqs. 3 e 4.
(3)
125Técnicas de estatística multivariada aplicadas a estudos de qualidade de água e solo
em que:
Xd - matriz da variável corrigida;
X - matriz dos dados na dimensão (N = amostragens
x M = variáveis);
a’ - [a11 a22 ...a1M]; sendo a = 1
representa a matriz linha contendo a média das M
variáveis.
A variância da amostra pode ser calculada para cada
variável Xd como:
Normalização é efetuada empregando-se as Eq. 5 e
6.
em que:
D-1/2 - representa a matriz da variância individual
da i-ésima variável, a qual é uma matriz diagonal na
forma:
em que:
S = Xd’Xd representa matriz da soma dos quadrados
dos valores corrigidos pela média
Após a definição da matriz de correlação, deve-se
realizar a inspeção entre as variáveis com o objetivo de
se identificar as variáveis mais específicas, visto que a
finalidade da ACP é obter “fatores” que ajudem a
explicar estas correlações. Para averiguar se o modelo
da ACP pode ser aplicado aos dados levantados neste
estudo deve-se aplicar o teste proposto por Kaiser,
Meyer e Olkin (1974), apresentado por Norusis (1990).
O teste Kaiser-Meyer-Olkin (KMO) é um índice que
compara a magnitude de coeficientes de correlação
observada e as magnitudes dos coeficientes de
correlação parciais, sendo computado pela Eq. 8.
em que:
rij - coeficiente de correlação simples entre a variável
i e j;
aij - coeficiente de correlação parcial entre a variável
i e j.
Se a soma do quadrado dos coeficientes de
correlação parciais entre todos os pares de variáveis for
pequena quando comparada à soma dos coeficientes de
correlação simples ao quadrado, a medida de KMO será
próxima de um. Valores pequenos para KMO indicam
que o modelo de análise de fator não deve ser
empregado.Os intervalos do teste podem ser vistos na
Tabela 3.
A ACP pode ser representada, geometricamente, sob
a forma de uma nuvem de pontos individuais das
em que:
Xs - matriz dos dados normalizados composta pelos
valores Xij (i = M e j = N)
A Matriz de Correlação, R, é calculada empregando-
se da Eq. 7. Adaptada por Silveira e Andrade (2002).
Tabela 3. Intervalo de validade do teste KMO, para aplicação
do modelo de análise de fator
(4)
(5)
(6)
(7)
(8)
126 Eunice M. de Andrade et al.
variáveis no espaço. Os fatores ou eixos principais saídos
de uma ACP fornecem imagens aproximadas dessa
nuvem de pontos e a ACP propõe-se a medir a qualidade
dessa aproximação (Dunteman, 1989). Na realidade a
ACP fundamenta-se em encontrar os autovalores e
autovetores da matriz de covariância amostral. Os
autovalores da matriz expressam a variância de cada
componente principal. Quanto maior o autovalor, maior é
sua capacidade de resumir as variáveis e, portanto, maior
explicabilidade é apresentada por este fator. Um
autovalor inferior a 1,0 indica que o eixo sintetiza menos
dados que uma variável isolada.
A determinação do número de fatores representativos
dos dados deve se fundamentar no preceito que se tenha
um menor número de fatores com a máxima
explicabilidade da variância contida nos dados originais.
Foram propostos vários procedimentos para determinar
o número de fatores para ser usado em um modelo.
Porém, o critério mais aceito pela comunidade científica
é aquele em que apenas fatores com variância maior que
um (autovalores maiores que um) sejam incluídos
(Norusis, 1990). Este critério fundamenta-se no fato de
que qualquer fator deve explicar uma variância superior
àquela apresentada por uma simples variável. Os fatores
são chamados de componentes principais, que são
formados por combinações lineares das variáveis
observadas. O primeiro componente principal é a
combinação entre as variáveis que respondem pela maior
quantidade de variância na amostra. O segundo
componente principal responde pela segunda maior
variância sem estar correlacionada com a primeira.
Componentes sucessivos explicam porções
progressivamente menores da variância da amostra total,
sem apresentarem correlação com os componentes
anteriores (Manly, 2008).
Segundo Norusis (1990), o modelo matemático para
análise de fator apresenta semelhança com uma equação
de regressão múltipla. Cada variável é expressa como
uma combinação linear de fatores que não são
observados de fato.
O modelo para a i-ésima variável normalizada é
escrito através da regressão linear múltipla entre fatores:
em que:
F - fatores comuns, isto é, uma nova variável;
Ai - constantes de ajuste do modelo (i = 1, ... L );
 - erro experimental;
L - total de fatores.
O modelo assume que os erros experimentais não têm
correlação com os fatores comuns. Os fatores são
deduzidos das variáveis observadas e podem ser
calculados como combinações lineares. É possível que
todas as variáveis contribuam para um dado fator, no
entanto, espera-se que o fator seja caracterizado por um
único subconjunto de variáveis com elevados coeficientes.
Os fatores são obtidos através da combinação linear das
variáveis normalizadas observadas (Eq. 10):
em que:
W - coeficiente de contagem de cada fator;
XSi - valor de cada variável normalizada,
M - número de variáveis.
Mesmo com a matriz de componentes obtidos na fase
de extração, onde o resultado descreve a relação entre os
fatores e as variáveis individuais, às vezes este resultado
é de difícil interpretação dos fatores significantes. Para
superar esta limitação efetua-se a rotação da análise de
fator, a qual transforma a matriz em uma outra de mais
fácil interpretação (Dillon & Goldstein, 1984).
A rotação não afeta o valor de ajuste de uma solução
de fator; ou seja, embora a matriz de fator mude, a
percentagem de variância total explicada não é alterada.
A percentagem de variância considerada por cada um
dos fatores faz, porém, a mudança.
Um método de rotação que vem sendo bastante
empregado pelos pesquisadores (Palácio, 2004; Mondal
et al., 2010; Huang et al, 2010) é o Varimax. O referido
método tem por finalidade minimizar a contribuição das
variáveis com menor significância no fator, e assim, as
variáveis passam a apresentar pesos próximos a um ou
zero, eliminando os valores intermediários, que dificultam
a interpretação dos fatores (Wunderlin et al., 2001).
Para uma melhor compreensão da aplicação da
Análise de componentes principais apresentaremos um
estudo de caso sobre a investigação da qualidade das
águas na bacia do Acaraú, Ceará.
ESTUDO DE CASO: QUALIDADE DAS ÁGUAS
NA BACIA HIDROGRÁFICA DO RIO
ACARAÚ, CEARÁ
A referida bacia está localizada ao norte do Estado do
Ceará e detém uma área de 10.000 km2, abrangendo 15
municípios, com uma população de 314.455 habitantes. A
capacidade de acumulação da bacia é de
(9)
(10)
127Técnicas de estatística multivariada aplicadas a estudos de qualidade de água e solo
aproximadamente 1.215.390.000m3, distribuída nos
principais açudes: o Araras Norte, no rio Acaraú, no
município de Varjota, com capacidade de 860,96 milhões
de m3; o Edson Queiroz, localizado no rio Groaíras,
município de Santa Quitéria, com capacidade de 250
milhões de m3; e o Forquilhas, no rio Madeira, município
de Sobral, com capacidade de 50,13 milhões de m3
(DNOCS, 1977). Na bacia estão inseridos quatro
perímetros irrigados a saber: Araras Norte, São Vicente,
Forquilhas e Baixo Acaraú.
O clima da região é do tipo BSw’h’ – semiárido
quente com precipitações de outono e temperaturas
médias mensais sempre superiores a 18 ºC. A
pluviosidade média anual da bacia é de aproximadamente
938 mm, com estação chuvosa ocorrendo geralmente de
janeiro/fevereiro a maio/junho, concentrando-se 80% nos
meses de março e abril. A evapotranspiração média
anual, estimada por tanque classe “A”, é de 1.900 mm
e a média da umidade relativa do ar situa-se em torno de
70%. Predominam na bacia solos como Luvissolos e
Neossolos (CEARÁ, 1992).
O questionamento para esta pesquisa será: Levando-
se em consideração a condição natural, as atividades
agropecuárias, a agricultura irrigada e a presença de
aglomerados populacionais existentes na bacia, é possível
identificar quais os fatores que determinam os
indicadores da qualidade da água?
As variáveis selecionadas na investigação foram: pH,
temperatura, cor, turbidez, nitrato, amônia total, amônia
livre, amônia ionizada, sódio, cloretos, potássio, sulfato,
dureza, cálcio, magnésio, alcalinidade total, alcalinidade
do bicarbonato, condutividade elétrica, sólidos suspensos,
oxigênio dissolvido (OD), demanda bioquímica de
oxigênio (DBO), fósforo total, ortofosfato solúvel,
clorofila “a”, coliformes totais e coliformes
termotolerantes.
A associação entre as variáveis que influenciam a
qualidade das águas superficiais foi identificada mediante
as técnicas de estatística multivariada, Análise Fatorial/
Análise de Componentes Principais (AF/ACP). Tendo
por base os dados normalizados foi construída a matriz
de correlação com todas as variáveis estudadas.
Para averiguar se o modelo da ACP poderia ser
aplicado aos dados levantados neste estudo foi aplicado
um teste de adequacidade do modelo AF/ACP. O teste
de adequacidade aplicado ao modelo foi o Kaiser-Meyer-
Olkin (KMO), o qual apresentou um índice igual a 0,625
(regular), demonstrando que o modelo promoverá
significante redução na dimensão dos dados originais. A
matriz resultante neste exemplo foi formada por 16
colunas e 16 linhas totalizando 256 entradas.
Após avaliar a adequacidade do modelo, realizou-se
a extração dos fatores/componentes sendo selecionado
um modelo com três componentes. Os pesos fatoriais
atribuídos a cada componente, bem como a percentagem
da variância total explicada por cada componente, podem
ser vistos na Tabela 4. Nota-se que os três primeiros
componentes explicaram respectivamente 46,44, e 25,12
e 16,62% da variância total dos dados, concentrando em
três dimensões 88,18% das informações antes dissolvidas
em 16 dimensões.
CP– Componente Principal.
Tabela 4. Matriz do peso fatorial das variáveis nos três
componentes principais selecionados
Os valores elevados dos pesos fatoriais sugerem
quais são as variáveis mais significativas em cada fator,
explicando, assim, o relacionamento entre um conjunto de
variáveis. No primeiro CP, as variáveis CE, sódio,
alcalinidade do bicarbonato, dureza, cloreto, cálcio e
magnésio apresentaram um peso superior a 0,82,
indicando que estas variáveis são as mais significativas
na definição da qualidade da água estudada, evidenciando
que o CP 1 está relacionada com o processo natural de
intemperismo dos componentes geológicos do solo
(Brodnjak-Voncina et al., 2002).
Já o segundo CP é explicado, principalmente, pelas
variáveis pH, sólidos suspensos, sulfato, potássio e nitrato
(peso > 0,62), as quais indicam o uso da terra pela
agropecuária. A presença do nitrato em águas
superficiais pode ter sua origem em fertilizantes
orgânicos, enquanto que o sulfato e o potássio em
fertilizantes químicos (Elmi et al., 2004). O CP 3
apresentou uma maior interrelação com cor e turbidez
Condutividade elétrica
128 Eunice M. de Andrade et al.
(peso >0,8), sugerindo serem estas as únicas variáveis
significativas neste componente. Este componente,
basicamente, expressa o efeito do escoamento superficial
com uma carga de sedimentos oriundos das áreas
agrícolas e a contribuição de esgotos e resíduos sólidos
dispostos, inadequadamente, próximos às margens dos
cursos d’águas. Segundo dados do Censo 2000 (IBGE,
2002), 40% dos domicílios da área urbana e 99% da área
rural realizam a queima, enterram ou dispõem o lixo em
terreno baldio, rio, lago, mar ou então destino que não a
coleta.
De um modo geral, a matriz do peso fatorial (Tabela
4) apresenta dificuldades na identificação das variáveis
mais significativas, em decorrência de valores muito
próximos entre si (Dillon & Goldstein, 1984). Para
suplantar essa limitação, aplicou-se a transformação
ortogonal pelo emprego do algoritmo Varimax. A adoção
da matriz transformada, neste estudo, gerou mudanças
significativas em relação à matriz original (Tabela 5).
Pisuerga, na Espanha. O CP 2 passou a ser composta
por sulfato, nitrato, fósforo total, ortofosfato solúvel e
potássio, sendo eliminado o percentual de explicação da
variância pelo pH para esta componente.
O CP 2 sugere que as atividades agrícolas e pastoris
da região, fontes de poluição difusa, influenciam
significativamente a concentração dos nutrientes nas
águas superficiais. O nitrato e o fósforo, elementos
definidos pela literatura como indicadores das atividades
agropecuárias (Brooks et al., 1992; Palácio, 2004; Elmi
et al., 1996), fazem-se presentes nesse componente com
pesos superiores a 0,8. O CP 3 mostrou inter-relação com
a cor, a turbidez, os sólidos suspensos e o pH,
apresentando-se como um fator de transporte de
sedimentos. Os altos pesos (> 0,96) atribuídos à cor e à
turbidez podem ser explicados pelas características
climáticas das regiões semiáridas (baixa cobertura
vegetal e chuvas de alta intensidade).
Verifica-se assim, que o emprego da Análise Fatorial/
Análise de Componentes Principais (AF/ACP) é uma
técnica adequada para ser empregada na identificação
dos fatores determinantes da qualidade das águas, bem
como concentrar em poucos fatores a explicabilidade da
variância antes dissolvida em um grande número de
variáveis.
REFERÊNCIAS
Andrade, E. M. Regionalization of average annual runoff
models for ungaged watersheds in arid and semiarid
regions. Tucson: School of Renewable Natural Resources.
The University of Arizona, 1997. 192p. Ph.D Thesis
Andrade, E. M.; Palácio, H. A. Q.; Crisóstomo, L. A.; Souza,
I. H.; Leão, R. A. O.; Guerreiro, M. J. Land use effects in
groundwater composition of an alluvial aquifer (Trussu
River, Brazil) by multivariate techniques. Environmental
Resource, v.106, p.170–177, 2008. doi: 10.1016/j.envres.
2007.10.008
Bressan, M. C.; Beraquet, N. J.; Lemos, A. L. S. C.
Características de qualidade de carne em peito de frango
utilizando a análise da componente principal. Boletim da
Sociedade Brasileira de Ciência e Tecnologia de Alimentos.
n. 35, 2001.
Brodnjak-Voncina, D. Dobcnik, D.; Marjana Novic, M.; Zupan,
J. Chemometrics characterisation of the quality of river
water. Analytica Chimica Acta, v.462, p.87-100, 2002.
Brooks, K. N.; Falliott, P. E.; Gregersen, H. M.; Thames, J. L.
Hydrology and the management of watersheds. 1. ed.
Ames: Iowa State University, 1992. 392p.
Ceará, Secretaria dos Recursos Hídricos. Plano estadual dos
recursos hídricos: estudo de base II. v.2. Fortaleza, CE,
1992. 1471p.
Corrar, L. J.; Paulo, E.; Dias Filho, J. M. Análise multivariada
para os cursos de administração, ciências contábeis e
economia. 1. ed. 2. reimpr. São Paulo: Atlas, 2009. 541p.
Tabela 5. Fatores dos componentes da matriz transformada
pelo algoritmo Varimax
CP – Componente Principal.
Após a rotação, CP 1 expressou uma maior
associação com os parâmetros indicadores do
enriquecimento por íons solúveis (pesos > 0,941). Uma
menor associação foi registrada com o cloreto, ocorrendo
um acréscimo do indicativo da origem de sais não
naturais, os quais podem ser atribuídos ao aporte de
esgotos ao rio ou ao carreamento de fertilizantes
químicos. Helena et al. (2000) associaram a contribuição
de esgotos residenciais e industriais a uma maior
concentração de cloreto nas águas aluvionais do rio
129Técnicas de estatística multivariada aplicadas a estudos de qualidade de água e solo
D’Almeida, M. B. A. Risco de salinização de um cambissolo na
chapada do Apodi-CE.Fortaleza: UFC, 2002. 68p.
Dissertação Mestrado
Dillon, W. R.; Goldstein, M. Multivariate analysis methodos
and applications. New York: John Wiley & Sons, 1984.
587p.
DNOCS. Plano director do Vale do Acarau. Disgnóstico.V. 1
Fortaleza, 1977. 136p.
Dunteman, G. H. Principal components analysis. 1st. ed.
London: Sage, 1989. 96p.
Elmi, A. A.; Madramootoo, C. A.; Hamel, C. Water and fertilizer
nitrogen management to minimize nitrate polution from a
cropped soil in southwestern Quebec Canada. Water Air
and Soil Polution, v. 151, n. 1, p. 117-134, 2004.
Everitt, B. S.; Dunn, G. Applied multivariate analysis. London:
Edward Arnold, 1991. 400p.
Everitt, B .S. Cluster analysis. 3rd ed. London: Heinemann
Educational Books, 1993. 122p.
Helena, B.; Pardo, R.; Vega, M.; Barrado, E.; Fernandez J. M.;
Fernandez, L. Temporal evolution of groundwater
composition in an alluvial aquifer (Pisuerga river, Spain) by
principal component analysis. Water Research, v.34, n.3,
p.807-816, 2000.
Hair, J. F.; Anderson, R. E.; Tatham, R. L.; Black, W. C. Análise
Multivariada de Dados. Trad. Santanna, A. S.; Chaves
Neto, A. 1. Ed. Porto Alegre: Bookman, 2005. 593p.
Hotteling, H. Analysis of a complex of statistical variables into
principal components. Journal Education Psychology, v.24,
p. 498-520, 1933.
Huang, F.; Wang, X.; Lou, L.; Zhou, Z.; Wu, J. Spatial
variation and source apportionment of water pollution in
Qiantang river (China) using statistical techniques. Water
Research, v. 44, p. 1562-1572, 2010.
IBGE. Indicadores de desenvolvimento sustentável: Brasil
2002. Rio de Janeiro, 2002. 195p.
Manly, B. F. J. Métodos estatísticos multivariados: Uma
introdução. 3. ed. Porto Alegre: Bookman, 2008. 229p.
Meireles, A. C. M. Dinâmica qualitativa das águas superficiais
da bacia do Acaraú e uma proposta de classificação para
fins de irrigação. Fortaleza: UFC, 2007. 180p. Tese
Doutorado
Mohan, S.; Arumugam, N. Relative importance of
meteorological variables in evapotranspiration: Factor
analysis approach. Water Resources Management, v.10,
p.1-20, 1996.
Moita Neto, J. M.; Moita, G. C. Uma introdução à análise
exploratória de dados multivariados. Química Nova. v.21,
n. 4, p. 467- 469, 1998.
Mondal, N. C.; Singh, V. P.; Singh, V. S.; Saxena, V. K.
Determining the interaction between groundwater and
saline water through groundwater major ions chemistry.
Journal of Hidrology, v. 388, p. 100-111, 2010.
Monteiro, V. P.; Pinheiro, J.C. V. Critério para implantação de
tecnologias de suprimentos de água potável em
municípios cearenses afetados pelo alto teor de sal.
Revista de Economia e Sociologia Rural, v.42, n.2, p.365-
387, 2004.
Nathan, R. J.; MCmahon, T. A. Identification of homogeneous
regions for the purposes of regionalization. Journal of
Hydrology, v.121, p.217-238, 1990.
Norusis, M. J. SPSS Base system user’s guide. Chicago: SPSS
Inc, 1990. 520 p.
Palácio, H. A. Q.; Andrade, E. M.; Lopes, F. B.; Alexandre, D.
M. B.; Arraes, F. D. D. Similaridade da qualidade das águas
superficiais da bacia do Curu, Ceará. Ciência Rural, v.39,
n.9, p. 2494-2500, 2009.
Palácio, H. A. Q. Índice de qualidade de água na parte baixa
da bacia hidrográfica do rio Trussu - CE. Fortaleza: UFC,
2004, 95p. Dissertação Mestrado
Pearson, K. On lines and planes of closest fitto systems of
points in space. Philos. Mag., v.2, p. 559-572, 1901.
Possoli, S. Técnicas de análise multivariada pela avaliação das
condições de saúde dos municípios do Rio Grande do Sul,
Brasil. Revista de Saúde Pública, v.18, p.288-300, 1984.
Shoji, H.; Yamanote, T.; Nakamura, T. Factor analysis on stream
pollution of the Yodo river system. Air & Water Pollution,
v. 10, p. 291-299, 1966.
Silveira, S. S.; Andrade, E. M. Análise de componente
principal na investigação da estrutura multivariada da
evapotranspiração. Engenharia Agrícola, v. 22, n. 2, p. 171-
177, 2002.
Singh, K. P.; Mailk, A.; Mohan, D.; Sinha, S. Multivariate
statistical techniques for the evaluation of spatial and
temporal variations in water quality of Gomti River (Índia)
– a case study. Water Research, v.38, n.18, p.3980-3992,
2004.
Vidal, M.; López, A.; Santoalla, M. C.; Valles, V. Factor analysis
for the study of water resources contamination due to the
use of livestock slurries as fertilizer. Agricultural Water
Management, v. 45, p. 1-15, 2000.
Wunderlin, D. A.; Díaz, M del P.; amé, M. V.; Pesce, S. F.; Hued,
A. C.; Bistoni, M. de L. A. Pattern recognition techniques
for the evaluation of spatial and temporal variations in
water quality. A case study: Suquía river basin (Córdoba-
Argentina). Water Research, Amsterdam, v. 35, n. 1, p.
2881-2894, 2001.