Baixe o app para aproveitar ainda mais
Prévia do material em texto
Técnicas de estatística multivariada aplicadas a estudos de qualidade de água e solo Eunice M. de Andrade1, Ana C. M. Meireles1 & Helba A. Q. Palácio2 1 Universidade Federal do Ceará 2 Instituto Federal de Educação Ciência e Tecnologia do Ceará - Campus Iguatu Manejo da salinidade na agricultura: Estudos básicos e aplicados ISBN 978-85-7563-489-9 Fortaleza - CE 2010 Introdução Estatística multivariada Análise de agrupamento Medidas de similaridade Algoritmo de agrupamento Número de grupos Estudo de caso: Salinidade nos solos na Chapada do Apodi Análise de componentes principais - ACP Estudo de caso: Qualidade das águas na bacia hidrográfica do rio Acaraú, Ceará Referências INTRODUÇÃO Nos últimos anos, a importância da água e do solo tem se tornado cada vez mais evidente, tanto pela sua escassez como pela larga demanda em decorrência do crescimento da população mundial. A maior demanda pela produção de alimentos vem impulsionando o uso da irrigação, não só para complementar as necessidades hídricas das regiões úmidas, mas também para tornar produtivas as regiões áridas e semiáridas do globo. A prática da irrigação, associada ao regime irregular das chuvas e às elevadas taxas de evapotranspiração nas regiões secas promovem alterações nos teores de sais nos solos e nas águas com consequente elevação na concentração de íons tóxicos. Ante esta condição, torna- se imprescindível o conhecimento do status salino no solo e na água, bem como quais os sais que estão se acumulando, uma vez que os mesmos atuam diferentemente sobre a estrutura do solo. No monitoramento de sais adotam-se medidas de múltiplos parâmetros, as quais são efetuadas em diferentes épocas e originadas de diferentes áreas, gerando uma complexa matriz multivariada de difícil interpretação decorrente do grande número de informações interdependentes contidas na mesma. Em oposição a este fato, intuitivamente, o ser humano tende a analisar as variáveis de um fenômeno qualquer isoladamente e a partir desta análise fazer inferências sobre a realidade. Esta simplificação tem vantagens e desvantagens. Quando um fenômeno depende de muitas variáveis, geralmente este tipo de análise falha, pois não basta conhecer informações estatísticas isoladas, mas é necessário também conhecer a totalidade destas informações fornecida pelo conjunto das variáveis. Desta maneira as relações existentes entre as variáveis não são percebidas e assim efeitos antagônicos ou sinérgicos entre variáveis dificultam a interpretação do fenômeno (Everitt, 1993). Um caminho que pode ser adotado para se reduzir esta limitação é o emprego da estatística multivariada. A denominação “Análise Multivariada” corresponde a um grande número de métodos e técnicas que utilizam simultaneamente todas as variáveis na interpretação teórica do conjunto de dados obtidos, sendo, portanto, ferramentas estatísticas que apresentam uma visão mais global do fenômeno que aquela possível numa abordagem univariada (Everitt & Dunn, 1991). Há mais de duas décadas que pesquisadores de diferentes partes do mundo (Nathan & MCmahon, 1990; Mohan & Arumugam, 1996; Singh et al., 2004) vêm empregando técnicas de estatística multivariada nas ciências naturais para auxiliar na interpretação de matrizes geradas pelo monitoramento dos processos naturais multivariados. Recentemente, pesquisadores como Andrade et al. (2008); Meireles (2007) e Palácio (2004) iniciaram a aplicação de técnicas de estatística multivariada - análise de agrupamento hierárquico e análise fatorial/análise de componentes principais na identificação de grupos similares e dos fatores determinantes da qualidade das águas em áreas irrigadas no estado do Ceará, respectivamente. Neste capítulo serão apresentadas as etapas de como se aplicar as técnicas de análise de agrupamento hierárquico e análise fatorial/análise de componentes principais em investigações sobre processos de salinidade no solo e na água. ESTATISTICA MULTIVARIADA Análise de agrupamento Pode-se dizer que análise de agrupamento consiste de uma técnica multivariada cujo objetivo primário é formar Técnicas de estatística multivariada aplicadas a estudos de qualidade de água e solo 120 Eunice M. de Andrade et al. grupos de objetos homogêneos com base na semelhança de suas características. Deste modo, cada objeto deverá apresentar a maior semelhança possível com outros no agrupamento com relação aos critérios de seleção predeterminados. Um dos métodos mais utilizado de análise multivariada, para se classificar objetos em categorias de similaridade, é a análise de agrupamento. Os agrupamentos resultantes dos objetos deverão então apresentar elevada homogeneidade interna (dentro dos grupos) e elevada heterogeneidade externa (entre grupos). De fato, trata-se de uma metodologia classificatória com base em métodos numéricos onde se considera um conjunto inicial de objetos aos quais são associadas medidas de várias grandezas, denominadas variáveis classificatórias. Essas grandezas são utilizadas para se definir grupos de objetos similares em relação aos valores assumidos por essas variáveis (Everitt, 1993). Um ponto importante que não pode ser esquecido pelo pesquisador, no momento de empregar a técnica de análise de agrupamento, é investigar as unidades e as escalas de grandeza das variáveis que serão empregadas na definição de grupos homogêneos. A similaridade entre as variáveis é extremamente dependente da escala e das unidades em que as mesmas são expressas (Dillon & Goldstein, 1984). Esta dependência de escala ou unidade é superada efetuando-se a padronização dos dados. A forma mais comum de padronização é a conversão de cada variável para escore padrão (escores Z), a qual consiste em subtrair a média da variável X e dividir por seu desvio padrão (Eq. 1). Este processo converte cada valor do dado original em um valor padronizado para = 0 e = 1. em que: Xij - representa o valor observado da j-ésima e i-ésima variável; Xi - representa a média da amostra Xij; Si - representa o desvio padrão da variável Xij; Xsij - representa a observação da variável j-ésima e i-ésima normalizada; i = 1...m - variáveis; j = 1...n - amostragens. Finalizada a padronização dos dados, torna-se necessário responder os seguintes pontos: Qual a medida de similaridade ou de distância entre os grupos a ser empregada? Qual o algoritmo de agrupamento a ser selecionado? Qual o número de grupos a ser formado? A resposta a cada uma destas indagações será abordada nos três sub-itens subsequentes. Medidas de similaridade Na análise de agrupamentos (cluster analysis), a similaridade entre duas amostras pode ser expressa como uma função da distância entre os dois pontos representativos destas amostras no espaço n- dimensional. A maneira mais usual de calcular a distância entre dois pontos a e b no espaço n-dimensional é conhecida por distância Euclidiana. No entanto, existem outros métodos para se calcular distâncias, tais como: quadrado da distância Euclidiana, a distância de Mahalanobis, entre outras (Moita Neto & Moita, 1998). Como em estudos de qualidade de água ou dos sais no solo as variáveis classificatórias escolhidas são variáveis reais e, portanto, são mensuradas em uma escala de intervalo, convencionou-se adotar uma medida de distância com propriedades métricas, tendo a escolha recaída no quadrado da distância Euclidiana (Eq. 2), por a mesma ser bastante utilizada em estudos de recursos naturais (Nathan & MCmahon, 1990). em que: De é a distância Euclidiana; e Pp,j e Pk,j são as variáveis quantitativas j dos pontos de amostragem p e k, respectivamente. Algoritmo de agrupamento Muitos são os algoritmos propostos para se efetuar a análise de agrupamento. O algoritmo ou conjunto de regras mais usado no agrupamento de objetos similares podem ser classificados em duas categorias: hierárquicos e não hierárquicos. Existem basicamente dois tipos de procedimentos hierárquicos de agrupamento aglomerativos e divisivos. Entre as técnicas supra citadas, será abordada a hierárquicaaglomerativa, a qual produz um arranjo hierárquico em forma de árvore, conhecido como dendrograma, onde as amostras semelhantes, segundo as variáveis escolhidas, são agrupadas entre si. A suposição básica de sua interpretação é esta: quanto menor a distância entre os pontos, maior a semelhança entre as amostras (Moita Neto & Moita, 1998). Uma primeira idéia do que seja um dendrograma é apresentada na Figura 1. Este dendrograma expressa o (1) (2) 121Técnicas de estatística multivariada aplicadas a estudos de qualidade de água e solo arranjo hierárquico da qualidade das águas coletadas em sete pontos de amostragem no açude Orós, Ceará. O arranjo de similaridade das águas do Orós se fundamentou nos seguintes atributos: Condutividade Elétrica (CE), pH, Ca, Mg, Na, K, Cl, HCO3, SO4, NH4, NO3, PT, PO4, Oxigênio Dissolvido (OD), Demanda Bioquímica de Oxigênio (DBO), sólidos totais, sólidos totais fixos e voláteis, total de sólidos em suspensão, sólidos em suspensão fixos e voláteis, turbidez, cor verdadeira e aparente, transparência, temperatura e Razão de Adsorção de Sódio (RAS). As informações utilizadas na elaboração deste dendrograma são oriundas do projeto de pesquisa “Aplicabilidade de sensoriamento remoto como sistema de suporte ao monitoramento da qualidade das águas superficiais do semiárido cearense”, financiado pelo CNPq. Os cinco tipos de algoritmos aglomerativos mais utilizados na definição de grupos semelhantes são: ligação individual (single linkage), ligação completa (complete linkage), ligação média (average linkage), método de Ward (Ward’s method) e método do centróide (Centroid method) (Hair et al., 2005). No método de Ward, a distância entre dois agrupamentos é a soma dos quadrados entre ambos, feita sobre todas as variáveis. Em cada estágio do procedimento de agrupamento, a soma interna de quadrados é minimizada sobre todas as partições (o conjunto completo de agrupamentos disjuntos ou separados) que podem ser obtidas pela combinação de dois agregados do estágio anterior. Esse procedimento tende a combinar agrupamentos com um pequeno número de observações (Hair et al., 2005). Número de grupos Possivelmente, a questão mais complexa quando se utiliza a análise de agrupamentos é a determinação do número final de classes a serem formadas (também Figura 1. Dendrograma de análise de agrupamento hierárquico pelo método de Ward dos sete pontos de coleta de água no açude Orós chamada regra de parada). Infelizmente não existe um procedimento padrão objetivo de seleção. Como não há critério estatístico interno usado para inferência, tal como os testes de significância estatística de outros métodos multivariados, vários critérios e guias para tratar do problema foram desenvolvidos. O principal obstáculo é que existem muitos procedimentos de ocasião (ad hoc), envolvendo técnicas bastante complexas que devem ser computadas (Corrar et al., 2009). Um tipo de regra de parada relativamente simples é examinar alguma medida de similaridade ou distância entre grupos. A parada deverá ocorrer quando a distância de similaridade exceder a um valor especificado ou quando ocorrer uma súbita elevação. As medidas de similaridades, comumente, empregadas nesta tomada de decisão são os coeficientes aglomerativos e a distância reescalonada. O coeficiente de aglomeração é particularmente utilizado para uso em uma regra de parada que avalie as mudanças no coeficiente em cada estágio do processo hierárquico. Pequenos coeficientes indicam que agrupamentos bem homogêneos estão sendo fundidos. Reunir dois agregados de baixa similaridade resulta em um elevado coeficiente ou uma grande variação percentual no coeficiente. Desta forma, para ajudar na identificação de grandes aumentos na homogeneidade dos agrupamentos, calcula-se o percentual de mudança no coeficiente de agrupamento (Hair et al., 2005). ESTUDO DE CASO: SALINIDADE NOS SOLOS NA CHAPADA DO APODI Para ilustrar a aplicação de análise de agrupamento serão investigadas as concentrações de sais presentes no 122 Eunice M. de Andrade et al. extrato de saturação do solo em áreas irrigadas e campos naturais da Chapada do Apodi, Ceará. A pesquisa foi desenvolvida em três áreas, sendo uma com campos naturais (Mata Nativa) e duas irrigadas do Distrito de Irrigação Jaguaribe-Apodi (DIJA), nos municípios de Limoeiro do Norte e Quixeré. As áreas estão localizadas entre as coordenadas geográficas 05o06’38” e 05o11’39” de latitude Sul e ao Oeste de Greenwich entre os paralelos 37o52’21” e 37o56’05” de longitude. A região apresenta clima quente e semi-árido, BSw’h’, com temperatura média mensal sempre superior a 18 ºC. A pluviosidade média de 750 mm, sendo que o período mais seco ocorre de julho a dezembro. A evaporação média anual da região é de 3.215 mm e a umidade relativa média anual é de 62%. O questionamento a ser investigado será: Tomando- se variáveis indicadoras da salinidade do solo, é possível identificar padrões significativos de similaridade ou dissimilaridade, que permitam afirmar a existência de grupos semelhantes ou distintos entre e dentre os solos explorados pela agricultura irrigada e sob condições de campos naturais? As variáveis selecionadas na investigação foram CEes (Condutividade Elétrica do extrato de saturação do solo), Ca2+ + Mg2+, Cl-, Na+ e K+ e a RAS (Razão de Adsorção do Sódio). As análises resultaram em uma matriz de 6 colunas e 30 linhas totalizando 180 entradas (Tabela 1). Optou-se por uma matriz de poucas entradas para uma melhor compreensão e interpretação dos dados obtidos pela técnica de análise de agrupamento. Entre os pacotes computacionais que executam análises multivariadas e que podem ser usados sem grandes dificuldades por iniciantes em estatística multivariada cita-se o SPSS, MINITAB e Stata. Destaca-se que o SPSS, v. 13 ou superior apresenta a elaboração de gráficos de boa qualidade e de uma interface bem amigável. Investigando-se a matriz (Tabela 1) observa-se que os dados apresentam três unidades distintas (dS m-1, mmolc L-1, (mmolc L-1)0,5) e números variando em até 1 Local, camada e data de coleta de solo. DJ –DIJA, MN – mata nativa e QX - Quixeré Tabela 1. Dados empregados na investigação de similaridade das condições salinas em solos da Chapada do Apodi, Ceará 0 - 30 30 - 60 0 - 30 30 - 60 0 - 30 30 - 60 (mmol L-1)0,5 123Técnicas de estatística multivariada aplicadas a estudos de qualidade de água e solo três magnitudes (0,04 – 35,96), portanto os dados necessitam ser padronizados para ( = 0; = 1). Os pacotes estatísticos que executam este tipo de análise oferecem a opção de padronizar os dados por ocasião de realização das análises, não havendo a necessidade de efetuar a padronização antecipadamente. Bem como, em caso de matrizes compostas por um grande número de colunas e linhas, se torna imprópria a realização de uma padronização antecipada. Como já definido anteriormente no início deste capítulo, a similaridade foi estimada por meio da distância Euclidiana ao quadrado, uma vez que se trata de variáveis quantitativas, e na definição dos agregados empregou-se o algoritmo de Ward. A escolha recaiu sobre o método de Ward devido o mesmo ser usado por diferentes pesquisadores em estudos de água e solo (Palácio et al., 2009; Meireles, 2007; Andrade, 1997). O resultado final da técnica de análise multivariada/ análise de agrupamento é expresso em um gráfico com forma de árvore, conhecido como dendrograma (Figura 2). De acordo com o output gerado observa-se claramente a existência da similaridade e dissimilaridade entre os objetos investigados (Na+, Cl-, Ca2+ + Mg2+, K+, CEes e a RAS para distintas camadas, datas e local de coletas). O dendrograma expressa claramente que a similaridade da salinidade do solo para as áreas estudadas foi definida pelo uso da terra, não ocorrendo uma maior influência da variabilidade temporal ou espacial. Na construção dos arranjos, os objetos representativos da área não cultivada se agruparam separadamente daqueles que representam as áreas irrigadas do DIJAe do Quixeré de forma independente da data de amostragem. Neste estudo, o número ótimo de grupos a serem formados foi definido examinando-se a medida de similaridade ou distância entre grupos, a cada passo. A solução foi definida quando os sucessivos valores entre os passos tiveram uma súbita elevação, evidenciando um substancial decréscimo na similaridade (Tabela 2). Figura 2. Dendrograma das amostras de solos agrupadas quanto a concentração iônica em áreas de mata nativa e campos irrigados na Chapada do Apodi, Ceará Tabela 2. Coeficientes de agrupamentos gerados para determinação do ponto ótimo de corte No dendrograma estes aumentos são representados pelos maiores valores da distância reescalonada da combinação de agregados (Corrar et al., 2009). Este fato foi registrado entre o estágio 28 e 29 quando a diferença entre os coeficientes de aglomeração foi de 48%, o que corresponde a uma variação na distância reescalonada de 12,9, originando dois grupos. O grupo 1 contém todas as coletas realizadas nos solos da Mata Nativa, nove oriundas do DIJA e uma do Quixeré, independentemente da profundidade amostrada ou da época de coleta. Identifica-se que dentro do grupo, as variáveis investigadas (Na+, Cl-, Ca2+ + Mg2+, K+, 124 Eunice M. de Andrade et al. CEes e a RAS para distintas camadas, datas e local de coletas) para a mata nativa apresentaram a maior similaridade, visto que todos os objetos se uniram com o menor valor da distância reescalonada. A homogeneidade das variáveis para a Mata Nativa expressa a sua condição de equilíbrio com relação aos sais solúveis no extrato de saturação do solo. Percebe-se, também, que embora não exista diferença significativa ao nível de 5% entre os objetos que compõem o grupo 1, existe uma dissimilaridade entre as informações representativas da mata nativa e aquelas oriundas do DIJA e do Quixeré. Esta diferença expressa a sensibilidade do teste em identificar as diferenças entre os objetos do mesmo grupo, embora a diferença entre as mesmas não seja estatisticamente significativa. O grupo 2 foi composto por nove informações provenientes das amostras realizadas no campo irrigado do Quixeré e uma oriunda do DIJA, expressando uma completa dissimilaridade das informações da Mata Nativa, visto que nenhuma informação desta área se faz presente neste grupo. Investigando-se o dendrograma com um pouco mais de detalhe se observa que as informações representativas da profundidade de 15 cm (QX15) para as datas de 11/2001 e 12/2001 apresentam um menor grau de homogeneidade em relação as informações representativas das outras datas e camadas. Esta característica identificada pelo teste de agrupamento pode ser confirmada na Tabela 1, onde se observa que os maiores valores dos atributos investigados foram registrados nestes dois meses. O grupo 2 é composto por solos que receberam maiores adições de sais pelo manejo da irrigação. Estes maiores acúmulos podem ser explicados pela qualidade da água empregada na irrigação, C3S1, e pelo emprego da fertiirrigação (D’Almeida, 2002). Destaca-se que embora no período estudado o total precipitado (1.275 mm) tenha sido 62% superior a média da região, a mesma não foi suficiente para efetuar a lixiviação dos sais adicionados pelo manejo da irrigação. Portanto a técnica de análise de agrupamento mostra-se como uma ferramenta que pode ser empregada na identificação de áreas similares com maiores ou menores riscos de salinidade ANALISE DE COMPONENTES PRINCIPAIS - ACP A análise de componentes principais (ACP) é uma técnica estatística de análise multivariada, que transforma linearmente um conjunto original de variáveis num conjunto substancialmente menor de variáveis não correlacionadas, que contêm a maior parte das informações do conjunto original. Esta idéia foi desenvolvida por Hotteling (1933), embora Pearson (1901) já o tivesse lançado de forma geométrica. O objetivo da ACP é similar ao da Análise Fatorial, no sentido de que ambas as técnicas tentam explicar parte da variabilidade de um conjunto de dados. Resumidamente, a principal diferença entre as duas técnicas é a de que a ACP parte da ausência de um modelo estatístico e focaliza a explicação da variância total das variáveis observadas, baseando-se nas propriedades da variância máxima dos componentes principais. A análise fatorial, por outro lado, parte de um modelo estatístico prévio que divide a variância total (Dunteman, 1989). Atualmente, estas técnicas são também utilizadas no campo da sociologia, medicina, tecnologia de alimentos, educação, economia, agronomia, liminologia e hidrologia (Shoji et al., 1966; Possoli, 1984; Vidal et al., 2000; Bressan et al., 2001; Silveira & Andrade, 2002). Esta técnica possibilita, em investigações com um grande número de dados disponíveis, a identificação das medidas responsáveis pelas maiores variações entre os resultados sem perdas significativas de informações. O conjunto de dados referentes a um trabalho contém muitas inter-relações imperceptíveis numa avaliação inicial, pois os resultados correspondentes às variáveis podem ser diferentes em ordem de magnitude. Assim, na ACP, os valores das medidas são transformados em escalas padronizadas, onde as distâncias entre os pontos individuais (dados referentes a uma unidade experimental) são interpretadas em termos de similaridade padrão, e o tamanho da variação é representado pela extensão do vetor a partir do ponto de origem. Um problema comumente encontrado na aplicação de modelos estatísticos multivariados é que estes são dependentes das unidades e escalas em que as variáveis foram medidas (Nathan & MCmahon, 1990). Por exemplo, enquanto a condutividade elétrica é expressa em desissimens por metro (dS m-1); o cálcio é determinado em milimol carga por litro (mmolc L-1), o pH (admensional) e os sólidos suspensos em miligrama por litro (mg L-1). A solução padrão para este problema é a normalização dos dados ( = 0; = 1). Esta forma é assumida pelas variáveis no momento em que se calcula a matriz de correlação. A nível de entendimento serão apresentadas as etapas de como efetuar o cálculo da matriz de correção, no entanto esclarece-se que todo este processo é efetuado pelo pacote computacional que executa análises multivariadas. Os dados em forma de matriz corrigida são representados pelas Eqs. 3 e 4. (3) 125Técnicas de estatística multivariada aplicadas a estudos de qualidade de água e solo em que: Xd - matriz da variável corrigida; X - matriz dos dados na dimensão (N = amostragens x M = variáveis); a’ - [a11 a22 ...a1M]; sendo a = 1 representa a matriz linha contendo a média das M variáveis. A variância da amostra pode ser calculada para cada variável Xd como: Normalização é efetuada empregando-se as Eq. 5 e 6. em que: D-1/2 - representa a matriz da variância individual da i-ésima variável, a qual é uma matriz diagonal na forma: em que: S = Xd’Xd representa matriz da soma dos quadrados dos valores corrigidos pela média Após a definição da matriz de correlação, deve-se realizar a inspeção entre as variáveis com o objetivo de se identificar as variáveis mais específicas, visto que a finalidade da ACP é obter “fatores” que ajudem a explicar estas correlações. Para averiguar se o modelo da ACP pode ser aplicado aos dados levantados neste estudo deve-se aplicar o teste proposto por Kaiser, Meyer e Olkin (1974), apresentado por Norusis (1990). O teste Kaiser-Meyer-Olkin (KMO) é um índice que compara a magnitude de coeficientes de correlação observada e as magnitudes dos coeficientes de correlação parciais, sendo computado pela Eq. 8. em que: rij - coeficiente de correlação simples entre a variável i e j; aij - coeficiente de correlação parcial entre a variável i e j. Se a soma do quadrado dos coeficientes de correlação parciais entre todos os pares de variáveis for pequena quando comparada à soma dos coeficientes de correlação simples ao quadrado, a medida de KMO será próxima de um. Valores pequenos para KMO indicam que o modelo de análise de fator não deve ser empregado.Os intervalos do teste podem ser vistos na Tabela 3. A ACP pode ser representada, geometricamente, sob a forma de uma nuvem de pontos individuais das em que: Xs - matriz dos dados normalizados composta pelos valores Xij (i = M e j = N) A Matriz de Correlação, R, é calculada empregando- se da Eq. 7. Adaptada por Silveira e Andrade (2002). Tabela 3. Intervalo de validade do teste KMO, para aplicação do modelo de análise de fator (4) (5) (6) (7) (8) 126 Eunice M. de Andrade et al. variáveis no espaço. Os fatores ou eixos principais saídos de uma ACP fornecem imagens aproximadas dessa nuvem de pontos e a ACP propõe-se a medir a qualidade dessa aproximação (Dunteman, 1989). Na realidade a ACP fundamenta-se em encontrar os autovalores e autovetores da matriz de covariância amostral. Os autovalores da matriz expressam a variância de cada componente principal. Quanto maior o autovalor, maior é sua capacidade de resumir as variáveis e, portanto, maior explicabilidade é apresentada por este fator. Um autovalor inferior a 1,0 indica que o eixo sintetiza menos dados que uma variável isolada. A determinação do número de fatores representativos dos dados deve se fundamentar no preceito que se tenha um menor número de fatores com a máxima explicabilidade da variância contida nos dados originais. Foram propostos vários procedimentos para determinar o número de fatores para ser usado em um modelo. Porém, o critério mais aceito pela comunidade científica é aquele em que apenas fatores com variância maior que um (autovalores maiores que um) sejam incluídos (Norusis, 1990). Este critério fundamenta-se no fato de que qualquer fator deve explicar uma variância superior àquela apresentada por uma simples variável. Os fatores são chamados de componentes principais, que são formados por combinações lineares das variáveis observadas. O primeiro componente principal é a combinação entre as variáveis que respondem pela maior quantidade de variância na amostra. O segundo componente principal responde pela segunda maior variância sem estar correlacionada com a primeira. Componentes sucessivos explicam porções progressivamente menores da variância da amostra total, sem apresentarem correlação com os componentes anteriores (Manly, 2008). Segundo Norusis (1990), o modelo matemático para análise de fator apresenta semelhança com uma equação de regressão múltipla. Cada variável é expressa como uma combinação linear de fatores que não são observados de fato. O modelo para a i-ésima variável normalizada é escrito através da regressão linear múltipla entre fatores: em que: F - fatores comuns, isto é, uma nova variável; Ai - constantes de ajuste do modelo (i = 1, ... L ); - erro experimental; L - total de fatores. O modelo assume que os erros experimentais não têm correlação com os fatores comuns. Os fatores são deduzidos das variáveis observadas e podem ser calculados como combinações lineares. É possível que todas as variáveis contribuam para um dado fator, no entanto, espera-se que o fator seja caracterizado por um único subconjunto de variáveis com elevados coeficientes. Os fatores são obtidos através da combinação linear das variáveis normalizadas observadas (Eq. 10): em que: W - coeficiente de contagem de cada fator; XSi - valor de cada variável normalizada, M - número de variáveis. Mesmo com a matriz de componentes obtidos na fase de extração, onde o resultado descreve a relação entre os fatores e as variáveis individuais, às vezes este resultado é de difícil interpretação dos fatores significantes. Para superar esta limitação efetua-se a rotação da análise de fator, a qual transforma a matriz em uma outra de mais fácil interpretação (Dillon & Goldstein, 1984). A rotação não afeta o valor de ajuste de uma solução de fator; ou seja, embora a matriz de fator mude, a percentagem de variância total explicada não é alterada. A percentagem de variância considerada por cada um dos fatores faz, porém, a mudança. Um método de rotação que vem sendo bastante empregado pelos pesquisadores (Palácio, 2004; Mondal et al., 2010; Huang et al, 2010) é o Varimax. O referido método tem por finalidade minimizar a contribuição das variáveis com menor significância no fator, e assim, as variáveis passam a apresentar pesos próximos a um ou zero, eliminando os valores intermediários, que dificultam a interpretação dos fatores (Wunderlin et al., 2001). Para uma melhor compreensão da aplicação da Análise de componentes principais apresentaremos um estudo de caso sobre a investigação da qualidade das águas na bacia do Acaraú, Ceará. ESTUDO DE CASO: QUALIDADE DAS ÁGUAS NA BACIA HIDROGRÁFICA DO RIO ACARAÚ, CEARÁ A referida bacia está localizada ao norte do Estado do Ceará e detém uma área de 10.000 km2, abrangendo 15 municípios, com uma população de 314.455 habitantes. A capacidade de acumulação da bacia é de (9) (10) 127Técnicas de estatística multivariada aplicadas a estudos de qualidade de água e solo aproximadamente 1.215.390.000m3, distribuída nos principais açudes: o Araras Norte, no rio Acaraú, no município de Varjota, com capacidade de 860,96 milhões de m3; o Edson Queiroz, localizado no rio Groaíras, município de Santa Quitéria, com capacidade de 250 milhões de m3; e o Forquilhas, no rio Madeira, município de Sobral, com capacidade de 50,13 milhões de m3 (DNOCS, 1977). Na bacia estão inseridos quatro perímetros irrigados a saber: Araras Norte, São Vicente, Forquilhas e Baixo Acaraú. O clima da região é do tipo BSw’h’ – semiárido quente com precipitações de outono e temperaturas médias mensais sempre superiores a 18 ºC. A pluviosidade média anual da bacia é de aproximadamente 938 mm, com estação chuvosa ocorrendo geralmente de janeiro/fevereiro a maio/junho, concentrando-se 80% nos meses de março e abril. A evapotranspiração média anual, estimada por tanque classe “A”, é de 1.900 mm e a média da umidade relativa do ar situa-se em torno de 70%. Predominam na bacia solos como Luvissolos e Neossolos (CEARÁ, 1992). O questionamento para esta pesquisa será: Levando- se em consideração a condição natural, as atividades agropecuárias, a agricultura irrigada e a presença de aglomerados populacionais existentes na bacia, é possível identificar quais os fatores que determinam os indicadores da qualidade da água? As variáveis selecionadas na investigação foram: pH, temperatura, cor, turbidez, nitrato, amônia total, amônia livre, amônia ionizada, sódio, cloretos, potássio, sulfato, dureza, cálcio, magnésio, alcalinidade total, alcalinidade do bicarbonato, condutividade elétrica, sólidos suspensos, oxigênio dissolvido (OD), demanda bioquímica de oxigênio (DBO), fósforo total, ortofosfato solúvel, clorofila “a”, coliformes totais e coliformes termotolerantes. A associação entre as variáveis que influenciam a qualidade das águas superficiais foi identificada mediante as técnicas de estatística multivariada, Análise Fatorial/ Análise de Componentes Principais (AF/ACP). Tendo por base os dados normalizados foi construída a matriz de correlação com todas as variáveis estudadas. Para averiguar se o modelo da ACP poderia ser aplicado aos dados levantados neste estudo foi aplicado um teste de adequacidade do modelo AF/ACP. O teste de adequacidade aplicado ao modelo foi o Kaiser-Meyer- Olkin (KMO), o qual apresentou um índice igual a 0,625 (regular), demonstrando que o modelo promoverá significante redução na dimensão dos dados originais. A matriz resultante neste exemplo foi formada por 16 colunas e 16 linhas totalizando 256 entradas. Após avaliar a adequacidade do modelo, realizou-se a extração dos fatores/componentes sendo selecionado um modelo com três componentes. Os pesos fatoriais atribuídos a cada componente, bem como a percentagem da variância total explicada por cada componente, podem ser vistos na Tabela 4. Nota-se que os três primeiros componentes explicaram respectivamente 46,44, e 25,12 e 16,62% da variância total dos dados, concentrando em três dimensões 88,18% das informações antes dissolvidas em 16 dimensões. CP– Componente Principal. Tabela 4. Matriz do peso fatorial das variáveis nos três componentes principais selecionados Os valores elevados dos pesos fatoriais sugerem quais são as variáveis mais significativas em cada fator, explicando, assim, o relacionamento entre um conjunto de variáveis. No primeiro CP, as variáveis CE, sódio, alcalinidade do bicarbonato, dureza, cloreto, cálcio e magnésio apresentaram um peso superior a 0,82, indicando que estas variáveis são as mais significativas na definição da qualidade da água estudada, evidenciando que o CP 1 está relacionada com o processo natural de intemperismo dos componentes geológicos do solo (Brodnjak-Voncina et al., 2002). Já o segundo CP é explicado, principalmente, pelas variáveis pH, sólidos suspensos, sulfato, potássio e nitrato (peso > 0,62), as quais indicam o uso da terra pela agropecuária. A presença do nitrato em águas superficiais pode ter sua origem em fertilizantes orgânicos, enquanto que o sulfato e o potássio em fertilizantes químicos (Elmi et al., 2004). O CP 3 apresentou uma maior interrelação com cor e turbidez Condutividade elétrica 128 Eunice M. de Andrade et al. (peso >0,8), sugerindo serem estas as únicas variáveis significativas neste componente. Este componente, basicamente, expressa o efeito do escoamento superficial com uma carga de sedimentos oriundos das áreas agrícolas e a contribuição de esgotos e resíduos sólidos dispostos, inadequadamente, próximos às margens dos cursos d’águas. Segundo dados do Censo 2000 (IBGE, 2002), 40% dos domicílios da área urbana e 99% da área rural realizam a queima, enterram ou dispõem o lixo em terreno baldio, rio, lago, mar ou então destino que não a coleta. De um modo geral, a matriz do peso fatorial (Tabela 4) apresenta dificuldades na identificação das variáveis mais significativas, em decorrência de valores muito próximos entre si (Dillon & Goldstein, 1984). Para suplantar essa limitação, aplicou-se a transformação ortogonal pelo emprego do algoritmo Varimax. A adoção da matriz transformada, neste estudo, gerou mudanças significativas em relação à matriz original (Tabela 5). Pisuerga, na Espanha. O CP 2 passou a ser composta por sulfato, nitrato, fósforo total, ortofosfato solúvel e potássio, sendo eliminado o percentual de explicação da variância pelo pH para esta componente. O CP 2 sugere que as atividades agrícolas e pastoris da região, fontes de poluição difusa, influenciam significativamente a concentração dos nutrientes nas águas superficiais. O nitrato e o fósforo, elementos definidos pela literatura como indicadores das atividades agropecuárias (Brooks et al., 1992; Palácio, 2004; Elmi et al., 1996), fazem-se presentes nesse componente com pesos superiores a 0,8. O CP 3 mostrou inter-relação com a cor, a turbidez, os sólidos suspensos e o pH, apresentando-se como um fator de transporte de sedimentos. Os altos pesos (> 0,96) atribuídos à cor e à turbidez podem ser explicados pelas características climáticas das regiões semiáridas (baixa cobertura vegetal e chuvas de alta intensidade). Verifica-se assim, que o emprego da Análise Fatorial/ Análise de Componentes Principais (AF/ACP) é uma técnica adequada para ser empregada na identificação dos fatores determinantes da qualidade das águas, bem como concentrar em poucos fatores a explicabilidade da variância antes dissolvida em um grande número de variáveis. REFERÊNCIAS Andrade, E. M. Regionalization of average annual runoff models for ungaged watersheds in arid and semiarid regions. Tucson: School of Renewable Natural Resources. The University of Arizona, 1997. 192p. Ph.D Thesis Andrade, E. M.; Palácio, H. A. Q.; Crisóstomo, L. A.; Souza, I. H.; Leão, R. A. O.; Guerreiro, M. J. Land use effects in groundwater composition of an alluvial aquifer (Trussu River, Brazil) by multivariate techniques. Environmental Resource, v.106, p.170–177, 2008. doi: 10.1016/j.envres. 2007.10.008 Bressan, M. C.; Beraquet, N. J.; Lemos, A. L. S. C. Características de qualidade de carne em peito de frango utilizando a análise da componente principal. Boletim da Sociedade Brasileira de Ciência e Tecnologia de Alimentos. n. 35, 2001. Brodnjak-Voncina, D. Dobcnik, D.; Marjana Novic, M.; Zupan, J. Chemometrics characterisation of the quality of river water. Analytica Chimica Acta, v.462, p.87-100, 2002. Brooks, K. N.; Falliott, P. E.; Gregersen, H. M.; Thames, J. L. Hydrology and the management of watersheds. 1. ed. Ames: Iowa State University, 1992. 392p. Ceará, Secretaria dos Recursos Hídricos. Plano estadual dos recursos hídricos: estudo de base II. v.2. Fortaleza, CE, 1992. 1471p. Corrar, L. J.; Paulo, E.; Dias Filho, J. M. Análise multivariada para os cursos de administração, ciências contábeis e economia. 1. ed. 2. reimpr. São Paulo: Atlas, 2009. 541p. Tabela 5. Fatores dos componentes da matriz transformada pelo algoritmo Varimax CP – Componente Principal. Após a rotação, CP 1 expressou uma maior associação com os parâmetros indicadores do enriquecimento por íons solúveis (pesos > 0,941). Uma menor associação foi registrada com o cloreto, ocorrendo um acréscimo do indicativo da origem de sais não naturais, os quais podem ser atribuídos ao aporte de esgotos ao rio ou ao carreamento de fertilizantes químicos. Helena et al. (2000) associaram a contribuição de esgotos residenciais e industriais a uma maior concentração de cloreto nas águas aluvionais do rio 129Técnicas de estatística multivariada aplicadas a estudos de qualidade de água e solo D’Almeida, M. B. A. Risco de salinização de um cambissolo na chapada do Apodi-CE.Fortaleza: UFC, 2002. 68p. Dissertação Mestrado Dillon, W. R.; Goldstein, M. Multivariate analysis methodos and applications. New York: John Wiley & Sons, 1984. 587p. DNOCS. Plano director do Vale do Acarau. Disgnóstico.V. 1 Fortaleza, 1977. 136p. Dunteman, G. H. Principal components analysis. 1st. ed. London: Sage, 1989. 96p. Elmi, A. A.; Madramootoo, C. A.; Hamel, C. Water and fertilizer nitrogen management to minimize nitrate polution from a cropped soil in southwestern Quebec Canada. Water Air and Soil Polution, v. 151, n. 1, p. 117-134, 2004. Everitt, B. S.; Dunn, G. Applied multivariate analysis. London: Edward Arnold, 1991. 400p. Everitt, B .S. Cluster analysis. 3rd ed. London: Heinemann Educational Books, 1993. 122p. Helena, B.; Pardo, R.; Vega, M.; Barrado, E.; Fernandez J. M.; Fernandez, L. Temporal evolution of groundwater composition in an alluvial aquifer (Pisuerga river, Spain) by principal component analysis. Water Research, v.34, n.3, p.807-816, 2000. Hair, J. F.; Anderson, R. E.; Tatham, R. L.; Black, W. C. Análise Multivariada de Dados. Trad. Santanna, A. S.; Chaves Neto, A. 1. Ed. Porto Alegre: Bookman, 2005. 593p. Hotteling, H. Analysis of a complex of statistical variables into principal components. Journal Education Psychology, v.24, p. 498-520, 1933. Huang, F.; Wang, X.; Lou, L.; Zhou, Z.; Wu, J. Spatial variation and source apportionment of water pollution in Qiantang river (China) using statistical techniques. Water Research, v. 44, p. 1562-1572, 2010. IBGE. Indicadores de desenvolvimento sustentável: Brasil 2002. Rio de Janeiro, 2002. 195p. Manly, B. F. J. Métodos estatísticos multivariados: Uma introdução. 3. ed. Porto Alegre: Bookman, 2008. 229p. Meireles, A. C. M. Dinâmica qualitativa das águas superficiais da bacia do Acaraú e uma proposta de classificação para fins de irrigação. Fortaleza: UFC, 2007. 180p. Tese Doutorado Mohan, S.; Arumugam, N. Relative importance of meteorological variables in evapotranspiration: Factor analysis approach. Water Resources Management, v.10, p.1-20, 1996. Moita Neto, J. M.; Moita, G. C. Uma introdução à análise exploratória de dados multivariados. Química Nova. v.21, n. 4, p. 467- 469, 1998. Mondal, N. C.; Singh, V. P.; Singh, V. S.; Saxena, V. K. Determining the interaction between groundwater and saline water through groundwater major ions chemistry. Journal of Hidrology, v. 388, p. 100-111, 2010. Monteiro, V. P.; Pinheiro, J.C. V. Critério para implantação de tecnologias de suprimentos de água potável em municípios cearenses afetados pelo alto teor de sal. Revista de Economia e Sociologia Rural, v.42, n.2, p.365- 387, 2004. Nathan, R. J.; MCmahon, T. A. Identification of homogeneous regions for the purposes of regionalization. Journal of Hydrology, v.121, p.217-238, 1990. Norusis, M. J. SPSS Base system user’s guide. Chicago: SPSS Inc, 1990. 520 p. Palácio, H. A. Q.; Andrade, E. M.; Lopes, F. B.; Alexandre, D. M. B.; Arraes, F. D. D. Similaridade da qualidade das águas superficiais da bacia do Curu, Ceará. Ciência Rural, v.39, n.9, p. 2494-2500, 2009. Palácio, H. A. Q. Índice de qualidade de água na parte baixa da bacia hidrográfica do rio Trussu - CE. Fortaleza: UFC, 2004, 95p. Dissertação Mestrado Pearson, K. On lines and planes of closest fitto systems of points in space. Philos. Mag., v.2, p. 559-572, 1901. Possoli, S. Técnicas de análise multivariada pela avaliação das condições de saúde dos municípios do Rio Grande do Sul, Brasil. Revista de Saúde Pública, v.18, p.288-300, 1984. Shoji, H.; Yamanote, T.; Nakamura, T. Factor analysis on stream pollution of the Yodo river system. Air & Water Pollution, v. 10, p. 291-299, 1966. Silveira, S. S.; Andrade, E. M. Análise de componente principal na investigação da estrutura multivariada da evapotranspiração. Engenharia Agrícola, v. 22, n. 2, p. 171- 177, 2002. Singh, K. P.; Mailk, A.; Mohan, D.; Sinha, S. Multivariate statistical techniques for the evaluation of spatial and temporal variations in water quality of Gomti River (Índia) – a case study. Water Research, v.38, n.18, p.3980-3992, 2004. Vidal, M.; López, A.; Santoalla, M. C.; Valles, V. Factor analysis for the study of water resources contamination due to the use of livestock slurries as fertilizer. Agricultural Water Management, v. 45, p. 1-15, 2000. Wunderlin, D. A.; Díaz, M del P.; amé, M. V.; Pesce, S. F.; Hued, A. C.; Bistoni, M. de L. A. Pattern recognition techniques for the evaluation of spatial and temporal variations in water quality. A case study: Suquía river basin (Córdoba- Argentina). Water Research, Amsterdam, v. 35, n. 1, p. 2881-2894, 2001.
Compartilhar