Prévia do material em texto
Clique para editar o estilo do título mestre Clique para editar o estilo do subtítulo mestre * * * TÉCNICAS DE ANÁLISE MULTIVARIADA Prof. Dr. Yzel Rondon Súarez UEMS - Dourados * * * Introdução à Estatística Multivariada Qualquer comunidade biológica é determinada por um grande número de variáveis bióticas e abióticas; Além de descrever a estrutura das comunidades, a identificação de padrões de organização e seus determinantes é de grande importância; Devido a esta natureza tão complexa, os fenômenos ecológicos necessitam ser tratados sob uma visão multivariada; Neste sentido, uma série de métodos estatísticos foram e vêm sendo desenvolvidas para facilitar a identificação destes padrões. * * * Os métodos estatísticos multivariados podem ser divididos em dois grandes grupos: * * * Análise de Agrupamento Utilizada quando se deseja estabelecer grupos naturais de amostras ou espécies; É um método aglomerativo, ou seja, inicialmente os pares com maior similaridade são ligados e os demais vão sendo inseridos; É uma técnica muito difundida, já que os índices de similaridade são muitos e pelo fato desta não requerer normalidade, homogeneidade de variâncias; Pode ser utilizada para dados qualitativos, quantitativos ou ambos; * * * Entre os problemas do método estão: 1) Pouco se sabe sobre as propriedades estatísticas de seus vários métodos; 2) A definição de “níveis de corte” para estabelecer os grupos interpretáveis é arbitrária. * * * Entre os problemas “de quem utiliza o método” estão: 1) Devido ao grande número de índices de similaridade em muitos casos estes são escolhidos simplesmente por “agradarem mais” quem executa a análise; 2) Padrão ÍCONES dos softwares, ou seja, a praticidade em executá-lo (assim como outros métodos) aumenta o número de “interpretações erradas” dos padrões ecológicos. * * * Os coeficientes de associação se dividem em três grupos: Dependência (Ex: Pearson, Spearman); Distância (Ex: Distância Euclidiana); Similaridade (Ex: Jaccard, Morisita-Horn, etc....). * * * Índices de similaridade qualitativos: Podem incluir duplas ausências; Podem não incluir duplas ausências. Onde: a = Número de espécies comuns a ambas as amostras; b = Número de espécies que ocorrem na amostra 1 mas não ocorrem na amostra 2; c = Número de espécies que ocorrem na amostra 2 mas não ocorrem na amostra 1; d = Número de espécies que não ocorrem em ambas as amostras; * * * SM= a+d/(a+b+c+d) Simples Coincidência = Simple Matching * * * Comparação entre os Índices de Similaridade * * * É preciso ter muita confiança na amostragem para decidir utilizar um índice que inclua duplas ausências: * O fato de uma espécie não ocorrer na amostra não significa que ela não ocorre na comunidade; Então.... Só utilize um coeficiente que inclua duplas ausências quando tiver “ecologicamente” um motivo para tal. Conclusão * * * Índices de similaridade quantitativos: Oficialmente, os índices quantitativos também podem incluir ou não as duplas ausências, contudo os que não incluem são praticamente os únicos utilizados; Os índices de Morisita-Horn e Bray-curtis são os mais utilizados: 1) O índice de Bray-Curtis permite mesclar dados quantitativos e categóricos; 2) O índice de Morisita-Horn é menos sensível ao tamanho da amostra. * * * Índices de Distância: Entre os coeficientes/índices de distância o mais utilizado é o de Distância Euclidiana: Obs: Quando utilizamos “distância” a comparação de um objeto com ele mesmo sempre dará igual a 0. * * * Métodos de Agrupamento Uma vez calculada a similaridade entre os locais/objetos é necessário definir quem se agrupará com quem para gerar o dendrograma de similaridade; Existem vários “métodos de agrupamento” sendo que os mais comuns são os métodos: simples (Single Linkage Method), completo (Complete Linkage Method) e UPGMA (Unweighted Pair-Group Method Average), sendo este último o mais utilizado, por minimizar a distorção nos dados iniciais. * * * Qual distorção????? Coeficiente de Jaccard * * * Qual o impacto desta distorção sobre a interpretação do dendrograma? O pesquisador pode estar interpretando grupos errados; * * * Existe como quantificar e/ou retirar esta distorção? A forma de quantificar a distorção na matriz original de dados é calculando o coeficiente de correlação cofenética; Se o valor de correlação cofenética for igual ou maior que 0,80 então considera-se que a distorção nos dados foi pequena e interpretam-se os grupos; * * * Existe como quantificar e/ou retirar esta distorção? Se a correlação cofenética for menor que 0,80 o usual é utilizar outro método de ligação; Se ainda assim, a correlação cofenética não alcançar 0,80 o jeito é interpretar somente os grupos que se mantiveram constantes e esquecer os demais. * * * Mas, afinal de contas, o que é uma correlação cofenética? Sempre que geramos um dendrograma, ocorre uma distorção na formação dos grupos, desta forma, se reconstruirmos a matriz de similaridade a partir do gráfico (dendrograma) teremos uma matriz que não é exatamente igual à matriz de similaridade, ou seja, temos a matriz cofenética. * * * Matriz Cofenética Matriz de Similaridade - Jaccard * * * A comparação das matrizes é realizada através do teste de Mantel; Não se utiliza teste de significância para esta análise, pois as duas matrizes não são independentes entre si. Mantel r=0,76 * * * Métodos de Ordenação Ordenação é qualquer processo que forneça um pequeno número de variáveis que descrevam os objetos, a partir de medidas tomadas desses objetos; O objetivo é resumir um grande volume de informações facilitando a identificação de gradientes; Na maioria das técnicas de ordenação os eixos encontrados são combinações lineares das medidas originais; Podem ser divididos em métodos para análise de gradiente indireto e direto; * * * Métodos de Ordenação A forma como os eixos são calculados diferencia os métodos de ordenação; O primeiro eixo sempre explica a maior parte da variação nos dados, o segundo sempre explica a maior parte da variação restante nos dados, etc..; Os eixos são ortogonais, desta forma, cada um independe do outro; Normalmente somente dois ou três eixos são interpretados, apesar de matematicamente ser possível a existência de n outros eixos; * * * Como é feita (na prática) uma ordenação????? 1 2 3 4 5 6 7 8 9 * * * Sendo assim, onde se localiza o “maior gradiente” será colocado o primeiro eixo; Com a variação que “sobrou” é realizada uma nova estimativa de onde deve passar o segundo eixo e assim por diante; Para o local onde se localiza a “média multivariada” é atribuído o valor 0 e quanto mais desvios padrões distante desta média, mais distante ele fica do centro do gráfico; Sendo assim, grupos de locais muito distantes da média, são muito diferentes da média geral; * * * PCA realizada com os dados apresentados 1 2 3 4 5 6 7 8 9 * * * PCO & PCA Análise de Coordenadas Principais Análise de Componentes Principais Versão mais simples da PCA podendo utilizar uma variedades de medidas de distância ou similaridade; Não são apresentados os loadings (pesos) de cada variável; Apesar da maior versatilidade é um método pouco utilizado. Utiliza basicamente a matriz de correlação ou covariância para, realizando a “eigenanalysis” encontrar a principal fonte de variação; São apresentados os loadings (pesos) de cada variável; Pelo fato de utilizar coeficientes métricos não deve ser aplicado para dados de ocorrência ou abundância de espécies. * * * Desta forma, a PCA se tornou uma das técnicas de ordenação mais utilizadasem ecologia; Entre as informações mais importantes que se extrai da PCA estão os autovalores e os autovetores; 1) Autovalores: Quantidade da variação total, explicada pelo eixo em questão; 2) Autovetores: Correlação entre cada variável utilizada e o eixo em questão. De modo geral são interpretados todos os eixos que apresentam autovalor maior que 1, o que indica que ele explica mais que uma variável sozinha; * * * Dados Limnológicos fictícios para cinco locais * * * * * * Loadings das Variáveis * * * Autovetores * * * PCA vs AGRUPAMENTO Uma das vantagens da PCA em relação à análise de agrupamento é a geração de dois eixos interpretáveis, o que teoricamente permite a identificação de diferentes fontes de variação nos dados; Contudo, devido às propriedades da PCA: 1) Utilização de métodos que pressupõe linearidade; 2) Utilização “obrigatória” da matriz de correlação ou covariância. E possível que estas análises, realizadas com um mesmo conjunto de dados, forneçam resultados diferentes, sendo assim, a utilização de uma ou outra depende do pesquisador. * * * Análise de Correspondência A PCA utiliza variáveis contínuas e utiliza a distância euclidiana para estabelecer o grau de semelhança/diferença entre objetos e assim ordená-los no espaço multivariado; Estes procedimentos, não são contudo, apropriados para dados como ocorrência ou abundância de espécies; Desta forma, o surgimento da Análise de Correspondência permitiu que os autovalores fossem extraídos a partir de uma tabela de contingência; * * * Análise de Correspondência A utilização deste algoritmo permite, entre outras coisas, que amostras e espécies sejam representadas em um mesmo gráfico; Outra característica importante é que a localização de uma espécie no espaço multidimensional é interpretada como o local onde a espécie teria as condições “ótimas” dentro deste universo amostral; Por outro lado, a utilização da métrica “qui-quadrado” aumenta a importância de espécies raras, ainda que alguns autores considerem este método mais robusto que a PCA; * * * Análise de Correspondência * * * Sendo assim, a interpretação que faz do gráfico é: 1) A espécie 5 (sp5) é generalista, não apresentando preferência por nenhum dos locais analisados; 2) O local “E” como é o único que apresenta todas as espécies amostradas não se diferencia dos demais por possuir uma ou outra espécie em particular, mas sim por ser o ambiente “adequado” para qualquer espécie do conjunto amostrado. Como observado no gráfico (Diagrama de dispersão) o resultado da CA (Análise de Correspondência) apresentando locais e espécies em um mesmo gráfico permite torna mais fácil a interpretação do gradiente ambiental já que na PCA a análise é realizada ou entre locais ou entre espécies; * * * PCA vs CA * * * Conclusão Não use PCA para dados de ocorrência ou abundância de espécies!!!!! * * * Contudo, apesar da CA ser mais eficiente que a PCA para ordenar dados de comunidades esta não resolve todos os nossos problemas e não representa a palavra final em ordenação de comunidades; Devido ao fato desta ser muito sensível a espécies raras normalmente as amostras muito “ricas em espécies raras” se comportam como outliers; Além deste existem outros problemas de ordem matemática na CA: 1) Efeito do arco; 2) Compressão dos dados ao final do gradiente. * * * Dados de abundância de espécies vegetais Análise de Correspondência * * * Com o objetivo de corrigir o efeito do arco foi desenvolvida a Análise de Correspondência Destendenciada (DCA); A correção do efeito do arco ocorre pela partição do primeiro eixo em vários segmentos e reajuste dos pontos no segundo eixo igualando os erros dentro de cada segmento e posterior reajuste dos pontos no gráfico; Desta forma, o efeito do arco é retirado, contudo o método pode introduzir instabilidade nos eixos, diminuindo sua explicabilidade e dificultando sua interpretação; Alguns autores optam por realizar as duas análises para posteriormente selecionar o método a ser utilizado. * * * Análise de Correspondência * * * Análise de Correspondência Destendenciada * * * CA vs DCA * * * Análise de Correspondência Canônica Os métodos apresentados até aqui são de Análise de Gradiente Indireto, desta forma, a interpretação dos padrões ecológicos depende da experiência do pesquisador; Contudo, quando dados ambientais (limnologia, solos, etc...) são disponíveis é possível a análise direta do gradiente ambiental; Com este objetivo, foi criada a Análise de Correspondência Canônica (CCA) que utilizando um modelo de regressão quantifica a importância de cada variável ambiental no padrão encontrado. * * * Análise de Correspondência Canônica Desta forma ocorre a ordenação das espécies e locais no espaço multidimensional e a visualização direta da importância das variáveis ambientais nesta ordenação; Importância das variáveis ambientais na distribuição das espécies * * * Análise de Correspondência Canônica O procedimento de regressão múltipla com as variáveis ambientais ocorre de forma iterativa, sendo que a cada iteração os scores são ajustados com base na influência das variáveis ambientais fornecidas; Na geração do gráfico, as setas indicam a direção em que ocorre o aumento no valor da variável em questão e seu comprimento indica sua importância para este eixo; Um dos problemas deste método é que exige-se que os dados apresentem distribuição normal, homogeneidade de variâncias, etc... Outra restrição do método é que o número de variáveis ambientais deve ser menor que o número de amostras. * * * Análise de Correspondência Canônica A CCA permite a inclusão de variáveis binárias (dummy); Influência de utilizar ou não uma Variável Dummy em análises de dados em Ecologia * * * Análise de Função Discriminante A Análise de Função Discriminante ou Análise de Variáveis Canônicas pode ser definida como uma versão multivariada da Análise de Variância (ANOVA) assim como a Análise de Variância Multivariada (MANOVA); Nesta análise são necessários pelo menos dois conjuntos de dados (dois grupos) com várias variáveis obtidas em dada um destes conjuntos; A idéia básica do método é substituir o conjunto de variáveis obtidas por uma única medida de diferença entre os grupos (Di) que representa uma combinação linear destas variáveis. * * * Análise de Função Discriminante Definido o “Di” este é comparado com o “Do” que representa o valor médio entre os dois ou mais grupos no espaço multidimensional; A comparação entre “Di-Do” servirá como base para definir qual a probabilidade de cada observação pertencer a cada um dos grupos analisados; Neste sentido, como os grupos devem ser definidos “a priori” este é classificado como um método de teste de hipótese. * * * A Análise de Função Discriminante tem os seguintes pressupostos: a) que as observações sejam ao acaso; b) que a probabilidade de um indivíduo desconhecido pertencer a qualquer um dos grupos seja a mesma; c) que as variáveis tenham distribuição normal; d) que as matrizes de variância de grupos comparados sejam de mesmo tamanho; e) que todas as observações usadas para o cálculo das funções discriminantes tenham sido classificadas sem erro. Análise de Função Discriminante * * * Análise de Função Discriminante R canônico=0,98 Wilk’s Lambda=0,02 P=0,000 * * * Análise de Função Discriminante A significância diferenciação entre os grupos considerados calcula-se a distância entre as duas médias multivariadas, Da-Db. Esta medida de distância é conhecida como "distância generalizada de Mahalanobis", ou D2; Então, pequenos valores de distância de Mahalanobis significa que os grupos são muito similares; A eficiência das variáveisutilizadas no processo de “discriminação” dos grupos definidos é calculada a estatística Wilks lambda. Seu valor varia de 1,0 (nenhum poder discriminante) até 0,0 (perfeito poder discriminante); * * * Análise de Função Discriminante O valor de Wilks lambda pode ser convertido em um valor de F padrão, contudo este valor não deve ser levado ao “pé-da-letra”, uma vez que é muito comum a inclusão de muitas variáveis no modelo geral sem ter qualquer hipótese à priori sobre estas variáveis, e interpretar somente as variáveis com valor significativo de p não é apropriado; Diferente dos métodos de ordenação apresentados anteriormente a análise de significância dos eixos não ocorre da mesma forma que nestes métodos. * * * Análise de Função Discriminante No exemplo seguinte foram obtidas variáveis físicas e químicas da água em riachos pertencentes a quatro sub-bacias do rio Paraguai; As variáveis físicas e químicas (pH, condutividade, oxigênio dissolvido, velocidade da água, turbidez, largura média do riacho, profundidade média do riacho e temperatura da água) foram padronizados; Existe diferença significativa nas características físicas e químicas dos riachos estudados entre as sub-bacias (Wilks lambda=0,026; F(24,142)= 3,52; P<0,000). * * * Todos os Eixos R canônico=0,73 Wilk’s Lambda=0,25 P=0,000 Sem o Primeiro Eixo R canônico=0,54 Wilk’s Lambda=0,56 P=0,006 Sem os Dois Primeiros Eixos R canônico=0,44 Wilk’s Lambda=0,80 P=0,065 Análise de Função Discriminante * * * Sem o Primeiro Eixo R canônico=0,54 Wilk’s Lambda=0,56 P=0,006 * * * * * * Análise de Função Discriminante R canônico=0,92 F(8,52)=13,41 Wilk’s Lambda=0,01 P=0,000 * * * Análise de Correlação Canônica A Análise de Correlação Canônica é um dos métodos multivariados menos utilizados, já que é considerado um dos métodos mais difíceis de ser interpretados; Nesta análise são necessários dois conjuntos de dados multivariados (explanatórios e resposta); Alguns autores sugerem que este é um método de redução de dimensionalidade intermediário entre uma análise exploratória e de teste de hipóteses; Uma característica importante do método é que este obtém uma série de funções que resumem da melhor forma possível a relação linear entre os conjuntos de dados. * * * Análise de Correlação Canônica Uma característica do método é que depois do segundo eixo os resultados são questionáveis; O número máximo de eixos (funções canônicas) é definido pelo conjunto de dados (biótico ou abiótico) que apresentar o menor número de variáveis; Este método é utilizado então como forma de substituir uma série de regressões múltiplas com dados que estão potencialmente correlacionados; . * * *