Baixe o app para aproveitar ainda mais
Prévia do material em texto
Levantamento e Análise de Dados Ambientais Aula 12. Análises multivariadas – revisão Professora Fernanda A. Casares Email: fcasares00@hotmail.com UERJ – ZO | 2023.1 Análise univariada • Variáveis - Uma variável resposta(Y): (ex: Y= abundância (número de inds.) da espécie A) - Uma ou mais variáveis independentes (Xi) (Ex: N, pH, Temp.) Análise multivariada • Variáveis - Mais de uma variável resposta(Yi): (ex: Yi= abundância (número de inds.) das espécies A, B, C, D, E) - Uma ou mais variáveis independentes (Xi) (Ex: N, pH, Temp.) Y YA YB YC YD YE Entendendo dados multidimensionais • Objetos e descritores - Amostras (inds.) / Espécies / Variáveis ambientais Representação vetorial O que são Análises multivariadas ? • As análises multivariadas têm o objetivo de reduzir um grande número de variáveis a poucas dimensões, com o mínimo de perda de informação, permitindo a detecção dos principais padrões de similaridade, de associação e de correlação entre as variáveis (Lewinsohnet al.,2002) Análise multivariada Análises Multivariadas Análise de classificação Análises de ordenação Com restriçãoSem restriçãoAnálise de agrupamento PCA, PCoA, nMDS RDA, CCA Análise de agrupamento (Cluster) • Útil para se estabelecer similaridade entre locais de coleta, comunidades, etc • Natureza principalmente gráfica – gera um DENDROGRAMA (similar a um cladograma) • Existem diferentes métodos de agrupamento Análise de agrupamento (Cluster) Análise de agrupamento (Cluster) Resposta 1 Resposta 2 Resposta 3 Resposta 4 Objeto 1 Objeto 2 Objeto 3 Objeto 4 Objeto 5 Objeto 6 1. Matriz resposta Sp1 Sp2 Sp3 Sp4 Local 1 4 2 4 0 Local 2 2 9 10 4 Local 3 5 8 4 7 Local 4 10 14 6 20 Local 5 18 19 14 20 Local 6 16 14 21 11 Análise de agrupamento (Cluster) 2. Cálculo da distância ou similaridade entre pares de objetos Local 1 Local 2 Local 3 Local 4 Local 5 Local 6 Local 1 Local 2 Local 3 Local 4 Local 5 Local 6 Matriz de distância ou similaridade Análise de agrupamento (Cluster) 3. Seleção de método de agrupamento e construção do dendrograma Método que determinará como os grupos serão formados L1 L2 L3 L4 L5 L6 D is tâ n ci a 0 0,6 • Método mais usado em ecologia – UPGMA (agrupamento pela média) CORREÇÃO ED 1. Vocês realizaram um inventário florestal, quantificando a abundância de espécies vegetais presentes em áreas de diferentes altitudes de uma floresta. Quando começam a explorar os resultados que vocês obtiveram em campo (mostrados na Tabela 1), considerando a natureza multivariada de seus dados vocês fazem uma análise de agrupamento usando a distância de Bray-Curtis e o método de agrupamento UPGMA e constroem um dendrograma (Fig. 1) para observar se há uma tendência de variação da composição de espécies à medida que a altitude aumenta. De acordo com o dendrograma encontrado responda: Tabela 1. Dados de abundância de espécies vegetais em áreas de diferentes altitudes. Altitude sp1 sp2 sp3 sp4 sp5 sp6 sp7 sp8 sp9 sp10 0m 0 17.5 0 0 2.5 0 0 0 0 0 200m 0 25 0 0 25 15 0 0 0 10 400m 5 20 2.5 0 12.5 2.5 5 15 22.5 17.5 600m 7.5 15 7.5 2.5 2.5 0 15 12.5 20 25 800m 20 5 12.5 22.5 2.5 2.5 10 2.5 7.5 25 900m 20 7.5 5 25 0 0 0 0 0 25 1100m 25 7.5 5 25 5 0 5 0 0 25 1300m 20 22.5 0 25 0 0 0 0 0 25 1500m 25 20 0 25 0 0 0 0 0 25 1700m 22.5 15 2.5 22.5 0 0 0 0 0 25 1900m 25 5 2.5 20 0 0 0 0 0 25 2100m 25 0 2.5 15 0 0 0 0 0 17.5 2300m 17.5 0 0 15 0 0 0 0 0 15 Fi gu ra 1 . D en d ro gr am a ilu st ra n d o a m o st ra s d o i n ve n tá ri o d e es p é ci es v eg et ai s re al iz ad o e m á re as d e d if e re n te s al ti tu d e s u sa n d o a d is tâ n ci a d e B ra y- C u rt is e o m ét o d o d e ag ru p am e n to d e U P G M A . 1a) Qual é o primeiro resultado que você observa em termos dos principais grupos formados? Quais são esses grupos e qual é o grau de similaridade entre eles? O,2 O,3 O,4 O,5 O,6 O,7 O,8 O,9 1,0 Si m ila ri d ad e O primeiro resultado que salta aos olhos é a formação de dois grupos principais, um formado pelas altitudes 0 e 200 m e outro formado pelas demais altitudes. O grau de similaridade entre esses dois grupos é de aproximadamente 0,22. 1b) Olhando a Tabela 1 e o dendrograma, como podemos explicar a diferença entre a composição de espécies nas altitudes 0 e 200m da observada nas áreas de outras altitudes? Altitude sp1 sp2 sp3 sp4 sp5 sp6 sp7 sp8 sp9 sp10 0m 0 17.5 0 0 2.5 0 0 0 0 0 200m 0 25 0 0 25 15 0 0 0 10 A partir da tabela podemos perceber que tanto na altitude O quanto 200m as espécies sp1, sp3, sp4, sp8, sp 9 e sp 10 estão ausentes (têm abundância = 0), enquanto as espécies sp2 e sp5 estão presentes. Sp2 ocorre em números parecidos nas duas altitudes, enquanto sp5 é 10 x mais abundante na altitude 200m Tabela 1. Dados de abundância de espécies vegetais em áreas de diferentes altitudes. Altitude sp1 sp2 sp3 sp4 sp5 sp6 sp7 sp8 sp9 sp10 0m 0 17.5 0 0 2.5 0 0 0 0 0 200m 0 25 0 0 25 15 0 0 0 10 400m 5 20 2.5 0 12.5 2.5 5 15 22.5 17.5 600m 7.5 15 7.5 2.5 2.5 0 15 12.5 20 25 800m 20 5 12.5 22.5 2.5 2.5 10 2.5 7.5 25 900m 20 7.5 5 25 0 0 0 0 0 25 1100m 25 7.5 5 25 5 0 5 0 0 25 1300m 20 22.5 0 25 0 0 0 0 0 25 1500m 25 20 0 25 0 0 0 0 0 25 1700m 22.5 15 2.5 22.5 0 0 0 0 0 25 1900m 25 5 2.5 20 0 0 0 0 0 25 2100m 25 0 2.5 15 0 0 0 0 0 17.5 2300m 17.5 0 0 15 0 0 0 0 0 15 1c) Seguindo com a interpretação dos resultados, além dos grupos principais, o que mais você consegue observar no dendrograma? Lembre-se de responder fazendo menção às variáveis quantificadas (abundância de espécies vegetais) em áreas de diferentes altitudes e ao grau de similaridade entre grupos. Continuando com a interpretação, observa-se que as altitudes de 0 e 200m têm grau de similaridade aproximadamente igual a 0,41, valor de grau de similaridade muito próximo ao do outro grupo. Dentro deste segundo grupo, nota-se a formação de dois outros grupos, um formado pelas altitudes 400 e 600 m e outro formado pelas demais altitudes (800 a 2300 m). De acordo com os dados da tabela 1, o grupo das altitudes de 400 e 600m, que possui grau de similaridade de aproximadamente 0,76 diferencia-se do outro grupo principalmente pelas abundâncias das espécies sp1, sp4, sp8 e sp9. O,2 O,3 O,4 O,5 O,6 O,7 O,8 O,9 1,0 Si m ila ri d ad e Análise multivariada Análises Multivariadas Análise de classificação Análises de ordenação Com restriçãoSem restriçãoAnálise de agrupamento PCA, PCoA, nMDS RDA, CCA Análises de Ordenação Sem Restrição (Irrestrita) • Uma única matriz de dados • Objetivo é resumir a informação contida na matriz de maneira gráfica, em um diagrama de ordenação • Quanto maior e mais complexa a matriz, mais eficiente é a análise • Tipos de análise vão diferir quanto ao tipo de dados • De forma geral, as análises calculam combinações lineares e a formulação vai variar entre análises • Essas combinações preservam algum tipo de distância que vai depender do tipo de análise Análises de Ordenação Irrestrita ✓Análise de Componentes Principais (PCA) – variável quantitativa e distância euclidiana ✓Análise de Coordenadas Principais (PCoA) – qualquer tipo de variável e depende da escolha apropriada da medida de distância ✓nMDS – qualquer tipo de variável e depende da escolha apropriada da medida de distância PCA – Análise de Componentes Principais • Técnica da estatística multivariada que consiste em transformar um conjunto de variáveis originais correlacionadas, em outro conjunto de variáveis de mesma dimensão (denominadas de componentes principais) independentes entre si (não correlacionados) • O primeiro componente principal explica a maior parte da variância, o segundo explica a maior parte da variância residual, e assim, sucessivamente. • O resultado prático é produzir um diagrama de ordenação que sintetizeos dados, no qual os objetos mais próximos são mais semelhantes a) Disposição das amostras no espaço multidimensional, onde cada espécie (descritor/variável) corresponde a uma dimensão b) Calcular o centroide da nuvem de dados c) Mover o centro dos eixos para esse centroide d) Girar os eixos de forma que o primeiro eixo passe a explicar a maior parte da variância. 2º eixo é posicionado de forma perpendicular ao 1º Fonte: Legendre & Legendre, 1998 PCA – Análise de Componentes Principais • Deve ser usada no seguintes casos: - Dados são quantitativos - Número de objetos (unidades amostrais) é maior que o número de variáveis - Variáveis são correlacionadas - Não há muitos 0s e nem dados discrepantes (às vezes estes podem ser removidos) * Se a escala das variáveis for diferente deve-se usar matriz de correlação ou então transformar os dados PCA - Análise de Componentes Principais • Como perceber se a PCA foi a análise adequada? Um critério que se utiliza é utilizar a análise somente se os dois, ou no máximo, os três primeiros eixos explicarem em torno de 70% da variação dos dados. Se isso não acontecer, deve-se considerar outras análises. Exemplo 3 espécies de plantas do gênero Iris (I. setosa, I. virginica, I. versicolor) • As 3 espécies formam grupos separados em termos de combinações de variáveis morfológicas • Os 2 componentes principais explicam grande parte da variação total dos dados (97,76%), sugerindo que a PCA é adequada para esse conjunto de dados e que esses caracteres florísticos são importantes na determinação das espécies de íris. Biplot • PCA Formação de 2 grupos de acordo com CP1: 1-TT1, TT2, TT3, e TT5: menores altitudes, maiores larguras e maiores índices de poluição orgânica. 2- TT4, TT6, TT7, TT8 e TT9: locais menos impactados por poluição orgânica e mais próximos às cabeceiras da microbacia Grupo 1Grupo 2Exemplo artigo de peixes na bacia do rio Tarumã PCoA – Análise de Coordenadas PrincipaisPCoA – Análise de Coordenadas Principais • Análise de coordenadas principais (ou escalonamento multidimensional métrico ou clássico - MDS). • É parecida com uma Análise de Componentes Principais (PCA), mas com ela é possível usar qualquer coeficiente de similaridade, e não só a distância euclidiana, como na PCA. • Vantagens: - Pode ser realizada quando só a matriz de similaridade está disponível - É adequada quando o número de variáveis é maior que o número de amostras, ao contrário da PCA - É robusta para valores ausentes, duplas ausências ou mesmo dados semi-quantitativos. - Útil para analisar variações sazonais e gradientes de diversidade ou quando há poucas unidades amostrais. • Desvantagens - Não informa quais variáveis influenciam a distribuição dos objetos e também não fornece a relação entre as variáveis e os eixos principais, somente as unidades amostrais. Número de espécies de aranhas em diferentes cidades CORREÇÃO ED 1d) Como você está explorando os dados, você decide fazer uma Análise de Coordenadas Principais (PCoA) e construir um diagrama (Fig.2) também usando Bray-Curtis para comparar com o dendrograma. O que você observa? A disposição das amostras de diferentes altitudes no diagrama da PCoA é parecida com a do dendrograma? Explique brevemente. Fi gu ra 2 . D ia gr am a ilu st ra n d o o r es u lt ad o d a A n ál is e d e C o o rd e n ad as P ri n ci p ai s a p ar ti r d e d ad o s d o in ve n tá ri o d e es p é ci es v eg et ai s re al iz ad o e m á re as d e d if er en te s al ti tu d e s, u sa n d o o ín d ic e d e B ra y- C u rt is Resposta 1 d) De forma geral observam-se os mesmos grupos e portanto, sim, a disposição das altitudes no diagrama de PCoA é similar à do dendrograma. Nota-se que as altitudes de 0 e 200 ficam destacadas das outras altitudes, percebe-se também as altitudes de 400 e 600 distantes dos outros grupos, mas mais próximas da altitude de 800 m, que por sua vez, está mais próxima do agrupamento formado pelas demais altitudes. 2) Um pesquisador que estuda pinguins quer avaliar se determinadas características morfológicas são suficientes para diferenciar três espécies de pinguins (Adelie, Chinstrap e Gentoo). Para isto ele vai a campo e mede essas características em 50 indivíduos de cada uma das três espécies, passa os dados para uma tabela, realiza uma Análise de Componentes Principais (PCA) e constrói o diagrama abaixo (Fig. 3). Fi gu ra 3 . D ia gr am a ilu st ra n d o o r es u lt ad o d a A n ál is e d e C o m p o n en te s P ri n ci p ai s a p ar ti r d e d ad o s d e ca ra ct er ís ti ca s m o rf o ló gi ca s d e t rê s es p é ci es d e p in gu im ( A d e lie , C h in st ra p e G e n to o ). O s d ad o s as so ci ad o s ao s in d iv íd u o s d e ca d a es p éc ie es tã o r ep re se n ta d o s em c o re s d if er en te s. A partir do diagrama responda: a) Quanto da variação total dos dados morfológicos das espécies de pinguins é explicada pelos eixos ou componentes principais PC1 e PC2? Podemos considerar a análise adequada para este conjunto de dados? Por quê? Neste exemplo 69% da variação total dos dados morfológicos das espécies de pinguins é explicada pelo eixo PC1 e 19 % pelo PC2. Como o total da variância explicada pelos dados é de 88%, um valor acima de 70% (valor mínimo estabelecido como suficiente para esta análise), podemos considerar a análise adequada para este conjunto de dados. b) Você acha que as variáveis morfológicas são suficientes para diferenciar as três espécies de pinguins? Explique brevemente. Nota-se que as variáveis morfológicas são suficientes para separar a espécie Gentoo das outras duas (Adelie e Chistrap). No entanto, apesar de conseguirmos notar uma pequena distinção entre Adelie e Chistrap, também percebe-se uma sobreposição de indivíduos destas espécies, mostrando que só as variáveis quantificadas não são suficientes. Então o ideal seria usar variáveis adicionais para tentar separar mais claramente estas duas espécies. nMDS - Escalonamento Multidimensional Não- Métrico • Muito parecido com a PCoA • Assim como a PCoA, o nMDS também permite utilizar qualquer coeficiente de distância para construir a matriz de similaridade e também aceita valores ausentes e duplas ausências. • Ao contrário da PCA e da PCoA, o nMDS permite escolher o número de eixos que se deseja produzir previamente à análise. • Diferentemente da PCoA, o nMDS é uma técnica iterativa que visa minimizar o STRESS (STandard REsiduals Sum of Squares), uma medida do quanto as posições de objetos em uma configuração tridimensional desviam-se das distâncias originais ou similaridades após o escalonamento. nMDS - Escalonamento Multidimensional Não- Métrico • O STRESS pode ser utilizado como uma medida do quão adequada a análise é de forma que: - Stress <0.05 representação excelente; - Stress <0.1 boa ordenação. - Stress <0.2 ordenação razoável. - Stress >0.2 ordenação inviável e a interpretação pode ficar comprometida. - Com valores de stress entre 0.35 e 0.4 as amostras estão posicionadas aleatoriamente, mantendo pouca ou nenhuma relação com a similaridade original. Apesar de haver uma separação entre os dois morfotipos (O e B) , ainda se nota uma mistura dos pontos. E se tentarmos separar machos e fêmeas? Exemplo: 4 variáveis morfológicas (em mm) de 200 caranguejos da espécie Leptograpsus variegatus coletados na Austrália, sendo 100 de coloração azul (B) e 100 de coloração laranja (O) B -azul e O - rosa Agora também separando machos e fêmeas e colocando diferentes formas para combinações sexo e espécie BF = bolinha rosa BM = bolinha azul OF = quadrado rosa OM = quadrado azul É importante representar o sexo também – os dadossugerem que há dimorfismo sexual! Análise multivariada Análises Multivariadas Análise de classificação Análises de ordenação Com restriçãoSem restriçãoAnálise de agrupamento PCA, PCoA, nMDS RDA, CCA Análise de Ordenação Restrita • Interesse em: 1- avaliar o efeito das variáveis preditoras sobre as variáveis resposta 2- quanto de variação elas explicam, se essa variação é significativa ou não, qual das variáveis é mais importante para explicar a variação • TESTE DE HIPÓTESES • 2 ou mais matrizes de dados: matriz resposta e matrizes explicativas (preditoras) • Variáveis preditoras condicionam a ordenação de objetos - Organização dos objetos de acordo com suas relações lineares com outras variáveis (preditoras) coletadas nas mesmas unidades amostrais • A ordenação dos objetos de uma matriz é restrita por uma regressão linear múltipla de uma segunda matriz. • Análises mais usadas: Análise de Redundância (RDA), Análise de Correspondência Canônica (CCA) Análise de Ordenação Restrita Análise de Redundância - RDA • Método que combina regressão linear e análise de componentes principais (PCA) para a análise conjunta de variáveis bióticas e abióticas • Cálculo é feito por um conjunto de regressões lineares (múltiplas) entre as variáveis preditoras e cada variável resposta • Assim, a variação nos objetos é decomposta em variação relacionada às variáveis preditoras (representada pelos eixos restritos ou canônicos) e variação não relacionada às variáveis preditoras (eixos irrestritos) • A ordenação dos objetos é feita usando os valores previstos pelas regressões • Cada eixo canônico é uma combinação linear de todas as variáveis preditoras, similar à PCA • Teste de Hipótese - A estatística da RDA é representada pelos valores de R2 e F. - R2 indica a força da relação linear entre X e Y e o - Valor do F representa o teste global de significância. - Também é possível testar a significância de cada um dos eixos da ordenação (e a presença de pelo menos um eixo significativo é pré- requisito para que exista a relação linear entre X e Y) e de cada uma das variáveis preditoras da matriz X. Análise de Redundância Análise de Correspondência Canônica - CCA • Método parecido com a RDA, com a diferença de que cada dado é previamente transformado em probabilidade (dividido pela soma total dos dados) e que a ordenação é feita pela distância de qui-quadrado • Cálculo é feito por um conjunto de regressões lineares (múltiplas) ponderadas entre as variáveis preditoras e cada variável resposta • Podem ser usados dados quantitativos, qualitativos ou semi-quantitativos • Assume que as espécies respondam de forma unimodal a gradientes ambientais • Teste de hipótese é feito através de aleatorização dos dados (permutação) • Assume relação linear entre variáveis resposta e preditoras RDA CCA • Assume relação unimodal entre variáveis resposta e preditoras Interpretando o diagrama - triplot • Em preto estão os objetos (locais) • Espécies em vermelho • Variáveis ambientais são setas azuis • Quanto menor o ângulo da seta em relação a um eixo, maior será a correlação daquela variável com o eixo • Quanto maior a seta, mais importante é a variável para explicar a distribuição dos objetos • Os objetos que estiverem no “quadrante” para o qual a seta aponta estão positivamente correlacionadas com variável. • Ao contrário, os objetos que estiverem no “quadrante” oposto, estão negativamente correlacionadas com a variável. Slide 1 Slide 2 Slide 3: Entendendo dados multidimensionais Slide 4: Representação vetorial Slide 5: O que são Análises multivariadas ? Slide 6: Análise multivariada Slide 7: Análises Multivariadas Slide 8: Análise de agrupamento (Cluster) Slide 9: Análise de agrupamento (Cluster) Slide 10: Análise de agrupamento (Cluster) Slide 11: Análise de agrupamento (Cluster) Slide 12: Análise de agrupamento (Cluster) Slide 13 Slide 14: CORREÇÃO ED Slide 15: 1. Vocês realizaram um inventário florestal, quantificando a abundância de espécies vegetais presentes em áreas de diferentes altitudes de uma floresta. Quando começam a explorar os resultados que vocês obtiveram em campo (mostrados na Tabela 1) Slide 16 Slide 17 Slide 18: 1a) Qual é o primeiro resultado que você observa em termos dos principais grupos formados? Quais são esses grupos e qual é o grau de similaridade entre eles? Slide 19: 1b) Olhando a Tabela 1 e o dendrograma, como podemos explicar a diferença entre a composição de espécies nas altitudes 0 e 200m da observada nas áreas de outras altitudes? Slide 20 Slide 21: 1c) Seguindo com a interpretação dos resultados, além dos grupos principais, o que mais você consegue observar no dendrograma? Lembre-se de responder fazendo menção às variáveis quantificadas (abundância de espécies vegetais) em áreas de diferen Slide 22 Slide 23: Análise multivariada Slide 24: Análises Multivariadas Slide 25: Análises de Ordenação Sem Restrição (Irrestrita) Slide 26: Análises de Ordenação Irrestrita Slide 27: PCA – Análise de Componentes Principais Slide 28 Slide 29: PCA – Análise de Componentes Principais Slide 30: PCA - Análise de Componentes Principais Slide 31 Slide 32: Biplot Slide 33 Slide 34: PCoA – Análise de Coordenadas Principais Slide 35 Slide 36: CORREÇÃO ED Slide 37: 1d) Como você está explorando os dados, você decide fazer uma Análise de Coordenadas Principais (PCoA) e construir um diagrama (Fig.2) também usando Bray-Curtis para comparar com o dendrograma. O que você observa? A disposição das amostras de di Slide 38 Slide 39: Resposta 1 d) De forma geral observam-se os mesmos grupos e portanto, sim, a disposição das altitudes no diagrama de PCoA é similar à do dendrograma. Nota-se que as altitudes de 0 e 200 ficam destacadas das outras altitudes, percebe-se também Slide 40: 2) Um pesquisador que estuda pinguins quer avaliar se determinadas características morfológicas são suficientes para diferenciar três espécies de pinguins (Adelie, Chinstrap e Gentoo). Para isto ele vai a campo e mede essas características em 50 Slide 41 Slide 42: A partir do diagrama responda: a) Quanto da variação total dos dados morfológicos das espécies de pinguins é explicada pelos eixos ou componentes principais PC1 e PC2? Podemos considerar a análise adequada para este conjunto de dados? Por quê? Slide 43: b) Você acha que as variáveis morfológicas são suficientes para diferenciar as três espécies de pinguins? Explique brevemente. Slide 44: nMDS - Escalonamento Multidimensional Não-Métrico Slide 45: nMDS - Escalonamento Multidimensional Não-Métrico Slide 46 Slide 47 Slide 48: Análise multivariada Slide 49: Análises Multivariadas Slide 50: Análise de Ordenação Restrita Slide 51: Análise de Ordenação Restrita Slide 52 Slide 53: Análise de Redundância - RDA Slide 54 Slide 55 Slide 56: Análise de Redundância Slide 57 Slide 58: RDA Slide 59: Interpretando o diagrama - triplot Slide 60 Slide 61
Compartilhar