Baixe o app para aproveitar ainda mais
Prévia do material em texto
Levantamento e Análise de Dados Ambientais Aula 9. Análises multivariadas – PCA PCoA e nMDS Professora Fernanda A. Casares Email: fcasares00@hotmail.com UERJ – ZO | 2023.1 Análise multivariada Análises de Ordenação Utilizadas para: • Reduzir a dimensionalidade e revelar padrões • Separar as variáveis mais e menos importantes em combinações complexas • Separar relações mais e menos fortes ao comparar variáveis preditoras e dependentes Análises de Ordenação Irrestritas ou de gradiente indireto Restritas ou de gradiente direto Organizam os objetos de acordo com sua estrutura de covariância ou correlação. Proximidade dentro do espaço multidimensional representa semelhança dos objetos Organizam os objetos de acordo com sua relação linear com outras variáveis (p ex: temperatura) coletadas nas mesmas unidades amostrais Necessitam de mais de uma matriz de dados Análises de Ordenação Irrestrita • Uma única matriz de dados • Objetivo é resumir a informação contida na matriz de maneira gráfica, em um diagrama de ordenação • Quanto maior e mais complexa a matriz, mais eficiente é a análise • Tipos de análise vão diferir quanto ao tipo de dados • De forma geral, as análises calculam combinações lineares e a formulação vai variar entre análises • Essas combinações preservam algum tipo de distância que vai depender do tipo de análise Análises de Ordenação Irrestrita • Análise de Componentes Principais (PCA) – variável quantitativa e distância euclidiana • Análise de Coordenadas Principais (PCoA) – qualquer tipo de variável e depende da escolha apropriada da medida de distância • nMDS – qualquer tipo de variável e depende da escolha apropriada da medida de distância • Análise de Correspondência PCA – Análise de Componentes Principais • Técnica da estatística multivariada que consiste em transformar um conjunto de variáveis originais correlacionadas, em outro conjunto de variáveis de mesma dimensão (denominadas de componentes principais) independentes entre si (não correlacionados) • O primeiro componente principal explica a maior parte da variância, o segundo explica a maior parte da variância residual, e assim, sucessivamente. • O resultado prático é produzir um diagrama de ordenação que sintetize os dados, no qual os objetos mais próximos são mais semelhantes a) Disposição das amostras no espaço multidimensional, onde cada espécie (descritor/variável) corresponde a uma dimensão b) Calcular o centroide da nuvem de dados c) Mover o centro dos eixos para esse centroide d) Girar os eixos de forma que o primeiro eixo passe a explicar a maior parte da variância. 2º eixo é posicionado de forma perpendicular ao 1º Fonte: Legendre & Legendre, 1998 PCA - Análise de Componentes Principais • Vantagens: - retirar a multicolinearidade das variáveis, pois permite transformar um conjunto de variáveis originais intercorrelacionadas em um novo conjunto de variáveis não correlacionadas (componentes principais) - reduzir muitas variáveis a eixos que representam algumas variáveis, sendo estes eixos perpendiculares (ortogonais), explicando a variação dos dados de forma decrescente e independente. • Desvantagens: - Sensibilidade a dados discrepantes (outliers) - Não recomendada quando se tem duplas ausências (muitos zeros na matriz) e dados ausentes - Não recomendada quando se tem mais variáveis do que unidades amostrais PCA – Análise de Componentes Principais • Deve ser usada no seguintes casos: - Dados são quantitativos - Número de objetos (unidades amostrais) é maior que o número de variáveis - Variáveis são correlacionadas - Não há muitos 0s e nem dados discrepantes (às vezes estes podem ser removidos) * Se a escala das variáveis for diferente deve-se usar matriz de correlação ou então transformar os dados PCA - Análise de Componentes Principais • Como perceber se a PCA foi a análise adequada? Um critério que se utiliza é utilizar a análise somente se os dois, ou no máximo, os três primeiros eixos explicarem em torno de 70% da variação dos dados. Se isso não acontecer, deve-se considerar outras análises. Exercício 1 – Variáveis morfológicas de 150 flores de 3 espécies de plantas do mesmo gênero • Abrir arquivo tipo Excel com várias planilhas (Classroom) • Entrar na aba íris e observar dados • Copiar dados • Abri PAST • Clicar Row names e Column names • Colar dados a partir da célula Name x Name • Na coluna Especie : ir na linha type e clicar na seta à direita e selecionar group Dar cores diferentes para cada espécie Quantidade de variância explicada por cada eixo (componente principal) Essa é a informação usada para a construção do diagrama de ordenação! Cada eixo é uma combinação linear de todos os descritores Correlação das variáveis (descritores) com os eixos de PCA Pontos importantes: - As 3 espécies formam grupos separados em termos de combinações de variáveis morfológicas - Os 2 componentes principais explicam grande parte da variação total dos dados (97,76%), sugerindo que a PCA é adequada para esse conjunto de dados e que esses caracteres florísticos são importantes na determinação das espécies de íris. Biplot PCoA – Análise de Coordenadas Principais • Análise de coordenadas principais (ou escalonamento multidimensional métrico ou clássico - MDS). • É parecida com uma Análise de Componentes Principais (PCA), mas com ela é possível usar qualquer coeficiente de similaridade, e não só a distância euclidiana, como na PCA. • Vantagens: - Pode ser realizada quando só a matriz de similaridade está disponível - É adequada quando o número de variáveis é maior que o número de amostras, ao contrário da PCA - É robusta para valores ausentes, duplas ausências ou mesmo dados semi-quantitativos. - Útil para analisar variações sazonais e gradientes de diversidade ou quando há poucas unidades amostrais. • Desvantagens - Não informa quais variáveis influenciam a distribuição dos objetos e também não fornece a relação entre as variáveis e os eixos principais, somente as unidades amostrais. - Impossibilidade de interpretar os eixos com base na projeção dos descritores num ‘continuum’, ou em subconjuntos. PCoA – Análise de Coordenadas Principais • Como perceber se a PCoA foi a análise adequada? Uma maneira é verificar se foram produzidos autovalores negativos e altos, se sim, a matriz de distância que está sendo usada pode não ser adequada para a ordenação, pois a representação cartesiana pode estar distorcida. Exercício 2 – Abundância de espécies de aranhas em 6 diferentes cidades. Que cidades são mais similares em termos de composição de espécies de aranhas? • Abrir arquivo tipo Excel com várias planilhas (Classroom) • Entrar na aba aranhas e observar dados • Copiar dados • Abri PAST • Clicar Row names e Column names • Colar dados a partir da célula Name x Name nMDS - Escalonamento Multidimensional Não- Métrico • Muito parecido com a PCoA • Assim como a PCoA, o nMDS também permite utilizar qualquer coeficiente de distância para construir a matriz de similaridade e também aceita valores ausentes e duplas ausências. • Ao contrário da PCA e da PCoA, o nMDS permite escolher o número de eixos que se deseja produzir previamente à análise. • Diferentemente da PCoA, o nMDS é uma técnica iterativa que visa minimizar o STRESS (STandard REsiduals Sum of Squares), uma medida do quanto as posições de objetos em uma configuração tridimensional desviam-se das distâncias originais ou similaridades após o escalonamento. nMDS - Escalonamento Multidimensional Não- Métrico • O STRESS pode ser utilizado como uma medida do quão adequada a análise é de forma que: - Stress <0.05 representação excelente; - Stress <0.1 boa ordenação. - Stress <0.2 ordenação razoável. - Stress >0.2 ordenação inviável e a interpretação pode ficar comprometida. - Com valores de stress entre 0.35 e 0.4 asamostras estão posicionadas aleatoriamente, mantendo pouca ou nenhuma relação com a similaridade original. Exercício 3 – Dados de 4 variáveis morfológicas (em mm) de 200 caranguejos da espécie Leptograpsus variegatus coletados na Austrália, sendo 100 de coloração azul (B) e 100 de coloração laranja (O) • Abrir arquivo tipo Excel com várias planilhas (Classroom) • Entrar na aba caranguejos e observar dados • Copiar dados • Abri PAST • Clicar Row names e Column names • Colar dados a partir da célula Name x Name • Na coluna sp : ir na linha type e clicar na seta à direita e selecionar group Para definir as cores de cada grupo: • Edit • Row colors/symbols Selecionar a cor de cada grupo - cores bem diferentes Apesar de haver uma separação entre os dois morfotipos (O e B) , ainda se nota uma mistura dos pontos. E se tentarmos separar machos e fêmeas? Arquivo caranguejos 2 – agora também separando machos e fêmeas e colocando diferentes formas para combinações sexo e espécie BF = bolinha rosa BM = bolinha azul OF = quadrado rosa OM = quadrado azul É importante representar o sexo também – os dados sugerem que há dimorfismo sexual! Seminários • Trabalho em duplas • Atividade: - Seleção de um artigo científico, do tema de interesse de vocês, que tenha utilizado uma das análises que vimos durante o curso. - A dupla deve me mostrar o artigo para que eu dê o ok. - Preparar uma apresentação de power point sobre o artigo com no máximo 15 slides para ser apresentada durante a aula em até 20 minutos (ver detalhes sobre a apresentação). - Os dois componentes do grupo devem falar - Após a apresentação teremos 5 minutos de discussão sobre o artigo • Data de apresentação – 11 e 18 de julho • Detalhes sobre a apresentação A apresentação deve conter: -O objetivo do estudo -As hipóteses de trabalho (se o artigo não menciona vocês devem formulá-las) -Detalhamento da metodologia: se o estudo é experimental ou observacional, se foi feito em campo (área de estudo) ou em laboratório, desenho amostral (experimental) e testes estatísticos realizados -Apresentação dos resultados (tabelas e gráficos) e análises estatísticas -Discussão dos resultados fazendo referência às hipóteses -Conclusão final Seminários Seção Padrão Slide 1 Slide 2: Análise multivariada Slide 3: Análises de Ordenação Slide 4: Análises de Ordenação Slide 5: Análises de Ordenação Irrestrita Slide 6: Análises de Ordenação Irrestrita Slide 7: PCA – Análise de Componentes Principais Slide 8 Slide 9: PCA - Análise de Componentes Principais Slide 10: PCA – Análise de Componentes Principais Slide 11: PCA - Análise de Componentes Principais Slide 12: Exercício 1 – Variáveis morfológicas de 150 flores de 3 espécies de plantas do mesmo gênero Slide 13 Slide 14 Slide 15 Slide 16 Slide 17 Slide 18 Slide 19 Slide 20: Biplot Slide 21: PCoA – Análise de Coordenadas Principais Slide 22: PCoA – Análise de Coordenadas Principais Slide 23: Exercício 2 – Abundância de espécies de aranhas em 6 diferentes cidades. Que cidades são mais similares em termos de composição de espécies de aranhas? Slide 24 Slide 25 Slide 26 Slide 27 Slide 28: nMDS - Escalonamento Multidimensional Não-Métrico Slide 29: nMDS - Escalonamento Multidimensional Não-Métrico Slide 30: Exercício 3 – Dados de 4 variáveis morfológicas (em mm) de 200 caranguejos da espécie Leptograpsus variegatus coletados na Austrália, sendo 100 de coloração azul (B) e 100 de coloração laranja (O) Slide 31 Slide 32 Slide 33 Slide 34 Slide 35 Slide 36 Slide 37 Slide 38: Seminários Slide 39: Seminários
Compartilhar