Baixe o app para aproveitar ainda mais
Prévia do material em texto
Levantamento e Análise de Dados Ambientais Aula 8. Análises multivariadas – análise de agrupamento Professora Fernanda A. Casares Email: fcasares00@hotmail.com UERJ – ZO | 2023.1 O que são Análises multivariadas ? • As análises multivariadas têm o objetivo de reduzir um grande número de variáveis a poucas dimensões, com o mínimo de perda de informação, permitindo a detecção dos principais padrões de similaridade, de associação e de correlação entre as variáveis (Lewinsohnet al.,2002) Diferenças principais em relação a análises univariadas • NÃO há necessidade de hipóteses estabelecidas a priori • Natureza exploratória • Várias variáveis INDEPENDENTES. Análise univariada • Variáveis - Uma variável resposta(Y): (ex: Y= abundância (número de inds.) da espécie A) - Uma ou mais variáveis independentes (Xi) (Ex: N, pH, Temp.) Análise multivariada • Variáveis - Mais de uma variável resposta(Yi): (ex: Yi= abundância (número de inds.) das espécies A, B, C, D, E) - Uma ou mais variáveis independentes (Xi) (Ex: N, pH, Temp.) Y YA YB YC YD YE Entendendo dados multidimensionais • Objetos e descritores - Amostras (inds.) / Espécies / Variáveis ambientais Representação vetorial Modos de análise • Matriz de semelhança entre objetos -> Modo Q sp1 sp2 Prof Temp Estação A x11 x12 x13 x14 Estação B x21 x22 x23 x24 Estação C x31 x32 X33 x34 Objetos Modos de análise • Matriz de semelhança entre descritores -> Modo R sp1 sp2 Prof Temp Estação A x11 x12 x13 x14 Estação B x21 x22 x23 x24 Estação C x31 x32 X33 x34 Tipos de dados • Quantitativos • Semi-quantitativos sp1 sp2 21 61 23 40 50 28 Renda código 0-1 salário mín. 1 1-3 salários mín. 2 3-5 salários mín. 3 > 5 salários mín. 4 • Qualitativos Sp1 Sp2 0 1 1 1 1 0 0 1 Associação de objetos (Modo Q) • Como comparar e agrupar objetos? Métodos de similaridade Métodos de dissimilaridade ou distância Comparação entre pares de objetos Medidas de similaridade • Associação de objetos (Modo Q) a = número de espécies em comum aos dois objetos b = número de espécies exclusivas do objeto a c = número de espécies exclusivas do objeto b Índice (ou coeficiente) de similaridade Fórmula Variação Jaccard 𝑎 𝑎 + 𝑏 + 𝑐 0 a 1 Sorensen 2𝑎 2𝑎 + 𝑏 + 𝑐 0 a 1 Medidas de distância ou dissimilaridade • Distância euclidiana • Distância de Bray-Curtis ✓Varia entre 0 (mais parecidas) e 1 (mais diferentes) ✓Fortemente influenciada por espécies dominantes (não considera dupla ausência) ✓Índice mais usado em Ecologia 𝑑𝐴𝐵 = 𝑖=1 𝑛 𝑥𝑖 − 𝑦𝑖 2 BCij = 1 – (2*Cij) / (Si + Sj) Cij = Soma dos menores valores para a espécie em cada local Si: Número de espécies no local i Sj: Número de espécies no local j Coeficientes de dependência Associação de descritores (Modo R) • Descritores paramétricos -Matriz de variâncias e covariâncias -Matriz de correlações (Pearson) • Descritores não paramétricos -Matriz de correlações (Spearman) -Matriz de co-ocorrências Análise de agrupamento (Cluster) • Útil para se estabelecer similaridade entre locais de coleta, comunidades, etc • Natureza principalmente gráfica – gera um DENDROGRAMA (similar a um cladograma) • Existem diferentes métodos de agrupamento Método por ligação simples • Vizinho mais próximo -> o dendrograma é montado a partir dos objetos mais similares Método por ligação completa • Vizinho mais distante • Um elemento só se fusiona a esse grupo se for ligado a todos os elementos desse grupo Método de médias não ponderadas (UPGMA) • Dendrograma é montado a partir dos valores médios de pares de grupos. • A distância media é calculada a partir da distância entre cada ponto em um grupo e todos os outros pontos no outro grupo. Os dois grupos com a menor distância média são agrupados. Método de Ward • Um grupo será fusionado a outro se este proporcionar o menor aumento da variância entre grupos Análise multivariada Análise de agrupamento (Cluster) Análise de agrupamento (Cluster) Resposta 1 Resposta 2 Resposta 3 Resposta 4 Objeto 1 Objeto 2 Objeto 3 Objeto 4 Objeto 5 Objeto 6 1. Matriz resposta Sp1 Sp2 Sp3 Sp4 Local 1 4 2 4 0 Local 2 2 9 10 4 Local 3 5 8 4 7 Local 4 10 14 6 20 Local 5 18 19 14 20 Local 6 16 14 21 11 Análise de agrupamento (Cluster) 2. Cálculo da distância entre pares de objetos (dissimilaridade) Local 1 Local 2 Local 3 Local 4 Local 5 Local 6 Local 1 Local 2 Local 3 Local 4 Local 5 Local 6 Matriz de distância Análise de agrupamento (Cluster) 3. Seleção de método de agrupamento e construção do dendrograma Método que determinará como os grupos serão formados L1 L2 L3 L4 L5 L6 D is tâ n ci a 0 0,6 Classificação hierárquica Classificação hierárquica Classificação hierárquica Aumento da dissimilaridade Aumento da semelhança Classificação hierárquica • Principais aplicações bioestatísticas: - Filogenia - Melhoramento genético - Bioinformática *Busca de grupos homólogos em famílias de genes * Algoritmos de clusterização utilizados em plataformas de genotipagem para atribuir automaticamente genótipos • Classificação EXEMPLOS Aplicação em melhoramento genético Variáveis resposta para vacas leiteiras: -produção acumulada aos 305 dias -persistência, produção ao pico -duração da lactação -produção de sólidos Aplicação em melhoramento genético Grupo 1 - animais com os valores genéticos mais elevados para todas as caraterísticas estudadas. Animais que devem ser utilizados para o melhoramento simultâneo do conjunto de características estudadas. Exemplo de um artigo científico •Comparar os níveis de resistência encontrados em Aedes aegypti de quatro estados brasileiros com diferentes históricos de uso de inseticidas: - São Paulo, Alagoas, Sergipe e Pernambuco Objetivo do estudo - Rockefeller: cepa suscetível (< RR) - RR = taxa de resistência - Populações que se agruparam com Rockefeller -> RR entre 2 e 3 - Segundo grupo -> RR > 3 - População mais distante foi de Itabaiana no NE - > RR = 8,5 EXERCÍCIO NO PAST Para avaliar se existem países mais parecidos em termos de preferência de cores de roupas, foi feito um levantamento com as populações de 7 países sobre sua cor preferida de roupa. Quais populações têm perfis mais similares de preferência? País Branco Púrpura Azul Verde Amarelo Laranja Rosa Vermelho Marrom Preto Portugal 218 1621 126 225 113 121 1815 225 131 1618 Inglaterra 238 1621 212 718 255 1518 169 185 218 212 Noruega 822 69 212 718 721 1518 1225 1815 218 1922 Holanda 231 161 212 718 75 199 1815 1815 218 2623 Alemanha 235 229 212 718 75 116 145 1815 218 193 França 212 1615 212 225 101 1518 1815 1815 218 1415 Espanha 212 1621 126 225 113 141 1815 1815 1315 1415 Fazer análise de agrupamento no PAST • Abrir arquivo do excel • Copiar dados • Abrir PAST • Selecionar Row attributes • Selecionar Column atributes • Colar dados a partir da célula Name x Name • Selecionar dados • Clicar Multivariate – Similarity and distance índices Distância Euclidiana Índice de Bray-Curtis • Selecionar dados • Clicar Multivariate – Clustering - Classical O que o gráfico mostra? 1. 2 grupos: Inglaterra + Alemanha e outros 2. No 2º grupo: Noruega e Holanda se diferenciam de Portugal, França e Espanha 3. Os países mais similares entre si são: França e Espanha e Noruega e Holanda O que o gráfico mostra? Seção Padrão Slide 1 Slide 2: O que são Análises multivariadas ? Slide 3: Diferenças principais em relação a análises univariadas Slide 4 Slide 5: Entendendo dados multidimensionais Slide 6: Representação vetorial Slide 7: Modos de análise Slide 8: Modos de análise Slide 9: Tipos de dados Slide 10: Associação de objetos (Modo Q) Slide 11: Medidas de similaridade Slide 12: Medidas de distância ou dissimilaridade Slide 13: Coeficientes de dependência Slide 14: Análise de agrupamento (Cluster) Slide15: Método por ligação simples Slide 16: Método por ligação completa Slide 17: Método de médias não ponderadas (UPGMA) Slide 18: Método de Ward Slide 19: Análise multivariada Slide 20: Análise de agrupamento (Cluster) Slide 21: Análise de agrupamento (Cluster) Slide 22: Análise de agrupamento (Cluster) Slide 23: Análise de agrupamento (Cluster) Slide 24: Classificação hierárquica Slide 25: Classificação hierárquica Slide 26: Classificação hierárquica Slide 27 Slide 28 Slide 29: Classificação hierárquica Slide 30 Slide 31: Aplicação em melhoramento genético Slide 32: Aplicação em melhoramento genético Slide 33: Exemplo de um artigo científico Slide 34: Objetivo do estudo Slide 35 Slide 36: EXERCÍCIO NO PAST Slide 37: Para avaliar se existem países mais parecidos em termos de preferência de cores de roupas, foi feito um levantamento com as populações de 7 países sobre sua cor preferida de roupa. Quais populações têm perfis mais similares de preferência? Slide 38: Fazer análise de agrupamento no PAST Slide 39 Slide 40 Slide 41 Slide 42 Slide 43 Slide 44 Slide 45 Slide 46
Compartilhar