Buscar

LADA - Aula 8 Analise de agrupamento

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 46 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 46 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 46 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Levantamento e 
Análise de Dados 
Ambientais
Aula 8. Análises 
multivariadas –
análise de 
agrupamento
Professora Fernanda A. Casares
Email: fcasares00@hotmail.com 
UERJ – ZO | 2023.1
O que são Análises multivariadas ? 
• As análises multivariadas têm o objetivo de 
reduzir um grande número de variáveis a 
poucas dimensões, com o mínimo de 
perda de informação, permitindo a 
detecção dos principais padrões de 
similaridade, de associação e de correlação 
entre as variáveis (Lewinsohnet al.,2002)
Diferenças principais em relação a análises 
univariadas
• NÃO há necessidade de hipóteses 
estabelecidas a priori
• Natureza exploratória
• Várias variáveis INDEPENDENTES.
Análise univariada
• Variáveis
- Uma variável resposta(Y):
(ex: Y= abundância (número de inds.) 
da espécie A)
- Uma ou mais variáveis 
independentes (Xi) (Ex: N, pH, Temp.)
Análise multivariada
• Variáveis
- Mais de uma variável resposta(Yi):
(ex: Yi= abundância (número de inds.) 
das espécies A, B, C, D, E)
- Uma ou mais variáveis 
independentes (Xi) (Ex: N, pH, Temp.)
Y YA YB YC YD YE
Entendendo dados multidimensionais
• Objetos e descritores
- Amostras (inds.) / Espécies / Variáveis ambientais
Representação vetorial
Modos de análise
• Matriz de semelhança entre objetos -> Modo Q
sp1 sp2 Prof Temp
Estação A x11 x12 x13 x14
Estação B x21 x22 x23 x24
Estação C x31 x32 X33 x34
Objetos
Modos de análise
• Matriz de semelhança entre descritores -> Modo R 
sp1 sp2 Prof Temp
Estação A x11 x12 x13 x14
Estação B x21 x22 x23 x24
Estação C x31 x32 X33 x34
Tipos de dados
• Quantitativos
• Semi-quantitativos
sp1 sp2
21 61
23 40
50 28
Renda código
0-1 salário mín. 1
1-3 salários mín. 2
3-5 salários mín. 3
> 5 salários mín. 4
• Qualitativos
Sp1 Sp2
0 1
1 1
1 0
0 1
Associação de objetos (Modo Q)
• Como comparar e agrupar objetos?
Métodos de similaridade
Métodos de dissimilaridade ou 
distância
Comparação 
entre pares 
de objetos
Medidas de similaridade
• Associação de objetos (Modo Q)
a = número de espécies em comum aos dois objetos
b = número de espécies exclusivas do objeto a
c = número de espécies exclusivas do objeto b
Índice (ou coeficiente) de 
similaridade
Fórmula Variação
Jaccard 𝑎
𝑎 + 𝑏 + 𝑐
0 a 1
Sorensen 2𝑎
2𝑎 + 𝑏 + 𝑐
0 a 1
Medidas de distância ou dissimilaridade
• Distância euclidiana • Distância de Bray-Curtis
✓Varia entre 0 (mais parecidas) e 1 (mais 
diferentes)
✓Fortemente influenciada por espécies 
dominantes (não considera dupla ausência)
✓Índice mais usado em Ecologia
𝑑𝐴𝐵 = ෍
𝑖=1
𝑛
𝑥𝑖 − 𝑦𝑖
2
BCij = 1 – (2*Cij) / (Si + Sj)
Cij = Soma dos menores valores para a espécie em cada local 
Si: Número de espécies no local i
Sj: Número de espécies no local j
Coeficientes de dependência
Associação de descritores (Modo R)
• Descritores paramétricos
-Matriz de variâncias e covariâncias
-Matriz de correlações (Pearson)
• Descritores não paramétricos
-Matriz de correlações (Spearman)
-Matriz de co-ocorrências
Análise de agrupamento (Cluster)
• Útil para se estabelecer 
similaridade entre locais de 
coleta, comunidades, etc
• Natureza principalmente 
gráfica – gera um 
DENDROGRAMA (similar a 
um cladograma)
• Existem diferentes métodos 
de agrupamento
Método por ligação simples
• Vizinho mais próximo -> o dendrograma é montado a partir dos 
objetos mais similares 
Método por ligação completa
• Vizinho mais distante
• Um elemento só se fusiona a esse grupo se for ligado a todos os 
elementos desse grupo
Método de médias não ponderadas (UPGMA)
• Dendrograma é montado a partir dos valores médios de pares de grupos. 
• A distância media é calculada a partir da distância entre cada ponto em um grupo
e todos os outros pontos no outro grupo. Os dois grupos com a menor distância
média são agrupados. 
Método de Ward
• Um grupo será fusionado a outro se este proporcionar o 
menor aumento da variância entre grupos
Análise multivariada
Análise de agrupamento (Cluster)
Análise de agrupamento (Cluster)
Resposta 1 Resposta 2 Resposta 3 Resposta 4
Objeto 1
Objeto 2
Objeto 3
Objeto 4
Objeto 5
Objeto 6
1. Matriz resposta 
Sp1 Sp2 Sp3 Sp4
Local 1 4 2 4 0
Local 2 2 9 10 4
Local 3 5 8 4 7
Local 4 10 14 6 20
Local 5 18 19 14 20
Local 6 16 14 21 11
Análise de agrupamento (Cluster)
2. Cálculo da distância entre pares de 
objetos (dissimilaridade)
Local 1 Local 2 Local 3 Local 4 Local 5 Local 6
Local 1
Local 2
Local 3
Local 4
Local 5
Local 6
Matriz de distância
Análise de agrupamento (Cluster)
3. Seleção de método de agrupamento e construção do 
dendrograma
Método que determinará como 
os grupos serão formados
L1 L2 L3 L4 L5 L6
D
is
tâ
n
ci
a
0
0,6
Classificação 
hierárquica
Classificação hierárquica
Classificação hierárquica
Aumento da 
dissimilaridade
Aumento da 
semelhança
Classificação hierárquica
• Principais aplicações bioestatísticas:
- Filogenia
- Melhoramento genético
- Bioinformática
*Busca de grupos homólogos em famílias de genes
* Algoritmos de clusterização utilizados em plataformas de 
genotipagem para atribuir automaticamente genótipos
• Classificação 
EXEMPLOS
Aplicação em 
melhoramento 
genético
Variáveis resposta 
para vacas leiteiras:
-produção 
acumulada aos 305 
dias 
-persistência, 
produção ao pico
-duração da 
lactação
-produção de 
sólidos
Aplicação em 
melhoramento 
genético
Grupo 1 - animais com os 
valores genéticos mais 
elevados para todas as 
caraterísticas estudadas.
Animais que devem ser 
utilizados para o 
melhoramento simultâneo do 
conjunto de características 
estudadas.
Exemplo de um artigo científico
•Comparar os níveis de resistência encontrados em 
Aedes aegypti de quatro estados brasileiros com 
diferentes históricos de uso de inseticidas:
- São Paulo, Alagoas, Sergipe e Pernambuco
Objetivo do estudo
- Rockefeller: cepa suscetível (< 
RR)
- RR = taxa de resistência
- Populações que se agruparam 
com Rockefeller -> RR entre 2 
e 3
- Segundo grupo -> RR > 3
- População mais distante foi de 
Itabaiana no NE - > RR = 8,5
EXERCÍCIO NO PAST
Para avaliar se existem países mais parecidos em termos de 
preferência de cores de roupas, foi feito um levantamento com 
as populações de 7 países sobre sua cor preferida de roupa.
Quais populações têm perfis mais similares de preferência?
País Branco Púrpura Azul Verde Amarelo Laranja Rosa Vermelho Marrom Preto
Portugal 218 1621 126 225 113 121 1815 225 131 1618
Inglaterra 238 1621 212 718 255 1518 169 185 218 212
Noruega 822 69 212 718 721 1518 1225 1815 218 1922
Holanda 231 161 212 718 75 199 1815 1815 218 2623
Alemanha 235 229 212 718 75 116 145 1815 218 193
França 212 1615 212 225 101 1518 1815 1815 218 1415
Espanha 212 1621 126 225 113 141 1815 1815 1315 1415
Fazer análise de agrupamento no PAST
• Abrir arquivo do excel
• Copiar dados
• Abrir PAST
• Selecionar Row attributes
• Selecionar Column atributes
• Colar dados a partir da célula Name x Name
• Selecionar dados
• Clicar Multivariate – Similarity and distance índices
Distância Euclidiana
Índice de Bray-Curtis
• Selecionar dados
• Clicar Multivariate – Clustering - Classical
O que o 
gráfico 
mostra?
1. 2 grupos: 
Inglaterra + 
Alemanha e 
outros
2. No 2º grupo: 
Noruega e 
Holanda se 
diferenciam de 
Portugal, França e 
Espanha
3. Os países mais
similares entre si
são: França e 
Espanha e 
Noruega e 
Holanda
O que o gráfico mostra?
	Seção Padrão
	Slide 1
	Slide 2: O que são Análises multivariadas ? 
	Slide 3: Diferenças principais em relação a análises univariadas
	Slide 4
	Slide 5: Entendendo dados multidimensionais
	Slide 6: Representação vetorial
	Slide 7: Modos de análise
	Slide 8: Modos de análise
	Slide 9: Tipos de dados
	Slide 10: Associação de objetos (Modo Q)
	Slide 11: Medidas de similaridade
	Slide 12: Medidas de distância ou dissimilaridade
	Slide 13: Coeficientes de dependência
	Slide 14: Análise de agrupamento (Cluster)
	Slide15: Método por ligação simples
	Slide 16: Método por ligação completa
	Slide 17: Método de médias não ponderadas (UPGMA)
	Slide 18: Método de Ward
	Slide 19: Análise multivariada
	Slide 20: Análise de agrupamento (Cluster)
	Slide 21: Análise de agrupamento (Cluster)
	Slide 22: Análise de agrupamento (Cluster)
	Slide 23: Análise de agrupamento (Cluster)
	Slide 24: Classificação hierárquica
	Slide 25: Classificação hierárquica
	Slide 26: Classificação hierárquica
	Slide 27
	Slide 28
	Slide 29: Classificação hierárquica
	Slide 30
	Slide 31: Aplicação em melhoramento genético
	Slide 32: Aplicação em melhoramento genético
	Slide 33: Exemplo de um artigo científico
	Slide 34: Objetivo do estudo
	Slide 35
	Slide 36: EXERCÍCIO NO PAST
	Slide 37: Para avaliar se existem países mais parecidos em termos de preferência de cores de roupas, foi feito um levantamento com as populações de 7 países sobre sua cor preferida de roupa. Quais populações têm perfis mais similares de preferência?
	Slide 38: Fazer análise de agrupamento no PAST
	Slide 39
	Slide 40
	Slide 41
	Slide 42
	Slide 43
	Slide 44
	Slide 45
	Slide 46

Continue navegando