Buscar

LADA - Aula 9 PCA, PCoA e nMDs

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 39 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 39 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 39 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Levantamento e 
Análise de Dados 
Ambientais
Aula 9. Análises 
multivariadas – PCA 
PCoA e nMDS
Professora Fernanda A. Casares
Email: fcasares00@hotmail.com 
UERJ – ZO | 2023.1
Análise multivariada
Análises de Ordenação
Utilizadas para:
• Reduzir a dimensionalidade e revelar padrões
• Separar as variáveis mais e menos importantes em 
combinações complexas
• Separar relações mais e menos fortes ao comparar variáveis 
preditoras e dependentes
Análises de Ordenação
Irrestritas ou de gradiente indireto Restritas ou de gradiente direto
Organizam os objetos de acordo 
com sua estrutura de 
covariância ou correlação. 
Proximidade dentro do espaço 
multidimensional representa 
semelhança dos objetos
Organizam os objetos de acordo com 
sua relação linear com outras 
variáveis (p ex: temperatura) 
coletadas nas mesmas unidades 
amostrais
Necessitam de mais de uma matriz 
de dados
Análises de Ordenação Irrestrita
• Uma única matriz de dados 
• Objetivo é resumir a informação contida na matriz de maneira gráfica, 
em um diagrama de ordenação
• Quanto maior e mais complexa a matriz, mais eficiente é a análise
• Tipos de análise vão diferir quanto ao tipo de dados
• De forma geral, as análises calculam combinações lineares e a 
formulação vai variar entre análises
• Essas combinações preservam algum tipo de distância que vai 
depender do tipo de análise
Análises de Ordenação Irrestrita
• Análise de Componentes Principais (PCA) – variável quantitativa e 
distância euclidiana
• Análise de Coordenadas Principais (PCoA) – qualquer tipo de variável 
e depende da escolha apropriada da medida de distância
• nMDS – qualquer tipo de variável e depende da escolha apropriada 
da medida de distância
• Análise de Correspondência
PCA – Análise de Componentes Principais
• Técnica da estatística multivariada que consiste em transformar um 
conjunto de variáveis originais correlacionadas, em outro conjunto de 
variáveis de mesma dimensão (denominadas de componentes 
principais) independentes entre si (não correlacionados) 
• O primeiro componente principal explica a maior parte da variância, o 
segundo explica a maior parte da variância residual, e assim, 
sucessivamente.
• O resultado prático é produzir um diagrama de ordenação que 
sintetize os dados, no qual os objetos mais próximos são mais 
semelhantes
a) Disposição das 
amostras no espaço 
multidimensional, onde 
cada espécie 
(descritor/variável) 
corresponde a uma 
dimensão
b) Calcular o centroide da 
nuvem de dados
c) Mover o centro dos 
eixos para esse 
centroide
d) Girar os eixos de forma 
que o primeiro eixo 
passe a explicar a maior 
parte da variância. 2º 
eixo é posicionado de 
forma perpendicular ao 
1º 
Fonte: Legendre & Legendre, 1998
PCA - Análise de Componentes Principais
• Vantagens:
- retirar a multicolinearidade das variáveis, pois permite transformar um conjunto 
de variáveis originais intercorrelacionadas em um novo conjunto de variáveis não 
correlacionadas (componentes principais)
- reduzir muitas variáveis a eixos que representam algumas variáveis, sendo estes 
eixos perpendiculares (ortogonais), explicando a variação dos dados de forma 
decrescente e independente. 
• Desvantagens:
- Sensibilidade a dados discrepantes (outliers) 
- Não recomendada quando se tem duplas ausências (muitos zeros na matriz) e 
dados ausentes
- Não recomendada quando se tem mais variáveis do que unidades amostrais
PCA – Análise de Componentes Principais
• Deve ser usada no seguintes casos:
- Dados são quantitativos
- Número de objetos (unidades amostrais) é maior que o número de 
variáveis
- Variáveis são correlacionadas
- Não há muitos 0s e nem dados discrepantes (às vezes estes podem 
ser removidos)
* Se a escala das variáveis for diferente deve-se usar matriz de correlação ou então 
transformar os dados 
PCA - Análise de Componentes Principais
• Como perceber se a PCA foi a 
análise adequada? 
Um critério que se utiliza é utilizar a 
análise somente se os dois, ou no 
máximo, os três primeiros eixos 
explicarem em torno de 70% da 
variação dos dados. Se isso não 
acontecer, deve-se considerar 
outras análises.
Exercício 1 – Variáveis morfológicas de 150 
flores de 3 espécies de plantas do mesmo 
gênero 
• Abrir arquivo tipo Excel com várias planilhas 
(Classroom)
• Entrar na aba íris e observar dados
• Copiar dados
• Abri PAST
• Clicar Row names e Column names
• Colar dados a partir da célula Name x Name
• Na coluna Especie : ir na linha type e clicar na seta 
à direita e selecionar group
Dar cores diferentes para cada espécie
Quantidade de variância explicada por 
cada eixo (componente principal)
Essa é a informação usada para a 
construção do diagrama de ordenação! 
Cada eixo é uma combinação linear de 
todos os descritores
Correlação das variáveis (descritores) 
com os eixos de PCA
Pontos importantes:
- As 3 espécies formam grupos separados em termos de combinações de variáveis 
morfológicas
- Os 2 componentes principais explicam grande parte da variação total dos dados 
(97,76%), sugerindo que a PCA é adequada para esse conjunto de dados e que esses 
caracteres florísticos são importantes na determinação das espécies de íris.
Biplot
PCoA – Análise de Coordenadas Principais
• Análise de coordenadas principais (ou escalonamento multidimensional métrico ou clássico - MDS). 
• É parecida com uma Análise de Componentes Principais (PCA), mas com ela é possível usar qualquer 
coeficiente de similaridade, e não só a distância euclidiana, como na PCA. 
• Vantagens: 
- Pode ser realizada quando só a matriz de similaridade está disponível 
- É adequada quando o número de variáveis é maior que o número de amostras, ao contrário da PCA 
- É robusta para valores ausentes, duplas ausências ou mesmo dados semi-quantitativos.
- Útil para analisar variações sazonais e gradientes de diversidade ou quando há poucas unidades 
amostrais. 
• Desvantagens
- Não informa quais variáveis influenciam a distribuição dos objetos e também não fornece a relação 
entre as variáveis e os eixos principais, somente as unidades amostrais. 
- Impossibilidade de interpretar os eixos com base na projeção dos descritores num ‘continuum’, ou em 
subconjuntos.
PCoA – Análise de Coordenadas Principais
• Como perceber se a PCoA foi a análise adequada? 
Uma maneira é verificar se foram produzidos autovalores negativos e 
altos, se sim, a matriz de distância que está sendo usada pode não ser 
adequada para a ordenação, pois a representação cartesiana pode 
estar distorcida. 
Exercício 2 – Abundância de espécies de aranhas em 6 
diferentes cidades. Que cidades são mais similares em 
termos de composição de espécies de aranhas?
• Abrir arquivo tipo Excel com várias planilhas (Classroom)
• Entrar na aba aranhas e observar dados
• Copiar dados
• Abri PAST
• Clicar Row names e Column names
• Colar dados a partir da célula Name x Name
nMDS - Escalonamento Multidimensional Não-
Métrico 
• Muito parecido com a PCoA
• Assim como a PCoA, o nMDS também permite utilizar qualquer 
coeficiente de distância para construir a matriz de similaridade e 
também aceita valores ausentes e duplas ausências. 
• Ao contrário da PCA e da PCoA, o nMDS permite escolher o número 
de eixos que se deseja produzir previamente à análise.
• Diferentemente da PCoA, o nMDS é uma técnica iterativa que visa 
minimizar o STRESS (STandard REsiduals Sum of Squares), uma 
medida do quanto as posições de objetos em uma configuração 
tridimensional desviam-se das distâncias originais ou similaridades 
após o escalonamento.
nMDS - Escalonamento Multidimensional Não-
Métrico 
• O STRESS pode ser utilizado como uma medida do quão adequada a 
análise é de forma que:
- Stress <0.05 representação excelente; 
- Stress <0.1 boa ordenação. 
- Stress <0.2 ordenação razoável. 
- Stress >0.2 ordenação inviável e a interpretação pode ficar 
comprometida.
- Com valores de stress entre 0.35 e 0.4 asamostras estão 
posicionadas aleatoriamente, mantendo pouca ou nenhuma relação 
com a similaridade original.
Exercício 3 – Dados de 4 variáveis morfológicas (em mm) 
de 200 caranguejos da espécie Leptograpsus variegatus
coletados na Austrália, sendo 100 de coloração azul (B) e 100 
de coloração laranja (O)
• Abrir arquivo tipo Excel com várias planilhas 
(Classroom)
• Entrar na aba caranguejos e observar dados
• Copiar dados
• Abri PAST
• Clicar Row names e Column names
• Colar dados a partir da célula Name x Name
• Na coluna sp : ir na linha type e clicar na seta à direita e 
selecionar group
Para definir as cores de cada grupo:
• Edit
• Row colors/symbols
Selecionar a 
cor de cada 
grupo -
cores bem 
diferentes
Apesar de haver uma 
separação entre os dois 
morfotipos (O e B) , 
ainda se nota uma 
mistura dos pontos.
E se tentarmos separar 
machos e fêmeas?
Arquivo caranguejos 2 – agora também separando machos e fêmeas 
e colocando diferentes formas para combinações sexo e espécie
BF = bolinha rosa
BM = bolinha azul
OF = quadrado rosa
OM = quadrado azul
É importante representar 
o sexo também – os dados 
sugerem que há 
dimorfismo sexual!
Seminários
• Trabalho em duplas
• Atividade:
- Seleção de um artigo científico, do tema de interesse de vocês, que 
tenha utilizado uma das análises que vimos durante o curso.
- A dupla deve me mostrar o artigo para que eu dê o ok.
- Preparar uma apresentação de power point sobre o artigo com no 
máximo 15 slides para ser apresentada durante a aula em até 20 
minutos (ver detalhes sobre a apresentação).
- Os dois componentes do grupo devem falar
- Após a apresentação teremos 5 minutos de discussão sobre o artigo
• Data de apresentação – 11 e 18 de julho
• Detalhes sobre a apresentação
A apresentação deve conter:
-O objetivo do estudo
-As hipóteses de trabalho (se o artigo não menciona vocês devem 
formulá-las)
-Detalhamento da metodologia: se o estudo é experimental ou 
observacional, se foi feito em campo (área de estudo) ou em 
laboratório, desenho amostral (experimental) e testes estatísticos 
realizados 
-Apresentação dos resultados (tabelas e gráficos) e análises estatísticas
-Discussão dos resultados fazendo referência às hipóteses
-Conclusão final
Seminários
	Seção Padrão
	Slide 1
	Slide 2: Análise multivariada
	Slide 3: Análises de Ordenação
	Slide 4: Análises de Ordenação
	Slide 5: Análises de Ordenação Irrestrita
	Slide 6: Análises de Ordenação Irrestrita
	Slide 7: PCA – Análise de Componentes Principais
	Slide 8
	Slide 9: PCA - Análise de Componentes Principais
	Slide 10: PCA – Análise de Componentes Principais
	Slide 11: PCA - Análise de Componentes Principais
	Slide 12: Exercício 1 – Variáveis morfológicas de 150 flores de 3 espécies de plantas do mesmo gênero 
	Slide 13
	Slide 14
	Slide 15
	Slide 16
	Slide 17
	Slide 18
	Slide 19
	Slide 20: Biplot
	Slide 21: PCoA – Análise de Coordenadas Principais
	Slide 22: PCoA – Análise de Coordenadas Principais
	Slide 23: Exercício 2 – Abundância de espécies de aranhas em 6 diferentes cidades. Que cidades são mais similares em termos de composição de espécies de aranhas?
	Slide 24
	Slide 25
	Slide 26
	Slide 27
	Slide 28: nMDS - Escalonamento Multidimensional Não-Métrico 
	Slide 29: nMDS - Escalonamento Multidimensional Não-Métrico 
	Slide 30: Exercício 3 – Dados de 4 variáveis morfológicas (em mm) de 200 caranguejos da espécie Leptograpsus variegatus coletados na Austrália, sendo 100 de coloração azul (B) e 100 de coloração laranja (O)
	Slide 31
	Slide 32
	Slide 33
	Slide 34
	Slide 35
	Slide 36
	Slide 37
	Slide 38: Seminários
	Slide 39: Seminários

Continue navegando