Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

Clique para editar o estilo do título mestre
Clique para editar o estilo do subtítulo mestre
*
*
*
TÉCNICAS DE ANÁLISE MULTIVARIADA
Prof. Dr. Yzel Rondon Súarez
UEMS - Dourados
*
*
*
Introdução à Estatística Multivariada
 Qualquer comunidade biológica é determinada por um grande número de variáveis bióticas e abióticas;
 Além de descrever a estrutura das comunidades, a identificação de padrões de organização e seus determinantes é de grande importância;
 Devido a esta natureza tão complexa, os fenômenos ecológicos necessitam ser tratados sob uma visão multivariada;
 Neste sentido, uma série de métodos estatísticos foram e vêm sendo desenvolvidas para facilitar a identificação destes padrões.
*
*
*
 Os métodos estatísticos multivariados podem ser divididos em dois grandes grupos:
*
*
*
Análise de Agrupamento
 Utilizada quando se deseja estabelecer grupos naturais de amostras ou espécies;
 É um método aglomerativo, ou seja, inicialmente os pares com maior similaridade são ligados e os demais vão sendo inseridos;
 É uma técnica muito difundida, já que os índices de similaridade são muitos e pelo fato desta não requerer normalidade, homogeneidade de variâncias;
 Pode ser utilizada para dados qualitativos, quantitativos ou ambos;
*
*
*
 Entre os problemas do método estão:
1) Pouco se sabe sobre as propriedades estatísticas de seus vários métodos;
2) A definição de “níveis de corte” para estabelecer os grupos interpretáveis é arbitrária. 
*
*
*
Entre os problemas “de quem utiliza o método” estão:
1) Devido ao grande número de índices de similaridade em muitos casos estes são escolhidos simplesmente por “agradarem mais” quem executa a análise;
2) Padrão ÍCONES dos softwares, ou seja, a praticidade em executá-lo (assim como outros métodos) aumenta o número de “interpretações erradas” dos padrões ecológicos.
*
*
*
 Os coeficientes de associação se dividem em três grupos:
 Dependência (Ex: Pearson, Spearman);
 Distância (Ex: Distância Euclidiana);
 Similaridade (Ex: Jaccard, Morisita-Horn, etc....).
*
*
*
Índices de similaridade qualitativos:
 Podem incluir duplas ausências;
 Podem não incluir duplas ausências. 
Onde:
 a = Número de espécies comuns a ambas as amostras;
 b = Número de espécies que ocorrem na amostra 1 mas não ocorrem na amostra 2;
 c = Número de espécies que ocorrem na amostra 2 mas não ocorrem na amostra 1;
 d = Número de espécies que não ocorrem em ambas as amostras; 
*
*
*
SM= a+d/(a+b+c+d)
Simples Coincidência = Simple Matching
*
*
*
Comparação entre os Índices de Similaridade
*
*
*
 É preciso ter muita confiança na amostragem para decidir utilizar um índice que inclua duplas ausências:
 	* O fato de uma espécie não ocorrer na amostra 		 não significa que ela não ocorre na comunidade; 
 Então.... Só utilize um coeficiente que inclua duplas ausências quando tiver “ecologicamente” um motivo para tal. 
Conclusão
*
*
*
Índices de similaridade quantitativos:
Oficialmente, os índices quantitativos também podem incluir ou não as duplas ausências, contudo os que não incluem são praticamente os únicos utilizados;
Os índices de Morisita-Horn e Bray-curtis são os mais utilizados:
1) O índice de Bray-Curtis permite mesclar dados quantitativos e categóricos;
2) O índice de Morisita-Horn é menos sensível ao tamanho da amostra.
*
*
*
Índices de Distância:
 Entre os coeficientes/índices de distância o mais utilizado é o de Distância Euclidiana:
Obs: Quando utilizamos “distância” a comparação de um objeto com ele mesmo sempre dará igual a 0.
*
*
*
Métodos de Agrupamento
 Uma vez calculada a similaridade entre os locais/objetos é necessário definir quem se agrupará com quem para gerar o dendrograma de similaridade;
 Existem vários “métodos de agrupamento” sendo que os mais comuns são os métodos: simples (Single Linkage Method), completo (Complete Linkage Method) e UPGMA (Unweighted Pair-Group Method Average), sendo este último o mais utilizado, por minimizar a distorção nos dados iniciais.
*
*
*
Qual distorção?????
Coeficiente de Jaccard
*
*
*
 Qual o impacto desta distorção sobre a interpretação do dendrograma?
O pesquisador pode estar interpretando grupos errados;
*
*
*
 Existe como quantificar e/ou retirar esta distorção?
 A forma de quantificar a distorção na matriz original de dados é calculando o coeficiente de correlação cofenética;
 Se o valor de correlação cofenética for igual ou maior que 0,80 então considera-se que a distorção nos dados foi pequena e interpretam-se os grupos;
*
*
*
 Existe como quantificar e/ou retirar esta distorção?
 Se a correlação cofenética for menor que 0,80 o usual é utilizar outro método de ligação;
 Se ainda assim, a correlação cofenética não alcançar 0,80 o jeito é interpretar somente os grupos que se mantiveram constantes e esquecer os demais.
*
*
*
Mas, afinal de contas, o que é uma correlação cofenética?
 Sempre que geramos um dendrograma, ocorre uma distorção na formação dos grupos, desta forma, se reconstruirmos a matriz de similaridade a partir do gráfico (dendrograma) teremos uma matriz que não é exatamente igual à matriz de similaridade, ou seja, temos a matriz cofenética.
*
*
*
Matriz Cofenética
Matriz de Similaridade - Jaccard
*
*
*
 A comparação das matrizes é realizada através do teste de Mantel;
 Não se utiliza teste de significância para esta análise, pois as duas matrizes não são independentes entre si.
Mantel r=0,76
*
*
*
Métodos de Ordenação
 Ordenação é qualquer processo que forneça um pequeno número de variáveis que descrevam os objetos, a partir de medidas tomadas desses objetos;
 O objetivo é resumir um grande volume de informações facilitando a identificação de gradientes;
 Na maioria das técnicas de ordenação os eixos encontrados são combinações lineares das medidas originais;
 Podem ser divididos em métodos para análise de gradiente indireto e direto;
*
*
*
Métodos de Ordenação
 A forma como os eixos são calculados diferencia os métodos de ordenação;
 O primeiro eixo sempre explica a maior parte da variação nos dados, o segundo sempre explica a maior parte da variação restante nos dados, etc..;
 Os eixos são ortogonais, desta forma, cada um independe do outro;
 Normalmente somente dois ou três eixos são interpretados, apesar de matematicamente ser possível a existência de n outros eixos;
*
*
*
Como é feita (na prática) uma ordenação?????
1
2
3
4
5
6
7
8
9
*
*
*
 Sendo assim, onde se localiza o “maior gradiente” será colocado o primeiro eixo;
 Com a variação que “sobrou” é realizada uma nova estimativa de onde deve passar o segundo eixo e assim por diante;
 Para o local onde se localiza a “média multivariada” é atribuído o valor 0 e quanto mais desvios padrões distante desta média, mais distante ele fica do centro do gráfico;
 Sendo assim, grupos de locais muito distantes da média, são muito diferentes da média geral;
*
*
*
PCA realizada com os dados apresentados
1
2
3
4
5
6
7
8
9
*
*
*
PCO & PCA
Análise de Coordenadas Principais	Análise de Componentes Principais
 Versão mais simples da PCA podendo utilizar uma variedades de medidas de distância ou similaridade;
 Não são apresentados os loadings (pesos) de cada variável;
 Apesar da maior versatilidade é um método pouco utilizado.
 Utiliza basicamente a matriz de correlação ou covariância para, realizando a “eigenanalysis” encontrar a principal fonte de variação;
 São apresentados os loadings (pesos) de cada variável;
 Pelo fato de utilizar coeficientes métricos não deve ser aplicado para dados de ocorrência ou abundância de espécies.
*
*
*
 Desta forma, a PCA se tornou uma das técnicas de ordenação mais utilizadasem ecologia;
 Entre as informações mais importantes que se extrai da PCA estão os autovalores e os autovetores;
1) Autovalores: Quantidade da variação total, explicada pelo eixo em questão;
2) Autovetores: Correlação entre cada variável utilizada e o eixo em questão.
 De modo geral são interpretados todos os eixos que apresentam autovalor maior que 1, o que indica que ele explica mais que uma variável sozinha;
*
*
*
Dados Limnológicos fictícios para cinco locais 
*
*
*
*
*
*
Loadings das Variáveis
*
*
*
Autovetores
*
*
*
PCA vs AGRUPAMENTO
Uma das vantagens da PCA em relação à análise de agrupamento é a geração de dois eixos interpretáveis, o que teoricamente permite a identificação de diferentes fontes de variação nos dados;
 Contudo, devido às propriedades da PCA:
1) Utilização de métodos que pressupõe linearidade;
2) Utilização “obrigatória” da matriz de correlação ou covariância.
E possível que estas análises, realizadas com um mesmo conjunto de dados, forneçam resultados diferentes, sendo assim, a utilização de uma ou outra depende do pesquisador.
*
*
*
Análise de Correspondência
 A PCA utiliza variáveis contínuas e utiliza a distância euclidiana para estabelecer o grau de semelhança/diferença entre objetos e assim ordená-los no espaço multivariado;
 Estes procedimentos, não são contudo, apropriados para dados como ocorrência ou abundância de espécies;
 Desta forma, o surgimento da Análise de Correspondência permitiu que os autovalores fossem extraídos a partir de uma tabela de contingência;
*
*
*
Análise de Correspondência
 A utilização deste algoritmo permite, entre outras coisas, que amostras e espécies sejam representadas em um mesmo gráfico;
 Outra característica importante é que a localização de uma espécie no espaço multidimensional é interpretada como o local onde a espécie teria as condições “ótimas” dentro deste universo amostral;
 Por outro lado, a utilização da métrica “qui-quadrado” aumenta a importância de espécies raras, ainda que alguns autores considerem este método mais robusto que a PCA;
*
*
*
Análise de Correspondência
*
*
*
 Sendo assim, a interpretação que faz do gráfico é:
1) A espécie 5 (sp5) é generalista, não apresentando preferência por nenhum dos locais analisados; 
2) O local “E” como é o único que apresenta todas as espécies amostradas não se diferencia dos demais por possuir uma ou outra espécie em particular, mas sim por ser o ambiente “adequado” para qualquer espécie do conjunto amostrado.
Como observado no gráfico (Diagrama de dispersão) o resultado da CA (Análise de Correspondência) apresentando locais e espécies em um mesmo gráfico permite torna mais fácil a interpretação do gradiente ambiental já que na PCA a análise é realizada ou entre locais ou entre espécies;
*
*
*
PCA vs CA
*
*
*
Conclusão
Não use PCA para dados de ocorrência ou abundância de espécies!!!!!
*
*
*
 Contudo, apesar da CA ser mais eficiente que a PCA para ordenar dados de comunidades esta não resolve todos os nossos problemas e não representa a palavra final em ordenação de comunidades;
 Devido ao fato desta ser muito sensível a espécies raras normalmente as amostras muito “ricas em espécies raras” se comportam como outliers;
 Além deste existem outros problemas de ordem matemática na CA:
1) Efeito do arco;
2) Compressão dos dados ao final do gradiente.
*
*
*
Dados de abundância de espécies vegetais
Análise de Correspondência
*
*
*
 Com o objetivo de corrigir o efeito do arco foi desenvolvida a Análise de Correspondência Destendenciada (DCA);
 A correção do efeito do arco ocorre pela partição do primeiro eixo em vários segmentos e reajuste dos pontos no segundo eixo igualando os erros dentro de cada segmento e posterior reajuste dos pontos no gráfico;
 Desta forma, o efeito do arco é retirado, contudo o método pode introduzir instabilidade nos eixos, diminuindo sua explicabilidade e dificultando sua interpretação;
 Alguns autores optam por realizar as duas análises para posteriormente selecionar o método a ser utilizado.
*
*
*
Análise de Correspondência
*
*
*
Análise de Correspondência Destendenciada
*
*
*
CA vs DCA
*
*
*
Análise de Correspondência Canônica
 Os métodos apresentados até aqui são de Análise de Gradiente Indireto, desta forma, a interpretação dos padrões ecológicos depende da experiência do pesquisador;
 Contudo, quando dados ambientais (limnologia, solos, etc...) são disponíveis é possível a análise direta do gradiente ambiental;
 Com este objetivo, foi criada a Análise de Correspondência Canônica (CCA) que utilizando um modelo de regressão quantifica a importância de cada variável ambiental no padrão encontrado.
*
*
*
Análise de Correspondência Canônica
 Desta forma ocorre a ordenação das espécies e locais no espaço multidimensional e a visualização direta da importância das variáveis ambientais nesta ordenação;
Importância das variáveis ambientais na distribuição das espécies
*
*
*
Análise de Correspondência Canônica
 O procedimento de regressão múltipla com as variáveis ambientais ocorre de forma iterativa, sendo que a cada iteração os scores são ajustados com base na influência das variáveis ambientais fornecidas;
 Na geração do gráfico, as setas indicam a direção em que ocorre o aumento no valor da variável em questão e seu comprimento indica sua importância para este eixo;
 Um dos problemas deste método é que exige-se que os dados apresentem distribuição normal, homogeneidade de variâncias, etc...
 Outra restrição do método é que o número de variáveis ambientais deve ser menor que o número de amostras.
*
*
*
Análise de Correspondência Canônica
 A CCA permite a inclusão de variáveis binárias (dummy);
 
Influência de utilizar ou não uma Variável Dummy em análises de dados em Ecologia
*
*
*
Análise de Função Discriminante
 A Análise de Função Discriminante ou Análise de Variáveis Canônicas pode ser definida como uma versão multivariada da Análise de Variância (ANOVA) assim como a Análise de Variância Multivariada (MANOVA);
 Nesta análise são necessários pelo menos dois conjuntos de dados (dois grupos) com várias variáveis obtidas em dada um destes conjuntos;
 A idéia básica do método é substituir o conjunto de variáveis obtidas por uma única medida de diferença entre os grupos (Di) que representa uma combinação linear destas variáveis.
*
*
*
Análise de Função Discriminante
 Definido o “Di” este é comparado com o “Do” que representa o valor médio entre os dois ou mais grupos no espaço multidimensional;
 A comparação entre “Di-Do” servirá como base para definir qual a probabilidade de cada observação pertencer a cada um dos grupos analisados;
 Neste sentido, como os grupos devem ser definidos “a priori” este é classificado como um método de teste de hipótese.
*
*
*
A Análise de Função Discriminante tem os seguintes pressupostos:
a) que as observações sejam ao acaso;
b) que a probabilidade de um indivíduo desconhecido pertencer a qualquer um dos grupos seja a mesma;
c) que as variáveis tenham distribuição normal;
d) que as matrizes de variância de grupos comparados sejam de mesmo tamanho;
e) que todas as observações usadas para o cálculo das funções discriminantes tenham sido classificadas sem erro.
Análise de Função Discriminante
*
*
*
Análise de Função Discriminante
R canônico=0,98
Wilk’s Lambda=0,02
P=0,000
*
*
*
Análise de Função Discriminante
 A significância diferenciação entre os grupos considerados calcula-se a distância entre as duas médias multivariadas, Da-Db. Esta medida de distância é conhecida como "distância generalizada de Mahalanobis", ou D2;
 Então, pequenos valores de distância de Mahalanobis significa que os grupos são muito similares;
 A eficiência das variáveisutilizadas no processo de “discriminação” dos grupos definidos é calculada a estatística Wilks lambda. Seu valor varia de 1,0 (nenhum poder discriminante) até 0,0 (perfeito poder discriminante);
*
*
*
Análise de Função Discriminante
 O valor de Wilks lambda pode ser convertido em um valor de F padrão, contudo este valor não deve ser levado ao “pé-da-letra”, uma vez que é muito comum a inclusão de muitas variáveis no modelo geral sem ter qualquer hipótese à priori sobre estas variáveis, e interpretar somente as variáveis com valor significativo de p não é apropriado;
 Diferente dos métodos de ordenação apresentados anteriormente a análise de significância dos eixos não ocorre da mesma forma que nestes métodos.
*
*
*
Análise de Função Discriminante
 No exemplo seguinte foram obtidas variáveis físicas e químicas da água em riachos pertencentes a quatro sub-bacias do rio Paraguai;
 As variáveis físicas e químicas (pH, condutividade, oxigênio dissolvido, velocidade da água, turbidez, largura média do riacho, profundidade média do riacho e temperatura da água) foram padronizados;
 Existe diferença significativa nas características físicas e químicas dos riachos estudados entre as sub-bacias (Wilks lambda=0,026; F(24,142)= 3,52; P<0,000).
*
*
*
Todos os Eixos
R canônico=0,73
Wilk’s Lambda=0,25
P=0,000
Sem o Primeiro Eixo
R canônico=0,54
Wilk’s Lambda=0,56
P=0,006
Sem os Dois Primeiros Eixos
R canônico=0,44
Wilk’s Lambda=0,80
P=0,065
Análise de Função Discriminante
*
*
*
Sem o Primeiro Eixo
R canônico=0,54
Wilk’s Lambda=0,56
P=0,006
*
*
*
*
*
*
Análise de Função Discriminante
R canônico=0,92
F(8,52)=13,41
Wilk’s Lambda=0,01
P=0,000
*
*
*
Análise de Correlação Canônica
 A Análise de Correlação Canônica é um dos métodos multivariados menos utilizados, já que é considerado um dos métodos mais difíceis de ser interpretados;
 Nesta análise são necessários dois conjuntos de dados multivariados (explanatórios e resposta);
 Alguns autores sugerem que este é um método de redução de dimensionalidade intermediário entre uma análise exploratória e de teste de hipóteses;
 Uma característica importante do método é que este obtém uma série de funções que resumem da melhor forma possível a relação linear entre os conjuntos de dados.
*
*
*
Análise de Correlação Canônica
 Uma característica do método é que depois do segundo eixo os resultados são questionáveis;
 O número máximo de eixos (funções canônicas) é definido pelo conjunto de dados (biótico ou abiótico) que apresentar o menor número de variáveis;
 Este método é utilizado então como forma de substituir uma série de regressões múltiplas com dados que estão potencialmente correlacionados;
 .
*
*
*

Mais conteúdos dessa disciplina