Baixe o app para aproveitar ainda mais
Prévia do material em texto
ANÁLISE MULTIVARIADA DEANÁLISE MULTIVARIADA DE DADOSDADOS DIFERENTES TÉCNICASDIFERENTES TÉCNICAS DISPONÍVEIS PARADISPONÍVEIS PARA ANÁLISE DEANÁLISE DE CONGLOMERADOSCONGLOMERADOS Au to r ( a ) : M e . Fra n c i s c o J o s é R o d r i g u e s d a S i l va J u n i o r R ev i s o r : A l e s s a n d ro Fe r re i ra Tempo de leitura do conteúdo estimado em 1 hora e 10 minutos. Introdução Olá, caro(a) estudante! Tudo bem? Vamos dar início ao nosso estudo sobre as diferentes técnicas disponíveis para análise de conglomerados? Vamos lá! A análise de conglomerados ajuda a entender o agrupamento natural em um conjunto de dados. Sua �nalidade é fazer sentido particionar os dados em algum grupo de agrupamentos lógicos. A qualidade do agrupamento depende dos métodos e da identi�cação de padrões ocultos. Essas análises desempenham um papel amplo em aplicações como pesquisa econômica de marketing e weblogs para identi�car medidas de similaridade, processamento de imagens e pesquisa espacial. Eles são usados em detecções de valores discrepantes para detectar fraudes de cartão de crédito. Portanto, é com prazer que lhe apresentamos este material, que ajudará você a se familiarizar com os processos de ensino e aprendizagem de como aplicar a análise de conglomerados com diferentes possibilidades de distâncias e métodos de ligação. Serão abordados a implementação e os objetivos de cada método de ligação para cálculo de distância de um conglomerado. Em seguida, será discutido qual o método de ligação apropriado em cada situação. Por �m, será discutido o modo de construção da tabela de agrupamentos e do modo de construção do dendrograma. Bons estudos! O objetivo da análise de conglomerados, também conhecida como análise de agrupamentos ou de cluster, é particionar um conjunto de dados em grupos que são internamente homogêneos e externamente distintos, ou seja, segmentar ou agrupar em grupos menores (subgrupos). A classi�cação é realizada com base em uma medida de similaridade ou dissimilaridade dentro e entre os grupos. A análise de conglomerados tem sido amplamente aplicada a dados em muitas disciplinas, como Pesquisa de Mercado, Biologia, Medicina, Economia e Engenharia. Por exemplo, em Biologia, pode-se categorizar genes com funções semelhantes e obter informações sobre as estruturas inerentes às populações. Por outro lado, para as empresas, esse método analítico pode ajudar um pesquisador de mercado a identi�car grupos distintos de clientes e caracterizá-los com base em suas tendências de compra. A análise de conglomerados pode ser vista como um método não supervisionado de reconhecimento de padrões porque a operação normalmente não é guiada por uma hipótese prévia ou por modelos externos. A seleção de variáveis desempenha um papel importante, e escolhas diferentes podem resultar em resultados drasticamente diferentes. Análise de Conglomerados REFLITA Quando estamos trabalhando em duas ou três dimensões, os conglomerados podem ser visualizados. E em casos com mais de três dimensões? É necessário algum tipo de Conforme Hair et al. (2009), para realizar uma análise de cluster cuidadosa, são necessários métodos com as seguintes características: ter capacidade de analisar com dados com alta dimensionalidade; requer conhecimento mínimo para determinar os parâmetros de entrada; ter capacidade de processar diferentes tipos de dados; ter competência para de�nir aglomerados de tamanhos e formas diferentes; ser "escalável" em termos do número de dimensões e do número de elementos a serem aglomerados; ser robusto à presença de ruído; obter resultados consolidados independentemente da ordem em que os dados são apresentados. De forma geral, nenhum algoritmo sozinho pode atender a todos esses requisitos que foram citados, por isso é importante entender as características de cada algoritmo para escolher o melhor método para cada tipo de dado ou problema (LANDIM, 2011). Ter conhecimento das diversas possibilidades de distâncias e métodos de ligação é uma tarefa muito importante para a análise de conglomerados. Vejamos, a seguir, alguns dos principais métodos que permitem o cálculo de distância de um conglomerado. Métodos de Ligação da Média e da Mediana Os métodos heurísticos não fornecem um resultado com qualquer garantia, mas geralmente são construídos com base em princípios diretos e, portanto, fáceis de modi�car. Os métodos de ligação da média e da mediana (algoritmos k-médias e k- medianas) são usados não apenas no agrupamento mas também como sub-rotinas em muitos outros métodos de ligação. Conforme Hair et al. (2009), um método de ligação popular para agrupar dados em relação a uma função de distância é o método de ligação média. A ideia básica é atribuir um conjunto de pontos em algum espaço métrico em k aglomerados por iteração, auxílio analítico para reduzir a dimensionalidade dos dados sem a perda signi�cativa de informações? melhorando, sucessivamente, a localização dos k centros de aglomerados e atribuindo cada ponto ao aglomerado que possui o centro mais próximo. Os centros são frequentemente escolhidos para minimizar a soma dos quadrados das distâncias dentro de cada aglomerado. Essa é a métrica usada no método de ligação da média. Se a mediana for utilizada ao invés da média, temos o método de ligação da mediana. Os métodos de particionamento ou realocação exigem que o usuário especi�que o número inicial de grupos ou aglomerados, e o algoritmo realoca iterativamente as observações entre os grupos até que um critério de convergência prede�nido seja alcançado. A maioria dos algoritmos de agrupamento depende de alguma medida de distância ou dissimilaridade entre os pontos de dados para classi�cá-los em grupos. A medida mais simples e comum é a distância euclidiana entre os vetores de dados x1 e x2: d(x1, x2) = ||x1- x2|| (3.1) Um dos métodos de realocação populares é o algoritmo k-médias. Nesse procedimento, o usuário especi�ca k-grupos como o número de aglomerados juntamente com suas localizações iniciais do centroide. Uma matriz de semelhanças é então calculada entre os S A I B A M A I S O particionamento K-médias foi originalmente desenvolvido em um artigo pioneiro de MacQueen (1967), que deu seu nome ao método: K-médias. O algoritmo de MacQueen contém procedimentos para a fusão de aglomerados, se os centroides (centro de gravidade do aglomerado) �carem muito próximos, e para a criação de novos aglomerados se um objeto estiver muito distante dos centroides existentes. Fonte: Adaptado de Jardim (2018). n pontos de dados e os k-centroides, com cada observação sendo atribuída ao grupo com o centroide mais próximo. Um novo centroide, ou a versão multidimensional da média, para cada grupo, é calculado e o processo é repetido. A cada iteração, espera-se que os centroides se movam em direção aos centros reais dos grupos locais formados durante o processo. Os rótulos de grupo são atribuídos minimizando as distâncias da soma dos quadrados dentro do aglomerado para os k-grupos. PASSOS PARA USO DO MÉTODO K-MÉDIAS PARA CÁLCULO DA DISTÂNCIA DE UM CONGLOMERADO Fonte: mejn / 123RF. #PraCegoVer: o infográ�co interativo, intitulado “Passos para uso do método k-médias para cálculo da distância de um conglomerado”, apresenta, ao fundo, a ilustração de um quadro negro, com três botões interativos; à frente há a ilustração de um professor. O primeiro botão interativo, intitulado “Passo 1”, ao ser clicado, apresenta o texto “de�nir o número inicial de aglomerados e seus respectivos centroides. As observações no banco de dados são divididas em K aglomerados, de modo que as observações dentro de cada aglomerado estejam mais próximas do que quaisquer outras observações que pertençam a um aglomerado diferente. Para fazer isso, as observações precisam ser distribuídas de maneira arbitrária entre os K aglomerados”. O segundo botão interativo, intitulado “Passo 2”, ao ser clicado, apresenta o texto“deve-se escolher uma observação especí�ca que esteja mais próxima do centroide e realocá-la nesse aglomerado. Nesse ponto, o outro aglomerado acabou de perder essa observação, então, o centroide do aglomerado que a recebeu e o centroide do cluster que a perdeu devem ser recalculados”. O terceiro botão interativo, intitulado “Passo 3”, ao ser clicado, apresenta o texto “deve-se continuar o passo anterior até que não haja mais possibilidade de se realocar quaisquer observações, por estar mais próximo do centroide de outro aglomerado”. Quando uma dada observação p é incluída ou excluída do aglomerado correspondente, a coordenada do centroide deve ser recalculada de acordo com as Expressões 3.2 e 3.3: , caso a observação p seja inserida no aglomerado em análise. (3.2) , caso a observação p seja excluída do aglomerado em análise. (3.3) Em que N e são o número de observações no aglomerado e as coordenadas de seu centroide antes da realocação, respectivamente. Além disso, x representa as coordenadas da observação p, que sofreu modi�cação de aglomerado. A Figura 3.1 ilustra uma situação hipotética, representando o �m do processo k-médias para duas variáveis (X e X ), visto que não há mais possibilidade de realocação de nenhuma observação, já que os centroides dos demais agrupamentos não estão mais próximos. x − =x −novo N⋅ +x − xp N+1 =x −novo N⋅ +x − xp N−1 x − p 1 2 Figura 3.1: Situação hipotética que representa o término do procedimento k-médias Fonte: Fávero e Bel�ori (2017, p. 337). #PraCegoVer: a imagem apresenta uma �gura de um grá�co com quatro aglomerados, na cor preta, contendo a variável X no eixo horizontal, e a variável X , no eixo vertical. De acordo com Fávero e Bel�ori (2017), ao contrário dos esquemas de agrupamento hierárquico, não há necessidade de de�nir uma matriz de distância entre as observações em cada etapa, o que reduz a necessidade de poder computacional e permite que esquemas de agrupamento não hierárquicos sejam aplicados aos bancos de dados muito maiores do que aqueles tradicionalmente estudados por meio de esquemas hierárquicos. Além disso, deve-se haver uma padronização das variáveis antes da criação das etapas de aplicação do método k-médias, assim como nos esquemas de aglomeração hierárquicos, em situações em que os respectivos valores não apresentem a unidade de medida igual. Por �m, após concluir esse processo, é importante investigar se os valores de uma determinada variável de medida diferem entre os grupos de�nidos, ou seja, se a 1 2 variabilidade entre os aglomerados é signi�cativamente maior do que a variabilidade dentro de cada aglomerado. Ao agrupar dados usando um modelo de k-medianas, o objetivo do método é dividir as entidades em exatamente k clusters, pré-especi�cados de tal forma que a soma das distâncias entre cada entidade e o objeto central (a mediana) em seus respectivos clusters seja a menor. Essa diferença torna o agrupamento k-medianas mais robusto a ruídos e outliers (valor que foge da normalidade e causa anomalias nos resultados), uma vez que a média de um aglomerado se desvia do centro do cluster quando os outliers estão presentes, enquanto a mediana �ca próxima ao centro e é menos impactada pelos outliers. O agrupamento de k-medianas tem um desempenho melhor do que o agrupamento de k-médias na estimativa de parâmetros. Conhecimento Teste seus Conhecimentos (Atividade não pontuada) Fonte: kantver / 123RF. Um dendrograma (ou diagrama de árvore) é uma estrutura de rede. É constituído por um nó raiz que dá origem a vários nós ligados por arestas ou ramos. Os últimos nós da hierarquia são chamados de folhas. Acerca dos conhecimentos adquiridos sobre dendrogramas, assinale a alternativa correta. a) Para exibir o nível de similaridade (ou distância), o ponteiro deve ser mantido em uma linha vertical no dendrograma. b) O dendrograma é uma representação grá�ca útil na análise de agrupamentos, mostrando como os agrupamentos são separados em cada passo do procedimento. c) O dendrograma é um recurso grá�co utilizado na análise multivariada de séries temporais. d) Nos agrupamentos hierárquicos, um dendrograma é uma árvore que controla quando os clusters são criados e que determina qual é a métrica das distâncias. e) O dendrograma no agrupamento hierárquico ilustra o desarranjo dos agrupamentos produzidos pelas análises correspondentes. Distância de Minkowski e Mahalanobis A medição de similaridade ou distância é fundamental no processo de análise de aglomerados, pois a maioria das técnicas de agrupamento começa com o cálculo de uma matriz de distâncias (ou dissimilaridades). Uma família de medidas de distância são as métricas de Minkowski, em que a distância entre as entidades d-dimensionais i e j (denotadas por M ) é dada por: Em que m assume valores inteiros e positivos (m = 1, 2, ... ), x é o valor da variável k para a entidade i , e x é o valor da variável k para a entidade j . A medida de distância comumente utilizada é a euclidiana ou norma L , um caso especial da métrica Minkowski, em que m = 2. A compreensão e a experiência humana nos familiarizam com os resultados ao aplicar medidas L (em um problema espacial em um plano euclidiano), mas a aplicação de normas não L pode levar a alguns resultados contraintuitivos. A Figura 3.2 mostra os locos de comprimento unitário ao redor da origem, plotados com uma seleção de normas L . A norma L traça um círculo, as normas fracionárias (m < 1) traçam uma hipoelipse, a norma L traça uma linha reta e as normas de ordem superior (m > 2) produzem traços hiperelípticos. ij {{M}_{ij}}={{{\mathop{\sum }_{j=1}^{k}|{{x}_{ik}}-{{x}_{jk}}{{|}^{m}}\}}^{\frac{1}{m}}}~~~~~~~~(3.4) ik th th jk th th 2 2 2 m 2 1 Figura 3.2: Locos de comprimento unitário plotados com várias normas L Fonte: Doherty, Adams e Davey (2004, p. 182). #PraCegoVer: a imagem apresenta uma �gura de um grá�co com quatro locos de comprimento unitário plotados com normas L , L , L e L . Em um contexto de agrupamento, ao medir dissimilaridades entre duas entidades, o uso de uma norma fracionária reduz o impacto de diferenças extremas de atributos individuais quando comparadas às medidas euclidianas equivalentes. Por outro lado, as normas L (em que m > 1) enfatizam as maiores dissimilaridades de atributos entre as duas entidades, e levadas ao limite, em que L relata a distância com base no único atributo com a máxima dissimilaridade. m 0.3 1 2 5 m ∞ S A I B A M A I S Mi k ki d l i ã d t t b l d il Uma grande desvantagem da distância euclidiana, conforme de�nido acima, é que as características correlacionadas podem contribuir desproporcionalmente para a distância geral. Por exemplo, se uma análise craniométrica se basear em três medidas, digamos altura facial superior, altura nasal e comprimento da cabeça, as duas primeiras medidas seriam altamente correlacionadas e, portanto, o comprimento facial teria mais impacto na distância geral do que o comprimento da cabeça. O que é necessário é uma medida de distância multivariada que leve em consideração a intercorrelação das características. Uma solução típica para esse exemplo tem sido a distância generalizada de Mahalanobis, uma medida estatística amplamente utilizada para detectar a anomalia de dados multivariados. Ao contrário da distância euclidiana, a distância de Mahalanobis considera a relação entre várias características e permanece invariante em escala (ou seja, independente da escala de medição). Além disso, a distância de Mahalanobis não é afetada pela dimensão, ou seja, a distância de Mahalanobis de dois pontos é independente da unidade de medida dos dados originais. Além disso, a distância de Mahalanobis pode eliminar a interferência de correlações entre variáveis, sendo muito adequada para medir a posição relativa entre as amostras. Portanto, a distância de Mahalanobis é usada para construir o grá�co de vizinhança, que pode ser de�nida da seguinte forma: Aqui, e referem-se ao vetor de t característicaspara as populações i e j, respectivamente, W é a matriz de variância-covariância t-por-t agrupada em todos os grupos na análise (não apenas i e j), e o primo, o símbolo ('), indica a transposição. Assim como na distância euclidiana, o valor da distância de Mahalanobis aumentará com o número de características, o que signi�ca que não se pode comparar diretamente um Minkowski desenvolveu uma nova visão de espaço e tempo, estabelecendo os pilares matemáticos necessários da teoria da relatividade. No ano de 1907, Minkowski notou que o trabalho de Lorentz e Einstein podia ser melhor entendido em espaços não euclidianos. Ele argumenta que o espaço e o tempo, antes considerados separados, estão unidos em um contínuo espaço-tempo de quatro dimensões. Para saber mais, acesse o link a seguir: https://�sica.net/biogra�as/em-22-06-hermann-minkowski/ = ( − ) (3.5)Dij2 ( − )χi χj ′ W −1 χi χj χi χj https://fisica.net/biografias/em-22-06-hermann-minkowski/ valor de distância de um estudo com 10 características com outra análise usando 20 características. Conforme dito, a distância de Mahalanobis é a distância entre dois pontos no espaço multivariado. Em um espaço euclidiano regular, as variáveis (por exemplo, x, y, z) são representadas por eixos desenhados em ângulos retos entre si. A distância entre quaisquer dois pontos pode ser medida com uma régua. Para variáveis não correlacionadas, a distância euclidiana é igual à distância de Mahalanobis. No entanto, se duas ou mais variáveis estiverem correlacionadas, os eixos não estarão mais em ângulos retos e as medições se tornarão impossíveis com uma régua. Além disso, se você tiver mais de três variáveis, não poderá plotá-las no espaço 3D normal. A distância de Mahalanobis resolve esse problema de medição, pois mede distâncias entre pontos, até pontos correlacionados para múltiplas variáveis. A Figura 3.3 ilustra um exemplo de grá�co de distância de Mahalanobis. Figura 3.3: Exemplo de grá�co de distância de Mahalanobis Fonte: Poisson, Taylor e Ghosh (2011, p. 6). #PraCegoVer: a imagem apresenta uma �gura de um grá�co de contorno sobrepondo o grá�co de dispersão de 100 sorteios aleatórios de uma distribuição normal bivariada com média zero, variância unitária e correlação de 50%. O centroide de�nido pelas médias marginais é indicado por um quadrado azul. A distância de Mahalanobis mede a distância em relação ao centroide – uma base ou ponto central que pode ser pensado como uma média geral para dados multivariados. O centroide é um ponto no espaço multivariado onde todas as médias de todas as variáveis se cruzam. Quanto maior a distância de Mahalanobis, mais distante do centroide está o ponto de dados. Algumas restrições óbvias na análise de dados são de particular importância em estudos bioarqueológicos, em que a condição dos restos esqueléticos geralmente signi�ca falta de dados e/ou pequenos tamanhos de amostra. Métodos multivariados, como a distância de Mahalanobis, exigem casos completos (sem dados ausentes) e, dependendo da condição dos restos, muitas vezes, acaba-se fazendo um ato de equilíbrio entre excluir características e excluir casos (VALENTIN, 2000). O tamanho da amostra também é importante, devendo ser mantido o maior possível. Se o número de valores ausentes para uma determinada característica for relativamente pequeno, as medidas de distância podem ser in�uenciadas pelo pequeno tamanho da amostra, então a distância ao quadrado de Mahalanobis deve ser corrigida, subtraindo a quantidade t(n + n )/(n n ) do valor de D ² da Equação 3.5, em que n e n são os tamanhos amostrais para as populações i e j, respectivamente, e t é o número de características. Conhecimento Teste seus Conhecimentos (Atividade não pontuada) Prasanta Chandra Mahalanobis (1893-1972) foi um estatístico consagrado, que fez extensas contribuições à metodologia, aplicações, desenvolvimento estatístico, além de contribuir com políticas públicas na Índia. i j i j ij i j RAO, C. R. Prasantha Chandra Mahalanobis 1893-1972. Biographical Memoirs of Fellows of the Royal Society, v. 19, 1973. Acerca dos conhecimentos sobre a distância de Mahalanobis, assinale a alternativa correta. a) A forma mais adequada para de�nir o número de agrupamentos identi�cados pelo dendrograma é a distância de Mahalanobis. b) No método de agrupamento hierárquico, a formação dos agrupamentos é feita usando ligações e os resultados são dispostos pelo grá�co de Mahalanobis. c) Métodos multivariados, como a distância de Mahalanobis, são capazes de trabalhar com dados ausentes. d) Métodos multivariados, como a distância de Mahalanobis, exigem casos completos (sem dados ausentes). e) O método de Mahalanobis usa as distâncias dentro do aglomerado (quadrado) e entre o aglomerado (quadrado). No método do centroide, a distância entre dois aglomerados A e B é de�nida como a distância euclidiana entre os vetores médios (geralmente chamados de centroides) dos dois aglomerados: Métodos de Ligação do Centroide e de Ward D (A,B) = d( , ) (3.6)y −A y −B Em que e são os vetores médios para os vetores de observação em A e os vetores de observação em B, respectivamente. De maneira usual e são de�nidos da seguinte forma: Os dois aglomerados com a menor distância entre os centroides são mesclados em cada etapa. Após a junção de dois clusters A e B, o centroide do novo aglomerado AB é dado pela média ponderada a seguir: O método de Ward, também chamado de método da soma incremental dos quadrados, usa as distâncias dentro do aglomerado (quadrado) e entre o aglomerado (quadrado). Se AB é o aglomerado obtido pela combinação dos aglomerados A e B, então a soma das distâncias dentro do aglomerado (dos itens dos vetores médios do aglomerado) é: Em que , como visto na Equação 3.9, e e são os números de pontos em A, B e AB, respectivamente. Como essas somas de distâncias são equivalentes a somas de quadrados dentro do aglomerado, elas são indicadas por SSE , SSE e SSE . O método de Ward une os dois aglomerados A e B, que minimizam o aumento da SSE, de�nidos como: y −A y −B y −A y −B = (3.7)y −A ∑ i=1 nA yi nA = (3.8)y −B ∑ i=1 nB yi nB = (3.9)y −AB +nAy −A nBy −B +nA nB SS = ( − ) (3.10)EA ∑ i=1 nA ( − )yi y −A ′ yi y −A SS = ( − ) (3.11)EB ∑ i=1 nB ( − )yi y −B ′ yi y −B SS = ( − ) (3.12)EAB ∑ i=1 nAB ( − )yi y −AB ′ yi y −AB = + / ( + )y −AB nAy −A nBy −B nA nB $, $nA nB = +nAB nA nB A B AB = SS − (SS + SS ) (3.13)IAB EAB EA EB Pode-se mostrar que o aumento I na Equação 3.13 tem as seguintes duas formas equivalentes: Ou ainda: Assim, com a equação 3.15, minimizar o aumento de SSE é equivalente a minimizar as distâncias entre aglomerados. Se A consiste apenas em y e B consiste apenas em y , então SSE e SSE são zero, e 3.13 e 3.15 se reduzem a: O método de Ward está relacionado ao método do centroide. Se a distância na equação 3.6 é elevada ao quadrado e comparada com a equação 3.15, a única diferença será o coe�ciente para o método de Ward. Assim, os tamanhos dos aglomerados têm impacto no método de Ward, mas não no método do centroide. Escrevendo na equação 3.15, tem-se: Percebe-se que, à medida que e aumentam, também aumenta. Reescrevendo a equação 3.17 como: ressalta-se que, à medida que aumenta com �xo, aumenta. Portanto, comparado ao método do centroide, o método de Ward é mais propenso a unir aglomerados menores ou aglomerados de igual tamanho. Por �m, as características principais desse método são: AB = ( − ) + ( − ) (3.14)IAB nA( − )y −A y −AB ′ y −A y −AB nB( − )y −B y −AB ′ y −B y −AB = ( − ) (3.15)IAB nAnB +nA nB ( − )y −A y −AB ′ y −A y −AB i j A B = SS = ( − ) = ( , ) (3.16)Iij EAB 1 2 ( − )yi yj ′ yi yj 1 2 d2 yi yj d( , )y −A y −B nAnB +nA nB nAnB +nA nB = (3.17) nAnB +nA nB 1 1/ + 1/nA nB nA nB nAnB +nA nB = (3.18) nAnB +nA nB nA 1 + /nA nB nB nA nAnB+nA nB Diante do exposto, vimos que o método desenvolvido por Ward é baseado em uma lógica de soma de erros quadrados que só funciona para distância euclidiana entre observações. Além disso, a soma dos erros quadrados requer a consideração do chamado centroide de cada aglomerado, ou seja, o vetor médio das observações pertencentes ao aglomerado. praticar Vamos Praticar O cálculo da distância de aglomerados abrange uma variedade de técnicas, cujo objetivo principal é realizar cálculos de medidas de dissimilaridade usadas nos algoritmos de agrupamento. A seguir, será apresentado um exemplo numérico simples, para, baseado nesse exemplo, você praticar com problemas similares de cálculo de distância de aglomerados. A partir do que foi apresentado, calcule a distância euclidiana entre os pontos (0, 2, 1) e (1, 18, 2) para q = 1, 2 e 3. além de ter bons resultados para distâncias euclidianas, também tem bons resultados para outras distâncias; Aqui, serão discutidos os principais esquemas de agrupamento hierárquico em que agrupamentos cada vez maiores são formados em cada estágio de aglomeração, à medida que novas observações ou agrupamentos são adicionados a eles devido a um certo critério (método de encadeamento) e uma métrica de distância baseada em seleção. Segundo Fávero e Bel�ori (2015), existem três métodos principais de ligação para esquemas hierárquicos aglomerativos, que são ilustrados na Figura 3.4: método de encadeamento único (nearest neighbor ou single linkage), completo (furthest neighbor ou complete linkage) e médio (between groups ou average linkage). De forma ilustrativa, a Tabela 3.1 mostra as distâncias a serem consideradas para cada etapa de aglomeração, dependendo do método de ligação escolhido. Tabela de Agrupamentos e Dendrograma Figura 3.4: Esquemas de aglomeração em análise de agrupamentos Fonte: Fávero e Bel�ori (2017, p. 323). #PraCegoVer: a imagem apresenta uma �gura de um �uxograma com cinco níveis, representando os esquemas de aglomeração em análise de agrupamentos. O esquema de aglomeração divide-se em “Não hierárquico (k-means)” e “Hierárquico”, que, por sua vez, se divide em “Divisivo” e “Aglomerativo”, que segue para “Método de Encadeamento”. Este, por sua vez, se divide em “Único (Single Linkage)”, “Completo (Complete Linkage)” e “Médio (Average Linkage)”. Tabela 3.1: Distância a ser considerada em função do método de encadeamento Fonte: Adaptada de Fávero e Bel�ori (2017). #PraCegoVer: a imagem apresenta uma tabela com 3 colunas, que são: método de encadeamento; ilustração; distância (dissimilaridade), respectivamente, e 3 linhas. Na linha 1, coluna 1, tem-se o método de encadeamento único; na coluna 2, tem-se uma ilustração com dois círculos tracejados, o primeiro com os pontos 1 e 2, e o segundo círculo com os pontos 3, 4 e 5, sendo que o ponto 2 do círculo 1 está ligado ao ponto 3 do círculo 2; na coluna 3, tem-se a distância d . Na linha 2, coluna 1, tem-se o método de encadeamento completo; na coluna 2, tem-se uma ilustração com dois círculos tracejados, o primeiro com os pontos 1 e 2, e o segundo círculo com os pontos 3, 4 e 5, sendo que o ponto 1 do círculo 1 está ligado ao ponto 5 do círculo 2; na coluna 3, tem-se a distância d . Na linha 3, coluna 1, tem-se o método de encadeamento médio; na coluna 2, tem-se uma ilustração com dois círculos tracejados, o primeiro com os pontos 1 e 2, e o segundo círculo com os pontos 3, 4 e 5, sendo que os pontos 1 e 2 do círculo 1 estão ligados aos pontos 3, 4, 5 do círculo 2; na coluna 3, tem-se a distância . A abordagem de encadeamento único favorece as distâncias menores (origem da nomenclatura do vizinho mais próximo) para formar novos clusters em cada estágio de agregação, mesclando observações ou grupos. Dessa forma, sua aplicação é sugerida 23 15 + + + + +d13 d14 d15 d23 d24 d25 6 para observar situações relativamente distantes, ou seja, situações diferentes, e querer formar clusters que levem em conta um mínimo de homogeneidades. Entretanto, quando as observações ou agrupamentos não estão distantes, sua análise é comprometida, como ilustra a Figura 3.5. Figura 3.5: Método de encadeamento único – análise prejudicada na existência de observações ou agrupamentos pouco afastados Fonte: Fávero e Bel�ori (2017, p. 324). #PraCegoVer: a imagem apresenta uma �gura de um grá�co que ilustra agrupamentos pouco afastados entre si, contendo a variável X , no eixo horizontal, e a variável X , no eixo vertical. De outra forma, o método de encadeamento completo faz o contrário, ou seja, prioriza a maior distância entre observações ou grupos para formar novos clusters (origem da nomenclatura “vizinhos mais distantes”). Dessa forma, sua adoção é recomendada em situações em que não há lacunas signi�cativas entre as observações e que os pesquisadores precisem identi�car a heterogeneidade entre elas (FÁVERO; BELFIORI, 2015). Finalmente, no método do encadeamento médio, os dois grupos são mesclados com base na distância média entre todos os pares de observações pertencentes a esses 1 2 grupos (origem da nomenclatura “enlace médio”). Assim, apesar da mudança no cálculo da medida de distância entre os aglomerados, o método de encadeamento médio acaba preservando a solução ordenada de observações em cada grupo fornecida pelo de método encadeamento único, caso existam lacunas consideráveis entre as observações. Se as observações estiverem muito próximas umas das outras, o mesmo acontecerá com a solução de ordenação fornecida pela abordagem de encadeamento completo (FÁVERO; BELFIORI, 2017). A partir das etapas de aglomeração e das distâncias entre os clusters formados, pode-se construir um diagrama bidimensional chamado dendrograma, grá�co em forma de árvore, que realiza uma síntese do processo de aglomeração e explica a distribuição de cada observação dentro de cada cluster. Os grupos, nos métodos hierárquicos, são geralmente representados por um diagrama bidimensional chamado de dendrograma ou diagrama de árvore. Nesse diagrama, cada ramo representa um elemento e a raiz representa um aglomerado de todos os elementos. A Figura 3.6 ilustra um exemplo de um dendrograma. Figura 3.6: Exemplo de dendrograma Fonte: Souza (2009, p. 105). #PraCegoVer: a imagem apresenta uma �gura de um dendrograma. O dendrograma foi criado usando a partição �nal de 4 clusters com um nível de similaridade de cerca de 5. O primeiro cluster (extrema esquerda) consiste em 3 observações (observações nas linhas 1, 1 e 1 do eixo x do grá�co). O segundo grupo, à direita, consiste em 5 observações (observações nas linhas 1, 1, 1, 2 e 3 do eixo x do grá�co). O terceiro cluster consiste em 7 observações (as observações nas linhas 2, 2, 2, 2, 2, 2 e 2). O quarto cluster, mais à direita, consiste em 9 observações (observações nas linhas 2, 2, 3, 3, 3, 3, 3, 3 e 3). Se um corte for feito no dendrograma mais alto, este acabará com menos clusters e o nível de similaridade reduzirá. Se um corte for feito no dendrograma para baixo, a similaridade será maior, mas serão observados mais aglomerados �nais. Para exibir o nível de similaridade (ou distância), o ponteiro deve ser mantido em uma linha horizontal no dendrograma. O padrão de como o valor de similaridade ou distância muda passo a passo pode ajudá-lo a escolher a aglomeração �nal de seus dados. A etapa de mudança abrupta de valores pode identi�car um bom ponto para de�nir o cluster �nal. Três regras para utilizar na interpretação de um dendrograma A decisão sobre o cluster �nal também é conhecida como corte do dendrograma. Cortar um dendrograma é semelhante a desenhar uma linha no dendrograma para especi�car a aglomeração �nal. Também pode-se comparar o dendrograma com diferentes clusters �nais para determinar qual aglomeração �nal faz mais sentido para os dados. praticar Vamos Praticar A distância de Mahalanobis é uma métrica de distância multivariada e�caz e extremamente útil, tendo excelentes aplicações na detecção multivariada de anomalias, classi�cação em conjuntosde dados altamente desequilibrados e classi�cação de uma classe. A partir do que foi apresentado e por meio do conjunto de dados fornecidos no seguinte link https://raw.githubusercontent.com/selva86/datasets/master/diamonds.csv, utilize alguma linguagem de programação, como Python, por exemplo, para calcular a distância de Mahalanobis desse conjunto de dados. Regra 1 Regra 2 Regra 3 no próprio dendrograma, escreva suas características, na frente de cada amostra, e tudo o que possa revelar o que um mesmo conjunto de amostras tem em comum e como difere de outros grupos. https://raw.githubusercontent.com/selva86/datasets/master/diamonds.csv Material Complementar W E B Análises Exploratórias e Análise de Clusters Ano: 2020 Comentário: Assista a esse excelente vídeo do professor Luiz Paulo Fávero, Professor Titular da FEA/USP, com Pós-Doutorado em Econometria Financeira pela Columbia University, em Nova York. No vídeo, você irá aprender: o que são técnicas exploratórias e quais suas utilizações; em quantas e quais são as subdivisões das técnicas exploratórias; análise de clusters; análise fatorial; análise de correspondência simples e múltipla. Para assistir ao vídeo, acesse o link: ACESSAR https://www.youtube.com/watch?v=8X_3gZC_Sds L I V R O Manual de análise de dados: estatística e modelagem multivariada com Excel®, SPSS® e Stata® Autores: Luiz Paulo Fávero e Patrícia Bel�ore Editora: Elsevier Capítulo: 9 Ano: 2017 ISBN: 978-85-352-7087-7 Comentário: Este livro é escrito numa linguagem simples, por dois professores experientes, para alunos principiantes com conhecimentos básicos de estatística. A leitura do capítulo 9 é amplamente recomendável, pois irá complementar e ilustrar com mais exemplos acerca da discussão sobre análise de aglomerados. Disponível em: Minha Biblioteca Conclusão Chegamos ao �nal do nosso estudo sobre as diferentes técnicas disponíveis para análise de conglomerados. Diante do exposto, foi visto que a análise de conglomerados ajuda a entender o agrupamento natural em um conjunto de dados. Sua �nalidade é fazer sentido particionar os dados em algum grupo de agrupamentos lógicos. A qualidade do agrupamento depende dos diversos meios de cálculo de distâncias e métodos de ligação. Foram elucidados cada principal método de ligação para cálculo de distância de um conglomerado. Também discutimos para qual tipo de situação cada método de ligação é mais apropriado. Por �m, vimos conceitos referentes à tabela de agrupamentos e dendrograma. Referência s ANÁLISES exploratórias e análise de clusters – Prof. Luiz Paulo Fávero. [S. l.: s. n.], 2020. 1 vídeo (9 min.). Publicado pelo canal Estatidados. Disponível em: https://www.youtube.com/watch? v=8X_3gZC_Sds. Acesso em: 01 maio 2022. DOHERTY, K.; ADAMS, R.; DAVEY, N. Non-euclidean norms and data normalization. In: EUROPEAN SYMPOSIUM ON ARTIFICIAL NEURAL NETWORKS, 12., 2004, Bruges. Anais [...]. Bugres, 2004. EM 22/06: Hermann Minkowski. Fisicanet, 25 jun. 2021. Disponível em: https://�sica.net/biogra�as/em-22-06-hermann-minkowski/. Acesso em: 01 mai. 2022. https://www.youtube.com/watch?v=8X_3gZC_Sds https://www.youtube.com/watch?v=8X_3gZC_Sds https://fisica.net/biografias/em-22-06-hermann-minkowski/ FÁVERO, L. P.; BELFIORI, P. Análise de dados: técnicas multivariadas exploratórias com SPSS e STATA. Rio de Janeiro: Elsevier, 2015. FÁVERO, L. P.; BELFIORI, P. Manual de análise de dados: estatística e modelagem multivariada com Excel®, SPSS® e Stata®. Rio de Janeiro: Elsevier, 2017. HAIR, J. F. et al. Análise multivariada de dados. 5. ed. Bookman: Porto Alegre, 2009. JARDIM, F. G. Aplicação de marketing analítico. 2018. 87 f. Dissertação (Mestrado em Gestão) – Universidade Católica Portuguesa, Lisboa, 2018. LANDIM, P. M. B. Análise estatística de dados geológicos multivariados. São Paulo: O�cina de Textos, 2011. MACQUEEN, J. Some methods for classi�cation and analysis of multivariate observations. In: LE CAM, L. M.; NEYMAN, J. (eds.). Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability. Berkeley: University of California Press, 1967. v. 1. p. 281-297. POISSON, L. M.; TAYLOR, J. M.; GHOSH, D. Integrative set enrichment testing for multiple omics platforms. BMC Bioinformatics, 2011. Disponível em: https://bmcbioinformatics.biomedcentral.com/track/pdf/10.1186/1471-2105-12-459.pdf. Acesso em: 27 abr. 2022. RAO, C. R. Prasantha Chandra Mahalanobis 1893-1972. Biographical Memoirs of Fellows of the Royal Society, v. 19, 1973. SOUZA, M. J. B. de. Avaliação de metais-traço no sedimento do sistema estuarino dos rios Piraquê-açu e Piraquê-mirim (Aracruz-ES). 2019. 145 f. Dissertação (Mestrado em Química) – Universidade Federal do Espírito Santo, Vitória, 2009. VALENTIN, J. L. Ecologia numérica: uma introdução à análise multivariada de dados ecológicos. Rio de Janeiro: Interciência, 2000. https://bmcbioinformatics.biomedcentral.com/track/pdf/10.1186/1471-2105-12-459.pdf
Compartilhar