Clustering A análise de grupo ou agrupamento é a tarefa de agrupar objetos por similaridade, em grupos ou conjuntos de forma que membros do mesmo grupo tenham características semelhantes. É a principal tarefa da mineração de dados exploratória e é uma técnica comum em análise estatística de dados. Ele também é usado em vários campos, comoː • aprendizado de máquina • reconhecimento de padrões • análise de imagem • pesquisa e recuperação de informação • bioinformática • compressão de dados • computação gráfica. A análise de grupo é um problema, é uma abordagem geral e existem milhares 1 de algoritmos que a resolvem, cada um com as suas características. Muitos algoritmos diferem significativamente em sua ideia do que constitui um grupo e como encontrá-los com eficiência. O agrupamento pode, portanto, ser formulado como um problema de otimização multi- objetivo. O algoritmo apropriado e seus parâmetros dependem do conjunto de dados que está sendo analisado e do uso que será feito dos resultados. O agrupamento como tal não é uma tarefa de solução direta, mas sim um processo iterativo ou interativo que envolve tentativa e erro. Este processo de tentativa e erro é iterativo na medida em que é automático e interativo na medida em que requer intervenção humana. É uma prática comum executar um algoritmo de agrupamento (um processo iterativo), e a partir dos resultados ajustar os parâmetros e repetir a operação (resultando em um processo interativo). As aplicações de agrupamento são divididas em dois tipos principaisː • aqueles em que os grupos constituem o resultado desejado • este é o caso da análise de grupo, mineração de dados, análise de imagens • outros em que os grupos constituem o ponto de partida para a classificação de novas amostras de dados, desconhecidas no momento do processamento do agrupamento • é o caso da classificação automática no mundo do aprendizado de máquina O agrupamento baseado em conectividade, também conhecido como agrupamento hierárquico, é baseado na ideia principal de que os objetos que estão mais próximos são mais relacionados do que os que estão distantes. Esses algoritmos conectam "objetos" para formar "grupos" com base em sua distância. Um grupo pode ser descrito, em grande parte, pela distância máxima que leva para conectar todas as partes do grupo. Em diferentes distâncias, diferentes grupos se formarão, que podem ser representados usando um dendrograma, que explica de onde vem o nome "clustering hierárquico": esses algoritmos não apenas fornecem uma partição do conjunto de dados, mas fornecem uma ampla hierarquia de grupos que se fundem entre si em certas distâncias. Em um dendrograma, o eixo "y" marca a distância pela qual os grupos se fundem, enquanto os objetos são colocados ao longo do eixo "x", de modo que os grupos se fundem. O clustering com base na conectividade é uma família inteira de métodos que diferem na forma como as distâncias são calculadas. Além da escolha usual de funções de distância, o usuário também precisa decidir os critérios de conexão (uma vez que um grupo consiste em vários objetos, existem vários candidatos para calcular a distância) a usar. As escolhas populares são conhecidas como agrupamento de link único (o mínimo de distâncias entre objetos), agrupamento de link completo ou UPGMA ("Método de grupo de pares não ponderados com média aritmética", também conhecido como agrupamento de link. médio). Além disso, o agrupamento hierárquico pode ser aglomerativo ou divisivo. Esses métodos não produzirão uma única partição do conjunto de dados, mas sim uma hierarquia onde o usuário pode escolher os grupos apropriados. Eles não são muito robustos ao ruído, pois podem não aparecer como grupos adicionais; eles podem até mesmo fazer com que outros grupos se fundam.