A maior rede de estudos do Brasil

Grátis
2 pág.
Clustering

Pré-visualização | Página 1 de 1

Clustering 
A análise de grupo ou agrupamento é a tarefa de agrupar objetos por similaridade, em 
grupos ou conjuntos de forma que membros do mesmo grupo tenham características 
semelhantes. 
 
É a principal tarefa da mineração de dados exploratória e é uma técnica comum em análise 
estatística de dados. 
Ele também é usado em vários campos, comoː 
• aprendizado de máquina 
• reconhecimento de padrões 
• análise de imagem 
• pesquisa e recuperação de informação 
• bioinformática 
• compressão de dados 
• computação gráfica. 
A análise de grupo é um problema, é uma abordagem geral e existem milhares 1 de 
algoritmos que a resolvem, cada um com as suas características. Muitos algoritmos 
diferem significativamente em sua ideia do que constitui um grupo e como encontrá-los 
com eficiência. 
O agrupamento pode, portanto, ser formulado como um problema de otimização multi-
objetivo. O algoritmo apropriado e seus parâmetros dependem do conjunto de dados que 
está sendo analisado e do uso que será feito dos resultados. 
O agrupamento como tal não é uma tarefa de solução direta, mas sim um processo 
iterativo ou interativo que envolve tentativa e erro. Este processo de tentativa e erro é 
iterativo na medida em que é automático e interativo na medida em que requer 
intervenção humana. 
É uma prática comum executar um algoritmo de agrupamento (um processo iterativo), e 
a partir dos resultados ajustar os parâmetros e repetir a operação (resultando em um 
processo interativo). 
As aplicações de agrupamento são divididas em dois tipos principaisː 
• aqueles em que os grupos constituem o resultado desejado 
• este é o caso da análise de grupo, mineração de dados, análise de imagens 
• outros em que os grupos constituem o ponto de partida para a classificação de 
novas amostras de dados, desconhecidas no momento do processamento do 
agrupamento 
• é o caso da classificação automática no mundo do aprendizado de máquina 
O agrupamento baseado em conectividade, também conhecido como agrupamento 
hierárquico, é baseado na ideia principal de que os objetos que estão mais próximos são 
mais relacionados do que os que estão distantes. Esses algoritmos conectam "objetos" 
para formar "grupos" com base em sua distância. 
Um grupo pode ser descrito, em grande parte, pela distância máxima que leva para 
conectar todas as partes do grupo. Em diferentes distâncias, diferentes grupos se 
formarão, que podem ser representados usando um dendrograma, que explica de onde 
vem o nome "clustering hierárquico": esses algoritmos não apenas fornecem uma partição 
do conjunto de dados, mas fornecem uma ampla hierarquia de grupos que se fundem entre 
si em certas distâncias. Em um dendrograma, o eixo "y" marca a distância pela qual os 
grupos se fundem, enquanto os objetos são colocados ao longo do eixo "x", de modo que 
os grupos se fundem. 
O clustering com base na conectividade é uma família inteira de métodos que diferem na 
forma como as distâncias são calculadas. Além da escolha usual de funções de distância, 
o usuário também precisa decidir os critérios de conexão (uma vez que um grupo consiste 
em vários objetos, existem vários candidatos para calcular a distância) a usar. 
As escolhas populares são conhecidas como agrupamento de link único (o mínimo de 
distâncias entre objetos), agrupamento de link completo ou UPGMA ("Método de grupo 
de pares não ponderados com média aritmética", também conhecido como agrupamento 
de link. médio). Além disso, o agrupamento hierárquico pode ser aglomerativo ou 
divisivo. 
Esses métodos não produzirão uma única partição do conjunto de dados, mas sim uma 
hierarquia onde o usuário pode escolher os grupos apropriados. Eles não são muito 
robustos ao ruído, pois podem não aparecer como grupos adicionais; eles podem até 
mesmo fazer com que outros grupos se fundam.