Buscar

Clustering and its Applications

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Clustering and its Applications
"Clustering" é um tipo de aprendizado de máquina onde o objetivo é analisar um conjunto de objetos (dados) e transformá-los em subconjuntos (grupos) disjuntos sem supervisão, de forma a maximizar a similaridade intra-classe e minimizar a similaridade inter-classe, isto é, os objetos de um mesmo grupo ("cluster") devem ser similares, ao passo que objetos de grupos distintos devem ser dissimilares. Existem diversos algoritmos que implementam essa abordagem não-supervisionada, dentre eles estão: métodos de particionamento ou divisão, métodos hierárquicos, métodos baseados em densidade, baseados em "grid" ou métodos baseados em modelos. O método de particionamento Single Pass cria um conjunto de dados particionado, onde faz do primeiro objeto um centróide para um primeiro cluster e assim para os próximos objetos verifica se existe similaridade (de acordo com alguma medida de similaridade, como distância euclidiana) com cada cluster formado, se existe o objeto é adicionado ao cluster correspondente e então o centróide é recalculado, senão é criado um novo cluster para o objeto. K-means é outro algorimo de particionamento, onde os objetos distribuídos em um plano são agrupados em k grupos de acordo com o cálculo de centróides para definir os elementos mais próximos. Os métodos hierárquicos são divididos em duas abordagens: aglomerativa e divisão. Na abordagem aglomerativa cada objeto é tratado como um cluster, então de acordo com uma medida de similaridade os cluster que são mais próximos(similares) são fundidos. Na divisão todos os objetos pertencem a um único cluster e então de acordo com dissimilaridade o cluster vai sendo dividido em outros pequenos clusters. Nos métodos baseados em densidade um cluster é definido como um conjunto máximo de pontos densamente conectados, DBSCAN é um exemplo para cada ponto de um cluster, densidade na vizinhança (distância entre os pontos) tem que exceder um limiar. Diferente do K-means ele não requer o número de clusters e encontra clusters de tamanhos e formatos arbitrários contendo ruídos. As técnicas de agrupamento são utilizadas em mineração de dados para entender relacionamentos dos dados determinando quais características influenciam na formação de classes do problema, como por exemplos os hábitos de compra de vários segmentos para determinar uma campanha de vendas. Também na mineração textual, pretendo descobrir conhecimento em base de dados textuais, onde após a estruturação dos dados textuais em forma de dados estatísticos é derivado padrões escondidos onde uma interpretação da saída é avaliada.

Continue navegando