Baixe o app para aproveitar ainda mais
Prévia do material em texto
Clustering and its Applications "Clustering" é um tipo de aprendizado de máquina onde o objetivo é analisar um conjunto de objetos (dados) e transformá-los em subconjuntos (grupos) disjuntos sem supervisão, de forma a maximizar a similaridade intra-classe e minimizar a similaridade inter-classe, isto é, os objetos de um mesmo grupo ("cluster") devem ser similares, ao passo que objetos de grupos distintos devem ser dissimilares. Existem diversos algoritmos que implementam essa abordagem não-supervisionada, dentre eles estão: métodos de particionamento ou divisão, métodos hierárquicos, métodos baseados em densidade, baseados em "grid" ou métodos baseados em modelos. O método de particionamento Single Pass cria um conjunto de dados particionado, onde faz do primeiro objeto um centróide para um primeiro cluster e assim para os próximos objetos verifica se existe similaridade (de acordo com alguma medida de similaridade, como distância euclidiana) com cada cluster formado, se existe o objeto é adicionado ao cluster correspondente e então o centróide é recalculado, senão é criado um novo cluster para o objeto. K-means é outro algorimo de particionamento, onde os objetos distribuídos em um plano são agrupados em k grupos de acordo com o cálculo de centróides para definir os elementos mais próximos. Os métodos hierárquicos são divididos em duas abordagens: aglomerativa e divisão. Na abordagem aglomerativa cada objeto é tratado como um cluster, então de acordo com uma medida de similaridade os cluster que são mais próximos(similares) são fundidos. Na divisão todos os objetos pertencem a um único cluster e então de acordo com dissimilaridade o cluster vai sendo dividido em outros pequenos clusters. Nos métodos baseados em densidade um cluster é definido como um conjunto máximo de pontos densamente conectados, DBSCAN é um exemplo para cada ponto de um cluster, densidade na vizinhança (distância entre os pontos) tem que exceder um limiar. Diferente do K-means ele não requer o número de clusters e encontra clusters de tamanhos e formatos arbitrários contendo ruídos. As técnicas de agrupamento são utilizadas em mineração de dados para entender relacionamentos dos dados determinando quais características influenciam na formação de classes do problema, como por exemplos os hábitos de compra de vários segmentos para determinar uma campanha de vendas. Também na mineração textual, pretendo descobrir conhecimento em base de dados textuais, onde após a estruturação dos dados textuais em forma de dados estatísticos é derivado padrões escondidos onde uma interpretação da saída é avaliada.
Compartilhar