Prévia do material em texto
Tema 46: Algoritmos de Agrupamento (Clustering) Agrupamento (Clustering) é uma técnica de aprendizado não supervisionado onde o objetivo é agrupar dados em clusters ou grupos de objetos semelhantes. Diferentemente da classificação, onde as classes são conhecidas de antemão, no agrupamento os dados são analisados e agrupados com base em semelhanças internas. Principais Algoritmos de AgrupamentoK-Means: O K-Means é um dos algoritmos de agrupamento mais populares. Ele funciona em três etapas principais: o Inicialização: Seleciona aleatoriamente K centros de clusters. o Atribuição: Atribui cada ponto de dados ao centro de cluster mais próximo. o Atualização: Recalcula os centros de clusters, tomando a média de todos os pontos atribuídos a cada cluster. O processo é repetido até que os centros de clusters não mudem mais significativamente. O número de clusters K deve ser pré-definido, o que pode ser uma limitação. Para ajudar a escolher o valor de K, é comum usar o Método do Cotovelo, que busca o ponto onde a soma dos erros quadráticos diminui drasticamente. 2. DBSCAN (Density-Based Spatial Clustering of Applications with Noise): O DBSCAN é um algoritmo de agrupamento baseado em densidade, que pode identificar clusters de formas arbitrárias e também detecta pontos de ruído (outliers). Ele se baseia em dois parâmetros principais: o ε (epsilon): Distância máxima entre dois pontos para que eles pertençam ao mesmo cluster. o MinPts: Número mínimo de pontos necessários para formar um cluster. Uma das principais vantagens do DBSCAN é que ele não exige que o número de clusters seja especificado, como acontece no K-Means. 3. Hierarchical Clustering: O Agrupamento Hierárquico cria uma hierarquia de clusters, que pode ser representada em um dendrograma (árvore). Existem duas abordagens principais:Aglomerativo: Começa com cada ponto de dados como seu próprio cluster e vai fundindo os clusters mais próximos.Divisivo: Começa com todos os pontos no mesmo cluster e divide recursivamente o cluster até que cada ponto seja seu próprio cluster.O agrupamento hierárquico é útil quando é necessário visualizar como os clusters se relacionam entre si e tem a vantagem de não exigir a definição prévia do número de clusters.Questões de Alternativas - Tema 46: Algoritmos de Agrupamento Qual das alternativas abaixo descreve uma característica do algoritmo DBSCAN? • a) X Identifica clusters com base na densidade dos pontos e pode detectar ruídos. • b) O número de clusters deve ser predefinido pelo usuário. • c) Utiliza o método do cotovelo para determinar o número de clusters. • d) Sempre assume que os clusters têm formas esféricas. 2. Qual é uma limitação do algoritmo K-Means? • a) Ele não consegue identificar ruídos no conjunto de dados. • b) X O número de clusters (K) precisa ser predefinido. • c) Não é adequado para dados de alta dimensionalidade. • d) Ele não pode ser usado em dados numéricos.