Baixe o app para aproveitar ainda mais
Prévia do material em texto
08/06/2023, 11:53 Roteiro de Estudos https://student.ulife.com.br/ContentPlayer/Index?lc=nVaXFLXrCrLh2UjfNgspTw%3d%3d&l=OIj07MrCSX5bQtlwRJK5MQ%3d%3d&cd=3M5P4H… 1/19 A versão mais simples e mais fundamental da análise de agrupamento é o particionamento, que organiza os objetos de um conjunto de dados em vários grupos ou grupos exclusivos. Para manter a ideia simples, podemos assumir que o número de grupos é fornecido como conhecimento prévio. Esse parâmetro é o ponto de partida para os métodos de particionamento. Formalmente, dado um conjunto de dados, D, de n objetos, e k o número de clusters para formar, um algoritmo de particionamento organiza os objetos em k grupos ( k < n) em que cada partição representa um cluster . Os clusters são formados para otimizar uma partição de acordo com um critério objetivo, como uma função de dissimilaridade com base na distância, para que os objetos dentro de um cluster sejam “semelhantes” um ao outro e “diferentes” a objetos em outros clusters em termos dos atributos do conjunto de dados. Caro(a) estudante, ao ler este roteiro você vai: aprender sobre algoritmos de aprendizagem de máquina não supervisionado; analisar a transformação de dados para o formato adequado; compreender como utilizar técnicas para seleção de características; saber como escolher métricas de distância; estudar sobre a utilização do algoritmo k-means. Introdução Aprendizado de Máquina não Supervisionado Roteiro deRoteiro de EstudosEstudos Autor: Dr. Everton Gomede Revisor: Paulo Lacerda 08/06/2023, 11:53 Roteiro de Estudos https://student.ulife.com.br/ContentPlayer/Index?lc=nVaXFLXrCrLh2UjfNgspTw%3d%3d&l=OIj07MrCSX5bQtlwRJK5MQ%3d%3d&cd=3M5P4H… 2/19 O desenvolvimento de aplicativos para segmentação de clientes pode ser uma questão de sobrevivência para diversas organizações. Imagine o seguinte cenário: um banco com todas as suas transações sendo feitas somente porque tratam todos os clientes da mesma forma. Sendo assim, certas particularidades podem ser perdidas, e o resultado do banco pode diminuir. Existe uma ideia de segmentação conhecida como “um banco para cada cliente”. Agora, imagine como o escalonamento de tal operação pode ser feita. Além disso, pense no tempo desperdiçado pelos clientes nas �las e o impacto disso em suas vidas. Tal cenário poderia limitar a operação do banco e de vários de seus clientes. Além disso, o impacto na economia seria sentido por vários anos e muitas pessoas seriam afetadas. Para gerenciar tal situação, uma possível solução seria desenvolver uma forma de segmentação de carteira que permita tratar os clientes de forma mais personalizada. Isso, além de interessante para os clientes, também é de grande importância para o banco, uma vez que seus desperdícios com divulgação tendem a reduzir. Introdução aos Algoritmos de Aprendizagem de Máquina não Supervisionada O aprendizado de máquina investiga como os computadores podem aprender (ou melhorar seu desempenho) com base em dados (CARVALHO, 2011). Uma área de pesquisa principal é que os programas de computador aprendam automaticamente a reconhecer padrões complexos e tomar decisões inteligentes com base em dados. Por exemplo, um problema típico de aprendizado de máquina é programar um computador para que ele possa automaticamente reconhecer códigos postais manuscritos no correio depois de aprender com um conjunto de exemplos (CARVALHO, 2011). O aprendizado de máquina é uma disciplina de rápido crescimento. Existem alguns tipos de aprendizado de máquina: supervisionado, não supervisionado, semissupervisionado e ativo (CARVALHO, 2011). Aprendizado não supervisionado é essencialmente sinônimo de agrupamento. O processo de aprendizagem não é supervisionado, pois os exemplos de entrada não são rotulados como classe. Normalmente, podemos usar armazenamento em cluster para descobrir classes nos dados. Por exemplo, um aprendizado não supervisionado. O método pode receber, como entrada, um conjunto de imagens de dígitos manuscritos. Suponha que encontre 10 conjuntos de dados. Esses clusters podem corresponder aos 10 dígitos distintos de 0 a 9, respectivamente. 08/06/2023, 11:53 Roteiro de Estudos https://student.ulife.com.br/ContentPlayer/Index?lc=nVaXFLXrCrLh2UjfNgspTw%3d%3d&l=OIj07MrCSX5bQtlwRJK5MQ%3d%3d&cd=3M5P4H… 3/19 No entanto, como os dados de treinamento não são rotulados, o modelo aprendido não pode nos dizer o signi�cado semântico dos agrupamentos encontrados. Com relação aos outros tipos, temos que: o aprendizado supervisionado exige que os dados sejam rotulados de maneira prévia. A estratégia de aprendizado semissupervisionado faz o uso dos mesmos dados de entrada para comparar se o resultado está correto. O aprendizado ativo utiliza a estratégia de penalidade/recompensa para cada ação que um determinado algoritmo executa. Você pode ver que há muitas semelhanças entre mineração de dados e aprendizado de máquina. Para tarefas de classi�cação e agrupamento, a pesquisa de aprendizado de máquina geralmente se concentra na precisão do modelo (CARVALHO, 2011). Além da precisão, a pesquisa de mineração de dados coloca forte ênfase na e�ciência e na escalabilidade dos métodos de mineração em grandes conjuntos de dados, como em maneiras de lidar com tipos complexos de dados e explorar novos métodos alternativos. Isso ocorre porque, geralmente, o volume de dados tende a ser grande. Quando se fala de precisão, estamos nos referindo a uma baixa variabilidade. Outro termo importante que vem junto com ela se refere à “acurácia”, isto é, uma baixa taxa de erro. LIVRO Fundamentos de aprendizagem de máquina Autor : Maikon Lucian Lenz Editora : Grupo A Ano : 2020 Comentário : esse livro aborda várias questões sobre aprendizado de máquina, desde conceitos simples até os mais so�sticados. O autor aborda o conteúdo destinado a leigos no assunto, o que torna a leitura simples e prazerosa. Recomenda- se a leitura integral, caso tenha disponibilidade. Esse título está disponível na Biblioteca Virtual da Ânima. 08/06/2023, 11:53 Roteiro de Estudos https://student.ulife.com.br/ContentPlayer/Index?lc=nVaXFLXrCrLh2UjfNgspTw%3d%3d&l=OIj07MrCSX5bQtlwRJK5MQ%3d%3d&cd=3M5P4H… 4/19 Transformação de Dados para o Formato Adequado Os dados têm qualidade se satis�zerem os requisitos do uso pretendido. Há muitos fatores que compreendem a qualidade dos dados, incluindo precisão, integridade, consistência, pontualidade, credibilidade e interpretabilidade. Dados imprecisos, incompletos e inconsistentes são propriedades comuns de grandes bancos de dados e data warehouses do mundo real. Há muitas possíveis razões para dados imprecisos (ou seja, com valores de atributos incorretos). Os instrumentos utilizados para a coleta de dados podem estar com defeito (CARVALHO, 2011). Pode ter havido erros humanos ou de computador na entrada de dados. Os usuários podem enviar valores de dados incorretos propositadamente para campos quando eles não desejam enviar informações pessoais (por exemplo, escolhendo o valor padrão “1 de janeiro” exibido para o aniversário). Isso é conhecido como falta disfarçada de dados. Erros na transmissão de dados também podem ocorrer. Pode haver limitações de tecnologia como tamanho limitado do bu�er para coordenar a transferência e o consumo sincronizado de dados. LIVRO Inteligência arti�cial Autor : George F. Luger Editora : Pearson Ano : 2013 Comentário : esse livro aborda várias questões sobre aprendizado de máquina e apresenta os fundamentos e diversas estratégias de implementação. Recomenda-se a leitura do capítulo 1, introdutório, e do capítulo 10, que trata dos tipos de aprendizagem, por exemplo a não supervisionada. Esse título está disponível na Biblioteca Virtual da Ânima. 08/06/2023, 11:53 Roteiro de Estudos https://student.ulife.com.br/ContentPlayer/Index?lc=nVaXFLXrCrLh2UjfNgspTw%3d%3d&l=OIj07MrCSX5bQtlwRJK5MQ%3d%3d&cd=3M5P4H… 5/19 Dados incorretos também podem resultar de inconsistências em convenções de nomesou dados códigos ou formatos inconsistentes para campos de entrada (por exemplo, data). Tuplas duplicadas também exigem limpeza de dados e, para essa veri�cação, utilizam-se funções de contagem e agregação, para observar essa duplicação e de que maneira ela está afetando a qualidade. Dados incompletos podem ocorrer por vários motivos. Atributos de interesse podem não estar sempre disponíveis, como informações do cliente para dados de transações de vendas. Outros dados podem não ser incluídos simplesmente porque não eram considerados importantes no momento de entrada. Além disso, dados relevantes podem não ser registrados devido a um mal-entendido ou por causa de mau funcionamento do equipamento. Lembre-se de que a qualidade dos dados depende do uso pretendido dos dados. Dois usuários diferentes podem ter avaliações muito diferentes da qualidade de um determinado banco de dados. Por exemplo, um analista de marketing pode precisar acessar o banco de dados mencionado anteriormente para obter uma lista de clientes endereços. Alguns endereços estão desatualizados ou incorretos, mas, no geral, 80% dos endereços são precisos (CARVALHO, 2011). O analista de marketing considera que esse é um grande cliente banco de dados para �ns de marketing de destino e está satisfeito com a precisão do banco de dados, embora, como gerente de vendas, você tenha achado os dados imprecisos. A pontualidade também afeta a qualidade dos dados. Por pontualidade entende-se que as marcações de tempo dos dados estão corretas e representam quando eles ocorreram. Dois outros fatores que afetam a qualidade dos dados são credibilidade e interpretabilidade. Credibilidade re�ete o quanto os dados são con�áveis pelos usuários, enquanto a interpretabilidade re�ete quão fácil os dados são entendidos. A ausência desses fatores levam os usuários a não con�ar e não entender as informações apresentadas. As rotinas de limpeza de dados trabalham para “limpar” os dados, preenchendo valores ausentes, suavizando dados ruidosos, identi�cando ou removendo outliers (pontos fora da curva) e resolvendo inconsistências. É importante ressaltar que não há uma regra com relação ao tratamento dos outliers : por exemplo, quando se está buscando veri�car as melhores notas de uma turma, eles não devem ser removidos, mas quando o objetivo é fazer uma análise de desempenho geral, devem ser removidos. Se os usuários acreditam que os dados estão sujos, é improvável que con�em nos resultados de qualquer mineração de dados que tenha sido aplicado. Além disso, dados sujos podem causar confusão no procedimento de mineração, resultando em saída não con�ável. Embora a maioria das rotinas de mineração possua alguns procedimentos para lidar com dados incompletos ou ruidosos, eles nem sempre são robustos. Em vez disso, eles podem se concentrar em evitar ajustar demais os dados na função que está sendo modelada. Portanto, uma etapa útil de pré-processamento é executar seus dados por meio de algumas rotinas de 08/06/2023, 11:53 Roteiro de Estudos https://student.ulife.com.br/ContentPlayer/Index?lc=nVaXFLXrCrLh2UjfNgspTw%3d%3d&l=OIj07MrCSX5bQtlwRJK5MQ%3d%3d&cd=3M5P4H… 6/19 limpeza de dados. Além disso, tendo uma grande quantidade de dados redundantes, pode diminuir a velocidade ou confundir a descoberta de conhecimento processo. Claramente, além da limpeza de dados, devem ser tomadas medidas para ajudar a evitar redundâncias durante a integração de dados. Normalmente, a limpeza e a integração de dados são executadas como uma etapa de pré-processamento ao preparar dados para um data warehouse . Adicional limpeza de dados pode ser realizada para detectar e remover redundâncias que possam ter resultou da integração de dados. A redução de dados obtém uma representação reduzida do conjunto de dados que é muito menor em volume, mas produz os mesmos (ou quase iguais) resultados analíticos. Redução de dados estratégias inclui redução de dimensionalidade e redução de numerosidade. Na redução da dimensionalidade, esquemas de codi�cação de dados são aplicados para obter uma representação reduzida ou “compactada” dos dados originais (CARVALHO, 2011). Exemplos incluem dados técnicas de compressão (por exemplo, transformadas de wavelets e análise de componentes principais), seleção de subconjunto de atributos (por exemplo, remoção de atributos irrelevantes) e construção de atributos (por exemplo, onde um pequeno conjunto de atributos mais úteis é derivado do conjunto original). Na redução da numerosidade, os dados são substituídos por representações alternativas menores usando modelos paramétricos (por exemplo, modelos de regressão ou log-linear) ou não paramétricos modelos (por exemplo, histogramas, clusters, amostragem ou agregação de dados). LIVRO Análise de dados : modelos de regressão com Excel®, Stata® e SPSS® Autor: Luiz Paulo Fávero e Patrícia Bel�ore Editora: LTC Ano: 2016 Comentário: esse livro aborda de forma simples e direta como realizar a análise e transformação de dados. Esse é o fundamento para os algoritmos de aprendizado de máquina. Esse título está disponível na Biblioteca Virtual da Ânima. 08/06/2023, 11:53 Roteiro de Estudos https://student.ulife.com.br/ContentPlayer/Index?lc=nVaXFLXrCrLh2UjfNgspTw%3d%3d&l=OIj07MrCSX5bQtlwRJK5MQ%3d%3d&cd=3M5P4H… 7/19 Identi�cação de Técnicas para Seleção de Características Técnicas de redução de dados podem ser aplicadas para obter uma representação reduzida do conjunto de dados que é muito menor em volume, mas mantém de perto a integridade do original dados (MEDEIROS, 2018). Ou seja, a utilização do conjunto de dados reduzido deve ser mais e�ciente e e�caz, mas produzir os mesmos (ou quase iguais) resultados analíticos. A redução de dimensionalidade é o processo de redução do número de variáveis aleatórias ou atributos em consideração. Os métodos de redução de dimensionalidade incluem transformações de pequenas partes de ondas e análise de componentes principais, que transformam ou projetam os dados originais em um espaço menor. A seleção de subconjunto de atributos é um método de redução de dimensionalidade em que irrelevantes, fracamente relevantes ou redundantes atributos ou dimensões são detectados e removidos. Suponha que os dados a serem reduzidos consistam em tuplas ou vetores de dados descritos por n atributos ou dimensões. Análise de componentes principais (PCA; também chamada de LIVRO Análise multivariada de dados Autores : Joseph F. Hair Jr, William C. Black, Barry J. Babin, Rolph E. Anderson e Ronald L. Tatham Editora : Bookman Ano : 2009 Comentário : esse livro apresenta um amplo conjunto de técnicas estatísticas. Os capítulos estão organizados seguindo uma progressão lógica e prática das fases de análise e agrupando tipos de técnicas similares aplicáveis a diversas situações. Esse título está disponível na Biblioteca Virtual da Ânima. 08/06/2023, 11:53 Roteiro de Estudos https://student.ulife.com.br/ContentPlayer/Index?lc=nVaXFLXrCrLh2UjfNgspTw%3d%3d&l=OIj07MrCSX5bQtlwRJK5MQ%3d%3d&cd=3M5P4H… 8/19 método de Karhunen-Loeve, ou K-L) busca k vetores ortogonais tridimensionais que pode ser mais bem usado para representar os dados, onde k ≤ n. Os dados originais são assim projetados para um espaço muito menor, resultando em redução de dimensionalidade. Ao contrário do subconjunto de atributos seleção, que reduz o tamanho do conjunto de atributos mantendo um subconjunto do conjunto inicial de atributos, o PCA “combina” a essência dos atributos, criando uma alternativa, em um conjunto menor de variáveis (LUGER, 2013). A análise de componentes principais (Principal Component Analysis – PCA), um dos métodos mais úteis e e�cazes na compressão de dados, é um procedimento estatístico que converte um conjunto de objetos com atributos possivelmente correlacionados em um conjunto de objetos com atributos linearmente descorrelacionados, chamados de componentes principais. O número de componentes principais é menor ou igual ao númerode atributos da base, e a transformação é de�nida de forma que o primeiro componente principal possua a maior variância (ou seja, represente a maior variabilidade dos dados), o segundo componente principal possua a segunda maior variância, e assim sucessivamente (CASTRO; FERRARI, 2016, p. 45-46). A análise de componentes principais consiste na principal técnica linear para a redução de dimensionalidade dos dados. Deve-se mapear linearmente os dados (processo também chamado de projeção) em um espaço de dimensão menor, de modo que a variância dos dados nesse espaço seja maximizada. O PCA geralmente revela relacionamentos que não eram suspeitos anteriormente e, portanto, permite interpretações que normalmente não eram possíveis (DOMINGOS, 2017). A ideia básica do PCA é de correlacionar todos os elementos em componentes principais, podendo essa ideia ser interpretada de maneira a analisar a característica mais relevante em cada componente. O procedimento básico está descrito a seguir. 1. Os dados de entrada são normalizados, de modo que cada atributo se enquadre no mesmo intervalo. Essa etapa ajuda a garantir que os atributos com domínios grandes não dominem os atributos com domínios menores. 2. O PCA calcula k vetores ortonormais que fornecem uma base para a entrada normalizada de dados. Esses são vetores unitários em que cada ponto se encontra em uma direção perpendicular aos outros. Esses vetores são chamados de componentes principais. Os dados de entrada são lineares e uma combinação dos principais componentes. 3. Os principais componentes são classi�cados em ordem decrescente de “signi�cância” ou força. Os componentes principais servem essencialmente como um novo conjunto de eixos para os dados, fornecendo informações importantes sobre variação. Ou seja, os eixos classi�cados são tais que o primeiro eixo mostra a maior variação entre os dados, o 08/06/2023, 11:53 Roteiro de Estudos https://student.ulife.com.br/ContentPlayer/Index?lc=nVaXFLXrCrLh2UjfNgspTw%3d%3d&l=OIj07MrCSX5bQtlwRJK5MQ%3d%3d&cd=3M5P4H… 9/19 segundo eixo mostra a próxima variação mais alta, e assim por diante. Por exemplo, a Figura 1 mostra os dois primeiros principais componentes, e , para o conjunto de dados fornecido originalmente mapeado para os eixos e . Essas informações ajudam a identi�car grupos ou padrões nos dados. 4. Como os componentes são classi�cados em ordem decrescente de “signi�cância”, o tamanho dos dados pode ser reduzido eliminando os componentes mais fracos, ou seja, aqueles com baixa variação. Figura 1 - Exemplo de componentes principais (PCA) Fonte: Elaborada pelo autor. Usando os componentes principais mais fortes, deve ser possível reconstruir uma boa aproximação dos dados originais. O PCA pode ser aplicado a atributos ordenados e não ordenados e pode manipular dados esparsos e dados distorcidos (FÁVERO; BELFIORE, 2016). Dados multidimensionais de mais de duas dimensões podem ser manipulados reduzindo o problema para duas dimensões, e componentes principais podem ser usados como entradas para regressão múltipla e análise de cluster . Figura 2 - Exemplo de componentes principais (PCA) com os dados do estudo de caso Fonte: Elaborada pelo autor. Y1 Y2 X1 X2 08/06/2023, 11:53 Roteiro de Estudos https://student.ulife.com.br/ContentPlayer/Index?lc=nVaXFLXrCrLh2UjfNgspTw%3d%3d&l=OIj07MrCSX5bQtlwRJK5MQ%3d%3d&cd=3M5P4… 10/19 LIVRO Introdução à mineração de dados: conceitos básicos, algoritmos e aplicações Autores : Leandro Nunes de Castro e Daniel Gomes Ferrari Editora : Saraiva Ano : 2016 Comentário : esse livro apresenta várias técnicas para análise e mineração de dados. Tais técnicas são importantes para a seleção mais adequada das características mais relevantes para a solução do problema. Esse título está disponível na Biblioteca Virtual da Ânima LIVRO Introdução à mineração de dados: com aplicações em R Autor : Leandro Augusto Silva Editora : GEN LTC Ano : 2016 Comentário : essa obra tem como objetivo a apresentação dos assuntos abordados neste estudo de forma contextualizada, de modo a facilitar o entendimento de um problema e a resolução dele por meio de algoritmos escritos em pseudocódigos e executados em passo a passo. Esse título está disponível na Biblioteca Virtual da Ânima . 08/06/2023, 11:53 Roteiro de Estudos https://student.ulife.com.br/ContentPlayer/Index?lc=nVaXFLXrCrLh2UjfNgspTw%3d%3d&l=OIj07MrCSX5bQtlwRJK5MQ%3d%3d&cd=3M5P4… 11/19 Escolha das Métricas de Distância Em aplicativos de aprendizado de máquina, como clustering , análise de outlier e vizinhos mais próximos de classi�cação, precisamos de maneiras de avaliar como objetos são semelhantes ou não em comparação com outro. Por exemplo, uma loja pode querer procurar agrupamentos de objetos de clientes, resultando em grupos de clientes com características semelhantes (por exemplo, renda semelhante, área de residência e idade). Essas informações podem ser usadas para marketing (LUGER, 2013). Um cluster é uma coleção de objetos de dados, de modo que os objetos em um cluster sejam semelhantes a outro e diferentes dos objetos em outros clusters . A análise externa também emprega técnicas baseadas em cluster para identi�car possíveis discrepâncias como objetos altamente diferentes para outros. Nesse sentido, dentre as técnicas que pode ser utilizadas para o agrupamento de objetos de clientes, podemos abordar o PCA, geralmente empregado para redução de dimensionalidade e entendimento dos dados. O kNN, o algoritmo canônico (ou seja, central) para classi�cação e, por �m, o k- means são alguns dos tipos de kNN baseados em centroides. O conhecimento de semelhanças de objetos também pode ser usado no método de vizinho mais próximo de classi�cação em que um determinado objeto (por exemplo, um paciente) recebe um rótulo de classe (relacionado a, digamos, um diagnóstico) com base em sua semelhança com outros objetos no modelo (AMARAL, 2016). Semelhança e dissimilaridade estão relacionadas. Uma medida de similaridade para dois objetos, i e j, normalmente retornarão o valor 0 se os objetos forem semelhantes. Quanto maior o valor da similaridade, maior a similaridade entre os objetos. (Normalmente, um valor de 1 indica semelhança completa, ou seja, os objetos são idênticos.) Uma medida de dissimilaridade funciona da maneira oposta. Retorna um valor 0 se os objetos forem os mesmos (e, portanto, longe de ser diferente). Quanto maior o valor da dissimilaridade, mais diferente os dois objetos são (HONGYU et al ., 2016). Em alguns casos, os dados são normalizados antes de aplicar os cálculos de distância. Esse envolve transformar os dados em um intervalo menor ou comum, como [-1, 1] ou [0,0, 1,0]. Considere um atributo de altura, por exemplo, que possa ser medido em quaisquer metros ou polegadas (GRUS, 2016). Em geral, expressar um atributo em unidades menores levará a um maior alcance para esse atributo e, portanto, tendem a dar a esses atributos maior efeito ou “peso”. A normalização dos dados tenta dar a todos os atributos um peso igual. Pode ou não ser útil em uma aplicação especí�ca. Métodos para normalizar dados são discutidos em detalhes no capítulo 3 sobre pré-processamento de dados (LUGER, 2013). A medida de distância mais popular é a distância euclidiana (ou seja, linha reta ou “como o corvo voa”), seja i=(xi1, xi2, ..., xip) e p=(xj1, xj2, ..., xjp) dois objetos descrito por um atributo numérico p. A distância euclidiana entre os objetos i e j é de�nida como: 08/06/2023, 11:53 Roteiro de Estudos https://student.ulife.com.br/ContentPlayer/Index?lc=nVaXFLXrCrLh2UjfNgspTw%3d%3d&l=OIj07MrCSX5bQtlwRJK5MQ%3d%3d&cd=3M5P4… 12/19 Figura 3 - Exemplo de distância utilizando os dados do estudo de caso Fonte: Elaborada pelo autor. d (i, j) = + +. . . +( − )xi1 xj1 2 ( − )xi2 xj2 2 ( − )xip xjp 2 − −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− √ LIVRO Introdução a algoritmos e programação com Python — uma abordagem dirigida por testes Autor : Raul Wazlawick Editora: GEN LTC Ano : 2017 Comentário : esse livro apresenta os aspectos de implementação dos algoritmos de análise de dados com a linguagem Python. O Python é uma das linguagens mais utilizadas no mundo para a análise de dados e aprendizado de máquina. Tal linguagem é muito poderosa e facilita o trabalho. Esse título está disponível na Biblioteca Virtual da Ânima . 08/06/2023, 11:53 Roteiro de Estudos https://student.ulife.com.br/ContentPlayer/Index?lc=nVaXFLXrCrLh2UjfNgspTw%3d%3d&l=OIj07MrCSX5bQtlwRJK5MQ%3d%3d&cd=3M5P4… 13/19 Utilização do Algoritmo k-means Suponha que um conjunto de dados, D, contenha n objetos no espaço euclidiano. Os métodos de particionamento distribuem os objetos em D em k aglomerados , ..., , isto é, = ; para (1 i,j k). Uma função objetivo é usada para avaliar a qualidade do particionamento para que objetos dentro de um cluster sejam semelhantes entre si, mas diferentes de objetos em outros clusters (SILVA, 2016). Ou seja, a função objetivo visa alta similaridade intracluster e baixa semelhança intercluster. Uma técnica de particionamento baseada no centroide usa o centroide de um cluster , , para representar esse cluster . Conceitualmente, o centroide de um cluster é seu ponto central. O centroide pode ser de�nido de várias maneiras, como pela média ou medoide dos objetos (ou pontos) atribuído ao cluster (OLIVEIRA et al ., 2018). A diferença entre um objeto p e ci, o representante do cluster , é medida por dist(p, ), onde dist(x, y) é a distância euclidiana entre dois pontos x e y. A qualidade do cluster pode ser medida pelo cluster interno variação, que é a soma do erro quadrático entre todos os objetos em e o centroide , de�nido como LIVRO Os paradigmas de aprendizagem de algoritmo computacional Autor : Alexandre Moreira de Menezes Editora : Blucher Ano : 2008 Comentário : esse livro apresenta um conjunto ordenado e hierárquico de ideias, que permitem compreender e relacionar os elementos de um problema até que se chegue a uma solução codi�cada em uma linguagem, ou seja, um produto que permita a automação computacional. C1 Ck Ci∩Cj ⊘ ≤ ≤ Ci ∈Ci ci Ci Ci ci E = dist∑ i=1 k ∑ p∈Ci (p, )ci 2 08/06/2023, 11:53 Roteiro de Estudos https://student.ulife.com.br/ContentPlayer/Index?lc=nVaXFLXrCrLh2UjfNgspTw%3d%3d&l=OIj07MrCSX5bQtlwRJK5MQ%3d%3d&cd=3M5P4… 14/19 em que E é a soma do erro quadrático de todos os objetos no conjunto de dados; p é o ponto em espaço representando um determinado objeto; e ci é o centroide do cluster (ambos p e são multidimensional). Em outras palavras, para cada objeto em cada cluster , a distância entre o objeto para o centro do cluster é quadrado e as distâncias são somadas. Essa função objetivo tenta tornar os clusters k resultantes o mais compactos e separados possível. Otimizar a variação dentro do cluster é um desa�o computacional. Nesse caso, teríamos de enumerar uma série de particionamentos possíveis que são exponenciais ao número de clusters e veri�car os valores de variação dentro do cluster (OLIVEIRA et al ., 2018). Tem sido mostrado que o problema é NP-difícil no espaço euclidiano geral, mesmo para dois grupos (ou seja, k = 2). Além disso, o problema é NP-difícil para um número geral de clusters k, mesmo no espaço euclidiano 2-D. Se o número de clusters k e a dimensionalidade do espaço d foram resolvidos, o problema pode ser resolvido no tempo , em que n é o número de objetos. Para superar o custo computacional proibitivo da solução exata, gananciosas abordagens são frequentemente usadas na prática (CARVALHO, 2011). Um exemplo principal é o algoritmo k-means, que é simples e comumente usado. O algoritmo k-means de�ne o centroide de um cluster como o valor médio dos pontos dentro do cluster . Procede da seguinte maneira: primeiro, ele seleciona aleatoriamente k dos objetos em D, cada um dos quais inicialmente representa uma média de cluster ou centro (DIONÍSIO, 2019). Para cada um dos objetos restantes, um objeto é atribuído ao cluster ao qual é o mais semelhante, com base na distância euclidiana entre o objeto e o cluster signi�car. O algoritmo k-means melhora iterativamente a variação dentro do cluster (MEDEIROS, 2018). Para cada cluster , ele calcula a nova média usando os objetos atribuídos ao cluster na iteração anterior. Todos os objetos são atribuídos usando os meios atualizados como os novos centros de cluster . As iterações continuam até que a atribuição seja estável, ou seja, os aglomerados formados na rodada atual são os mesmos que os formados na rodada anterior volta. O resultado pode ser visto na Figura 4: Figura 4 - Resultado do agrupamento utilizando os dados do estudo de caso Fonte: Elaborada pelo autor. Ci ci O ( log n)ndk+1 08/06/2023, 11:53 Roteiro de Estudos https://student.ulife.com.br/ContentPlayer/Index?lc=nVaXFLXrCrLh2UjfNgspTw%3d%3d&l=OIj07MrCSX5bQtlwRJK5MQ%3d%3d&cd=3M5P4… 15/19 ARTIGO Complexidade de algoritmos Autores : Laira Vieira Toscani e Paulo A. S. Veloso Editora : Penso Ano : 2012 Comentário : o livro analisa as limitações dos problemas em relação à complexidade dos algoritmos que os resolvem e de�ne as principais classes de problemas: P, NP e NP-completa. Esse título está disponível na Biblioteca Virtual da Ânima. LIVRO Introdução à mineração de dados : com Aplicações em R Autor: Leandro Augusto Silva Editora: GEN LTC Ano: 2016 Comentário: esse livro aborda de forma simples e muito didática várias técnicas de clusterização, incluindo o kNN e k- means. Além disso, fornece a implementação com a linguagem R. O R, assim como o Python, é uma das linguagens mais utilizadas no mundo de aprendizado de máquina. Recomenda- se a leitura dos capítulos 2, 4 e 5. Esse título está disponível na Biblioteca Virtual da Ânima . 08/06/2023, 11:53 Roteiro de Estudos https://student.ulife.com.br/ContentPlayer/Index?lc=nVaXFLXrCrLh2UjfNgspTw%3d%3d&l=OIj07MrCSX5bQtlwRJK5MQ%3d%3d&cd=3M5P4… 16/19 Conclusão Neste roteiro, vimos como a utilização do algoritmo kNN pode auxiliar na tarefa de segmentação de carteira de um banco. Para isso, aprendemos sobre os tipos de aprendizado de máquina não supervisionado, a transformação de dados para o formato adequado, a utilização de técnicas para seleção de características, como escolher métricas de distância, e sobre o uso do algoritmo k-means. Adicionalmente, o conhecimento e a utilização de aprendizado de máquina não supervisionado permitem à organização conhecer melhor seus serviços e os componentes que são utilizados para a sua execução. Além dos benefícios gerados para a organização e seus clientes, podemos citar o benefício para os desenvolvedores, que podem lançar mão de técnicas e tecnologias modernas para a segmentação de carteiras de clientes. Referências Bibliográ�cas CARVALHO, A. C. P. L. Inteligência arti�cial : uma abordagem de aprendizado de máquina. São Paulo: LTC, 2011. [Recurso eletrônico, Minha Biblioteca]. CASTRO, L. N. de.; FERRARI, D. G. Introdução à mineração de dados : conceitos básicos, algoritmos e aplicações. São Paulo: Saraiva, 2016. DOMINGOS, P. O algoritmo mestre : como a busca pelo algoritmo de machine learning de�nitivo recriará nosso mundo. São Paulo: Novatec, 2017. FÁVERO, L. P.; BELFIORE, P. Análise de dados : modelos de regressão com Excel®, Stata® e SPSS®. São Paulo: GEN LTC, 2016. HAIR JR., J. F. et al . Análise multivariada de dados . Porto Alegre: Bookman, 2009. LENZ, M. L. Fundamentos de aprendizagem de máquina . [ S. l. ]: Grupo A, 2020. LUGER, G. F. Inteligência arti�cial . 6. ed. São Paulo: Pearson, 2013. MEDEIROS, L.F. Inteligência arti�cial aplicada : uma abordagem introdutória. Curitiba: Intersaberes, 2018. [Recurso eletrônico, Minha Biblioteca]. MENEZES, A. M. de. Os paradigmas de aprendizagem de algoritmo computacional . São Paulo: Blucher, 2008. SILVA, L. A. Introdução à mineração de dados : com aplicações em R. São Paulo: GEN LTC, 2016. 08/06/2023, 11:53 Roteiro de Estudos https://student.ulife.com.br/ContentPlayer/Index?lc=nVaXFLXrCrLh2UjfNgspTw%3d%3d&l=OIj07MrCSX5bQtlwRJK5MQ%3d%3d&cd=3M5P4…17/19 TOSCANI, L. T.; VELOSO, P. A. S. Complexidade de algoritmos . Porto Alegre: Penso, 2012. WAZLAWICK, R. Introdução a algoritmos e programação com Python — uma abordagem dirigida por testes. São Paulo: GEN LTC, 2017. 08/06/2023, 11:53 Roteiro de Estudos https://student.ulife.com.br/ContentPlayer/Index?lc=nVaXFLXrCrLh2UjfNgspTw%3d%3d&l=OIj07MrCSX5bQtlwRJK5MQ%3d%3d&cd=3M5P4… 18/19 08/06/2023, 11:53 Roteiro de Estudos https://student.ulife.com.br/ContentPlayer/Index?lc=nVaXFLXrCrLh2UjfNgspTw%3d%3d&l=OIj07MrCSX5bQtlwRJK5MQ%3d%3d&cd=3M5P4… 19/19
Compartilhar