Aprendizado de máquina não supervisionado

Aprendizado de Máquina

•

UNIRITTER

Alison Krusciel de Moraes

17/12/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 19 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 19 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 19 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Aprendizado de Máquina

313 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

08/06/2023, 11:53 Roteiro de Estudos
https://student.ulife.com.br/ContentPlayer/Index?lc=nVaXFLXrCrLh2UjfNgspTw%3d%3d&l=OIj07MrCSX5bQtlwRJK5MQ%3d%3d&cd=3M5P4H… 1/19
A versão mais simples e mais fundamental da análise de agrupamento é o particionamento,
que organiza os objetos de um conjunto de dados em vários grupos ou grupos exclusivos. Para
manter a ideia simples, podemos assumir que o número de grupos é fornecido como
conhecimento prévio. Esse parâmetro é o ponto de partida para os métodos de
particionamento.
Formalmente, dado um conjunto de dados, D, de n objetos, e k o número de clusters para
formar, um algoritmo de particionamento organiza os objetos em k grupos ( k < n) em que cada
partição representa um cluster . Os clusters são formados para otimizar uma partição de acordo
com um critério objetivo, como uma função de dissimilaridade com base na distância, para que
os objetos dentro de um cluster sejam “semelhantes” um ao outro e “diferentes” a objetos em
outros clusters em termos dos atributos do conjunto de dados.
Caro(a) estudante, ao ler este roteiro você vai:
aprender sobre algoritmos de aprendizagem de máquina não supervisionado;
analisar a transformação de dados para o formato adequado;
compreender como utilizar técnicas para seleção de características;
saber como escolher métricas de distância;
estudar sobre a utilização do algoritmo k-means.
Introdução
Aprendizado de Máquina não Supervisionado
Roteiro deRoteiro de
EstudosEstudos
Autor: Dr. Everton Gomede
Revisor: Paulo Lacerda
08/06/2023, 11:53 Roteiro de Estudos
https://student.ulife.com.br/ContentPlayer/Index?lc=nVaXFLXrCrLh2UjfNgspTw%3d%3d&l=OIj07MrCSX5bQtlwRJK5MQ%3d%3d&cd=3M5P4H… 2/19
O desenvolvimento de aplicativos para segmentação de clientes pode ser uma questão de
sobrevivência para diversas organizações. Imagine o seguinte cenário: um banco com todas as
suas transações sendo feitas somente porque tratam todos os clientes da mesma forma. Sendo
assim, certas particularidades podem ser perdidas, e o resultado do banco pode diminuir.
Existe uma ideia de segmentação conhecida como “um banco para cada cliente”. Agora,
imagine como o escalonamento de tal operação pode ser feita. Além disso, pense no tempo
desperdiçado pelos clientes nas �las e o impacto disso em suas vidas. Tal cenário poderia
limitar a operação do banco e de vários de seus clientes. Além disso, o impacto na economia
seria sentido por vários anos e muitas pessoas seriam afetadas.
Para gerenciar tal situação, uma possível solução seria desenvolver uma forma de segmentação
de carteira que permita tratar os clientes de forma mais personalizada. Isso, além de
interessante para os clientes, também é de grande importância para o banco, uma vez que
seus desperdícios com divulgação tendem a reduzir.
Introdução aos Algoritmos de
Aprendizagem de Máquina não
Supervisionada
O aprendizado de máquina investiga como os computadores podem aprender (ou melhorar
seu desempenho) com base em dados (CARVALHO, 2011). Uma área de pesquisa principal é
que os programas de computador aprendam automaticamente a reconhecer padrões
complexos e tomar decisões inteligentes com base em dados. Por exemplo, um problema típico
de aprendizado de máquina é programar um computador para que ele possa
automaticamente reconhecer códigos postais manuscritos no correio depois de aprender com
um conjunto de exemplos (CARVALHO, 2011). O aprendizado de máquina é uma disciplina de
rápido crescimento. Existem alguns tipos de aprendizado de máquina: supervisionado, não
supervisionado, semissupervisionado e ativo (CARVALHO, 2011).
Aprendizado não supervisionado é essencialmente sinônimo de agrupamento. O processo de
aprendizagem não é supervisionado, pois os exemplos de entrada não são rotulados como
classe. Normalmente, podemos usar armazenamento em cluster para descobrir classes nos
dados. Por exemplo, um aprendizado não supervisionado. O método pode receber, como
entrada, um conjunto de imagens de dígitos manuscritos. Suponha que encontre 10 conjuntos
de dados. Esses clusters podem corresponder aos 10 dígitos distintos de 0 a 9, respectivamente.
08/06/2023, 11:53 Roteiro de Estudos
https://student.ulife.com.br/ContentPlayer/Index?lc=nVaXFLXrCrLh2UjfNgspTw%3d%3d&l=OIj07MrCSX5bQtlwRJK5MQ%3d%3d&cd=3M5P4H… 3/19
No entanto, como os dados de treinamento não são rotulados, o modelo aprendido não pode
nos dizer o signi�cado semântico dos agrupamentos encontrados.
Com relação aos outros tipos, temos que: o aprendizado supervisionado exige que os dados
sejam rotulados de maneira prévia. A estratégia de aprendizado semissupervisionado faz o uso
dos mesmos dados de entrada para comparar se o resultado está correto. O aprendizado ativo
utiliza a estratégia de penalidade/recompensa para cada ação que um determinado algoritmo
executa.
Você pode ver que há muitas semelhanças entre mineração de dados e aprendizado de
máquina. Para tarefas de classi�cação e agrupamento, a pesquisa de aprendizado de máquina
geralmente se concentra na precisão do modelo (CARVALHO, 2011). Além da precisão, a
pesquisa de mineração de dados coloca forte ênfase na e�ciência e na escalabilidade dos
métodos de mineração em grandes conjuntos de dados, como em maneiras de lidar com tipos
complexos de dados e explorar novos métodos alternativos. Isso ocorre porque, geralmente, o
volume de dados tende a ser grande.
Quando se fala de precisão, estamos nos referindo a uma baixa variabilidade. Outro termo
importante que vem junto com ela se refere à “acurácia”, isto é, uma baixa taxa de erro.
LIVRO
Fundamentos de aprendizagem de máquina
Autor : Maikon Lucian Lenz
Editora : Grupo A
Ano : 2020
Comentário : esse livro aborda várias questões sobre
aprendizado de máquina, desde conceitos simples até os mais
so�sticados. O autor aborda o conteúdo destinado a leigos no
assunto, o que torna a leitura simples e prazerosa. Recomenda-
se a leitura integral, caso tenha disponibilidade.
Esse título está disponível na Biblioteca Virtual da Ânima.
08/06/2023, 11:53 Roteiro de Estudos
https://student.ulife.com.br/ContentPlayer/Index?lc=nVaXFLXrCrLh2UjfNgspTw%3d%3d&l=OIj07MrCSX5bQtlwRJK5MQ%3d%3d&cd=3M5P4H… 4/19
Transformação de Dados para o
Formato Adequado
Os dados têm qualidade se satis�zerem os requisitos do uso pretendido. Há muitos fatores que
compreendem a qualidade dos dados, incluindo precisão, integridade, consistência,
pontualidade, credibilidade e interpretabilidade. Dados imprecisos, incompletos e
inconsistentes são propriedades comuns de grandes bancos de dados e data warehouses do
mundo real. Há muitas possíveis razões para dados imprecisos (ou seja, com valores de
atributos incorretos). Os instrumentos utilizados para a coleta de dados podem estar com
defeito (CARVALHO, 2011). Pode ter havido erros humanos ou de computador na entrada de
dados. Os usuários podem enviar valores de dados incorretos propositadamente para campos
quando eles não desejam enviar informações pessoais (por exemplo, escolhendo o valor
padrão “1 de janeiro” exibido para o aniversário). Isso é conhecido como falta disfarçada de
dados. Erros na transmissão de dados também podem ocorrer. Pode haver limitações de
tecnologia como tamanho limitado do bu�er para coordenar a transferência e o consumo
sincronizado de dados.
LIVRO
Inteligência arti�cial
Autor : George F. Luger
Editora : Pearson
Ano : 2013
Comentário : esse livro aborda várias questões sobre
aprendizado de máquina e apresenta os fundamentos e
diversas estratégias de implementação. Recomenda-se a leitura
do capítulo 1, introdutório, e do capítulo 10, que trata dos tipos
de aprendizagem, por exemplo a não supervisionada.
Esse título está disponível na Biblioteca Virtual da Ânima.
08/06/2023, 11:53 Roteiro de Estudos
https://student.ulife.com.br/ContentPlayer/Index?lc=nVaXFLXrCrLh2UjfNgspTw%3d%3d&l=OIj07MrCSX5bQtlwRJK5MQ%3d%3d&cd=3M5P4H… 5/19
Dados incorretos também podem resultar de inconsistências em convenções de nomesou
dados códigos ou formatos inconsistentes para campos de entrada (por exemplo, data). Tuplas
duplicadas também exigem limpeza de dados e, para essa veri�cação, utilizam-se funções de
contagem e agregação, para observar essa duplicação e de que maneira ela está afetando a
qualidade.
Dados incompletos podem ocorrer por vários motivos. Atributos de interesse podem não estar
sempre disponíveis, como informações do cliente para dados de transações de vendas. Outros
dados podem não ser incluídos simplesmente porque não eram considerados importantes no
momento de entrada. Além disso, dados relevantes podem não ser registrados devido a um
mal-entendido ou por causa de mau funcionamento do equipamento.
Lembre-se de que a qualidade dos dados depende do uso pretendido dos dados. Dois usuários
diferentes podem ter avaliações muito diferentes da qualidade de um determinado banco de
dados. Por exemplo, um analista de marketing pode precisar acessar o banco de dados
mencionado anteriormente para obter uma lista de clientes endereços. Alguns endereços estão
desatualizados ou incorretos, mas, no geral, 80% dos endereços são precisos (CARVALHO,
2011). O analista de marketing considera que esse é um grande cliente banco de dados para
�ns de marketing de destino e está satisfeito com a precisão do banco de dados, embora, como
gerente de vendas, você tenha achado os dados imprecisos. A pontualidade também afeta a
qualidade dos dados. Por pontualidade entende-se que as marcações de tempo dos dados
estão corretas e representam quando eles ocorreram. Dois outros fatores que afetam a
qualidade dos dados são credibilidade e interpretabilidade. Credibilidade re�ete o quanto os
dados são con�áveis pelos usuários, enquanto a interpretabilidade re�ete quão fácil os dados
são entendidos. A ausência desses fatores levam os usuários a não con�ar e não entender as
informações apresentadas.
As rotinas de limpeza de dados trabalham para “limpar” os dados, preenchendo valores
ausentes, suavizando dados ruidosos, identi�cando ou removendo outliers (pontos fora da
curva) e resolvendo inconsistências. É importante ressaltar que não há uma regra com relação
ao tratamento dos outliers : por exemplo, quando se está buscando veri�car as melhores notas
de uma turma, eles não devem ser removidos, mas quando o objetivo é fazer uma análise de
desempenho geral, devem ser removidos.
Se os usuários acreditam que os dados estão sujos, é improvável que con�em nos resultados
de qualquer mineração de dados que tenha sido aplicado. Além disso, dados sujos podem
causar confusão no procedimento de mineração, resultando em saída não con�ável. Embora a
maioria das rotinas de mineração possua alguns procedimentos para lidar com dados
incompletos ou ruidosos, eles nem sempre são robustos. Em vez disso, eles podem se
concentrar em evitar ajustar demais os dados na função que está sendo modelada. Portanto,
uma etapa útil de pré-processamento é executar seus dados por meio de algumas rotinas de
08/06/2023, 11:53 Roteiro de Estudos
https://student.ulife.com.br/ContentPlayer/Index?lc=nVaXFLXrCrLh2UjfNgspTw%3d%3d&l=OIj07MrCSX5bQtlwRJK5MQ%3d%3d&cd=3M5P4H… 6/19
limpeza de dados. Além disso, tendo uma grande quantidade de dados redundantes, pode
diminuir a velocidade ou confundir a descoberta de conhecimento processo.
Claramente, além da limpeza de dados, devem ser tomadas medidas para ajudar a evitar
redundâncias durante a integração de dados. Normalmente, a limpeza e a integração de dados
são executadas como uma etapa de pré-processamento ao preparar dados para um data
warehouse . Adicional limpeza de dados pode ser realizada para detectar e remover
redundâncias que possam ter resultou da integração de dados. A redução de dados obtém
uma representação reduzida do conjunto de dados que é muito menor em volume, mas
produz os mesmos (ou quase iguais) resultados analíticos. Redução de dados estratégias inclui
redução de dimensionalidade e redução de numerosidade. Na redução da dimensionalidade,
esquemas de codi�cação de dados são aplicados para obter uma representação reduzida ou
“compactada” dos dados originais (CARVALHO, 2011). Exemplos incluem dados técnicas de
compressão (por exemplo, transformadas de wavelets e análise de componentes principais),
seleção de subconjunto de atributos (por exemplo, remoção de atributos irrelevantes) e
construção de atributos (por exemplo, onde um pequeno conjunto de atributos mais úteis é
derivado do conjunto original). Na redução da numerosidade, os dados são substituídos por
representações alternativas menores usando modelos paramétricos (por exemplo, modelos de
regressão ou log-linear) ou não paramétricos modelos (por exemplo, histogramas, clusters,
amostragem ou agregação de dados).
LIVRO
Análise de dados : modelos de regressão com Excel®,
Stata® e SPSS®
Autor: Luiz Paulo Fávero e Patrícia Bel�ore
Editora: LTC
Ano: 2016
Comentário: esse livro aborda de forma simples e direta como
realizar a análise e transformação de dados. Esse é o
fundamento para os algoritmos de aprendizado de máquina.
Esse título está disponível na Biblioteca Virtual da Ânima.
08/06/2023, 11:53 Roteiro de Estudos
https://student.ulife.com.br/ContentPlayer/Index?lc=nVaXFLXrCrLh2UjfNgspTw%3d%3d&l=OIj07MrCSX5bQtlwRJK5MQ%3d%3d&cd=3M5P4H… 7/19
Identi�cação de Técnicas para
Seleção de Características
Técnicas de redução de dados podem ser aplicadas para obter uma representação reduzida do
conjunto de dados que é muito menor em volume, mas mantém de perto a integridade do
original dados (MEDEIROS, 2018). Ou seja, a utilização do conjunto de dados reduzido deve ser
mais e�ciente e e�caz, mas produzir os mesmos (ou quase iguais) resultados analíticos. A
redução de dimensionalidade é o processo de redução do número de variáveis aleatórias ou
atributos em consideração. Os métodos de redução de dimensionalidade incluem
transformações de pequenas partes de ondas e análise de componentes principais, que
transformam ou projetam os dados originais em um espaço menor. A seleção de subconjunto
de atributos é um método de redução de dimensionalidade em que irrelevantes, fracamente
relevantes ou redundantes atributos ou dimensões são detectados e removidos.
Suponha que os dados a serem reduzidos consistam em tuplas ou vetores de dados descritos
por n atributos ou dimensões. Análise de componentes principais (PCA; também chamada de
LIVRO
Análise multivariada de dados
Autores : Joseph F. Hair Jr, William C. Black, Barry J. Babin, Rolph
E. Anderson e Ronald L. Tatham
Editora : Bookman
Ano : 2009
Comentário : esse livro apresenta um amplo conjunto de
técnicas estatísticas. Os capítulos estão organizados seguindo
uma progressão lógica e prática das fases de análise e
agrupando tipos de técnicas similares aplicáveis a diversas
situações.
Esse título está disponível na Biblioteca Virtual da Ânima.
08/06/2023, 11:53 Roteiro de Estudos
https://student.ulife.com.br/ContentPlayer/Index?lc=nVaXFLXrCrLh2UjfNgspTw%3d%3d&l=OIj07MrCSX5bQtlwRJK5MQ%3d%3d&cd=3M5P4H… 8/19
método de Karhunen-Loeve, ou K-L) busca k vetores ortogonais tridimensionais que pode ser
mais bem usado para representar os dados, onde k ≤ n.
Os dados originais são assim projetados para um espaço muito menor, resultando em redução
de dimensionalidade. Ao contrário do subconjunto de atributos seleção, que reduz o tamanho
do conjunto de atributos mantendo um subconjunto do conjunto inicial de atributos, o PCA
“combina” a essência dos atributos, criando uma alternativa, em um conjunto menor de
variáveis (LUGER, 2013).
A análise de componentes principais (Principal Component Analysis – PCA), um
dos métodos mais úteis e e�cazes na compressão de dados, é um
procedimento estatístico que converte um conjunto de objetos com atributos
possivelmente correlacionados em um conjunto de objetos com atributos
linearmente descorrelacionados, chamados de componentes principais. O
número de componentes principais é menor ou igual ao númerode atributos
da base, e a transformação é de�nida de forma que o primeiro componente
principal possua a maior variância (ou seja, represente a maior variabilidade
dos dados), o segundo componente principal possua a segunda maior
variância, e assim sucessivamente (CASTRO; FERRARI, 2016, p. 45-46).
A análise de componentes principais consiste na principal técnica linear para a redução de
dimensionalidade dos dados. Deve-se mapear linearmente os dados (processo também
chamado de projeção) em um espaço de dimensão menor, de modo que a variância dos dados
nesse espaço seja maximizada.
O PCA geralmente revela relacionamentos que não eram suspeitos anteriormente e, portanto,
permite interpretações que normalmente não eram possíveis (DOMINGOS, 2017). A ideia
básica do PCA é de correlacionar todos os elementos em componentes principais, podendo
essa ideia ser interpretada de maneira a analisar a característica mais relevante em cada
componente. O procedimento básico está descrito a seguir.
1. Os dados de entrada são normalizados, de modo que cada atributo se enquadre no
mesmo intervalo. Essa etapa ajuda a garantir que os atributos com domínios grandes não
dominem os atributos com domínios menores.
2. O PCA calcula k vetores ortonormais que fornecem uma base para a entrada normalizada
de dados. Esses são vetores unitários em que cada ponto se encontra em uma direção
perpendicular aos outros. Esses vetores são chamados de componentes principais. Os
dados de entrada são lineares e uma combinação dos principais componentes.
3. Os principais componentes são classi�cados em ordem decrescente de “signi�cância” ou
força. Os componentes principais servem essencialmente como um novo conjunto de
eixos para os dados, fornecendo informações importantes sobre variação. Ou seja, os
eixos classi�cados são tais que o primeiro eixo mostra a maior variação entre os dados, o
08/06/2023, 11:53 Roteiro de Estudos
https://student.ulife.com.br/ContentPlayer/Index?lc=nVaXFLXrCrLh2UjfNgspTw%3d%3d&l=OIj07MrCSX5bQtlwRJK5MQ%3d%3d&cd=3M5P4H… 9/19
segundo eixo mostra a próxima variação mais alta, e assim por diante. Por exemplo, a
Figura 1 mostra os dois primeiros principais componentes, e , para o conjunto de
dados fornecido originalmente mapeado para os eixos e . Essas informações
ajudam a identi�car grupos ou padrões nos dados.
4. Como os componentes são classi�cados em ordem decrescente de “signi�cância”, o
tamanho dos dados pode ser reduzido eliminando os componentes mais fracos, ou seja,
aqueles com baixa variação.
Figura 1 - Exemplo de componentes principais (PCA)
Fonte: Elaborada pelo autor.
Usando os componentes principais mais fortes, deve ser possível reconstruir uma boa
aproximação dos dados originais. O PCA pode ser aplicado a atributos ordenados e não
ordenados e pode manipular dados esparsos e dados distorcidos (FÁVERO; BELFIORE, 2016).
Dados multidimensionais de mais de duas dimensões podem ser manipulados reduzindo o
problema para duas dimensões, e componentes principais podem ser usados como entradas
para regressão múltipla e análise de cluster .
Figura 2 - Exemplo de componentes principais (PCA) com os dados do estudo de caso
Fonte: Elaborada pelo autor.
Y1 Y2
X1 X2
08/06/2023, 11:53 Roteiro de Estudos
https://student.ulife.com.br/ContentPlayer/Index?lc=nVaXFLXrCrLh2UjfNgspTw%3d%3d&l=OIj07MrCSX5bQtlwRJK5MQ%3d%3d&cd=3M5P4… 10/19
LIVRO
Introdução à mineração de dados: conceitos básicos,
algoritmos e aplicações
Autores : Leandro Nunes de Castro e Daniel Gomes Ferrari
Editora : Saraiva
Ano : 2016
Comentário : esse livro apresenta várias técnicas para análise e
mineração de dados. Tais técnicas são importantes para a
seleção mais adequada das características mais relevantes para
a solução do problema.
Esse título está disponível na Biblioteca Virtual da Ânima
LIVRO
Introdução à mineração de dados: com aplicações em
R
Autor : Leandro Augusto Silva
Editora : GEN LTC
Ano : 2016
Comentário : essa obra tem como objetivo a apresentação dos
assuntos abordados neste estudo de forma contextualizada, de
modo a facilitar o entendimento de um problema e a resolução
dele por meio de algoritmos escritos em pseudocódigos e
executados em passo a passo.
Esse título está disponível na Biblioteca Virtual da Ânima .
08/06/2023, 11:53 Roteiro de Estudos
https://student.ulife.com.br/ContentPlayer/Index?lc=nVaXFLXrCrLh2UjfNgspTw%3d%3d&l=OIj07MrCSX5bQtlwRJK5MQ%3d%3d&cd=3M5P4… 11/19
Escolha das Métricas de Distância
Em aplicativos de aprendizado de máquina, como clustering , análise de outlier e vizinhos mais
próximos de classi�cação, precisamos de maneiras de avaliar como objetos são semelhantes
ou não em comparação com outro. Por exemplo, uma loja pode querer procurar agrupamentos
de objetos de clientes, resultando em grupos de clientes com características semelhantes (por
exemplo, renda semelhante, área de residência e idade). Essas informações podem ser usadas
para marketing (LUGER, 2013). Um cluster é uma coleção de objetos de dados, de modo que os
objetos em um cluster sejam semelhantes a outro e diferentes dos objetos em outros clusters .
A análise externa também emprega técnicas baseadas em cluster para identi�car possíveis
discrepâncias como objetos altamente diferentes para outros.
Nesse sentido, dentre as técnicas que pode ser utilizadas para o agrupamento de objetos de
clientes, podemos abordar o PCA, geralmente empregado para redução de dimensionalidade e
entendimento dos dados. O kNN, o algoritmo canônico (ou seja, central) para classi�cação e,
por �m, o k- means são alguns dos tipos de kNN baseados em centroides.
O conhecimento de semelhanças de objetos também pode ser usado no método de vizinho
mais próximo de classi�cação em que um determinado objeto (por exemplo, um paciente)
recebe um rótulo de classe (relacionado a, digamos, um diagnóstico) com base em sua
semelhança com outros objetos no modelo (AMARAL, 2016). Semelhança e dissimilaridade
estão relacionadas. Uma medida de similaridade para dois objetos, i e j, normalmente
retornarão o valor 0 se os objetos forem semelhantes. Quanto maior o valor da similaridade,
maior a similaridade entre os objetos. (Normalmente, um valor de 1 indica semelhança
completa, ou seja, os objetos são idênticos.) Uma medida de dissimilaridade funciona da
maneira oposta. Retorna um valor 0 se os objetos forem os mesmos (e, portanto, longe de ser
diferente). Quanto maior o valor da dissimilaridade, mais diferente os dois objetos são
(HONGYU et al ., 2016).
Em alguns casos, os dados são normalizados antes de aplicar os cálculos de distância. Esse
envolve transformar os dados em um intervalo menor ou comum, como [-1, 1] ou [0,0, 1,0].
Considere um atributo de altura, por exemplo, que possa ser medido em quaisquer metros ou
polegadas (GRUS, 2016). Em geral, expressar um atributo em unidades menores levará a um
maior alcance para esse atributo e, portanto, tendem a dar a esses atributos maior efeito ou
“peso”. A normalização dos dados tenta dar a todos os atributos um peso igual. Pode ou não
ser útil em uma aplicação especí�ca. Métodos para normalizar dados são discutidos em
detalhes no capítulo 3 sobre pré-processamento de dados (LUGER, 2013). A medida de
distância mais popular é a distância euclidiana (ou seja, linha reta ou “como o corvo voa”), seja
i=(xi1, xi2, ..., xip) e p=(xj1, xj2, ..., xjp) dois objetos descrito por um atributo numérico p. A
distância euclidiana entre os objetos i e j é de�nida como:
08/06/2023, 11:53 Roteiro de Estudos
https://student.ulife.com.br/ContentPlayer/Index?lc=nVaXFLXrCrLh2UjfNgspTw%3d%3d&l=OIj07MrCSX5bQtlwRJK5MQ%3d%3d&cd=3M5P4… 12/19
Figura 3 - Exemplo de distância utilizando os dados do estudo de caso
Fonte: Elaborada pelo autor.
d (i, j) = + +. . . +( − )xi1 xj1
2 ( − )xi2 xj2
2 ( − )xip xjp
2
− −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
√
LIVRO
Introdução a algoritmos e programação com Python
— uma abordagem dirigida por testes
Autor : Raul Wazlawick
Editora: GEN LTC
Ano : 2017
Comentário : esse livro apresenta os aspectos de
implementação dos algoritmos de análise de dados com a
linguagem Python. O Python é uma das linguagens mais
utilizadas no mundo para a análise de dados e aprendizado de
máquina. Tal linguagem é muito poderosa e facilita o trabalho.
Esse título está disponível na Biblioteca Virtual da Ânima .
08/06/2023, 11:53 Roteiro de Estudos
https://student.ulife.com.br/ContentPlayer/Index?lc=nVaXFLXrCrLh2UjfNgspTw%3d%3d&l=OIj07MrCSX5bQtlwRJK5MQ%3d%3d&cd=3M5P4… 13/19
Utilização do Algoritmo k-means
Suponha que um conjunto de dados, D, contenha n objetos no espaço euclidiano. Os métodos
de particionamento distribuem os objetos em D em k aglomerados , ..., , isto é, =
; para (1 i,j k). Uma função objetivo é usada para avaliar a qualidade do particionamento
para que objetos dentro de um cluster sejam semelhantes entre si, mas diferentes de objetos
em outros clusters (SILVA, 2016). Ou seja, a função objetivo visa alta similaridade intracluster e
baixa semelhança intercluster. Uma técnica de particionamento baseada no centroide usa o
centroide de um cluster , , para representar esse cluster . Conceitualmente, o centroide de
um cluster é seu ponto central. O centroide pode ser de�nido de várias maneiras, como pela
média ou medoide dos objetos (ou pontos) atribuído ao cluster (OLIVEIRA et al ., 2018). A
diferença entre um objeto p e ci, o representante do cluster , é medida por dist(p, ), onde
dist(x, y) é a distância euclidiana entre dois pontos x e y. A qualidade do cluster pode ser
medida pelo cluster interno variação, que é a soma do erro quadrático entre todos os objetos
em e o centroide , de�nido como
LIVRO
Os paradigmas de aprendizagem de algoritmo
computacional
Autor : Alexandre Moreira de Menezes
Editora : Blucher
Ano : 2008
Comentário : esse livro apresenta um conjunto ordenado e
hierárquico de ideias, que permitem compreender e relacionar
os elementos de um problema até que se chegue a uma solução
codi�cada em uma linguagem, ou seja, um produto que permita
a automação computacional.
C1 Ck Ci∩Cj
⊘ ≤ ≤
Ci
∈Ci ci
Ci
Ci ci
E = dist∑
i=1
k
∑
p∈Ci
(p, )ci
2
08/06/2023, 11:53 Roteiro de Estudos
https://student.ulife.com.br/ContentPlayer/Index?lc=nVaXFLXrCrLh2UjfNgspTw%3d%3d&l=OIj07MrCSX5bQtlwRJK5MQ%3d%3d&cd=3M5P4… 14/19
em que E é a soma do erro quadrático de todos os objetos no conjunto de dados; p é o ponto
em espaço representando um determinado objeto; e ci é o centroide do cluster (ambos p e
são multidimensional). Em outras palavras, para cada objeto em cada cluster , a distância
entre o objeto para o centro do cluster é quadrado e as distâncias são somadas. Essa função
objetivo tenta tornar os clusters k resultantes o mais compactos e separados possível. Otimizar
a variação dentro do cluster é um desa�o computacional. Nesse caso, teríamos de enumerar
uma série de particionamentos possíveis que são exponenciais ao número de clusters e veri�car
os valores de variação dentro do cluster (OLIVEIRA et al ., 2018). Tem sido mostrado que o
problema é NP-difícil no espaço euclidiano geral, mesmo para dois grupos (ou seja, k = 2). Além
disso, o problema é NP-difícil para um número geral de clusters k, mesmo no espaço euclidiano
2-D. Se o número de clusters k e a dimensionalidade do espaço d foram resolvidos, o problema
pode ser resolvido no tempo , em que n é o número de objetos. Para superar o
custo computacional proibitivo da solução exata, gananciosas abordagens são frequentemente
usadas na prática (CARVALHO, 2011). Um exemplo principal é o algoritmo k-means, que é
simples e comumente usado.
O algoritmo k-means de�ne o centroide de um cluster como o valor médio dos pontos dentro
do cluster . Procede da seguinte maneira: primeiro, ele seleciona aleatoriamente k dos objetos
em D, cada um dos quais inicialmente representa uma média de cluster ou centro (DIONÍSIO,
2019). Para cada um dos objetos restantes, um objeto é atribuído ao cluster ao qual é o mais
semelhante, com base na distância euclidiana entre o objeto e o cluster signi�car. O algoritmo
k-means melhora iterativamente a variação dentro do cluster (MEDEIROS, 2018). Para cada
cluster , ele calcula a nova média usando os objetos atribuídos ao cluster na iteração anterior.
Todos os objetos são atribuídos usando os meios atualizados como os novos centros de cluster
. As iterações continuam até que a atribuição seja estável, ou seja, os aglomerados formados na
rodada atual são os mesmos que os formados na rodada anterior volta. O resultado pode ser
visto na Figura 4:
Figura 4 - Resultado do agrupamento utilizando os dados do estudo de caso
Fonte: Elaborada pelo autor.
Ci
ci
O ( log n)ndk+1
08/06/2023, 11:53 Roteiro de Estudos
https://student.ulife.com.br/ContentPlayer/Index?lc=nVaXFLXrCrLh2UjfNgspTw%3d%3d&l=OIj07MrCSX5bQtlwRJK5MQ%3d%3d&cd=3M5P4… 15/19
ARTIGO
Complexidade de algoritmos
Autores : Laira Vieira Toscani e Paulo A. S. Veloso
Editora : Penso
Ano : 2012
Comentário : o livro analisa as limitações dos problemas em relação à complexidade dos
algoritmos que os resolvem e de�ne as principais classes de problemas: P, NP e NP-completa.
Esse título está disponível na Biblioteca Virtual da Ânima.
LIVRO
Introdução à mineração de dados : com Aplicações em
R
Autor: Leandro Augusto Silva
Editora: GEN LTC
Ano: 2016
Comentário: esse livro aborda de forma simples e muito
didática várias técnicas de clusterização, incluindo o kNN e k-
means. Além disso, fornece a implementação com a linguagem
R. O R, assim como o Python, é uma das linguagens mais
utilizadas no mundo de aprendizado de máquina. Recomenda-
se a leitura dos capítulos 2, 4 e 5.
Esse título está disponível na Biblioteca Virtual da Ânima .
08/06/2023, 11:53 Roteiro de Estudos
https://student.ulife.com.br/ContentPlayer/Index?lc=nVaXFLXrCrLh2UjfNgspTw%3d%3d&l=OIj07MrCSX5bQtlwRJK5MQ%3d%3d&cd=3M5P4… 16/19
Conclusão
Neste roteiro, vimos como a utilização do algoritmo kNN pode auxiliar na tarefa de
segmentação de carteira de um banco. Para isso, aprendemos sobre os tipos de aprendizado
de máquina não supervisionado, a transformação de dados para o formato adequado, a
utilização de técnicas para seleção de características, como escolher métricas de distância, e
sobre o uso do algoritmo k-means.
Adicionalmente, o conhecimento e a utilização de aprendizado de máquina não supervisionado
permitem à organização conhecer melhor seus serviços e os componentes que são utilizados
para a sua execução. Além dos benefícios gerados para a organização e seus clientes, podemos
citar o benefício para os desenvolvedores, que podem lançar mão de técnicas e tecnologias
modernas para a segmentação de carteiras de clientes.
Referências Bibliográ�cas
CARVALHO, A. C. P. L. Inteligência arti�cial : uma abordagem de aprendizado de máquina. São
Paulo: LTC, 2011. [Recurso eletrônico, Minha Biblioteca].
CASTRO, L. N. de.; FERRARI, D. G. Introdução à mineração de dados : conceitos básicos,
algoritmos e aplicações. São Paulo: Saraiva, 2016.
DOMINGOS, P. O algoritmo mestre : como a busca pelo algoritmo de machine learning
de�nitivo recriará nosso mundo. São Paulo: Novatec, 2017.
FÁVERO, L. P.; BELFIORE, P. Análise de dados : modelos de regressão com Excel®, Stata® e
SPSS®. São Paulo: GEN LTC, 2016.
HAIR JR., J. F. et al . Análise multivariada de dados . Porto Alegre: Bookman, 2009.
LENZ, M. L. Fundamentos de aprendizagem de máquina . [ S. l. ]: Grupo A, 2020.
LUGER, G. F. Inteligência arti�cial . 6. ed. São Paulo: Pearson, 2013.
MEDEIROS, L.F. Inteligência arti�cial aplicada : uma abordagem introdutória. Curitiba:
Intersaberes, 2018. [Recurso eletrônico, Minha Biblioteca].
MENEZES, A. M. de. Os paradigmas de aprendizagem de algoritmo computacional . São
Paulo: Blucher, 2008.
SILVA, L. A. Introdução à mineração de dados : com aplicações em R. São Paulo: GEN LTC,
2016.
08/06/2023, 11:53 Roteiro de Estudos
https://student.ulife.com.br/ContentPlayer/Index?lc=nVaXFLXrCrLh2UjfNgspTw%3d%3d&l=OIj07MrCSX5bQtlwRJK5MQ%3d%3d&cd=3M5P4…17/19
TOSCANI, L. T.; VELOSO, P. A. S. Complexidade de algoritmos . Porto Alegre: Penso, 2012.
WAZLAWICK, R. Introdução a algoritmos e programação com Python — uma abordagem
dirigida por testes. São Paulo: GEN LTC, 2017.
08/06/2023, 11:53 Roteiro de Estudos
https://student.ulife.com.br/ContentPlayer/Index?lc=nVaXFLXrCrLh2UjfNgspTw%3d%3d&l=OIj07MrCSX5bQtlwRJK5MQ%3d%3d&cd=3M5P4… 18/19
08/06/2023, 11:53 Roteiro de Estudos
https://student.ulife.com.br/ContentPlayer/Index?lc=nVaXFLXrCrLh2UjfNgspTw%3d%3d&l=OIj07MrCSX5bQtlwRJK5MQ%3d%3d&cd=3M5P4… 19/19