Buscar

GE_Machine Learning_Unidade II_DIGITAL PAGES

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 24 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 24 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 24 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

REDUÇÃO DE 
DIMENSIONALIDADE
2
UNIDADE
Machine learning - Unidade2 - Formato A5.indd 41 30/10/2019 16:13:58
Objetivos da unidade
Tópicos de estudo
 Apresentar ao aluno técnicas de Aprendizado de Máquina;
 Capacitar o aluno a identificar as técnicas podem ser utilizadas na resolução 
de problemas complexos;
 Implementar algoritmos básicos de aprendizagem.
 Redução de dimensionalidade
 Aplicabilidade
 Redes neurais (Perceptron, 
Multicamadas, Backpropagation)
 Rede Perceptron 
 Backpropagation
 Perceptron múltiplas camadas
 Rede de Kohonen
 MACHINE LEARNING 42
Machine learning - Unidade2 - Formato A5.indd 42 30/10/2019 16:13:58
Redução de dimensionalidade
Os adventos tecnológicos promovidos nos últimos anos possibilitaram um 
rápido aumento da quantidade de dados coletados e armazenados. Isso pode 
ser atribuído a diversos fatores, tais como: disponibilização de dispositivos de 
baixo custo com elevada capacidade de armazenamento, intensifi cação do uso 
e padronização de sistemas gerenciadores de banco de dados (SGBD), crescen-
te emprego de sistemas computacionais em variadas transações comerciais, 
científi cas e governamentais, dentre outros (HAN; KAMBER, 2001).
Dessa forma, com um constante e explosivo crescimento da quantidade de 
dados armazenados, tornou-se necessário e relevante, tanto para as pessoas 
quanto para as organizações, a utilização desses dados como uma alternativa 
de auxílio em tomadas de decisão. Para este fi m, verifi cou-se a necessidade de 
promover o desenvolvimento de ferramentas, técnicas e tecnologias que possi-
bilitem a transformação inteligente e automática dos dados processados, para 
que os mesmos produzam informações úteis e conhecimento. 
Para promover a Aprendizagem de Máquina de maneira efetiva, um dos 
principais desafi os encontra-se no desenvolvimento de algoritmos que pos-
suam a capacidade de identifi car mudanças na evolução de dados, sendo que 
essa problemática é difi cultada quando os dados são representados em espa-
ços de alta dimensão. Diante disso, nestes casos, apresenta-se como alterna-
tiva o emprego de algoritmos de mapeamento e seleção que produzam uma 
representação dos dados em dimensões menores (XAVIER, 2016).
A elaboração de uma análise de conjunto de dados dentro de um espaço de 
alta dimensão é uma tarefa de elevada relevância e complexidade. Dentro des-
te contexto, as metodologias de redução de dimensionalidade demonstram 
signifi cativa importância, visto que, de maneira geral, visualiza-se uma maior 
facilidade na extração de informações contidas na obtenção de dados quando 
há uma pequena quantidade de variáveis.
EXEMPLIFICANDO
Quando estamos falando em redução de dimensionalidade, isso implica em, 
por exemplo, reduzir uma matriz x e y para uma única dimensão z, como se pe-
gássemos todos os atributos dos dois eixos e agrupássemos em apenas um.
 MACHINE LEARNING 43
Machine learning - Unidade2 - Formato A5.indd 43 30/10/2019 16:13:58
Em suma, é possível afirmar que o 
objetivo principal da aplicação de fer-
ramentas para possibilitar a redução 
de dimensionalidade se fundamenta 
na busca de um conjunto menor de 
variáveis calculadas a partir dos da-
dos originais. Além disso, essa busca 
objetiva também a minimização de 
uma possível perda de informação 
em relação aos dados originais. A téc-
nica empregada na redução do núme-
ro de dimensões, uma vez aplicada ao 
conjunto de dados brutos, possibilita 
o refino do número de atributos, me-
lhorarias na performance do modelo 
induzido, como também a redução do 
custo computacional (BARIONI, 2002). 
As metodologias de redução de 
dimensionalidade também podem 
ser empregadas objetivando a visualização dos dados, especialmente em si-
tuações nas quais as projeções são realizadas para os espaços R2 ou R3. Nos 
casos citados, é possível visualizar os dados obtidos a partir de diagramas de 
dispersão que, de modo geral, são utilizados para visualizar combinações de 
duas ou três variáveis. No entanto, uma vez que se aumenta a quantidade 
de variáveis, mesmo que ainda seja possível a visualização de todas as com-
binações, ocorre uma perda conjunta das variáveis. Esta situação dificulta a 
interpretação dos dados como um todo (XAVIER, 2016). 
Portanto, é recorrente a utilização dos métodos de redução de dimensio-
nalidade com o intuito de adquirir a visualização dos dados, visto que nas 
projeções se objetiva a minimização da perda da estrutura original dos dados 
observados em detrimento das inspeções visuais dos conjuntos de dados de 
alta dimensão que permitem uma rápida identificação de elementos estrutu-
rais como agrupamentos, regiões homogêneas e observações atípicas (GIS-
BRECHT; SCHULZ; HAMMER, 2015).
 MACHINE LEARNING 44
Machine learning - Unidade2 - Formato A5.indd 44 30/10/2019 16:14:04
Além disso, de acordo com Hair (2009), a redução de dimensionalidade 
se apresenta como uma das principais formas de regressão existentes, uma 
vez que possibilita a eliminação dos subconjuntos de atributos e do conjunto 
original de atributos (frequentemente de alta dimensão), que possuem a ha-
bilidade de descrever os objetos do banco de dados. O método se demonstra 
relevante, visto que quanto maior o número de dimensões dos conjuntos de 
dados, maior será a complexidade das técnicas de manipulação e degradação 
no desempenho dos algoritmos que operam na mineração de dados.
 Dentro deste contexto, além disso, afere-se que os métodos de redução 
de dimensionalidade podem ser divididos em dois tipos de processos: pro-
cesso de extração de atributos e processo de seleção de atributos. 
De maneira geral, o processo de extração de atributos pode ser entendido 
como aqueles algoritmos que criam novas características a partir de trans-
formações ou combinações do conjunto de características originais. Quanto 
ao processo de seleção de atributos, os algoritmos, neste caso, selecionam, 
segundo determinado critério, o melhor subconjunto do conjunto de caracte-
rísticas originais (CAMPOS, 2000). 
Normalmente, o processo de extração de características antecede o pro-
cesso de seleção de características, de maneira que, durante o processo, ini-
cialmente se realiza a extração de características a partir dos dados oriundos 
da entrada. Em sequência, por meio de um algoritmo de seleção, são elimi-
nados os atributos mais irrelevantes, fator que diminui a dimensionalidade. 
Para que se defina qual seleção ou extração de características deve ser em-
pregada, é necessária a análise do domínio de aplicação e do conjunto espe-
cífico de dados de treinamento disponíveis.
De forma geral, o processo de seleção de características promove uma 
redução no custo de medição de dados, ao passo que as características que 
são selecionadas apresentam a mesma interpretação física de sua origem, si-
tuação que mantém todas as propriedades que as mesmas detinham quando 
foram criadas. No que se refere ao processo de extração de características, 
observa-se que o método pode fornecer uma habilidade de discriminação 
mais eficiente quando comparado ao subconjunto das características origi-
nais. No entanto, pode ocorrer de as novas características obtidas não apre-
sentarem um significado físico.
 MACHINE LEARNING 45
Machine learning - Unidade2 - Formato A5.indd 45 30/10/2019 16:14:04
Diante disso, ressalta-se que em casos nos quais a redução de dimensionali-
dade se mostra excessiva, existe a possibilidade de o classifi cador perder o po-
der de discriminação. Diante disso, evidencia-se a importância de se analisar a 
variação do comportamento apresentada pelo classifi cador com a dimensiona-
lidade, para que assim seja cabível promover a estimativa da dimensionalidade 
ideal para determinado classifi cador e conjunto de dados (CAMPOS, 2000).
Já quando falamos sobre os erros que podem ocorrer durante o processo 
de redução de dimensionalidade, de modo geral, dois principaistipos podem 
ocorrer: o primeiro tipo de erro acontece quando os dados obtidos se apresen-
tam distantes no espaço de alta dimensão, de modo que existe a possibilidade 
de os mesmos serem erroneamente projetados para pontos próximos no es-
paço de baixa dimensão. De maneira antagônica, o segundo tipo de erro pode 
ocorrer quando os dados que, em sua origem, estavam próximos no espaço de 
alta dimensão são representados por pontos distantes na projeção. Este fator 
pode causar uma descontinuidade no mapeamento existente entre os espaços 
de alta dimensão e baixa dimensão (VENNA; KASKI, 2006). 
A literatura científi ca apresenta diversas técnicas para promover a redução 
de dimensionalidade. Diante disso, segundo Barioni (2002), são exemplos de 
técnicas de extração de atributos a Análise de Componentes Principais (Prin-
cipal Component Analysis – PCA), a Escala Multidimensional (Multidimensional 
Scaling - MDS) e o FastMap. Ademais, entre as técnicas de seleção de atributos, 
estão as embutidas em algoritmos de aprendizado de máquina (HUEI, 2000; 
BARANAUKAS, 2001), as baseadas no cálculo de dimensão fractal (SOUSA, 
2007) e wrapper (FIGUEIREDO, 2003).
Aplicabilidade
O método de redução de dimensionalidade apresenta diversas aplicabili-
dades em variadas áreas do conhecimento humano. De acordo com Sammon 
(1969), dentre as áreas do conhecimento humano, pode-se destacar como 
principais a estatística multivariada, a teoria da informação e o reconhe-
cimento de padrões. A presença da técnica em questão em diversas áreas 
pode ser justifi cada pela capacidade dos métodos de promover uma simpli-
fi cação da interpretação dos dados, possibilitando, entre outras vantagens, 
 MACHINE LEARNING 46
Machine learning - Unidade2 - Formato A5.indd 46 30/10/2019 16:14:04
o uso de ferramentas de mineração de dados de um modo mais efi ciente. A 
redução de dimensionalidade é atualmente utilizada em:
• Sistemas de recomendação;
• Modelagem de tópicos e pesquisa de documentos similares;
• Análise de imagens;
• Gerenciamento de riscos.
EXEMPLIFICANDO
Sistemas de recomendação que utilizam classificações de usuários 
têm um ótimo desempenho quando utilizam algoritmos de redução de 
dimensionalidade. É possível ter um ótimo sistema de recomendação 
de filmes, jogos, músicas, compras e o que mais você quiser.
Algoritmos utilizados nesta regra de redução de dimensionalidade:
• Principal Component Analysis (PCA);
• Singular Value Decomposition (SVD);
• Latent Dirichlet Allocation (LDA);
• Latent Semantic Analysis (LSA, pLSA, GLSA);
• t-SNE (para visualização).
Redes neurais (Perceptron, Multicamadas, Backpropagation)
RNAs são modelos matemáticos com estruturas semelhantes a neurô-
nios biológicos que possuem capacidade computacional de generalização e 
aprendizado. A estrutura de processamento é uma rede de unidades que imi-
ta o funcionamento da rede de neurônios. Esse sistema é 
composto de diversas unidades simples que trabalham 
paralelamente e distributivamente. 
Seu processo de aprendizagem é por reforço. 
Sendo assim, a cada nova interação seu aprendizado 
é reforçado e, com isso, há uma melhora 
signifi cativa em seu desempenho gra-
dualmente (REZENDE, 2003).
 MACHINE LEARNING 47
Machine learning - Unidade2 - Formato A5.indd 47 30/10/2019 16:14:04
Estado de ambiente
(dado de entrada)
Sinal de reforço
Sinal de rede
Ambiente Rede neural
2
1
m
3
x1 y1
x2
Camada
de entrada
Camada
de saída
y2
x3 y3
xn ym
Figura 1. Processo de aprendizagem de uma RNA por reforço. Fonte: REZENDE, 2003. (Adaptado).
Figura 2. Rede neural simples. Fonte: BRAGA; CARVALHO; LUDERMIR, 2011. (Adaptado).
As RNAs possuem diversas aplicações, mas são muito usadas para resol-
ver problemas de classificação, categorização, predição, problemas de apro-
ximação e otimização.
A Figura 2 exemplifica um RNA de estrutura simples, sendo composto por 
uma única camada de neurônio e uma camada de entrada de informação. O 
fluxo de informação segue apenas uma direção, da camada de entrada senti-
do à camada de saída, lembrando que a quantidade de saídas é limitada pela 
quantidade de neurônios ou unidades simples que compõem a rede. 
 MACHINE LEARNING 48
Machine learning - Unidade2 - Formato A5.indd 48 30/10/2019 16:14:04
Os principais tipos de arquiteturas simples são o Perceptron e Adaline 
(Backpropagation), seus processos de treinamentos são respectivamente 
regra de Hebb e regra Delta.
ASSISTA
Para entender melhor os conceitos introdutórios de redes 
neurais Perceptron e Adaline, assista ao vídeo Redes 
Neurais Artifi ciais (Introdução).
Não deixe de conferir! 
Rede Perceptron
Idealizada por Rosenblatt em 1958, é a confi guração mais simples de uma 
RNA. Seu foco era a representação computacional de uma retina, na qual capta 
elementos de percepção eletrônica de sinais, sendo o reconhecimento de pa-
drões geométricos uma de suas aplicações.
A rede Perceptron é composta de apenas uma camada neural com um 
neurônio artifi cial. O principal propósito do neurônio é mapear o comporta-
mento das entradas e saídas.
A regra Hebb de aprendizagem defi ne quais são os padrões de classifi cação, 
que podem pertencer a apenas duas classes. O principal objetivo de uma rede 
Perceptron é classifi car suas entradas em apenas duas saídas possíveis. 
Backpropagation
Idealizada por Widrow e Hoff em 1960, a principal aplicação foi o cha-
veamento de circuito telefônico, uma das principais aplicações de RNAs. É 
um tipo de rede bem simples, porém seu algoritmo de aprendizagem utiliza 
a regra Delta – utilizada para treinar redes de múltiplas camadas. 
Emprega o algoritmo de aprendizagem de erros, o mesmo 
que a regra Delta generalizada.
Sendo assim, o método Backpropagation utilizado 
por essa arquitetura é denominado de regra do Delta, 
que nada mais é do que a diferença do erro quadrático 
 MACHINE LEARNING 49
Machine learning - Unidade2 - Formato A5.indd 49 30/10/2019 16:14:04
entre os valores de entrada e saída em relação a uma amostra x de treina-
mentos. Ao utilizar a amostragem de erros obtidos a cada z treinamentos, os 
neurônios são recalibrados com novos pesos para que, assim, o aprendizado 
possa ser otimizado.
ASSISTA
Para entender melhor como se comporta o algoritmo 
de aprendizagem Backpropagation, confira o vídeo 
Backpropagation - o que é? Como aplicar no R em 
Redes Neurais.
Perceptron múltiplas camadas 
As redes Perceptron de múltiplas camadas (PMC) ou Multilayer Percep-
tron (MLP) são caracterizadas por terem ao menos uma camada interme-
diária, ou escondida, de neurônios, que fica entre a camada de entrada e 
saída. 
Sendo assim, esse tipo de rede tem cerca de, no mínimo, duas camadas 
de neurônios. A topologia de uma rede PMC é dependente do tipo de pro-
blema que será tratado e o algoritmo a ser utilizado no aprendizado pode 
ser o retroprogramação de erros ou backpropagation/regra Delta genera-
lizada (o mesmo que o Adaline utiliza).
As principais aplicações das redes PMC são: reconhecimento de pa-
drões, aproximação universal de funções, previsão de séries temporais, 
otimização de sistemas e identificação e controle de processos.
Arquitetura
Para que uma rede seja descrita como multicamada, ela precisa ter as 
seguintes características:
• N camadas intermediárias, sendo n camadas intermediárias e cama-
da de saída; 
• M neurônios; o número de neurônios em cada camada é de extre-
ma importância para o processo de tomada de decisão. A quantidade de 
neurônios em cada camada define a complexidade da rede; esta é direta-
mente proporcional à capacidade da rede em resolver problemas.
 MACHINE LEARNING 50
Machine learning - Unidade2 - Formato A5.indd 50 30/10/2019 16:14:05
A Figura 3 exemplifica brevemente uma rede PMC composta por uma 
camada de entrada de dados, duas camadas ocultas e uma de saída. Pode-
mos visualizar que as camadas internas não precisam ter necessariamente 
o mesmo tamanho. 
X1
y2ym
y1
X2
X3
xn
Camada de
entrada
1a camada de
neurônio 
escondida
2a camada de
neurônio 
escondida
Camada de
saída
n1
2
1 1
2
3
n2
m
2
1
Figura 3. Rede neural complexa/multicamada. Fonte: BRAGA; CARVALHO; LUDERMIR, 2011. (Adaptado).
ASSISTA
Para entender melhor o conceito de redes neurais 
multicamadas, assista ao vídeo Introdução a Redes 
Neurais Multicamadas. 
Vamos entender melhor como essa técnica funciona na prática! Para 
isso, vamos utilizar a ferramenta Weka e a base de dados weather, dispo-
nível na web para realização de testes. 
Passo 1: com o Weka instalado, abra o software. A tela inicial é apresen-
tada, conforme Figura 4. Na tela inicial, clique sobre explorer e será exibida 
a tela para que possamos carregar o arquivo. 
 MACHINE LEARNING 51
Machine learning - Unidade2 - Formato A5.indd 51 30/10/2019 16:14:06
Passo 2: na aba Preprocess, clique sobre o botão Open file, procure a pas-
ta onde o arquivo foi salvo conforme a Figura 5 e clique sobre o botão abrir.
Atenção: o arquivo está em extensão arff, portanto, no campo arquivos do 
tipo deve ser selecionada esta extensão, conforme exibido na figura. 
Figura 4. Captura de tela com o painel inicial do Weka. 
 MACHINE LEARNING 52
Machine learning - Unidade2 - Formato A5.indd 52 30/10/2019 16:14:11
Figura 5. Captura de tela mostrando a seleção de arquivo.
Figura 6. Captura de tela mostrando a relação e atributos da base.
Na tela que se abrirá (Figura 6), é possível visualizar as características do 
conjunto. Em current relation, temos: nome do conjunto (relation), atribu-
tos (attributes), quantidade de instâncias (instances) e soma de pesos (sum of 
weights), que são as características principais neste momento, ou seja, enten-
der quais são os atributos e as instâncias do conjunto. 
 MACHINE LEARNING 53
Machine learning - Unidade2 - Formato A5.indd 53 30/10/2019 16:14:14
Passo 3: na tela principal, clique sobre a aba classify, depois sobre o botão 
choose, onde será possível selecionar o algoritmo que iremos utilizar para a 
regra de classifi cação. Na lista que será exibida, clique sobre classifi ers e, em 
seguida, selecione o algoritmo Multilayer Perceptron, conforme a Figura 7. 
1. Clicar em “Classify”
2. Clicar em “Choose”
 a) Ir em “classifi ers” → ”functions”
 b) Escolher “MultilayerPerceptron”
2. Colocar ‘True”
3. Selecionar
1. Clicar aqui
Figura 7. Captura de tela mostrando a seleção do algoritmo Multilayer Perceptron.
Figura 8. Captura de tela da confi guração para iniciar o treinamento.
Após o algoritmo ser selecionado, clique na opção percentage split em test 
options. Depois, clique com o botão direito e selecione True no campo GUI con-
forme Figura 8, e em seguida clique em start para iniciar o treino do conjunto. 
 MACHINE LEARNING 54
Machine learning - Unidade2 - Formato A5.indd 54 30/10/2019 16:14:18
A Figura 9 exibe o resultado para o treino realizado no conjunto em que temos 
a rede criada com suas conexões. Agora, vamos ver o resultado desta rede através 
da classificação da rede. Para isso, siga os passos 2 e 3 ilustrados na Figura 9. 
1. Iniciar
2. Iniciar e esperar
3. Aceitar
Figura 9. Captura de tela da rede neural treinada.
Figura 10. Captura de tela que mostra a saída do classificador.
Na tela exibida, é possível visualizar a saída do classificador, conforme Figura 
10. É possível verificar as instâncias classificadas corretamente, instâncias classifi-
cadas incorretamente, o detalhe de acurácia por classe gerada e a matriz de confu-
são – que explica quais instâncias foram classificadas como verdadeiras, quais fo-
ram classificadas como falsas e quais foram classificadas como falso-verdadeiras.
 MACHINE LEARNING 55
Machine learning - Unidade2 - Formato A5.indd 55 30/10/2019 16:14:19
Passo 4: vamos agora gerar o arquivo de teste do conjunto treinado. Para isso, 
siga os passos, conforme a Figura 11.
1. Clique sobre supplied test set;
2. Clique em set;
3. Na tela que se abrirá, clique em open fi le;
4. Escolher o arquivo de teste: weather-test.arff ;
5. Em seguida, clique em abrir. 
4. Selecionar arquivo de teste
1. Selecionar
2. Clicar em “Set”
3. Clicar em “Open fi le”
Figura 11. Captura de tela da seleção do arquivo de teste.
Figura 12. Captura de tela que mostra a rede Multilayer Perceptron gerada após o teste.
Passo 5: vamos agora visualizar o conjunto de teste gerado após o treino 
realizado, conforme Figura 12. 
5. Clicar em “Abrir”
 MACHINE LEARNING 56
Machine learning - Unidade2 - Formato A5.indd 56 30/10/2019 16:14:24
Passo 6: na Figura 13, clique sobre o botão accept para exibir a saída do 
classificador de teste. 
Clicar com o direito aqui
- Clicar em “Visualize 
classifier errors”
Figura 13. Captura de tela da saída do classificador de teste.
Figura 14. Captura de tela da plotagem do teste.
Passo 7: na tela que aparece na Figura 13, clique sobre o resultado do clas-
sificador para visualizar o classificador de erros. Após isso, na tela que se abre, 
conforme Figura 14, siga os passos para salvar o resultado plotado.
 MACHINE LEARNING 57
Machine learning - Unidade2 - Formato A5.indd 57 30/10/2019 16:14:25
Rede de Kohonen
A rede de Kohonen, também 
conhecida como mapa auto-orga-
nizável de características (Self-or-
ganizing feature map – SOFM), foi 
desenvolvida nos primeiros anos 
da década de 1980 e fundamenta-
da pela teoria das redes competiti-
vas, idealizada pelo professor Teu-
vo Kohonen. A teoria desenvolvida 
por Kohonen, na versão clássica, 
apresenta em sua constituição 
duas camadas de neurônios artificiais. A primeira camada detém a função 
de receber os padrões de entrada, já a segunda apresenta a função de ge-
rar os padrões de saída (GABRIEL, 2002). 
A rede de Kohonen apresenta na camada de entrada neurônios que 
são completamente interconectados aos neurônios da segunda camada, 
sendo esta denominada competitiva. A camada competitiva apresenta 
um arranjo organizacional que é dependente do objeto determinado para 
mapeamento e, em caso de a mesma apresentar uma rede de duas dimen-
sões, não há imposição de nenhuma forma topológica, podendo o arranjo 
ser hexagonal, retangular, triangular, dentre outros.
Dessa forma, o modelo clássico desenvolvido por Kohonen, em suma, 
pode ser definido como uma rede neural linear não supervisionada, que 
detém uma camada única totalmente conectada, cuja saída é organizada 
em uma ou duas dimensões. Os neurônios contidos na camada de saída 
se apresentam dispostos em um mapa retangular bidimensional, sendo 
cada um deles conectado aos demais neurônios contidos na camada de 
entrada.
A Figura 15 ilustra uma representação do mapa de Kohonen, na qual é 
possível verificar a maneira como as entradas se conectam com as saídas. 
O comportamento apresentado pela rede tem como intuito promover a 
simulação de uma atividade cerebral. 
 MACHINE LEARNING 58
Machine learning - Unidade2 - Formato A5.indd 58 30/10/2019 16:14:40
WIi
Entradas
Saídas
Entradas
Figura 15. Mapa de Kohonen com neurônios de saídas usadas de forma bidimensional. Fonte: GABRIEL, 2002.
As redes de Kohonen apresentam um treinamento não supervisionado 
e competitivo, visto que os algoritmos de adaptação se baseiam em uma 
espécie de competição global entre os neurônios. Dessa forma, os neurô-
nios de saída iniciam uma competição entre si para disputarem qual será 
mais ativado pelos padrões de entrada. Além disso, essa rede apresenta 
um funcionamento que consiste basicamente em apresentar um padrão 
de entrada x, para que, em sequência, a rede procure uma unidade mais 
parecida com x.
Durante esse processo, a rede aumenta a semelhança do neurônio 
escolhido e de seus vizinhos a um padrão determinado. Dessa forma, a 
rede em questão estabelece um mapa topológico no qual os neurônios 
que estão topologicamente próximos respondem de forma semelhante a 
padrões de entrada semelhantes. Este procedimento é efetuadopropor-
cionalmente ao grau de similaridade, de modo que os envolvidos fiquem 
ainda mais próximos. Dentro de um treinamento, o neurônio vencedor é 
aquele que apresenta o maior nível de ativação; além disso, o desempenho 
deste treinamento pode ser medido empregando o cálculo de erro médio 
de quantização (FRANCISCO, 2004).
Portanto, para que o treinamento possibilite a atualização ou aprendi-
zado, é necessário que se utilize não somente o neurônio vencedor, mas 
todos os neurônios que se apresentam ao redor da vizinhança do mesmo. 
 MACHINE LEARNING 59
Machine learning - Unidade2 - Formato A5.indd 59 30/10/2019 16:14:40
Como resultado, obtém-se um mapa discreto, no qual os dados de entrada 
formam agrupamentos. 
De acordo com Kohonen (1989), o esquema clássico da rede de Kohonen 
faz com que os neurônios da camada de saída disputem entre si e os pesos 
sejam gerados baseados na distância apresentada não somente pelo ganha-
dor, como também pelos neurônios ao seu redor, fator que implica na função 
do Chapéu Mexicano ou Difference of Gaussians (DOG), ilustrado na Figura 16. 
Chapéu mexicano
-
+
R2R3
0.05
0.04
0.03
0.02
0.01
-0.01
-0.02
-0.03
0 10 20 30 40 50 60 70 80 90
0
Figura 16. Tipos de estímulos produzidos de pela função Chapéu Mexicano. Fonte: GABRIEL, 2002. (Adaptada).
Dessa forma, o modelo de Kohonen se apresenta como uma interessante 
ferramenta, visto que promove um aprendizado competitivo juntamente com 
uma auto-organização da rede neural, criando os mapas de atributos auto-
-organizáveis. Assim, a rede de Kohonen pode ser empregada para classifica-
ção e análise de dados dentro de diversas áreas, tais como economia, química 
ou aplicações médicas (GIRAUDEL; LEK, 2001).
Dentro da área da neurociência, o modelo de Kohonen também apresenta 
relevante aplicabilidade. As células da camada de um neurônio possuem a 
capacidade de coordenar a sensibilidade dos sinais sensoriais; por este moti-
vo, as características do sinal variam em uma forma regular de acordo com a 
posição na camada. Dessa forma, por meio de informações neurofisiológicas 
e uma formulação matemática do modelo, é possível promover simulações a 
partir do modelo de Kohonen para simular a projeção do espaço das frequên-
cias do ultrassom no córtex auditora. O córtex auditora é a área do cérebro 
responsável pela análise do som (SCHULTEN; RITTER; MARTINETZ, 1992).
 MACHINE LEARNING 60
Machine learning - Unidade2 - Formato A5.indd 60 30/10/2019 16:14:40
Sintetizando
Nesta unidade, abordamos primeiramente a redução de dimensionalida-
de, utilizada para reduzir o custo de medição e melhorar a precisão do clas-
sificador. Também vimos que para efetuar a redução de dimensionalidade, 
podemos utilizar a extração de características e a seleção de características. 
Falando de maneira resumida, os estudos propostos nesta etapa do curso 
possibilitaram compreender que os algoritmos de extração de características 
criam novas características, partindo de transformações ou combinações do 
conjunto de características originais. Já os algoritmos de seleção de caracte-
rísticas selecionam, de acordo com critérios determinados por cada situação, 
o melhor subconjunto encontrado no conjunto de características originais. 
Na sequência, nos aprofundamos no estudo sobre as RNAs, onde pude-
mos compreender que a escolha entre os modelos de redes neurais artificiais 
deve levar em consideração a variação nas taxas, pois para algumas tarefas 
é preferível que o classificador possua uma maior taxa de falsos positivos do 
que falsos negativos, priorizando um comportamento conservador sobre um 
comportamento liberal. Além disso, esta unidade expôs as principais diferen-
ças entre as redes Perceptron, Perceptron Multicamadas e Backpropagation: 
a primeira apresenta apenas uma camada neural como um neurônio artifi-
cial; a segunda apresenta pelo menos duas camadas neurais, e a terceira traz 
a análise dos erros. 
Sendo assim, podemos dizer que, após a conclusão desta unidade, fica 
claro que a ideia deste algoritmo é recalcular, baseando-se no cálculo do erro, 
o valor dos pesos do vetor w da última camada de neurônios, procedendo às 
camadas anteriores, de trás para frente. Ou seja, é calculado o erro entre o 
que a rede considerou ser um erro e o que realmente era um erro.
 MACHINE LEARNING 61
Machine learning - Unidade2 - Formato A5.indd 61 30/10/2019 16:14:40
Referências bibliográficas
BACKPROPAGATION - o que é? Postado por EstaTiDados. (11min. 09s.) son. 
color. port. Disponível em: <https://www.youtube.com/watch?v=r7YIj_n95Po>. 
Acesso em: 01 ago. 2019.
BARANAUKAS, J. A. Extração automática de conhecimento por múltiplos 
indutores. 2001. Tese apresentada como parte dos requisitos. (Doutorado) – 
Instituto de Ciências Matemáticas e de Computação, Universidade de São Pau-
lo, São Carlos, 2001. Disponível em: <http://dcm.ffclrp.usp.br/~augusto/publi-
cations/2001-tese.pdf>. Acesso em: 01 ago. 2019.
BARIONI, M. C. N. Visualização de operações de junção em sistemas de ba-
ses de dados para mineração de dados. 2002. Dissertação (Mestrado) – Ins-
tituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, 
São Carlos, 2002. 
BRAGA, A. P.; CARVALHO, A. P. L. F.; LUDERMIR, T. B. Redes neurais artificiais – 
teoria e aplicações. 2. ed. Rio de Janeiro: LTC, 2011.
CAMPOS, T. E. Redução de dimensionalidade. Disponível em: <http://www.vision.
ime.usp.br/~teo/publications/qualificacao/node9.html>. Acesso em: 01 ago. 2019.
FFALOUTSOS, Christos; LIN, King-Ip. FastMap. Proceedings Of The 1995 ACM 
Sigmod International Conference On Management Of Data - Sigmod ‘95, 
[s.l.], p. 1-25, 1995. ACM Press. http://dx.doi.org/10.1145/223784.223812.
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowled-
ge discovery in databases. Disponível em: < https://www.aaai.org/ojs/index.
php/aimagazine/article/view/1230/1131>. Acesso em: 21 ago. 2019.
FIGUEIREDO, Mário A. T.; JAIN, Anil K.; LAW, Martin H. A Feature Selection Wrapper 
for Mixtures. Pattern Recognition and Image Analysis, [s.l.], p. 229-237, 2003. 
Springer Berlin Heidelberg. http://dx.doi.org/10.1007/978-3-540-44871-6_27.
FRANCISCO, C. A. C. Rede de Kohonen: uma ferramenta no estudo das rela-
ções tróficas entre espécies de peixes. 2004. 126 f. Dissertação apresentada 
como requisito parcial (Mestrado) – Programação Matemática, Universidade 
Federal do Paraná. Curitiba, 2004.
GABRIEL, M. C. A. F. Análise da utilização de redes de Kohonen no auxílio ao 
diagnóstico de doenças reumatológicas. Disponível em: <https://core.ac.uk/
download/pdf/30364525.pdf>. Acesso em: 01 ago. 2019.
 MACHINE LEARNING 62
Machine learning - Unidade2 - Formato A5.indd 62 30/10/2019 16:14:40
GIRAUDEL, J. L.; LEK, S. A comparison of self-organizing map algorithm and 
some conventional statistical methods for ecological community ordination. 
Ecological Modelling, [s.l.], v. 146, n. 1-3, p. 329-339, dez. 2001. Elsevier BV. 
http://dx.doi.org/10.1016/s0304-3800(01)00324-6.
GISBRECHT, Andrej; SCHULZ, Alexander; HAMMER, Barbara. Parametric nonlinear 
dimensionality reduction using kernel t-SNE. Neurocomputing, [s.l.], v. 147, p. 71-
82, jan. 2015. Elsevier BV. http://dx.doi.org/10.1016/j.neucom.2013.11.045.
HAIR, J. F. J. et al. Multivariate data analysis. 7. ed. New Jersey: Prentice Hall, 2009.
HAN, J.; KAMBER, M. Data mining: concepts and techniques. San Diego: Aca-
demic Press, 2001.
INTRODUÇÃO a redes neurais multicamada. Postado por Jones Granatyr. 
(9min. 24s.) son. color. port. Disponível em: <https://www.youtube.com/wat-
ch?v=XUN6kFiNZdU&feature=youtu.be>. Acesso em: 01 ago. 2019.
KOHONEN, T. Self-organization and associative memory. 3. ed. Helsinki: Hel-
sinki University of Technology, 1989. 
KRUSKAL, J. B.; WISH, M. Multidimensional scaling. Bervely Hills and London: 
SAGE Publications, 1978.
LEE, H. D. Seleção e construção de features relevantes para o aprendizado 
de máquina.2000. Dissertação (Mestrado) – Instituto de Ciências Matemáticas 
e de Computação, Universidade de São Paulo, São Carlos, 2000.
REDES neurais artificiais (introdução). Postado por Augusto Branquinho. 
(20min. 25s.) son. color. port. Disponível em: <https://www.youtube.com/wat-
ch?v=vbf4IzvXvuM&feature=youtu.be>. Acesso em: 01 ago. 2019.
REZENDE, S. O. Sistemas Inteligentes: fundamento e aplicações. Barueri: Ma-
nole, 2003. 
ROSENBLATT, F. The Perceptron: a probabilistic model for information storage 
and organization in the brain. 1958.
SAMMON, J. W. A Nonlinear Mapping for Data Structure Analysis. IEEE Transac-
tions On Computers, [s.l.], v. 18, n. 5, p. 401-409, maio 1969. Institute of Electri-
cal and Electronics Engineers (IEEE). http://dx.doi.org/10.1109/t-c.1969.222678. 
SCHULTEN, K.; RITTER, H.; MARTINETZ, T. Neural computation and self-orga-
nizing maps. Boston: Addison-Wesley, 1992.
SILVA, I. N.; SPATTI, D. H.; FLAUZINO, R. A. Redes neurais artificiais para enge-
nharia e ciência aplicada. São Paulo: Artliber, 2010.
 MACHINE LEARNING 63
Machine learning - Unidade2 - Formato A5.indd 63 30/10/2019 16:14:40
SOUSA, Elaine P. M. de et al. A fast and effective method to find correlations 
among attributes in databases. Data Mining and Knowledge Discovery, [s.l.], 
v. 14, n. 3, p. 367-407, 10 fev. 2007. Springer Science and Business Media LLC. 
http://dx.doi.org/10.1007/s10618-006-0056-4.
VENNA, Jarkko; KASKI, Samuel. Local multidimensional scaling. Neural Net-
works, [s.l.], v. 19, n. 6-7, p. 889-899, jul. 2006. Elsevier BV. http://dx.doi.or-
g/10.1016/j.neunet.2006.05.014.
WIDROW, B.; HOFF, M. E. Adaptive Switching Circuits. Palo Alto: Universidade 
Stanford, 1960.
XAVIER, V. L. Uma abordagem eficiente para métodos não lineares de re-
dução de dimensionalidade e uma nova metodologia supervisionada para 
redução de dimensionalidade baseada em protótipos. 2016. Tese (Douto-
rado) – Engenharia de Sistemas e Computação, COPPE, Universidade Federal 
do Rio de Janeiro, RJ, 2016. Disponível em: <https://www.cos.ufrj.br/uploadfile/
publicacao/2638.pdf>. Acesso em: 01 ago. 2019.
 MACHINE LEARNING 64
Machine learning - Unidade2 - Formato A5.indd 64 30/10/2019 16:14:41

Outros materiais