Extensões do algoritmo BRkNN para aprendizado multirrótulo

•
UFU

Malena Rufino
16/08/2020
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Inteligência Artificial Aplicada

1.444 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
Extensões do algoritmo de aprendizado de máquina
multirrótulo BRkNN
Denis Moreira dos Reis1, Everton Alvares Cherman1, Newton Spolaôr1,
Maria Carolina Monard1
1Laboratório de Inteligência Computacional
Instituto de Ciências Matemáticas e de Computação
Universidade de São Paulo
{denismr,evertoncherman}@gmail.com,mcmonard@icmc.usp.br
Abstract. Unlike single-label learning, in multi-label learning each example in
the training set is associated with a set of labels which are usually correlated.
Given an unclassified example, the task of a multi-label classifier is to output
the example label set whose size is unknown a priori. To this end, the single-
label k Nearest Neighbor algorithm has been used as a base to develop several
lazy multi-label learning algorithms, such as the BRkNN algorithm. This work
proposes some extensions to BRkNN, among them the use of the Heterogeneous
Value Difference Metric, which considers information from the labels. Illustra-
tive experiments on benchmark datasets show the usefulness of the proposed
extensions.
Resumo. Diferentemente do aprendizado monorrótulo, cada exemplo de trei-
namento no aprendizado multirrótulo está associado a um conjunto de rótulos
usualmente correlacionados. Dado um exemplo não rotulado, a tarefa de um
classificador multirrótulo é predizer o conjunto de rótulos para esse exemplo.
O algoritmo monorrótulo k Nearest Neighbor tem sido utilizado como uma base
para desenvolver vários algoritmos de aprendizado multirrótulo lazy, como
o algoritmo BRkNN. Neste trabalho são propostas algumas extensões para o
BRkNN, como o uso da medida Heterogeneous Value Difference Metric, a qual
considera informação dos rótulos. Experimentos ilustrativos em conjuntos de
dados benchmark mostram a eficácia preditiva dessas extensões.
1. Introdução
O aprendizado supervisionado monorrótulo é uma tarefa tradicional em aprendizado de
máquina na qual os exemplos do conjunto de treinamento estão associados a um único
rótulo yi do conjunto de possı́veis rótulos L, i.e., yi ∈ L com |L| > 1. No caso em que
|L| = 2 a tarefa é chamada de aprendizado binário, enquanto é denominada aprendizado
multiclasse para |L| > 2.
Contudo, existem diversas aplicações, como anotação de mı́dias [Liu et al. 2010],
bioinformática [Park et al. 2011] e categorização de texto [Esuli and Sebastiani 2009],
em que os exemplos do conjunto de treinamento estão associados não apenas a um único
rótulo, mas um conjunto de rótulos Y , com Y ⊆ L. Nesse caso, a tarefa de aprendizado
é denominada multirrótulo [Tsoumakas et al. 2009].
Diversos algoritmos têm sido desenvolvidos para tratar o problema mul-
tirrótulo [Carvalho and Freitas 2009]. Esses algoritmos podem ser organizados em dois
grupos distintos, como proposto em [Tsoumakas et al. 2009]: 1) Adaptação de algorit-
mos; e 2) Transformação de problema. No primeiro grupo, o problema multirrótulo é
tratado diretamente por um algoritmo de aprendizado multirrótulo. No caso do segundo
grupo, os algoritmos de aprendizado multirrótulo transformam o problema multirrótulo
em um ou mais problemas monorrótulo e, assim, algoritmos de aprendizado monorrótulo
podem ser utilizados para a resolução do problema. Um método tradicional deste segundo
grupo é Binary Relevance (BR), o qual transforma o problema multirrótulo em diversos
problemas binários, um para cada rótulo do problema multirrótulo.
O algoritmo k Nearest Neighbor (kNN) tem sido explorado para resolução do
problema multirrótulo, principalmente pela sua simplicidade e também pela sua eficácia
em diversos casos [Younes et al. 2011, Spyromitros et al. 2008, Zhang and Zhou 2005].
Basicamente, o kNN busca k exemplos de treinamento (vizinhos) similares ao exemplo
a ser rotulado E, conforme uma medida de similaridade. Após encontrar os vizinhos,
analisa-se seus rótulos para predizer a classificação de E. Uma maneira intuitiva para
aplicar o algoritmo tradicional kNN em dados multirrótulo é por meio do método BR.
No entanto, no trabalho de [Spyromitros et al. 2008], foi proposto o algoritmo BRkNN,
o qual obtém os mesmos resultados do uso do kNN conjuntamente com BR, porém é |L|
vezes mais rápido. Além disso, foram propostas duas extensões para melhoria na eficácia
preditiva do BRkNN.
Neste trabalho, são propostas extensões no algoritmo BRkNN em três aspectos
distintos, dos quais dois são relacionados ao peso dado aos k vizinhos no momento de
definição do conjunto de rótulos a ser predito, enquanto o outro aspecto refere-se à medida
de similaridade utilizada, no qual, a medida Heterogeneous Value Difference Metric é
adaptada para uso no problema multirrótulo. Experimentos ilustrativos realizados em
quatro conjuntos de dados benchmark sugerem que as extensões melhoram o desempenho
do BRkNN.
O restante desse trabalho está organizado da seguinte maneira: na Seção 2 são
apresentados conceitos básicos de aprendizado multirrótulo e as medidas de avaliação de
classificadores multirrótulo comumente utilizadas. Na Seção 3, o algoritmo kNN tradici-
onal é descrito com maior detalhamento, bem como a estratégia baseada nesse algoritmo
para tratar com o problema multirrótulo e os trabalhos relacionados. Na Seção 4 são apre-
sentados o protocolo experimental, os resultados e a discussão. Por fim, na Seção 5 são
descritos a conclusão e trabalhos futuros.
2. Aprendizado multirrótulo
No aprendizado multirrótulo, a entrada do algoritmo consiste de um conjunto D de N
exemplos Ei = (xi,Yi), i.e., D = {(x1,Y1), (x2,Y2), . . . , (xN ,YN)}. Os xi são tipicamente
vetores da forma (xi1,xi2, . . . ,xiM) com valores categóricos ou numéricos, tal que xij
refere-se ao valor do atributo j, denominado Xj , do exemplo Ei. Cada exemplo Ei está
associado a um conjunto de rótulos Yi, onde Yi ⊆ L e L = {y1, y2, y3, . . . , yq} — Ta-
bela 1.
Neste cenário, o objetivo de algoritmos de aprendizado multirrótulo é gerar um
classificador H tal que, dado um exemplo não rotulado E = (x, ?), prediz o conjunto
Tabela 1. Conjunto de dados multirrótulo.
X1 X2 . . . XM Y
E1 x11 x12 . . . x1M Y1
E2 x21 x22 . . . x2M Y2
...
...
... . . .
...
...
EN xN1 xN2 . . . xNM YN
de rótulos Y ao qual deve ser associado, i.e., H(E) → Y . A principal diferença en-
tre aprendizado multirrótulo e aprendizado monorrótulo é que os rótulos no conjunto de
rótulos no aprendizado multirrótulo estão frequentemente correlacionados, enquanto que
os possı́veis valores da classe (rótulos) no aprendizado monorrótulo são mutuamente ex-
clusivos.
Métodos de aprendizado multirrótulo são organizados em categorias, entre elas
adaptação de algoritmo e transformação do problema [Tsoumakas et al. 2009]. A pri-
meira categoria abrange métodos que estendem algoritmos de aprendizado especı́ficos
de modo a tratar dados multirrótulo diretamente. O algoritmo BRkNN utilizado neste
trabalho situa-se nessa categoria. A segunda categoria, exemplificada pelas abordagens
Binary Relevance (BR) e Label Powerset (LP), é independente de algoritmo, possibili-
tando o uso de qualquer algoritmo do estado da arte de aprendizado monorrótulo para
realizar aprendizado multirrótulo. A abordagem BR transforma o problema multirrótulo
em |L| problemas de classificação binária. Posteriormente, a predição do multirrótulo de
um exemplo a ser classificado E é obtida por meio da união dos rótulos preditos pelos
classificadores binários que classificam esse exemplo como positivo. Por outro lado, a
abordagem LP transforma um problema multirrótulo em um problema multiclasse, con-
siderando cada conjunto de rótulos idênticos em D como um valor da classe no conjunto
multiclasse, i.e., um conjunto de exemplos monorrótulo no qual a classe assume mais de
dois valores.
As medidas para avaliar classificadores monorrótulo consideram apenas os dois
possı́veis estados da classificação de um exemplo: correta ou incorreta. Entretanto, na
classificaçãomultirrótulo elas devem também levar em conta estados “parcialmente” cor-
retos. Assim, várias medidas tem sido propostas para avaliar classificadores multirrótulo,
as quais consideram diversos aspectos da classificação. Uma discussão sobre essas medi-
das foge ao escopo deste trabalho e pode ser encontrada em [Tsoumakas et al. 2009]. A
seguir são apresentadas as medidas utilizadas neste trabalho.
As medidas que consideram as diferenças entre o conjunto de rótulos esperado
Yi e o predito Zi nos exemplos do conjunto de teste são chamadas Baseadas em Exem-
plos. Neste trabalho utilizamos três delas, Hamming Loss, Accuracy e Subset Accuracy,
definidas pelas Equações 1 a 3.
Hamming Loss(H,D) =
1
N
N∑
i=1
|Yi∆Zi|
|L|
. (1)
Accuracy(H,D) =
1
N
N∑
i=1
|Yi ∩ Zi|
|Yi ∪ Zi|
. (2)
SubsetAccuracy(H,D) =
1
N
N∑
i=1
I(Zi = Yi). (3)
onde ∆ representa a diferença simétrica entre dois conjuntos; I(verdadeiro) = 1 e I(falso)
= 0.
Outras medidas dissecam o processo de avaliação do classificador em medidas
separadas para cada rótulo e ponderam esse valor sobre todos os rótulos. Esse tipo de
medida é chamada Baseada em Rótulos. Neste trabalho utilizamos a Micro averaged
F-Measure (Fb) definida pela Equação 4.
Fb(H,D) =
2
∑q
j=1 TPyj
2
∑q
j=1 TPyj +
∑q
j=1 FPyj +
∑q
j=1 FNyj
. (4)
onde TPyi , FPyi , TNyi e FNyi representam, respectivamente, o número de verdadei-
ros/falsos positivos/negativos para um rótulo yj do conjunto de rótulos L.
Todas essas medidas tem valores no intervalo [0..1]. Exceto Hamming Loss, para a
qual menores valores indicam melhor desempenho do classificador, os valores das outras
medidas devem ser maximizadas.
3. Algoritmo Nearest Neighbor
O kNN é um algoritmo de aprendizado lazy que busca identificar os k vizinhos mais simi-
lares ao exemplo E a ser classificado [Aha and Kibler 1991], para após decidir o rótulo
a ser atribuı́do a E levando em consideração os rótulos desses k exemplos mais simila-
res. Assim, além do valor de k e do conjunto de treinamento a ser utilizado, é necessário
escolher a medida que quantifica a similaridade entre o exemplo a ser classificado e os
exemplos de treinamento, bem como o procedimento para decidir o rótulo a ser atribuı́do
ao exemplo E [Batista and Silva 2009].
Diversas medidas de similaridade tem sido propostas. Entre elas, a distância Eu-
clideana ou a de Manhattan normalizadas são frequentemente utilizadas. Porém, elas
não são apropriadas para atributos categóricos. Esse problema pode ser tratado utili-
zando a métrica overlap para atributos categóricos e a distância normalizada para atributos
numéricos [Aggarwal et al. 2001, Wilson and Martinez 2000]. Essa abordagem, denomi-
nada Heterogeneous Euclidean-Overlap Metric (HEOM), é definida pela Equação 5.
HEOM(xaj,xbj) =
{
overlap(xaj,xbj), se Xj for categórico
range normalized diff(xaj,xbj), se Xj for numérico.
(5)
onde o valor da função overlap é 1 para atributos categóricos com valores diferentes e 0
caso contrário. A range normalized diff é a diferença entre os valores dos dois atributos
normalizada pelos valores mı́nimo e máximo desse atributo no conjunto de treinamento.
Após encontrados os k exemplos mais próximos, é necessário deci-
dir a rotulação do exemplo E. Considerando aprendizado monorrótulo, seja
{(E1,y1), (E2,y2), . . . , (Ek,yk)} o conjunto desses k exemplos. O rótulo y do exemplo
E é determinado pela Equação 6.
y = max
(y,yj)∈L
k∑
j=1
wjδ(y, yj). (6)
onde wi é o peso atribuı́do a cada um dos rótulos dos k exemplos mais próximos, δ(a,b) =
1 se a = b e 0 caso contrário. Várias funções de peso podem ser definidas. Por exemplo,
se wj = 1 ∀ j, então o rótulo mais frequente (moda) é atribuı́do a E. Outras funções de
peso consideram a distância dj , j = 1..k, de E ao exemplo mais próximo Ej . Algumas
dessas funções são generalizadas por meio da inclusão de um parâmetro q ∈ R, q ≥ 0.
Caso wj = d
−q
j para q > 0, então os rótulos dos exemplos mais próximos a E tem maior
peso. Os valores q = 1 e q = 2 são os mais frequentemente utilizados.
3.1. Nearest Neighbor para classificação multirrótulo
O método BRkNN [Spyromitros et al. 2008] tratado neste trabalho, utiliza a abordagem
BR para transformar o problema multirrótulo. Entretanto, o BRkNN executa |L| vezes
mais rápido que o método padrão baseado em kNN e BR, pois apenas uma busca pelos k
vizinhos mais próximos é realizada. Para classificar um exemplo, duas extensões desse
método, denominadas BRkNN-a e BRkNN-b foram também propostas nesse trabalho. Es-
sas extensões consideram o valor de confiança de cada rótulo, dado pela porcentagem dos
k vizinhos que contém esse rótulo, para decidir os rótulos que fazem parte do multirrótulo
predito. Desse modo, são capazes de tratar diretamente o problema multirrótulo.
No caso do BRkNN-a, o procedimento para seleção dos rótulos é idêntico ao
BRkNN. Caso o valor de confiança seja superior a 0,5, o rótulo correspondente é con-
siderado parte do multirrótulo predito. Para evitar a predição de multirrótulos vazios caso
nenhum rótulo for selecionado, o BRkNN-a considera o rótulo de maior confiança como
parte do multirrótulo final. Por outro lado, o BRkNN-b prevê antecipadamente o número
s de rótulos do multirrótulo predito como a média aritmética arredondada das quanti-
dades de rótulos dos k exemplos mais próximos. Assim, o multirrótulo predito não é
vazio, sendo constituı́do pelos [s] rótulos de maior confiança, onde [s] indica o inteiro
mais próximo de s.
3.1.1. Extensões propostas
Neste trabalho são propostas e implementadas três extensões ao algoritmo BRkNN, as
quais estão relacionadas com a medida de similaridade, função de peso e a estimativa do
número de rótulos que participam do multirrótulo predito, apresentadas a seguir.
1 - Medida de similaridade. Como mencionado, a medida de similaridade é um
parâmetro importante no algoritmo kNN. Ainda que a medida HEOM seja frequentemente
utilizada devido à sua simplicidade, ela não considera informações adicionais fornecidas
pelos atributos categóricos, as quais podem melhorar o poder de predição do classificador.
A extensão proposta consiste na substituição da medida HEOM pela me-
dida Heterogeneous Value Difference Metric (HVDM) [Wilson and Martinez 2000] no
BRkNN. A medida HVDM utiliza a medida Normalized Difference (ND) para cal-
cular a distância entre atributos numéricos, e a medida Value Difference Metric
(VDM) [Stanfill and Waltz 1986] para calcular a distância entre atributos categóricos. A
medida ND é definida pela Equação 7.
ND(xaj,xbj) =
|xaj − xbj|
4σXj
. (7)
onde xaj e xbj são os valores do atributo Xj de dois exemplos (Ea, Eb),a 6= b, e σXj
é o desvio padrão dos valores do atributo numérico Xj . O valor 4σXj é utilizado para
normalizar o valor de ND(xaj,xbj) no intervalo [0..1], pois aproximadamente 95% dos
valores em uma distribuição normal estão separados por até dois desvios padrão da média.
A medida VDM, definida pela Equação 8, calcula a distância entre valores ca-
tegóricos do atributo Xj .
V DM(xaj,xbj) =
|L|∑
i=1
|
Nxaj ,yi
Nxaj
−
Nxbj ,yi
Nxbj
|p. (8)
onde Nxaj é a quantidade de exemplos de treinamento com valor xaj; Nxaj ,yi é a quanti-
dade de exemplos de treinamento com valor xaj e rótulo yi; e p é uma constante de ajuste,
usualmente 1 ou 2. Assim, VDM considera que dois valores de um atributo categórico Xj
são similares se eles possuem classificações similares, i.e., correlações similares com um
rótulo.
Neste trabalho, para implementar a medida HVDM no contexto multirrótulo, foi
usada a transformação LP apenas para o cálculo das distâncias entre os atributos ca-
tegóricos dos exemplos de treinamento e o exemplo a ser classificado.
2 - Generalização da função de peso para rotulação de exemplos. A segunda extensão
proposta consiste na generalização da função de peso wj= d
−q
j , j = 1..k — Equação 6.
Como mencionado, os valores q = 1 e q = 2 são usualmente utilizados. Contudo, é
interessante fornecer a BRkNN mais flexibilidade para escolher outras funções de peso wj
com o objetivo de ponderar de diferentes maneiras as distâncias entre os vizinhos mais
próximos, o que pode levar a uma melhor predição do classificador. Na implementação
realizada neste trabalho o valor de q é definido pelo usuário.
3 - Estimativa do número de rótulos do multirrótulo predito. No BRkNN original as
distâncias dj , j = 1..k, são somente utilizadas para encontrar os k vizinhos mais próximos
de E. Porém, essa informação pode ser utilizada para apoiar a estimativa do número s
de rótulos do multirrótulo predito pelo algoritmo. Neste trabalho é proposta a estimativa
definida pela Equação 9.
s = b
∑k
j=1 d
−b
j · |Yi|∑k
j=1 d
−b
j
+ 0.5c. (9)
onde |Y1|, |Y2|, . . . , |Yk| são, respectivamente, o número de rótulos de cada um dos k
vizinhos e b ∈ R, b ≥ 0 um parâmetro dessa estimativa. Caso b > 0, esse parâmetro atua
como um fator de atenuação, dando maior importância ao número de rótulos dos exemplos
mais próximos ao exemplo a ser classificado. Na implementação realizada neste trabalho
o valor de b é definido pelo usuário.
Para ilustrar as duas últimas extensões, considere o exemplo na Figura 1, que
mostra os k = 7 vizinhos mais próximos do exemplo E, com L = {y1,y2,y3}.
Figura 1. Vizinhos mais próximos de um exemplo a ser rotulado.
Na Tabela 2 são mostradas as distâncias entre cada exemplo e o exemplo E a ser
classificado, bem como o valor da função de peso wj de cada um dos k=7 vizinhos mais
próximos, para q = 0,1 e 2.
Tabela 2. Valor da função de peso wj para q = 0, 1 e 2.
wj
(E,Y ) dj q = 0 q = 1 q = 2
(E1,{y3}) 0,12 1,00 8,33 69,44
(E2,{y2,y3}) 0,06 1,00 16,67 277,78
(E3,{y1,y3}) 0,06 1,00 16,67 277,78
(E4,{y1}) 0,03 1,00 33,33 1111,11
(E5,{y1,y2,y3}) 0,10 1,00 10,00 100,00
(E6,{y2,y3}) 0,30 1,00 3,33 11,11
(E7,{y3}) 0,26 1,00 3,85 14,79
Na Tabela 3 é mostrado o peso total de cada rótulo que participa do multirrótulo
e o multirrótulo que seria predito pelo BRkNN para os diferentes valores de q. Quanto ao
número de rótulos que devem participar do multirrótulo (Equação 9) seria 2 para b = 1 e
1 para b = 2.
As extensões propostas foram implementadas no framework Mu-
lan [Tsoumakas et al. 2011], que disponibiliza livremente algoritmos para aprendizado
multirrótulo, o qual é muito utilizado pela comunidade.
Tabela 3. Predição dos multirrótulos pelo BRkNN para q = 0, 1 e 2 e b = 1 e 2.
Y
y1 y2 y3 s = 2 para b = 1 s = 1 para b = 2
q = 0 3,00 3,00 6,00 {y2,y3} {y3}
q = 1 60,00 30,00 58,85 {y1,y3} {y1}
q = 2 1488,89 388,89 750,90 {y1,y3} {y1}
3.1.2. Trabalhos relacionados
Além do BRkNN, outros métodos baseados no kNN tem sido desenvolvidos
para aprendizado multirrótulo. No mesmo trabalho em que o BRkNN foi pro-
posto [Spyromitros et al. 2008] , os autores também propuseram e avaliaram a utilização
do método chamado LPkNN, o qual simplesmente transforma o problema multirrótulo em
um problema monorrótulo multiclasse, analogamente ao método LP, e aplica o algoritmo
kNN diretamente ao problema transformado.
O método MLkNN [Zhang and Zhou 2005] é outra adaptação do algoritmo kNN
para tratar dados multirrótulo. A principal diferença desse método para o BRkNN é a
utilização das probabilidades a priori e a posteriori, estimadas diretamente do conjunto
de treinamento, para a predição de novos exemplos. Uma generalização do método
MLkNN possibilita considerar a dependência de rótulos durante o aprendizado mul-
tirrótulo [Younes et al. 2011]. De modo similar a outros algoritmos baseados no kNN,
cada exemplo a ser predito nesse método tem seus k vizinhos identificados no conjunto
de treinamento. O princı́pio maximum a posteriori é utilizado em escopo global para atri-
buir um conjunto de rótulos para um exemplo a ser predito, de modo a oferecer suporte
para o tratamento da dependência de rótulos. Esse princı́pio possibilita, por exemplo,
que o número de rótulos distintos na vizinhança seja considerado durante o processo de
predição, diferentemente do que ocorre no MLkNN.
Os algoritmos MLkNN, LPkNN e BRkNN foram comparados utilizando algumas
bases de dados no trabalho de Spyromitros [Spyromitros et al. 2008]. Os autores utili-
zaram os frameworks Mulan e Weka para a execução dos experimentos, com parâmetros
considerados padrão para o algoritmo kNN monorrótulo, como distância euclidiana como
medida de similaridade entre exemplos. Os resultados apresentados, calculados a partir
da média obtida variando k com valores no intervalo [1..30], indicaram superioridade do
BRkNN e do LPkNN sobre o algoritmo MLkNN. Adicionalmente, BRkNN foi superior a
LPkNN em mais conjuntos de dados, o que reforça a motivação para incluir no BRkNN as
extensões propostas neste trabalho.
4. Experimentos
A fim de ilustrar as modificações propostas, foram utilizados quatro conjuntos de da-
dos, dois com atributos categóricos e dois com atributos numéricos, considerando di-
ferentes funções de peso (Equação 6), bem como diferentes estimativas para calcular s
(Equação 9). O BRkNN estendido foi executado variando o parâmetro q da função de
peso com valores inteiros no intervalo [0..10] e o parâmetro b da estimativa de s com va-
lores inteiros no intervalo [0..3]. O número k de vizinhos mais próximos variou entre 3,
5, 7, 9, 11 e 13. Foram também avaliadas as medidas de similaridade HEOM e HVDM.
Nesse caso, foi definido p = 2 para a medida HVDM (Equação 8).
Os experimentos foram realizados utilizando o framework Mulan. Foi utilizada a
estratégia de validação cruzada de 10 folds, com folds pareados. Os classificadores foram
avaliados utilizando as quatro medidas de avaliação definidas na Seção 2. Os gráficos
foram gerados por meio do framework R1.
4.1. Conjuntos de dados utilizados
Os quatro conjuntos de dados, descritos na Tabela 4, foram obtidos do repositório do Mu-
lan2. Para cada conjunto de dados, nessa tabela é mostrado: o domı́nio (A); o número de
exemplos (N ), de atributos (M ) e de rótulos (|L|); a Cardinalidade de Rótulo (CR), dada
pelo número médio de rótulos associados com cada exemplo – Equação 10; a Densidade
de Rótulo (DR), ou cardinalidade normalizada – Equação 11; e o número de Combinações
Distintas (CD) de rótulos.
CR(D) =
1
|D|
|D|∑
i=1
|Yi| (10) DR(D) =
1
|D|
|D|∑
i=1
|Yi|
|L|
. (11)
Tabela 4. Descrição dos conjuntos de dados multirrótulo utilizados.
Conjunto de dados A N M |L| CR DR CD
1-emotions música 593 72 6 1,87 0.31 27
2-scene imagem 2407 294 6 1,07 0.18 15
3-genbase biologia 662 1186 27 1,25 0,05 32
4-medical texto 978 1449 45 1,25 0,03 94
Os conjuntos de dados emotions e scene são descritos por atributos numéricos,
enquanto os conjuntos genbase e medical são descritos por atributos categóricos.
4.2. Resultados e discussão
Os resultados dos experimentos realizados variando os valores dos parâmetros k, q e b
foram tabulados e encontram-se disponı́veis para consulta3. Devido à falta de espaço, a
seguir são mostrados graficamente os resultados de um desses experimentos utilizando os
seguintes parâmetros: k = 7, q = 0, b = 0 e p = 2.
Na Figura 2 é apresentado, para as quatro medidas de avaliação consideradas, o de-
sempenho do classificador BRkNN usando a medida de similaridade HEOM e a HVDM,
implementada neste trabalho, em cada conjunto de dados. Como mencionado, a medida
Hamming Loss é a única que deve ser minimizada na classificação.
Pode ser observado que o único conjunto de dados para o qual não houve melho-
ria nas medidas de avaliação dos classificadores utilizando HEOM e HVDM é o conjunto
genbase. Para as quatro medidas de avaliação consideradas, os valores estiveram den-
tro do desvio-padrão. Entretanto, para esse conjunto de dados, os valores das medidas
utilizando HEOMestão perto do ótimo. Assim, não há espaço para serem melhorados.
1http://www.r-project.org
2http://mulan.sourceforge.net/datasets.html
3http://www.labic.icmc.usp.br/pub/mcmonard/ResultadosExperimentaisENIA2012.
pdf
Hamming Loss
em
ot
io
ns
H
E
O
M
em
ot
io
ns
H
V
D
M
sc
en
e
H
E
O
M
sc
en
e
H
V
D
M
ge
nb
as
e
H
E
O
M
ge
nb
as
e
H
V
D
M
m
ed
ic
al
H
E
O
M
m
ed
ic
al
H
V
D
M
0.0
0.2
0.4
0.6
0.8
1.0
Subset Accuracy
em
ot
io
ns
H
E
O
M
em
ot
io
ns
H
V
D
M
sc
en
e
H
E
O
M
sc
en
e
H
V
D
M
ge
nb
as
e
H
E
O
M
ge
nb
as
e
H
V
D
M
m
ed
ic
al
H
E
O
M
m
ed
ic
al
H
V
D
M
0.0
0.2
0.4
0.6
0.8
1.0
Accuracy
em
ot
io
ns
H
E
O
M
em
ot
io
ns
H
V
D
M
sc
en
e
H
E
O
M
sc
en
e
H
V
D
M
ge
nb
as
e
H
E
O
M
ge
nb
as
e
H
V
D
M
m
ed
ic
al
H
E
O
M
m
ed
ic
al
H
V
D
M
0.0
0.2
0.4
0.6
0.8
1.0
Micro averaged F Measure
em
ot
io
ns
H
E
O
M
em
ot
io
ns
H
V
D
M
sc
en
e
H
E
O
M
sc
en
e
H
V
D
M
ge
nb
as
e
H
E
O
M
ge
nb
as
e
H
V
D
M
m
ed
ic
al
H
E
O
M
m
ed
ic
al
H
V
D
M
0.0
0.2
0.4
0.6
0.8
1.0
Figura 2. Resultados usando BRkNN (k = 7, q = 0 e b = 0) com as medidas de
similaridade HEOM e HVDM.
Contudo, nos demais conjuntos de dados, as medidas de avaliação são melhores
para os classificadores gerados utilizando HVDM, com destaque para o conjunto de dados
medical, o qual é descrito por atributos categóricos.
Como pode ser observado na Figura 2, o conjunto de dados emotions obteve a
maior redução do valor de Hamming Loss, seguido de scene e medical. Quanto às medidas
Subset Accuracy, Micro Averaged F-measure e Accuracy, o conjunto de dados medical
obteve o maior incremento nos valores, seguido de emotions e scene. Esses resultados
mostram a superioridade da medida de similaridade HVDM.
Para ilustrara o efeito da variação dos parâmetros q na função de peso e b na esti-
mativa no número de rótulos no multirrótulo predito utilizando a medida de similaridade
HVDM, foram gerados mapas de calor. Um mapa de calor colore cada célula (i,j) con-
forme um determinado valor relacionado aos ı́ndices i e j.
Neste trabalho, foram utilizados os ı́ndices correspondem a valores dos parâmetros
q no intervalo [0..10] e b no intervalo [0..3]. Os valores representados nas células corres-
pondem à medida de avaliação Micro Averaged F-Measure (Fb). Quanto mais alto o valor
em uma célula, mais próximo de vermelho é a cor nessa célula. Devido a falta de espaço,
na Figura 3 é mostrado o mapa de calor considerando k = 7 para o conjunto de dados
medical. Tabelas e mapas de calor das outras medidas e dos outros conjuntos de dados
obtidos variando k, q e b também estão disponı́veis para consulta3.
0 1 2 3
0
2
4
6
8
10
Micro averaged F−Measure com K=7 [q/b]
0.72
0.73
0.74
0.75
0.76
Figura 3. Mapa de calor usando BRkNN estendido variando q e b e a medida
HVDM para medical.
Valores pouco usuais para o parâmetro q, i.e., diferentes de 0, 1 ou 2, levaram
aos melhores resultados para a medida Fb. Entretanto, vale observar que a diferença nos
resultados obtidos variando os parâmetros q e b foi geralmente pequena. Por exemplo,
para os resultados mostrados na Figura 3, essa diferença é menor ou igual a 0,05, a qual
não supera o desvio padrão.
5. Conclusão
Neste trabalho foram propostas três extensões para o algoritmo de classificação mul-
tirrótulo BRkNN. Dentre essas extensões, a que mostrou maior impacto foi a medida
de similaridade Heterogeneous Value Difference Metric na busca pelos vizinhos mais
próximos em dados categóricos e numéricos.
Trabalhos futuros incluem a avaliação das extensões propostas utilizando mais
conjuntos de dados benchmark, bem como conjuntos de dados artificiais, de modo a for-
talecer a avaliação experimental.
Agradecimentos
À FAPESP pelo apoio recebido para a realização deste trabalho. A Victor Augusto Mo-
raes Carvalho pelo auxı́lio no desenvolvimento do trabalho.
Referências
Aggarwal, C. C., Hinneburg, A., and Keim, D. A. (2001). On the surprising behavior of
distance metrics in high dimensional space. In International Conference on Database
Theory, páginas 420–434.
Aha, D. and Kibler, D. (1991). Instance-based learning algorithms. Machine Learning,
6:37–66.
Batista, G. E. A. P. A. and Silva, D. F. (2009). How k-nearest neighbor parameters affect
its performance. In X Argentine Symposium on Artificial Intelligence, páginas 95–106.
Publicado em CD-ROM.
Carvalho, A. C. P. L. F. D. and Freitas, A. A. (2009). A tutorial on multi-label classi-
fication techniques, volume 5 of Studies in Computational Intelligence 205, páginas
177–195. Springer-Verlag.
Esuli, A. and Sebastiani, F. (2009). Active learning strategies for multi-label text classifi-
cation. In European Conference on IR Research on Advances in Information Retrieval,
páginas 102–113.
Liu, X., Shi, Z., Li, Z., Wang, X., and Shi, Z. (2010). Sorted label classifier chains for
learning images with multi-label. In International conference on Multimedia, páginas
951–954.
Park, H., Park, D., and Kwon, H.-C. (2011). Two-phase prediction of protein functions
from biological literature based on gini-index. In International Conference on Ubiqui-
tous Information Management and Communication, páginas 1–10.
Spyromitros, E., Tsoumakas, G., and Vlahavas, I. (2008). An empirical study of lazy
multilabel classification algorithms. In Hellenic conference on Artificial Intelligence,
páginas 401–406, Berlin, Heidelberg.
Stanfill, C. and Waltz, D. (1986). Toward memory-based reasoning. Communications of
the ACM, 29(12):1213–1228.
Tsoumakas, G., Katakis, I., and Vlahavas, I. (2009). Mining multi-label data. Data
Mining and Knowledge Discovery Handbook, páginas 1–19.
Tsoumakas, G., Spyromitros, E., Vilcek, J., and Vlahavas, I. (2011). Mulan: A java library
for multi-label learning. Journal of Machine Learning Research, 12:2411–2414.
Wilson, D. R. and Martinez, T. R. (2000). Reduction Techniques for Exemplar-Based
Learning Algorithms. Machine learning, 38(3):257–286.
Younes, Z., Abdallah, F., Denoeux, T., and Snoussi, H. (2011). A dependent multilabel
classification method derived from the k-nearest neighbor rule. EURASIP Journal on
Advances in Signal Processing, 2011:1–14.
Zhang, M.-L. and Zhou, Z.-H. (2005). A k-nearest neighbor based algorithm for multi-
label classification. IEEE International Conference on Granular Computing, 2:718–
721.