Buscar

Extensões do algoritmo BRkNN para aprendizado multirrótulo

Prévia do material em texto

Extensões do algoritmo de aprendizado de máquina
multirrótulo BRkNN
Denis Moreira dos Reis1, Everton Alvares Cherman1, Newton Spolaôr1,
Maria Carolina Monard1
1Laboratório de Inteligência Computacional
Instituto de Ciências Matemáticas e de Computação
Universidade de São Paulo
{denismr,evertoncherman}@gmail.com,mcmonard@icmc.usp.br
Abstract. Unlike single-label learning, in multi-label learning each example in
the training set is associated with a set of labels which are usually correlated.
Given an unclassified example, the task of a multi-label classifier is to output
the example label set whose size is unknown a priori. To this end, the single-
label k Nearest Neighbor algorithm has been used as a base to develop several
lazy multi-label learning algorithms, such as the BRkNN algorithm. This work
proposes some extensions to BRkNN, among them the use of the Heterogeneous
Value Difference Metric, which considers information from the labels. Illustra-
tive experiments on benchmark datasets show the usefulness of the proposed
extensions.
Resumo. Diferentemente do aprendizado monorrótulo, cada exemplo de trei-
namento no aprendizado multirrótulo está associado a um conjunto de rótulos
usualmente correlacionados. Dado um exemplo não rotulado, a tarefa de um
classificador multirrótulo é predizer o conjunto de rótulos para esse exemplo.
O algoritmo monorrótulo k Nearest Neighbor tem sido utilizado como uma base
para desenvolver vários algoritmos de aprendizado multirrótulo lazy, como
o algoritmo BRkNN. Neste trabalho são propostas algumas extensões para o
BRkNN, como o uso da medida Heterogeneous Value Difference Metric, a qual
considera informação dos rótulos. Experimentos ilustrativos em conjuntos de
dados benchmark mostram a eficácia preditiva dessas extensões.
1. Introdução
O aprendizado supervisionado monorrótulo é uma tarefa tradicional em aprendizado de
máquina na qual os exemplos do conjunto de treinamento estão associados a um único
rótulo yi do conjunto de possı́veis rótulos L, i.e., yi ∈ L com |L| > 1. No caso em que
|L| = 2 a tarefa é chamada de aprendizado binário, enquanto é denominada aprendizado
multiclasse para |L| > 2.
Contudo, existem diversas aplicações, como anotação de mı́dias [Liu et al. 2010],
bioinformática [Park et al. 2011] e categorização de texto [Esuli and Sebastiani 2009],
em que os exemplos do conjunto de treinamento estão associados não apenas a um único
rótulo, mas um conjunto de rótulos Y , com Y ⊆ L. Nesse caso, a tarefa de aprendizado
é denominada multirrótulo [Tsoumakas et al. 2009].
Diversos algoritmos têm sido desenvolvidos para tratar o problema mul-
tirrótulo [Carvalho and Freitas 2009]. Esses algoritmos podem ser organizados em dois
grupos distintos, como proposto em [Tsoumakas et al. 2009]: 1) Adaptação de algorit-
mos; e 2) Transformação de problema. No primeiro grupo, o problema multirrótulo é
tratado diretamente por um algoritmo de aprendizado multirrótulo. No caso do segundo
grupo, os algoritmos de aprendizado multirrótulo transformam o problema multirrótulo
em um ou mais problemas monorrótulo e, assim, algoritmos de aprendizado monorrótulo
podem ser utilizados para a resolução do problema. Um método tradicional deste segundo
grupo é Binary Relevance (BR), o qual transforma o problema multirrótulo em diversos
problemas binários, um para cada rótulo do problema multirrótulo.
O algoritmo k Nearest Neighbor (kNN) tem sido explorado para resolução do
problema multirrótulo, principalmente pela sua simplicidade e também pela sua eficácia
em diversos casos [Younes et al. 2011, Spyromitros et al. 2008, Zhang and Zhou 2005].
Basicamente, o kNN busca k exemplos de treinamento (vizinhos) similares ao exemplo
a ser rotulado E, conforme uma medida de similaridade. Após encontrar os vizinhos,
analisa-se seus rótulos para predizer a classificação de E. Uma maneira intuitiva para
aplicar o algoritmo tradicional kNN em dados multirrótulo é por meio do método BR.
No entanto, no trabalho de [Spyromitros et al. 2008], foi proposto o algoritmo BRkNN,
o qual obtém os mesmos resultados do uso do kNN conjuntamente com BR, porém é |L|
vezes mais rápido. Além disso, foram propostas duas extensões para melhoria na eficácia
preditiva do BRkNN.
Neste trabalho, são propostas extensões no algoritmo BRkNN em três aspectos
distintos, dos quais dois são relacionados ao peso dado aos k vizinhos no momento de
definição do conjunto de rótulos a ser predito, enquanto o outro aspecto refere-se à medida
de similaridade utilizada, no qual, a medida Heterogeneous Value Difference Metric é
adaptada para uso no problema multirrótulo. Experimentos ilustrativos realizados em
quatro conjuntos de dados benchmark sugerem que as extensões melhoram o desempenho
do BRkNN.
O restante desse trabalho está organizado da seguinte maneira: na Seção 2 são
apresentados conceitos básicos de aprendizado multirrótulo e as medidas de avaliação de
classificadores multirrótulo comumente utilizadas. Na Seção 3, o algoritmo kNN tradici-
onal é descrito com maior detalhamento, bem como a estratégia baseada nesse algoritmo
para tratar com o problema multirrótulo e os trabalhos relacionados. Na Seção 4 são apre-
sentados o protocolo experimental, os resultados e a discussão. Por fim, na Seção 5 são
descritos a conclusão e trabalhos futuros.
2. Aprendizado multirrótulo
No aprendizado multirrótulo, a entrada do algoritmo consiste de um conjunto D de N
exemplos Ei = (xi,Yi), i.e., D = {(x1,Y1), (x2,Y2), . . . , (xN ,YN)}. Os xi são tipicamente
vetores da forma (xi1,xi2, . . . ,xiM) com valores categóricos ou numéricos, tal que xij
refere-se ao valor do atributo j, denominado Xj , do exemplo Ei. Cada exemplo Ei está
associado a um conjunto de rótulos Yi, onde Yi ⊆ L e L = {y1, y2, y3, . . . , yq} — Ta-
bela 1.
Neste cenário, o objetivo de algoritmos de aprendizado multirrótulo é gerar um
classificador H tal que, dado um exemplo não rotulado E = (x, ?), prediz o conjunto
Tabela 1. Conjunto de dados multirrótulo.
X1 X2 . . . XM Y
E1 x11 x12 . . . x1M Y1
E2 x21 x22 . . . x2M Y2
...
...
... . . .
...
...
EN xN1 xN2 . . . xNM YN
de rótulos Y ao qual deve ser associado, i.e., H(E) → Y . A principal diferença en-
tre aprendizado multirrótulo e aprendizado monorrótulo é que os rótulos no conjunto de
rótulos no aprendizado multirrótulo estão frequentemente correlacionados, enquanto que
os possı́veis valores da classe (rótulos) no aprendizado monorrótulo são mutuamente ex-
clusivos.
Métodos de aprendizado multirrótulo são organizados em categorias, entre elas
adaptação de algoritmo e transformação do problema [Tsoumakas et al. 2009]. A pri-
meira categoria abrange métodos que estendem algoritmos de aprendizado especı́ficos
de modo a tratar dados multirrótulo diretamente. O algoritmo BRkNN utilizado neste
trabalho situa-se nessa categoria. A segunda categoria, exemplificada pelas abordagens
Binary Relevance (BR) e Label Powerset (LP), é independente de algoritmo, possibili-
tando o uso de qualquer algoritmo do estado da arte de aprendizado monorrótulo para
realizar aprendizado multirrótulo. A abordagem BR transforma o problema multirrótulo
em |L| problemas de classificação binária. Posteriormente, a predição do multirrótulo de
um exemplo a ser classificado E é obtida por meio da união dos rótulos preditos pelos
classificadores binários que classificam esse exemplo como positivo. Por outro lado, a
abordagem LP transforma um problema multirrótulo em um problema multiclasse, con-
siderando cada conjunto de rótulos idênticos em D como um valor da classe no conjunto
multiclasse, i.e., um conjunto de exemplos monorrótulo no qual a classe assume mais de
dois valores.
As medidas para avaliar classificadores monorrótulo consideram apenas os dois
possı́veis estados da classificação de um exemplo: correta ou incorreta. Entretanto, na
classificaçãomultirrótulo elas devem também levar em conta estados “parcialmente” cor-
retos. Assim, várias medidas tem sido propostas para avaliar classificadores multirrótulo,
as quais consideram diversos aspectos da classificação. Uma discussão sobre essas medi-
das foge ao escopo deste trabalho e pode ser encontrada em [Tsoumakas et al. 2009]. A
seguir são apresentadas as medidas utilizadas neste trabalho.
As medidas que consideram as diferenças entre o conjunto de rótulos esperado
Yi e o predito Zi nos exemplos do conjunto de teste são chamadas Baseadas em Exem-
plos. Neste trabalho utilizamos três delas, Hamming Loss, Accuracy e Subset Accuracy,
definidas pelas Equações 1 a 3.
Hamming Loss(H,D) =
1
N
N∑
i=1
|Yi∆Zi|
|L|
. (1)
Accuracy(H,D) =
1
N
N∑
i=1
|Yi ∩ Zi|
|Yi ∪ Zi|
. (2)
SubsetAccuracy(H,D) =
1
N
N∑
i=1
I(Zi = Yi). (3)
onde ∆ representa a diferença simétrica entre dois conjuntos; I(verdadeiro) = 1 e I(falso)
= 0.
Outras medidas dissecam o processo de avaliação do classificador em medidas
separadas para cada rótulo e ponderam esse valor sobre todos os rótulos. Esse tipo de
medida é chamada Baseada em Rótulos. Neste trabalho utilizamos a Micro averaged
F-Measure (Fb) definida pela Equação 4.
Fb(H,D) =
2
∑q
j=1 TPyj
2
∑q
j=1 TPyj +
∑q
j=1 FPyj +
∑q
j=1 FNyj
. (4)
onde TPyi , FPyi , TNyi e FNyi representam, respectivamente, o número de verdadei-
ros/falsos positivos/negativos para um rótulo yj do conjunto de rótulos L.
Todas essas medidas tem valores no intervalo [0..1]. Exceto Hamming Loss, para a
qual menores valores indicam melhor desempenho do classificador, os valores das outras
medidas devem ser maximizadas.
3. Algoritmo Nearest Neighbor
O kNN é um algoritmo de aprendizado lazy que busca identificar os k vizinhos mais simi-
lares ao exemplo E a ser classificado [Aha and Kibler 1991], para após decidir o rótulo
a ser atribuı́do a E levando em consideração os rótulos desses k exemplos mais simila-
res. Assim, além do valor de k e do conjunto de treinamento a ser utilizado, é necessário
escolher a medida que quantifica a similaridade entre o exemplo a ser classificado e os
exemplos de treinamento, bem como o procedimento para decidir o rótulo a ser atribuı́do
ao exemplo E [Batista and Silva 2009].
Diversas medidas de similaridade tem sido propostas. Entre elas, a distância Eu-
clideana ou a de Manhattan normalizadas são frequentemente utilizadas. Porém, elas
não são apropriadas para atributos categóricos. Esse problema pode ser tratado utili-
zando a métrica overlap para atributos categóricos e a distância normalizada para atributos
numéricos [Aggarwal et al. 2001, Wilson and Martinez 2000]. Essa abordagem, denomi-
nada Heterogeneous Euclidean-Overlap Metric (HEOM), é definida pela Equação 5.
HEOM(xaj,xbj) =
{
overlap(xaj,xbj), se Xj for categórico
range normalized diff(xaj,xbj), se Xj for numérico.
(5)
onde o valor da função overlap é 1 para atributos categóricos com valores diferentes e 0
caso contrário. A range normalized diff é a diferença entre os valores dos dois atributos
normalizada pelos valores mı́nimo e máximo desse atributo no conjunto de treinamento.
Após encontrados os k exemplos mais próximos, é necessário deci-
dir a rotulação do exemplo E. Considerando aprendizado monorrótulo, seja
{(E1,y1), (E2,y2), . . . , (Ek,yk)} o conjunto desses k exemplos. O rótulo y do exemplo
E é determinado pela Equação 6.
y = max
(y,yj)∈L
k∑
j=1
wjδ(y, yj). (6)
onde wi é o peso atribuı́do a cada um dos rótulos dos k exemplos mais próximos, δ(a,b) =
1 se a = b e 0 caso contrário. Várias funções de peso podem ser definidas. Por exemplo,
se wj = 1 ∀ j, então o rótulo mais frequente (moda) é atribuı́do a E. Outras funções de
peso consideram a distância dj , j = 1..k, de E ao exemplo mais próximo Ej . Algumas
dessas funções são generalizadas por meio da inclusão de um parâmetro q ∈ R, q ≥ 0.
Caso wj = d
−q
j para q > 0, então os rótulos dos exemplos mais próximos a E tem maior
peso. Os valores q = 1 e q = 2 são os mais frequentemente utilizados.
3.1. Nearest Neighbor para classificação multirrótulo
O método BRkNN [Spyromitros et al. 2008] tratado neste trabalho, utiliza a abordagem
BR para transformar o problema multirrótulo. Entretanto, o BRkNN executa |L| vezes
mais rápido que o método padrão baseado em kNN e BR, pois apenas uma busca pelos k
vizinhos mais próximos é realizada. Para classificar um exemplo, duas extensões desse
método, denominadas BRkNN-a e BRkNN-b foram também propostas nesse trabalho. Es-
sas extensões consideram o valor de confiança de cada rótulo, dado pela porcentagem dos
k vizinhos que contém esse rótulo, para decidir os rótulos que fazem parte do multirrótulo
predito. Desse modo, são capazes de tratar diretamente o problema multirrótulo.
No caso do BRkNN-a, o procedimento para seleção dos rótulos é idêntico ao
BRkNN. Caso o valor de confiança seja superior a 0,5, o rótulo correspondente é con-
siderado parte do multirrótulo predito. Para evitar a predição de multirrótulos vazios caso
nenhum rótulo for selecionado, o BRkNN-a considera o rótulo de maior confiança como
parte do multirrótulo final. Por outro lado, o BRkNN-b prevê antecipadamente o número
s de rótulos do multirrótulo predito como a média aritmética arredondada das quanti-
dades de rótulos dos k exemplos mais próximos. Assim, o multirrótulo predito não é
vazio, sendo constituı́do pelos [s] rótulos de maior confiança, onde [s] indica o inteiro
mais próximo de s.
3.1.1. Extensões propostas
Neste trabalho são propostas e implementadas três extensões ao algoritmo BRkNN, as
quais estão relacionadas com a medida de similaridade, função de peso e a estimativa do
número de rótulos que participam do multirrótulo predito, apresentadas a seguir.
1 - Medida de similaridade. Como mencionado, a medida de similaridade é um
parâmetro importante no algoritmo kNN. Ainda que a medida HEOM seja frequentemente
utilizada devido à sua simplicidade, ela não considera informações adicionais fornecidas
pelos atributos categóricos, as quais podem melhorar o poder de predição do classificador.
A extensão proposta consiste na substituição da medida HEOM pela me-
dida Heterogeneous Value Difference Metric (HVDM) [Wilson and Martinez 2000] no
BRkNN. A medida HVDM utiliza a medida Normalized Difference (ND) para cal-
cular a distância entre atributos numéricos, e a medida Value Difference Metric
(VDM) [Stanfill and Waltz 1986] para calcular a distância entre atributos categóricos. A
medida ND é definida pela Equação 7.
ND(xaj,xbj) =
|xaj − xbj|
4σXj
. (7)
onde xaj e xbj são os valores do atributo Xj de dois exemplos (Ea, Eb),a 6= b, e σXj
é o desvio padrão dos valores do atributo numérico Xj . O valor 4σXj é utilizado para
normalizar o valor de ND(xaj,xbj) no intervalo [0..1], pois aproximadamente 95% dos
valores em uma distribuição normal estão separados por até dois desvios padrão da média.
A medida VDM, definida pela Equação 8, calcula a distância entre valores ca-
tegóricos do atributo Xj .
V DM(xaj,xbj) =
|L|∑
i=1
|
Nxaj ,yi
Nxaj
−
Nxbj ,yi
Nxbj
|p. (8)
onde Nxaj é a quantidade de exemplos de treinamento com valor xaj; Nxaj ,yi é a quanti-
dade de exemplos de treinamento com valor xaj e rótulo yi; e p é uma constante de ajuste,
usualmente 1 ou 2. Assim, VDM considera que dois valores de um atributo categórico Xj
são similares se eles possuem classificações similares, i.e., correlações similares com um
rótulo.
Neste trabalho, para implementar a medida HVDM no contexto multirrótulo, foi
usada a transformação LP apenas para o cálculo das distâncias entre os atributos ca-
tegóricos dos exemplos de treinamento e o exemplo a ser classificado.
2 - Generalização da função de peso para rotulação de exemplos. A segunda extensão
proposta consiste na generalização da função de peso wj= d
−q
j , j = 1..k — Equação 6.
Como mencionado, os valores q = 1 e q = 2 são usualmente utilizados. Contudo, é
interessante fornecer a BRkNN mais flexibilidade para escolher outras funções de peso wj
com o objetivo de ponderar de diferentes maneiras as distâncias entre os vizinhos mais
próximos, o que pode levar a uma melhor predição do classificador. Na implementação
realizada neste trabalho o valor de q é definido pelo usuário.
3 - Estimativa do número de rótulos do multirrótulo predito. No BRkNN original as
distâncias dj , j = 1..k, são somente utilizadas para encontrar os k vizinhos mais próximos
de E. Porém, essa informação pode ser utilizada para apoiar a estimativa do número s
de rótulos do multirrótulo predito pelo algoritmo. Neste trabalho é proposta a estimativa
definida pela Equação 9.
s = b
∑k
j=1 d
−b
j · |Yi|∑k
j=1 d
−b
j
+ 0.5c. (9)
onde |Y1|, |Y2|, . . . , |Yk| são, respectivamente, o número de rótulos de cada um dos k
vizinhos e b ∈ R, b ≥ 0 um parâmetro dessa estimativa. Caso b > 0, esse parâmetro atua
como um fator de atenuação, dando maior importância ao número de rótulos dos exemplos
mais próximos ao exemplo a ser classificado. Na implementação realizada neste trabalho
o valor de b é definido pelo usuário.
Para ilustrar as duas últimas extensões, considere o exemplo na Figura 1, que
mostra os k = 7 vizinhos mais próximos do exemplo E, com L = {y1,y2,y3}.
Figura 1. Vizinhos mais próximos de um exemplo a ser rotulado.
Na Tabela 2 são mostradas as distâncias entre cada exemplo e o exemplo E a ser
classificado, bem como o valor da função de peso wj de cada um dos k=7 vizinhos mais
próximos, para q = 0,1 e 2.
Tabela 2. Valor da função de peso wj para q = 0, 1 e 2.
wj
(E,Y ) dj q = 0 q = 1 q = 2
(E1,{y3}) 0,12 1,00 8,33 69,44
(E2,{y2,y3}) 0,06 1,00 16,67 277,78
(E3,{y1,y3}) 0,06 1,00 16,67 277,78
(E4,{y1}) 0,03 1,00 33,33 1111,11
(E5,{y1,y2,y3}) 0,10 1,00 10,00 100,00
(E6,{y2,y3}) 0,30 1,00 3,33 11,11
(E7,{y3}) 0,26 1,00 3,85 14,79
Na Tabela 3 é mostrado o peso total de cada rótulo que participa do multirrótulo
e o multirrótulo que seria predito pelo BRkNN para os diferentes valores de q. Quanto ao
número de rótulos que devem participar do multirrótulo (Equação 9) seria 2 para b = 1 e
1 para b = 2.
As extensões propostas foram implementadas no framework Mu-
lan [Tsoumakas et al. 2011], que disponibiliza livremente algoritmos para aprendizado
multirrótulo, o qual é muito utilizado pela comunidade.
Tabela 3. Predição dos multirrótulos pelo BRkNN para q = 0, 1 e 2 e b = 1 e 2.
Y
y1 y2 y3 s = 2 para b = 1 s = 1 para b = 2
q = 0 3,00 3,00 6,00 {y2,y3} {y3}
q = 1 60,00 30,00 58,85 {y1,y3} {y1}
q = 2 1488,89 388,89 750,90 {y1,y3} {y1}
3.1.2. Trabalhos relacionados
Além do BRkNN, outros métodos baseados no kNN tem sido desenvolvidos
para aprendizado multirrótulo. No mesmo trabalho em que o BRkNN foi pro-
posto [Spyromitros et al. 2008] , os autores também propuseram e avaliaram a utilização
do método chamado LPkNN, o qual simplesmente transforma o problema multirrótulo em
um problema monorrótulo multiclasse, analogamente ao método LP, e aplica o algoritmo
kNN diretamente ao problema transformado.
O método MLkNN [Zhang and Zhou 2005] é outra adaptação do algoritmo kNN
para tratar dados multirrótulo. A principal diferença desse método para o BRkNN é a
utilização das probabilidades a priori e a posteriori, estimadas diretamente do conjunto
de treinamento, para a predição de novos exemplos. Uma generalização do método
MLkNN possibilita considerar a dependência de rótulos durante o aprendizado mul-
tirrótulo [Younes et al. 2011]. De modo similar a outros algoritmos baseados no kNN,
cada exemplo a ser predito nesse método tem seus k vizinhos identificados no conjunto
de treinamento. O princı́pio maximum a posteriori é utilizado em escopo global para atri-
buir um conjunto de rótulos para um exemplo a ser predito, de modo a oferecer suporte
para o tratamento da dependência de rótulos. Esse princı́pio possibilita, por exemplo,
que o número de rótulos distintos na vizinhança seja considerado durante o processo de
predição, diferentemente do que ocorre no MLkNN.
Os algoritmos MLkNN, LPkNN e BRkNN foram comparados utilizando algumas
bases de dados no trabalho de Spyromitros [Spyromitros et al. 2008]. Os autores utili-
zaram os frameworks Mulan e Weka para a execução dos experimentos, com parâmetros
considerados padrão para o algoritmo kNN monorrótulo, como distância euclidiana como
medida de similaridade entre exemplos. Os resultados apresentados, calculados a partir
da média obtida variando k com valores no intervalo [1..30], indicaram superioridade do
BRkNN e do LPkNN sobre o algoritmo MLkNN. Adicionalmente, BRkNN foi superior a
LPkNN em mais conjuntos de dados, o que reforça a motivação para incluir no BRkNN as
extensões propostas neste trabalho.
4. Experimentos
A fim de ilustrar as modificações propostas, foram utilizados quatro conjuntos de da-
dos, dois com atributos categóricos e dois com atributos numéricos, considerando di-
ferentes funções de peso (Equação 6), bem como diferentes estimativas para calcular s
(Equação 9). O BRkNN estendido foi executado variando o parâmetro q da função de
peso com valores inteiros no intervalo [0..10] e o parâmetro b da estimativa de s com va-
lores inteiros no intervalo [0..3]. O número k de vizinhos mais próximos variou entre 3,
5, 7, 9, 11 e 13. Foram também avaliadas as medidas de similaridade HEOM e HVDM.
Nesse caso, foi definido p = 2 para a medida HVDM (Equação 8).
Os experimentos foram realizados utilizando o framework Mulan. Foi utilizada a
estratégia de validação cruzada de 10 folds, com folds pareados. Os classificadores foram
avaliados utilizando as quatro medidas de avaliação definidas na Seção 2. Os gráficos
foram gerados por meio do framework R1.
4.1. Conjuntos de dados utilizados
Os quatro conjuntos de dados, descritos na Tabela 4, foram obtidos do repositório do Mu-
lan2. Para cada conjunto de dados, nessa tabela é mostrado: o domı́nio (A); o número de
exemplos (N ), de atributos (M ) e de rótulos (|L|); a Cardinalidade de Rótulo (CR), dada
pelo número médio de rótulos associados com cada exemplo – Equação 10; a Densidade
de Rótulo (DR), ou cardinalidade normalizada – Equação 11; e o número de Combinações
Distintas (CD) de rótulos.
CR(D) =
1
|D|
|D|∑
i=1
|Yi| (10) DR(D) =
1
|D|
|D|∑
i=1
|Yi|
|L|
. (11)
Tabela 4. Descrição dos conjuntos de dados multirrótulo utilizados.
Conjunto de dados A N M |L| CR DR CD
1-emotions música 593 72 6 1,87 0.31 27
2-scene imagem 2407 294 6 1,07 0.18 15
3-genbase biologia 662 1186 27 1,25 0,05 32
4-medical texto 978 1449 45 1,25 0,03 94
Os conjuntos de dados emotions e scene são descritos por atributos numéricos,
enquanto os conjuntos genbase e medical são descritos por atributos categóricos.
4.2. Resultados e discussão
Os resultados dos experimentos realizados variando os valores dos parâmetros k, q e b
foram tabulados e encontram-se disponı́veis para consulta3. Devido à falta de espaço, a
seguir são mostrados graficamente os resultados de um desses experimentos utilizando os
seguintes parâmetros: k = 7, q = 0, b = 0 e p = 2.
Na Figura 2 é apresentado, para as quatro medidas de avaliação consideradas, o de-
sempenho do classificador BRkNN usando a medida de similaridade HEOM e a HVDM,
implementada neste trabalho, em cada conjunto de dados. Como mencionado, a medida
Hamming Loss é a única que deve ser minimizada na classificação.
Pode ser observado que o único conjunto de dados para o qual não houve melho-
ria nas medidas de avaliação dos classificadores utilizando HEOM e HVDM é o conjunto
genbase. Para as quatro medidas de avaliação consideradas, os valores estiveram den-
tro do desvio-padrão. Entretanto, para esse conjunto de dados, os valores das medidas
utilizando HEOMestão perto do ótimo. Assim, não há espaço para serem melhorados.
1http://www.r-project.org
2http://mulan.sourceforge.net/datasets.html
3http://www.labic.icmc.usp.br/pub/mcmonard/ResultadosExperimentaisENIA2012.
pdf
Hamming Loss
em
ot
io
ns
H
E
O
M
em
ot
io
ns
H
V
D
M
sc
en
e
H
E
O
M
sc
en
e
H
V
D
M
ge
nb
as
e
H
E
O
M
ge
nb
as
e
H
V
D
M
m
ed
ic
al
H
E
O
M
m
ed
ic
al
H
V
D
M
0.0
0.2
0.4
0.6
0.8
1.0
Subset Accuracy
em
ot
io
ns
H
E
O
M
em
ot
io
ns
H
V
D
M
sc
en
e
H
E
O
M
sc
en
e
H
V
D
M
ge
nb
as
e
H
E
O
M
ge
nb
as
e
H
V
D
M
m
ed
ic
al
H
E
O
M
m
ed
ic
al
H
V
D
M
0.0
0.2
0.4
0.6
0.8
1.0
Accuracy
em
ot
io
ns
H
E
O
M
em
ot
io
ns
H
V
D
M
sc
en
e
H
E
O
M
sc
en
e
H
V
D
M
ge
nb
as
e
H
E
O
M
ge
nb
as
e
H
V
D
M
m
ed
ic
al
H
E
O
M
m
ed
ic
al
H
V
D
M
0.0
0.2
0.4
0.6
0.8
1.0
Micro averaged F Measure
em
ot
io
ns
H
E
O
M
em
ot
io
ns
H
V
D
M
sc
en
e
H
E
O
M
sc
en
e
H
V
D
M
ge
nb
as
e
H
E
O
M
ge
nb
as
e
H
V
D
M
m
ed
ic
al
H
E
O
M
m
ed
ic
al
H
V
D
M
0.0
0.2
0.4
0.6
0.8
1.0
Figura 2. Resultados usando BRkNN (k = 7, q = 0 e b = 0) com as medidas de
similaridade HEOM e HVDM.
Contudo, nos demais conjuntos de dados, as medidas de avaliação são melhores
para os classificadores gerados utilizando HVDM, com destaque para o conjunto de dados
medical, o qual é descrito por atributos categóricos.
Como pode ser observado na Figura 2, o conjunto de dados emotions obteve a
maior redução do valor de Hamming Loss, seguido de scene e medical. Quanto às medidas
Subset Accuracy, Micro Averaged F-measure e Accuracy, o conjunto de dados medical
obteve o maior incremento nos valores, seguido de emotions e scene. Esses resultados
mostram a superioridade da medida de similaridade HVDM.
Para ilustrara o efeito da variação dos parâmetros q na função de peso e b na esti-
mativa no número de rótulos no multirrótulo predito utilizando a medida de similaridade
HVDM, foram gerados mapas de calor. Um mapa de calor colore cada célula (i,j) con-
forme um determinado valor relacionado aos ı́ndices i e j.
Neste trabalho, foram utilizados os ı́ndices correspondem a valores dos parâmetros
q no intervalo [0..10] e b no intervalo [0..3]. Os valores representados nas células corres-
pondem à medida de avaliação Micro Averaged F-Measure (Fb). Quanto mais alto o valor
em uma célula, mais próximo de vermelho é a cor nessa célula. Devido a falta de espaço,
na Figura 3 é mostrado o mapa de calor considerando k = 7 para o conjunto de dados
medical. Tabelas e mapas de calor das outras medidas e dos outros conjuntos de dados
obtidos variando k, q e b também estão disponı́veis para consulta3.
0 1 2 3
0
2
4
6
8
10
Micro averaged F−Measure com K=7 [q/b]
0.72
0.73
0.74
0.75
0.76
Figura 3. Mapa de calor usando BRkNN estendido variando q e b e a medida
HVDM para medical.
Valores pouco usuais para o parâmetro q, i.e., diferentes de 0, 1 ou 2, levaram
aos melhores resultados para a medida Fb. Entretanto, vale observar que a diferença nos
resultados obtidos variando os parâmetros q e b foi geralmente pequena. Por exemplo,
para os resultados mostrados na Figura 3, essa diferença é menor ou igual a 0,05, a qual
não supera o desvio padrão.
5. Conclusão
Neste trabalho foram propostas três extensões para o algoritmo de classificação mul-
tirrótulo BRkNN. Dentre essas extensões, a que mostrou maior impacto foi a medida
de similaridade Heterogeneous Value Difference Metric na busca pelos vizinhos mais
próximos em dados categóricos e numéricos.
Trabalhos futuros incluem a avaliação das extensões propostas utilizando mais
conjuntos de dados benchmark, bem como conjuntos de dados artificiais, de modo a for-
talecer a avaliação experimental.
Agradecimentos
À FAPESP pelo apoio recebido para a realização deste trabalho. A Victor Augusto Mo-
raes Carvalho pelo auxı́lio no desenvolvimento do trabalho.
Referências
Aggarwal, C. C., Hinneburg, A., and Keim, D. A. (2001). On the surprising behavior of
distance metrics in high dimensional space. In International Conference on Database
Theory, páginas 420–434.
Aha, D. and Kibler, D. (1991). Instance-based learning algorithms. Machine Learning,
6:37–66.
Batista, G. E. A. P. A. and Silva, D. F. (2009). How k-nearest neighbor parameters affect
its performance. In X Argentine Symposium on Artificial Intelligence, páginas 95–106.
Publicado em CD-ROM.
Carvalho, A. C. P. L. F. D. and Freitas, A. A. (2009). A tutorial on multi-label classi-
fication techniques, volume 5 of Studies in Computational Intelligence 205, páginas
177–195. Springer-Verlag.
Esuli, A. and Sebastiani, F. (2009). Active learning strategies for multi-label text classifi-
cation. In European Conference on IR Research on Advances in Information Retrieval,
páginas 102–113.
Liu, X., Shi, Z., Li, Z., Wang, X., and Shi, Z. (2010). Sorted label classifier chains for
learning images with multi-label. In International conference on Multimedia, páginas
951–954.
Park, H., Park, D., and Kwon, H.-C. (2011). Two-phase prediction of protein functions
from biological literature based on gini-index. In International Conference on Ubiqui-
tous Information Management and Communication, páginas 1–10.
Spyromitros, E., Tsoumakas, G., and Vlahavas, I. (2008). An empirical study of lazy
multilabel classification algorithms. In Hellenic conference on Artificial Intelligence,
páginas 401–406, Berlin, Heidelberg.
Stanfill, C. and Waltz, D. (1986). Toward memory-based reasoning. Communications of
the ACM, 29(12):1213–1228.
Tsoumakas, G., Katakis, I., and Vlahavas, I. (2009). Mining multi-label data. Data
Mining and Knowledge Discovery Handbook, páginas 1–19.
Tsoumakas, G., Spyromitros, E., Vilcek, J., and Vlahavas, I. (2011). Mulan: A java library
for multi-label learning. Journal of Machine Learning Research, 12:2411–2414.
Wilson, D. R. and Martinez, T. R. (2000). Reduction Techniques for Exemplar-Based
Learning Algorithms. Machine learning, 38(3):257–286.
Younes, Z., Abdallah, F., Denoeux, T., and Snoussi, H. (2011). A dependent multilabel
classification method derived from the k-nearest neighbor rule. EURASIP Journal on
Advances in Signal Processing, 2011:1–14.
Zhang, M.-L. and Zhou, Z.-H. (2005). A k-nearest neighbor based algorithm for multi-
label classification. IEEE International Conference on Granular Computing, 2:718–
721.

Continue navegando