recuperacao de informacoes em colecoes medicas utilizando categorizacao automatica de documentos

Recuperação da Informação

•

UFAM

leandro castro maciel

30.06.2016

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Recuperação da Informação

263 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Recuperação de Informação em Coleções Médicas Utilizando Categorização
Automática de Documentos
Rodrigo F. Vale
��� �
Luciano R. S. de Lima
�
Berthier A. Ribeiro-Neto
�
Alberto H. F. Laender
�
Hermes R. F. Junior
��� �
�
Departamento de Ciência da Computação
�
Grupo de Informática Médica
Universidade Federal de Minas Gerais Rede Sarah de Hospitais
31270-901 - Belo Horizonte - MG 30510-000 - Belo Horizonte - MG
{rodrigov,berthier,laender,hermes}@dcc.ufmg.br luciano@bhz.sarah.br
�
Akwan Information Technologies
Av. Antônio Abrahão Caram, 430 / 4 � andar
31275-000 - Belo Horizonte - MG
{rodrigov,hermes}@akwan.com.br
Abstract
A current and important research issue is the retrieval of relevant medical information. In
fact, while the medical knowledge expands at a rate never observed before, its diffusion is
slow. One of the main reasons is the difficulty in locating the relevant information in the
modern and large medical text collections of today. In this work, we introduce a frame-
work, based on Bayesian belief networks, that allows combining information derived from
the text of the documents with information on the diseases related to the medical documents
(obtained from an automatic categorization process). This leads to a new ranking method
which we evaluate using a medical reference collection (the Oshumed collection). Our re-
sults indicate that this combination of evidences (document text and diseases related to the
document) might yield considerable gains in retrieval performance. When the queries are
strongly related to diseases, these gains might be as high as 84%. Our approach is quite
distinct from previous ones and shows that information generated by an automatic catego-
rization procedure can be used effectively to improve the quality of the answers provided
by an information retrieval (IR) system specialized in the medical domain.
1 Introdução
A evolução tecnológica ocorrida nos últimos anos nas áreas de informática e telecomu-
nicações e o aumento das atividades e do conhecimento humano têm permitido que grandes
volumes de dados circulem pelo mundo, especialmente através da Internet, tornando a tarefa
de recuperação de informação difícil, custosa e muitas vezes complexa para os usuários [2, 3].
A principal razão dessa complexidade ocorre porque boa parte da informação disponível na
Internet encontra-se na forma textual e sem a definição explícita de um esquema de dados ou
estrutura. Logo, a investigação de novos modelos, algoritmos e ferramentas que possam ajudar
os usuários na formulação de suas consultas e na melhoria da qualidade (precisão) das respostas
geradas é de grande relevância.
Atualmente, a forma mais disseminada de recuperar informação na Internet é a utilização de
máquinas de busca e meta-busca, que em geral utilizam técnicas de recuperação de informação
baseadas no modelo vetorial proposto por Salton ou em uma de suas extensões [1, 2, 15]. Isso
ocorre porque o modelo vetorial é relativamente simples de ser implementado e bem eficiente
quando aplicado a coleções genéricas de documentos. O crescimento, porém, de grandes portais
e bibliotecas digitais especializadas tem obrigado os pesquisadores a investigar novos modelos
que permitam agregar ao processo de recuperar informação características específicas desses
ambientes especializados, sem, no entanto, aumentar a complexidade e a eficiência dos algorit-
mos já implementados, sendo esse um grande desafio corrente.
Dentre as diversas áreas especializadas do conhecimento, destacamos a disponibilidade da
literatura médica na Internet, que cresce atualmente a uma taxa em torno de 7% ao ano e cu-
ja tendência é dobrar sua base de dados nos próximos 10 anos. Essa disponibilidade facilita
o acesso à informação médica, mas também introduz problemas adicionais. Enquanto o co-
nhecimento médico se expande a taxas muito altas, sua difusão ainda é baixa. As barreiras
para a difusão do conhecimento médico são muitas e incluem: o tempo limitado para busca
bibliográfica, o limitado acesso a fontes de informação, e a grande dificuldade dos profissionais
médicos em identificar a informação relevante dentro de vastas coleções médicas disponíveis
atualmente [11]. Neste trabalho, nos concentramos neste último problema, ou seja, como me-
lhorar a qualidade das respostas retornadas para consultas de usuários interessados em coleções
médicas.
Uma abordagem padrão para o problema é selecionar uma boa técnica de recuperação de
informação (RI) e aplicá-la ao domínio médico. Neste trabalho, avaliamos a efetividade desta
estratégia usando uma coleção de referência médica, chamada OHSUMED [6], bastante difun-
dida na área de RI médica. Estudamos também uma abordagem alternativa que consiste em
desenvolver um arcabouço que permita combinar técnicas de RI com conhecimento obtido no
domínio médico. Consideramos uma forma específica de conhecimento médico que é a infor-
mação sobre doenças contida nos documentos da coleção médica. Dada uma coleção médica, a
informação sobre doenças pode ser gerada através do assinalamento de códigos CID (Classifi-
cação Internacional de Doenças) aos documentos da coleção. Isto pode ser realizado de forma
automática e com grande eficiência [8, 12], conforme discutiremos mais tarde. A partir da
informação sobre doenças vinculada aos documentos médicos (através de códigos CID), estu-
damos o problema de como aumentar a qualidade das respostas geradas, isto é, como aumentar
o desempenho da recuperação de informação.
Para combinar a informação derivada dos códigos CID com a informação contida nos textos
dos documentos, que é a informação utilizada pelos algoritmos de ordenação tradicionais de RI,
adotamos o arcabouço de Redes Bayesianas de Crenças [13, 14]. Redes Bayesianas de Crenças
são úteis porque elas permitem combinar fontes de evidência distintas de uma maneira consis-
tente. Além disso, elas provêem uma ferramenta de modelagem intuitiva que facilita capturar a
influência de parâmetros-chave do problema que está sendo modelado. O arcabouço Bayesiano
que adotamos conduz a um novo método para ordenação (ranking) dos resultados que tira van-
tagem não só da informação textual do documento, mas também da informação relacionada a
doenças existente nos documentos. Através de experimentação, mostramos que esse método
leva a uma melhoria no desempenho da recuperação de informação. Quando somente consultas
que são fortemente relacionadas a doenças são consideradas, a melhoria na qualidade (precisão)
das respostas foi acima de 84%, quando comparada a métodos de RI tradicionais.
Em resumo, este trabalho apresenta um modelo que combina técnicas tradicionais de RI e
categorização automática de documentos textuais no processo de recuperação de informação
médica, melhorando consideravelmente a qualidade (precisão) das respostas em coleções bi-
bliográficas médicas. O artigo é organizado como se segue. Na Seção 2, discutimos trabalhos
relacionados. Na Seção 3, descrevemos brevemente o algoritmo de categorização automática de
documentos médicos que utilizamos. Na Seção 4, descrevemos nossa função de ordenação de
documentos e algumas de suas variações. Na Seção 5, discutimos os resultados experimentais
encontrados utilizando a coleção de referência OHSUMED. Na Seção 6, apresentamos nossas
conclusões.
2 Trabalhos Relacionados
Categorização automática de documentos pode ser definida resumidamente como o pro-
cesso de assinalar categorias de uma taxonomia, previamente definidas, a documentos através
da comparação de cada categoria com as características textuais contidas no documento. At-
ualmente, a categorização automática é usada em diferentes aplicações como classificação, fil-
tragem, e recuperação de informação. Aplicações relacionadas a recuperação de informação,
em particular, vêm recebendo uma atenção especial, como descrevemos a seguir.
Yang e Chute propuseramum método, chamado de Redes Especialistas [18], para a cate-
gorização e recuperação de textos. Esse método usa um conjunto de documentos manualmente
categorizados como uma base de treino para aprender a associação categoria-palavra. Tal as-
sociação então é aplicada para vincular categorias a documentos arbitrários baseando-se nas
palavras encontradas nesses documentos.
Uma outra abordagem, proposta por Lam et al. [7], também consiste em um método au-
tomático de categorização e recuperação de informação. O método de categorização é derivado
do paradigma de máquinas de aprendizado conhecido como aprendizado baseado em instân-
cias. O método de recuperação de informação computa dois rankings: um para o texto do
documento e o outro para as categorias do documento. Essa abordagem propõe somar ambos
os rankings para gerar uma ordenação final. A cada ranking é associado um peso pré-definido
de forma a controlar o impacto do mesmo sobre o ranking final.
Nosso trabalho está relacionado com esses métodos, porém usamos técnicas diferentes para
a categorização e recuperação de documentos. A categorização automática de documentos
usada por nós é a proposta pelo modelo HiMeD [9, 10, 8, 12] e usamos Redes Bayesianas
de Crenças [13, 14, 16, 17] para unir os rankings gerados pelo texto e pelas categorias do
documento. Redes Bayesianas de Crenças oferecem o formalismo adequado para representar,
quantificar, e combinar duas ou mais fontes de evidências no cálculo de um ranking para os
documentos que pertencem ao conjunto de respostas. Neste trabalho, usamos esse método para
representar e combinar evidências de informações baseadas em conceitos e em textos de forma
similar como discutido em [13, 16].
3 O Modelo HiMeD
Nesta seção, apresentamos uma descrição resumida do Modelo Hierárquico para Catego-
rização Automática de Documentos Médicos (modelo HiMeD), proposto em [9, 10, 8, 12] e
que serve como um dos pilares de sustentação do método de fusão proposto neste trabalho. A
idéia desse modelo surgiu a partir da observação de que os especialistas em codificação médi-
ca resolvem grande parte dos seus problemas de assinalar códigos de doenças a documentos
médicos comparando o conteúdo desses documentos com o conteúdo de um índice alfabético
hierárquico existente em um padrão de codificação, como, por exemplo, a Classificação Inter-
nacional de Doenças da Organização Mundial de Saúde, revisão 9 (CID-9) [4], e da constatação
de que os modelos clássicos de recuperação de informação não se aplicam de forma adequada
a esse problema, pois não consideram essa hierarquia de termos na sua resolução.
Para compreendermos o modelo proposto, é essencial entender a organização estrutural da
CID-9. A CID-9 é organizada de forma hierárquica em quatro níveis de código, chamados
de Capítulo, Seção, Categoria e Subcategoria, sendo os níveis de Categoria e Subcategoria
utilizados em geral como códigos de referência de classificação por possuírem maiores detalhes
de doenças, lesões e óbitos.
I�
D� oenças Infecciosas e Parasitárias

I� .1
Doenças Infecciosas Intestinais

0� 01
Cólera

0� 01.0
Devido ao Vibrio Cholerae

0� 01.1
Devido ao Vibrio Cholerae el Tor

0� 01.9
Não Especificada

(a)
Cólera 001.9

-
Antimonial 985.4

-
Clássica 001.0

-
el Tor 001.1

-
Indefinida 001.9

-
Vibrio

-
Cholerae 001.0

-
el Tor 001.1

(b)
Figura 1: Lista Tabular e o Índice Alfabético da CID-9.
A proposta CID-9 é apresentada em dois documentos básicos: a Lista Tabular, onde os códi-
gos e suas descrições são apresentadas, conforme mostra a Figura 1(a), e o Índice Alfabético
Hierárquico, onde os conjuntos de termos associados aos códigos CID-9 correspondentes são
apresentados, conforme mostra o exemplo da Figura 1(b). Nesse exemplo, a última linha iden-
tifica a doença Cólera devido ao Vibrio Cholerae El Tor que corresponde à categoria 001 e à
subcategoria 001.1.
Para modelar o problema de codificação automática de documentos médicos, o modelo
HiMeD propõe basicamente os seguintes conceitos:
1. Um índice hierárquico de um vocabulário controlado �
, cujos termos indexam códi-
gos médicos, é representado por um grafo dirigido acíclico �
��������� , onde �
���
�
���
�
���
�
���ﬀ�ﬁ�ﬂ� é um conjunto de vértices e � é um conjunto de arestas direcionadas que
conectam vértices de � . A notação ﬃ �"!#
%$&���'����!(�*)+ﬃ �"!-, é usada para referenciar uma ares-
ta ﬃ �"! que conecta os vértices ��� e ��! com grau de confiança )+ﬃ �"! . Os vértices �.� e �/! são
extremos da aresta ﬃ0�1! . O vértice ��� é chamado de vértice-pai de ��! . Um vértice sem pai
é chamado de vértice-raiz. O vértice ��2 é o vértice-pai de todos os vértices-raízes. Para
cada vértice ���435� , é associado um único termo t( ��� ) de �
. Para cada aresta ﬃ0�1! são
associados um conjunto 67�"! de sinônimos 8�9 � �:8�9 � ���ﬁ�ﬀ�ﬀ�:8�9<;(= , onde >?8A@CB , e um conjunto
de tuplas �D�"!E
F�+$<G � �*)+G � ,-��$&G � �*)+G � ,:���ﬀ�ﬁ�ﬀ��$<GH;�I*�*)+G:;/I�,:� , onde >?GJ@%B , G-K é um código de �
e )+G:K é o grau de confiança do código G:K na hierarquia de termo definida por ﬃ �"! . Os
conjuntos 67�1! e �L�1! especificam todos os sinônimos e os códigos de M�$&��!/, no contexto da
associação $NM�$N�.�N,-�*M�$N�/!-,*, .
2. Um caminho O é uma seqüência de arestas $&ﬃ0K:P&KRQ��Hﬃ0KRQ'KRS����ﬀ�ﬁ�ﬀ�Hﬃ0K�TRUVPWK T , , onde ��K � é o vértice-
pai da seqüência e as arestas consecutivas compartilham vértices extremos. O número X
de vértices no caminho O é o tamanho do caminho. A aresta ﬃ0K T*U�P K T é chamada de aresta
terminal de O .
3. Uma consulta especializada é um documento médico representado pelo conjunto Y#ZL
��8([
�
���ﬀ�ﬁ�ﬀ�:8([/;\� , onde >]@_^ . Cada 8([/� é uma seção do documento médico e é representado
por uma tupla $&`a�'�R)b8/�<�:6cMed/�N, , onde `a� é o rótulo da seção, )f8�� é o grau de confiança de
que a seção 8([/� possui e 6cMed/� é o texto da seção.
4. Um assinalamento de códigos para uma consulta especializada Y#Z é um conjunto de
tuplas �g�h
�+$<Y#Z:�HG � ��d � ,:��$<Y#Z:�HG � ��d � ,-���ﬀ�ﬁ�ﬀ��$&Y#Z-��G:;/i.�*d/;�i�,:� , onde G-K é um código de clas-
sificação de �
, assinalado para a consulta, d/K é o grau de certeza que quantifica essa
codificação e >?ﬃj@kB . No modelo, BJlmd�KD@n^ , é calculado por:
d�Kg
%oﬀ$*$
XqprXbst�u;
XbscievapwXbst�u;
,#xy$e^zp|{JK�,*,�}\~$&{JK�,#xrK
onde XK é o tamanho do caminho ; Xbst�u; e Xbsiv são respectivamente o menor e o maior
tamanho do conjunto de todos os caminhos encontrados, sendo d�KA
^ se no conjunto
de caminhos encontrados só existirem caminhos do mesmo tamanho e XpXbst�u;j
^ , se
XA
Xfs�us ; {hK é um fator de decremento que depende do tipo de processamento usado; e
K é o grau de confiança total do código G-K , calculado por:
Ka
m)fG:KDxw)f8�KDx|$N)+ﬃ Ł
P
Ł
Q
x)+ﬃ Ł
Q
Ł
S
x�ﬀ�ﬀ�xw)+ﬃ0Ł
TRUVP
ŁT�,
O algoritmo básico de assinalamento que utiliza os componentes do modelo HiMeD é sucin-
tamente descrito a seguir.
Para cada seção 8([H! de um documento médico Y#Z faça:
1. Substitua cada sigla ou sinônimo geral existente no texto da seção 8([H! pelos seus textos
especializados.
2. Processe o texto da seção 8([H! seqüencialmente verificando quais dos seus termos estão
associados a um vértice-pai do grafo � que representa �
.
3. Para cada vértice-pai encontrado, determine o maior e o menor caminho entre todos os
caminhos possíveis que satisfaça a seguinte condição: para cada aresta ﬃ �"! num caminho,
os termos M�$&���N, e M�$N�/!�, aparecem ambos numa mesma janela do texto de tamanho ou
seus respectivos sinônimos vinculados em 67�"! .
4. Considerando todos os conjuntos encontrados de maior caminho, assinale ao documen-
to médico Y#Z todos os códigos de -
pertencentesaos conjuntos � de todas as arestas
terminais desses conjuntos.
Vários experimentos de codificação automática baseados no modelo HiMeD, usando a CID-
9 como vocabulário controlado de referência, foram realizados (ver detalhes em [8, 10]). Nesses
experimentos, foram usados dois algoritmos de assinalamento. O primeiro trata a codificação
automática como um problema convencional de recuperação de informação, onde o documento
médico é a consulta e os códigos são os objetos a recuperar. O modelo vetorial foi então
utilizado para quantificar graus de relevância entre os códigos e os documentos médicos. O
segundo trata os documentos médicos e o índice alfabético da CID-9 como componentes do
modelo HiMeD definidos anteriormente.
Vale observar que todos os resultados experimentais obtidos evidenciaram que para essa
aplicação o modelo HiMeD apresentou boas curvas de precisão e ganhos relevantes em relação
aos resultados apresentados pelo modelo vetorial no processo de codificação automática de
documentos médicos.
4 Usando as Evidências da CID para Melhorar a Recuperação de Informação
Neste trabalho, temos como objetivo investigar como o conhecimento derivado de infor-
mação sobre doenças associadas a documentos médicos (i.e., informação sobre códigos CID)
pode melhorar o desempenho da recuperação de informação. Abordamos esse problema através
da combinação de evidências fornecidas pelo modelo vetorial com as evidências oriundas da
categorização CID e investigamos os ganhos obtidos no processo de recuperação de informação.
Para combinarmos estas duas fontes de evidências, usamos uma Rede Bayesiana de Crenças.
Neste caso, Redes Bayesianas de Crenças são úteis, pois permitem combinar fontes distintas de
evidências de uma forma consistente e provêem uma ferramenta de modelagem intuitiva que
facilita a captura (no modelo) da influência dos parâmetros chaves do sistema. Além disso, esse
modelo já foi usado com sucesso em várias coleções de referência no passado [13, 14, 16].
Para isso, usaremos o modelo de Redes Bayesianas de Crenças discutido em [13]. Nesse
modelo, as evidências que provêem do modelo vetorial clássico são enriquecidas com infor-
mação sobre doenças associada a documentos da coleção. Para isto, expandimos a rede de
crenças para incluir evidências vindas das categorias CID. A Figura 2 ilustra a rede expandida.
O lado direito da rede modela os códigos CIDs (representados pelos nodos G: ) e seus rela-
cionamentos com a consulta (representados pelo nodo �I&'= ). No lado esquerdo da rede, o nodo
da consulta é representado por �
ZI e os nodos dos documentos representados por K , permitin-
do assim a distinção entre as representações das consultas e dos documentos. Um nodo extra
é adicionado no topo da rede para representar a combinação das evidências do modelo vetorial
(através do nodo �
Z<I ) e as evidências das categorias CID (através do nodo /IN�= ). Nodos extras
and
. . . . . .
. . . . . . . . .
. . .
. . .. . .
q
k
d
k
1
d d d
1
d d
N c c c
N
1 j N
c c c
q cos
j
d d d

k
j k
k
and
q
vec
k

or oror
Figura 2: Rede Bayesiana expandida com evidências das categorias CID.
�! também são inseridos abaixo da rede para representar o fato de que um documento .! con-
sidera evidências do modelo vetorial (através do nodo 0K< ) ou evidências das categorias CID
(através do nodo 0Iﬀ ). Observe que a evidência do lado da consulta é combinada através de um
operador conjuntivo, enquanto que a evidência do lado do documento é combinada através de
um operador disjuntivo. Esse método funciona melhor desta forma, como discutido em [13, 16].
Seja o estado que representa o conjunto de nodos-raiz V� , e seja � o estado que representa
o conjunto de nodos-raiz G- . Para cada nodo V� , é associado uma variável randômica binária V�
de forma que a variável V� é 1 para informar que o nodo V� está ativo, e a variável � é 0 para
informar que o nodo V� está inativo. O mesmo é feito para os nodos G: . Para o lado esquerdo da
rede, consideramos apenas os estados � tal que
¡
¢�7£¥¤¦).�e$N§,�
5^©¨¡)�!/ª
«
��$N7,�
B
onde ).�e$N§, é uma função que retorna o valor da 9 Łﬂ¬ variável no vetor .
Na Figura 2, o rank O¥$<�! V, associado com o documento �! é calculado através dos estados
básicos dos nodos-raiz e aplicando as regras de Bayes como segue.
Oj$&�!V V,®
Oj$&.!c¨AV,
Oj$N ,
¯±° ²
�
Oj$&.!V ³���+,tO¥$& ³���+,?O¥$&7,tO¥$&�+,
¯
°
²
�
o´^gpµ$e^zpyOj$&0K 7,R,/$^±pOj$&IﬀV �f,R,e}fOj$N�
ZI� 7,tO¥$&�I&'=( �+,tO¥$&7,³Oj$N�f, (1)
onde ¯ é uma constante de normalização. Para calcular as diversas probabilidades condicionais
na Equação (1), nos baseamos na semântica que desejamos capturar.
Considere a situação em que dois documentos, 0v e ¶ , contêm exatamente o mesmo con-
junto de termos da consulta. Ademais, assuma que os termos da consulta no documento v
levem a um código CID e que o mesmo não ocorra para o documento 0¶ (i.e., nenhum código
é associado ao documento ¶ ). A Figura 3 ilustra uma situação onde isto ocorre. Neste caso,
t 1 t 2
t 1
t 2
dx dy
codigo CID
consulta q: t , t
sem codigo
CID
21
ac
Figura 3: Dois documentos, v e ¶ , contém os termos da consulta mas apenas um deles 0v leva
a um código CID.
esperamos que o documento v tenha um rank final combinado maior que o rank para o docu-
mento ¶ (pois Oj$&0v+ �+,D·_Oj$&0¶0 �+, ), porque ele inclui uma evidência adicional sobre doenças
que não se encontra no documento ¶ . Portanto, pode ser que O¥$< vf ,J·FO¥$< ¶0 , . Todavia,
isto não é garantido pela Equação (1), pois os termos Oj$& vf 7, e Oj$& ¶\ 7, podem ser influen-
ciados por vários fatores, tais como: (a) a freqüência de M � e M � nos dois documentos pode ser
diferente e (b) o fator de normalização 1 vf e 1 ¶ também pode ser diferente. Para evitar estes
efeitos, adotamos uma variação do modelo vetorial que não inclui informação nem de freqüên-
cia de termos nem de normalização pelo tamanho do documento [15] e utilizamos esta variação
do modelo vetorial para calcular a ordenação dos documentos no lado direito da rede. Como
resultado, definimos as probabilidades O¥$&-
ZI� 7, e O¥$<0KV 7, da seguinte forma:
O¥$&�
Z<I� 7,¸
¹kº
�´» se
¢� e ).�e$N ,�
5^
B caso contrario (2)
Oj$&�!'¼ 7,¸
¹kº
�"! se ¡
µ� e )���$<�!-,½
5^
B caso contrario (3)
onde
º
�´» e
º
�"! são computados como
º
�´»¾
À¿ﬁÁ ÂÄÃ
;�
�sivbÅ
º
�"!±
¿ÆÁ Â4Ã
;/
scievb
(4)
onde Ç é o número de documentos na coleção, >7� é o número de documentos em que o termo
9 ocorre, �siev é a maior norma dentre as consultas e 0siev é a maior norma dentre os do-
cumentos da coleção. Note que as Equações (4) não incluem informação sobre a freqüência de
um termo no documento .! , nem informação sobre a norma (ou tamanho) do documento �! .
No lado direito da rede, a probabilidade Oj$N/IN�=� �+, quantifica o relacionamento entre cate-
gorias CID e a consulta . Quanto maior for a cobertura das categorias CID na consulta , mais
relacionada a doenças estará a consulta. Isto é importante, porque não esperamos um melhor
desempenho na recuperação de informação (i.e., na qualidade do ranking) através das catego-
rias CID, se a consulta não estiver relacionada a doenças. Para quantificar esse relacionamento
de cobertura, usamos o número de termos em comum entre a consulta e os códigos CID, como
segue.
Seja G�È.[�8$&V, uma função que retorne o conjunto de códigos gerado pelo algoritmo de co-
dificação para a consulta (i.e., a função G�È.[�8$&V, executa o algoritmo no texto da consulta
e retorna o conjunto de códigosgerados). Considere os É-Ê estados possíveis para o conjunto
� com X nodos-raiz. Ao invés de considerarmos os estados nos quais um único nodo-raiz está
ativo em um determinado instante (como feito para o lado esquerdo da rede), usamos apenas um
estado simples que inclui todos os códigos G: no conjunto G�È.[�8$&V, . Isto é feito para simplificar
o cálculo do relacionamento de cobertura. Definimos o estado ��» do conjunto � dos nodos-raiz
como:
�h
µ�.»Ë8([
¹
)V<$N�f,�
5^ÍÌ§Î� G-?3rG�È.[�8\$N ,
)V<$N�f,�
¢B caso contrário (5)
A equação (5) define ��» como um estado de � que contém os nodos G-Ï3G�È.[�8\$N , ativos e os
nodos G:¾Ð3]G-È.\[�8$N , inativos.
Para cada G-?3rG�È.[�8\$N , , seja ÑÒ0Ó um vetor de termos com pesos binários, onde o peso de cada
termo é 1 para indicar que o termo está associado ao código G- (de acordo com a hierarquia CID),
e 0 caso contrário. Além disso, seja ÑÔ7ÕeÖ-× um vetor de termos com pesos binários, onde cada peso
é 1 para indicar que o termo ocorre na consulta , e 0 caso contrario. O produto ÑÒ0Ó0Ø ÑÔ7ÕeÖ-× provê
a medida de relacionamento de cobertura entre os conceitos G- e /IN�= . Pretendemos identificar o
código G: que melhor cobre a consulta e, assim, que melhor defina a doença associada com a
consulta . Para obter este efeito, definimos:
O¥$&�I&'=( �+,®
¹ÚÙ
ﬃ ÛfÜ�ﬁÝ Þ'ßﬀàá
*â
«
� ã
Õ
ßuä
ã
å�æÆç&è
Ý
ã
Õeéfê�ë
ÝíìfÝ
ã
å-æÆç&è
Ý
se �h
µ�.»
B caso contrário
(6)
Oj$
I&'=
�+,®
^±p|Oj$N/IN�=� �+,
Note, que usamos a norma G:sievb , ao invés da norma 1G:� , pois queremos medir o relacionamento
de cobertura que considera apenas a consulta .
Para a probabilidade O¥$<�! �+, , estamos interessados em uma forma um pouco diferente de
relacionamento de cobertura. Ao invés de simplesmente considerarmos os termos em comum,
consideramos o relacionamento de cobertura entre os códigos associados com a consulta e
os códigos associados com o documento �! . Este é um ponto importante, pois um código G- ,
onde G-�3|G-È�[�8$&V, , pode ter termos em comum com o documento �! mesmo que esse código
não esteja associado com �! (como ilustrado na Figura 3). Assim, devemos nos concentrar no
relacionamento de cobertura entre G-È�[�8$&V, e G�È.[�8$<�!-, . Para isto, definimos:
Ñ
î
å : vetor de pesos de códigos associados com G:§3]G-È.\[�8$N , ,
Ñ
ï
Õñð : vetor de pesos de códigos associados com G-73]G-È�[�8$<�!-, ;
Os pesos dos códigos não consideram a freqüência dos códigos, pois não é relevante, mas
têm um componente 9eò , computado sobre o conjunto de todos os códigos assinalados para
todos os documentos na coleção. Isto nos leva a um ranking da forma:
O¥$<0Iﬀ �+,¸
ó
ô õyö1÷�øÄù
ú
æ

Ý »
éfê�ë
Ý
se �J
k��»
B caso contrário
(7)
O¥$ Iﬀ0 �+,¸
^zpyO¥$<0Iﬀ �+,
Nû úmero de
Documentos

Nû úmero de
Termos
Dü instintos

Mý édia de
Termos por
Dü ocumento

Nû úmero de
Consultas
Eþ xemplo

Mý édia de
Termos por
Consulta

233,445

159,910

142.7

6.9

Tabela 1: Características do Banco de Dados
onde Ç é o número de documentos na coleção, >?GH� é o número de documentos em que a cate-
goria 9 ocorre, �siv é a maior norma dentre as consultas e 0siev é a maior norma dentre os
documentos da coleção.
Finalmente, as probabilidades a priori Oj$N�f, e O¥$&7, são atribuidas como constantes.
5 Resultados Experimentais
Primeiramente apresentaremos a coleção médica de referência usada em nossos experimen-
tos. A seguir, discutiremos nossos resultados experimentais obtidos.
5.1 A Coleção Médica de Referência
A coleção médica de referência usada nos nossos experimentos foi a coleção OHSUMED [6].
A coleção OHSUMED contém 348.566 referências, que são derivadas de um subconjunto de
270 periódicos encontrados na seção KF MEDLINE Primary Care da MEDLINE [5], cobrindo
os anos de 1987 até 1991. A coleção inclui 106 consultas-exemplo que foram geradas por
médicos durante consultas de pacientes. Para cada consulta-exemplo, ao menos um documento
relevante está associado (identificado por especialistas). Cada consulta é formada por uma pe-
quena descrição do estado do paciente, seguido por uma descrição da informação solicitada. A
coleção também inclui julgamento de relevância para cada consulta-exemplo. Cada avaliação
de relevância indica um documento como relevante, possivelmente relevante, ou irrelevante.
Em nossos experimentos, foram usados apenas documentos com resumo. Isto gerou uma sub-
coleção com 233.445 documentos e 93 consultas com pelo menos um documento relevante (veja
Tabela 1). A decisão de descartarmos documentos sem resumo é baseada no fato de que tais
documentos possuem pouca informação, impossibilitando a sua classificação, como relevante
ou não, através de um meio computacional.
A Figura 4 quantifica o relacionamento entre as categorias CID e cada uma das 93 consultas-
exemplo da coleção, de acordo com a Equação (7). Este relacionamento será referenciado aqui
como “fator de relação CID-consulta” (ou simplesmente, fator-relação-CID). Como podemos
ver, 14 das consultas não estão relacionadas com doenças (fator-relação-CID = 0) e 69 consultas
possuem algum relacionamento com doenças (fator-relação-CID · 0). Destas 69 consultas
relacionadas com doenças, 55 possuem um bom foco em doenças (fator-relação-CID @ 0.5) e 10
estão altamente relacionadas a doenças (fator-relação-CID @ 0.8). As 69 consultas relacionadas
com doenças são o foco dos nossos experimentos.
5.2 Análise dos Resultados
Nesta seção, analisamos os resultados dos nossos experimentos. Eles são mostrados em termos
de revocação e precisão, que são duas medidas quantitativas, utilizadas para comparar as res-
0
0.2
0.4
0.6
0.8
1
0 10 20 30 40 50 60 70 80 90
Consultas
Fator-relacao-CID da consulta
Figura 4: Variação do fator-relação-CID para as 93 consultas de teste. As consultas estão
ordenadas de forma decrescente de acordo com o fator-relação-CID.
0
20
40
60
80
100
0 10 20 30 40 50 60 70 80 90 100
Pr
ec
is
ao
ß
Revocacao
fator-relacao-CID > 0
Vetorial
Vetorial+CID
Figura 5: Precisão média para os ranks vetorial e vetorial+CID. Apenas as 69 consultas rela-
cionadas com doenças foram consideradas.
postas geradas por um algoritmo automático com as respostas indicadas por especialistas na
área em questão (que são os chamados “documentos relevantes”). Precisão é uma medida da
fração de documentos na resposta (gerado por um algoritmo) que são relevantes. Revocação
é uma medida da fração de documentos relevantes (ou seja, dos documentos indicados pelos
especialistas) que foram recuperados pelo algoritmo sendo avaliado. Maiores detalhes podem
ser obtidos em [2].
A Figura 5 ilustra a qualidade da recuperação de informação, em termos de revocação e
precisão, para os rankings gerados com base no modelo vetorial clássico e com base no modelo
vetorial enriquecido com evidências dos códigos CID (vetorial+CID) em nossa rede de crenças.
Foram considerados apenas 69 consultas-exemplo que possuem algum relacionamento com
doenças (i.e., fator-relação-CID · 0). Ganhos na qualidade da recuperação de informação,
através de códigos CID, não são esperados onde a consulta não está relacionada com doenças.
De fato, para 14 consultas (de um total de 93), que não estão relacionadas a doenças, a qua-
lidade das respostas para o ranking vetorial+CID coincide com a qualidade das respostas da
Precisão média para 69 consultas(fator
-
relação
-
CID>0)

Revocação

Vetorial

Vetorial+CID

Ganho

0.00%

49.28

52.38

6.31%

10.00%

42.68

48.81

14.38%

20.00%

36.04

43.74

21.34%

30.00%

32.65

38.9519.27%

40.00%

30.81

34.09

10.63%

50.00%

23.53

28.57

21.39%

60
.00%

20.66

27.64

33.75%

70.00%

16.74

24.69

47.45%

80.00%

14.88

20.74

39.34%

90.00%

12.70

18.37

44.42%

100.00%

5.54

10.84

95.63%

Média

25.96

31.71

22.16%

Tabela 2: Precisão média para as 69 consultas relacionadas a doenças.
recuperação para o ranking gerado pelo modelo vetorial clássico (veja Equação 1).
Na Figura 5, podemos observar que o ranking vetorial+CID é sempre superior para a nossa
coleção. A Tabela 2 detalha esses resultados. Tais resultados mostram que adicionando uma
nova fonte de evidência, baseada no modelo HiMeD, à evidência oriunda do texto dos documen-
tos obtém-se resultados superiores. O ganho médio de precisão é superior a 22%, neste caso.
Outra observação importante, é o fato de a revocação média final (calculada sobre todas as 69
consultas) para o ranking vetorial+CID ser 7% maior do que para o ranking gerado pelo mod-
elo vetorial clássico. Isto ocorre devido ao fato de que os códigos CID (evidência de doenças)
permitem encontrar novos documentos que estão relacionados com a consulta do usuário, e que
não são retornados quando apenas a evidência de termos é usada.
Em relação às consultas que estão mais relacionadas com doenças, a Figura 6 ilustra o de-
sempenho da recuperação de informação para os modelos vetorial e vetorial+CID, onde apenas
as consultas com fator-relação-CID � 0.5 são consideradas (i.e., 55 consultas-exemplo). A
Tabela 3 detalha esses resultados. Novamente observamos que o ranking vetorial+CID é sem-
pre superior em termos de precisão que o ranking gerado pelo modelo vetorial clássico. Além
disso, o ganho relativo em termos de precisão é maior para essas 55 consultas do que para o
conjunto de 69 consultas relacionadas a doenças. A razão para este ganho maior é o aumen-
to de relevância das doenças nessas 55 consultas. Isto sugere que quanto mais relacionada a
doenças a consulta for, melhores os ganhos obtidos pelo nosso método de rede estendida, o que
é confirmado pelos resultados descritos a seguir.
A Figura 7 ilustra o desempenho da recuperação, em termos de revocação e precisão, para
as 10 consultas com um fator-relação-CID � 0.8. A Tabela 4 detalha esse resultado. Para
essas 10 consultas, o ranking vetorial+CID obtém um ganho de 84,92% na precisão média,
em comparação ao ranking vetorial. A revocação média para o ranking vetorial+CID é 12,5%
maior que o obtido pelo ranking vetorial clássico. A Tabela 5 mostra a média de revocação para
cada um dos três conjuntos de consultas (selecionadas pelo fator-relação-CID).
0
20
40
60
80
100
0 10 20 30 40 50 60 70 80 90 100
Pr
ec
is
ao
ß
Revocacao
fator-relacao-CID >= 0.5
Vetorial
Vetorial+CID
Figura 6: Precisão média para os rankings vetorial e vetorial+CID, restrito as 55 consultas com
fator-relação-CID @ 0.5.
Precisão média para 55 consultas(fator
-
relação
-
CID>=0.5)

Revocação

Vetorial

Vetorial+CID

Ganho

0.00%

38.77

49.97

28.89%

10.00%

35.32

47.71

35.06%

20.00%

31.19

43.09

38.13%

30.00%

29.26

37.14

26.89%

40.00%

25.46

30.68

20.51%

50.00%

21.51

26.66

23.93%

60.00%

20.33

25.76

26.66%

70.00%

17.86

23.60

32.12%

80.00%

15.46

19.91

28.72%

90.00%

14.40

18.31

27.47%

100.00%

7.81

10.34

32.28%

Média

23.40

30.29

29.45%

Tabela 3: Precisão média para as 55 consultas com fator-relação-CID � 0.5.
0
20
40
60
80
100
0 10 20 30 40 50 60 70 80 90 100
Pr
ec
is
ao
�
Revocacao
fator-relacao-CID >= 0.8
Vetorial
Vetorial+CID
Figura 7: Precisão média para os rankings vetorial e vetorial+CID, restrito as 10 consultas com
fator-relação-CID � 0.8.
Precisão média para 10 consultas (fator
-
relação
-
CID >=0.8)

Revocação

Vetorial

Vetorial+CID

Ganho

0,00%

30,52

49,91

63,56%

10,00%

22,77

53,75

136,02%

20,00%

25,35

51,29

102,29%

30,00%

18,39

42,10

128,88%

40,00%

20,45

37,46

83,20%

50,00%

17,60

32,08

8
2,25%

60,00%

17,25

29,64

71,80%

70,00%

16,16

28,49

76,37%

80,00%

15,08

24,95

65,46%

90,00%

15,13

20,71

36,89%

100,00%

9,84

15,22

54,68%

Média

18,96

35,05

84,90%

Tabela 4: Precisão média para as 10 consultas com fator-relação-CID � 0.8.
Revocação média para cada conjunto de consulta

Fator
-
relação
-
CID

V� etorial

V� etorial+CID

Ganho

> 0

82.60%

88.40%

7.00%

>= 0.5

81.81%

87.27%

6.67%

>= 0.8

80.00%

90.00%

12.50%

Tabela 5: Revocação média para cada conjunto de consultas
6 Conclusão
Descrevemos um arcabouço para combinar evidências derivadas de textos de documentos
médicos com evidências derivadas de doenças relacionadas a esses documentos. A informação
sobre doenças é gerada através de um algoritmo de categorização automática, que assinala códi-
gos CID aos documentos de uma coleção médica.
Nosso arcabouço foi baseado em Redes Bayesianas de Crenças. Redes Bayesianas de
Crenças são úteis, pois permitem combinar fontes distintas de evidências de uma forma con-
sistente. O arcabouço Bayesiano que propusemos produz um novo método para cálculo de
ranking que leva em consideração a informação sobre o texto dos documentos médicos e a
informação de doenças relacionadas a esses documentos. Através de experimentos com uma
coleção de referência médica (a coleção OHSUMED), avaliamos a eficiência da nossa abor-
dagem. Avaliamos três conjuntos de consultas distintos. Em todos os três casos, nosso método
melhorou a qualidade da recuperação quando comparado com o método padrão de RI (o modelo
vetorial, que adotamos como base de comparação). Quando consideramos consultas fortemente
relacionadas a doenças, o aumento médio na qualidade da recuperação chegou a 84%. Nossos
resultados mostram a importância de considerarmos informações médicas especializadas em
sistemas médicos de recuperação de informação.
Além de aumentar a qualidade da recuperação, o algoritmo de assinalamento automático de
códigos CID gera uma hierarquia de categorias que possui mais de 5.000 doenças (as mesmas
da hierarquia CID). Esta hierarquia pode ser usada, a princípio, para desenvolver uma interface
Web baseada em um diretório de doenças para máquinas de busca médicas. Em um futuro
próximo, pretendemos experimentar tal hierarquia para facilitar o acesso a informação médica
relevante.
Agradecimentos
Este trabalho é parcialmente financiado pelo projeto SIAM (MCT/CNPq/PRONEX processo no
¯
00418.00/00). Os autores também agradecem o suporte financeiro do CNPq e CAPES.
Referências
[1] AALBERSBERG, I. Incremental relevance feedback. In Proc. of the 15th ACM SIGIR Con-
ference on Research and Development in Information Retrieval (Copenhagen, Denmark,
1992), pp. 21–24.
[2] BAEZA-YATES, R., AND RIBEIRO-NETO, B. Modern Information Retrieval. Addison
Wesley Longman, Harlow, England, 1999.
[3] CHU, H., AND ROSENTHAL, M. Search engines for the World Wide Web: A compa-
rative study and evaluation methodology. In ASIS 1996 Annual Conference Proceedings
(Baltimore, MD, 1996), pp. 127–135.
[4] CID-OMS. Classificação Internacional de Doenças, Revisão 9 (Volumes 1 e 2). EDUSP
- Editora Universidade de São Paulo, Organização Pan-Americana de Saúde, São Paulo,
Brazil, 1980.
[5] HAYNES, R. B., MCKIIBBON, K. A., WALKER, C. A., AND SINCLAIR, J. C. On-
line Access toMEDLINE in Clinical Setting. A Study of Use and Usefulness. Annals of
Internal Medicine, 112 (1990), 78–84.
[6] HERSH, W., BUCKLEY, C., LEONE, T., AND HICKAM, D. OHSUMED: An Interac-
tive Retrieval Evaluation and New Large Test Collection for Research. In Proc. of 17th
ACM SIGIR Conference on Research and Development in Information Retrieval (Bublin,
Ireland, 1994), pp. 192–201.
[7] LAM, W., RUIZ, M., AND SRINIVASAN, P. Automatic Text Categorization and its A-
pplication to Text Retrieval. IEEE Transactions on Knowledge and Data Engineering 11,
6 (1999), 865–879.
[8] LIMA, L., LAENDER, A., AND RIBEIRO-NETO, B. A Hierarchical Approach to the
Automatic Categorization of Medical Documents. In Proc. of the 7th ACM CIKM Con-
ference on Information and Knowledge Management (Bethesda, Maryland, USA, 1998),
pp. 132–139.
[9] LIMA, L. R. S., LAENDER, A. H. F., AND RIBEIRO-NETO, B. A. Um Modelo para
Recuperação de Informação Especializada Aplicado a Bases de Dados Médicas Semi-
Estruturadas. In Anais do XII Simpósio Brasileiro de Banco de Dados - SBBD’97 (For-
taleza, CE, 1997), pp. 214–256.
[10] LIMA, L. R. S., LAENDER, A. H. F., AND RIBEIRO-NETO, B. A. Codificação Au-
tomática de Documentos em Bases de Dados Médicas: Um Estudo Comparativo. In Anais
do XIII Simpósio Brasileiro de Banco de Dados - SBBD’98 (Maringá, PR, 1998), pp. 269–
283.
[11] PESTOTNIK, S. L. Medical informatics: Meeting the information challenges of a chang-
ing health care system. Journal of Informed Pharmacotherapy 2, 1 (2000).
[12] RIBEIRO-NETO, B., LAENDER, A., AND LIMA, L. An Experimental Study in Automa-
tically Categorizing Medical Documents, journal = Journal of the American Society for
Information Science and Technology, year = 2001, volume = 52, number = 5, pages =
391-401.
[13] RIBEIRO-NETO, B., AND MUNTZ, R. A Belief Network Model for IR. In Proc. of the
19th ACM SIGIR International Conference on Information Retrieval (Zurich, Switzerland,
1996), pp. 253–260.
[14] RIBEIRO-NETO, B., SILVA, I., AND MUNTZ, R. Bayesian network models for informa-
tion retrieval. In Soft Computing in Information Retrieval (Physica-Verlag, Heidelberg,
2000), pp. 259–291. F. Crestani & G. Pasi, editors.
[15] SALTON, G., AND BUCKLEY, C. Term-weighting approaches in automatic retrieval.
Information Processing & Management 24, 5 (1988), 513–523.
[16] SILVA, I., RIBEIRO-NETO, B., CALADO, P., MOURA, E., AND ZIVIANI, N. Link-based
and Content-based Evidential Information in a Belief Network Model. In Proc. of the
23th ACM SIGIR Intenational Conference on Research and Development in Information
Retrieval (Athens, Greece, 2000), pp. 96–103.
[17] TURTLE, H., AND CROFT, W. B. Evaluation of an inference network-based retrieval
model. ACM Transactions on Information Systems 9, 3 (July 1991), 187–222.
[18] YANG, Y., AND CHUTE, C. An Application of Expert Network Clinical Classification
and MEDLINE Indexing. In Proceedings of the 18th Annual Symposium on Computer
Applications in Medical Care (Washington, DC, 1994), pp. 157–161.

recuperacao de informacoes em colecoes medicas utilizando categorizacao automatica de documentos

Recuperação da Informação

UFAM

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Recuperação da Informação

Outros materiais

Outros materiais