Baixe o app para aproveitar ainda mais
Prévia do material em texto
Recuperação de Informação em Coleções Médicas Utilizando Categorização Automática de Documentos Rodrigo F. Vale ��� � Luciano R. S. de Lima � Berthier A. Ribeiro-Neto � Alberto H. F. Laender � Hermes R. F. Junior ��� � � Departamento de Ciência da Computação � Grupo de Informática Médica Universidade Federal de Minas Gerais Rede Sarah de Hospitais 31270-901 - Belo Horizonte - MG 30510-000 - Belo Horizonte - MG {rodrigov,berthier,laender,hermes}@dcc.ufmg.br luciano@bhz.sarah.br � Akwan Information Technologies Av. Antônio Abrahão Caram, 430 / 4 � andar 31275-000 - Belo Horizonte - MG {rodrigov,hermes}@akwan.com.br Abstract A current and important research issue is the retrieval of relevant medical information. In fact, while the medical knowledge expands at a rate never observed before, its diffusion is slow. One of the main reasons is the difficulty in locating the relevant information in the modern and large medical text collections of today. In this work, we introduce a frame- work, based on Bayesian belief networks, that allows combining information derived from the text of the documents with information on the diseases related to the medical documents (obtained from an automatic categorization process). This leads to a new ranking method which we evaluate using a medical reference collection (the Oshumed collection). Our re- sults indicate that this combination of evidences (document text and diseases related to the document) might yield considerable gains in retrieval performance. When the queries are strongly related to diseases, these gains might be as high as 84%. Our approach is quite distinct from previous ones and shows that information generated by an automatic catego- rization procedure can be used effectively to improve the quality of the answers provided by an information retrieval (IR) system specialized in the medical domain. 1 Introdução A evolução tecnológica ocorrida nos últimos anos nas áreas de informática e telecomu- nicações e o aumento das atividades e do conhecimento humano têm permitido que grandes volumes de dados circulem pelo mundo, especialmente através da Internet, tornando a tarefa de recuperação de informação difícil, custosa e muitas vezes complexa para os usuários [2, 3]. A principal razão dessa complexidade ocorre porque boa parte da informação disponível na Internet encontra-se na forma textual e sem a definição explícita de um esquema de dados ou estrutura. Logo, a investigação de novos modelos, algoritmos e ferramentas que possam ajudar os usuários na formulação de suas consultas e na melhoria da qualidade (precisão) das respostas geradas é de grande relevância. Atualmente, a forma mais disseminada de recuperar informação na Internet é a utilização de máquinas de busca e meta-busca, que em geral utilizam técnicas de recuperação de informação baseadas no modelo vetorial proposto por Salton ou em uma de suas extensões [1, 2, 15]. Isso ocorre porque o modelo vetorial é relativamente simples de ser implementado e bem eficiente quando aplicado a coleções genéricas de documentos. O crescimento, porém, de grandes portais e bibliotecas digitais especializadas tem obrigado os pesquisadores a investigar novos modelos que permitam agregar ao processo de recuperar informação características específicas desses ambientes especializados, sem, no entanto, aumentar a complexidade e a eficiência dos algorit- mos já implementados, sendo esse um grande desafio corrente. Dentre as diversas áreas especializadas do conhecimento, destacamos a disponibilidade da literatura médica na Internet, que cresce atualmente a uma taxa em torno de 7% ao ano e cu- ja tendência é dobrar sua base de dados nos próximos 10 anos. Essa disponibilidade facilita o acesso à informação médica, mas também introduz problemas adicionais. Enquanto o co- nhecimento médico se expande a taxas muito altas, sua difusão ainda é baixa. As barreiras para a difusão do conhecimento médico são muitas e incluem: o tempo limitado para busca bibliográfica, o limitado acesso a fontes de informação, e a grande dificuldade dos profissionais médicos em identificar a informação relevante dentro de vastas coleções médicas disponíveis atualmente [11]. Neste trabalho, nos concentramos neste último problema, ou seja, como me- lhorar a qualidade das respostas retornadas para consultas de usuários interessados em coleções médicas. Uma abordagem padrão para o problema é selecionar uma boa técnica de recuperação de informação (RI) e aplicá-la ao domínio médico. Neste trabalho, avaliamos a efetividade desta estratégia usando uma coleção de referência médica, chamada OHSUMED [6], bastante difun- dida na área de RI médica. Estudamos também uma abordagem alternativa que consiste em desenvolver um arcabouço que permita combinar técnicas de RI com conhecimento obtido no domínio médico. Consideramos uma forma específica de conhecimento médico que é a infor- mação sobre doenças contida nos documentos da coleção médica. Dada uma coleção médica, a informação sobre doenças pode ser gerada através do assinalamento de códigos CID (Classifi- cação Internacional de Doenças) aos documentos da coleção. Isto pode ser realizado de forma automática e com grande eficiência [8, 12], conforme discutiremos mais tarde. A partir da informação sobre doenças vinculada aos documentos médicos (através de códigos CID), estu- damos o problema de como aumentar a qualidade das respostas geradas, isto é, como aumentar o desempenho da recuperação de informação. Para combinar a informação derivada dos códigos CID com a informação contida nos textos dos documentos, que é a informação utilizada pelos algoritmos de ordenação tradicionais de RI, adotamos o arcabouço de Redes Bayesianas de Crenças [13, 14]. Redes Bayesianas de Crenças são úteis porque elas permitem combinar fontes de evidência distintas de uma maneira consis- tente. Além disso, elas provêem uma ferramenta de modelagem intuitiva que facilita capturar a influência de parâmetros-chave do problema que está sendo modelado. O arcabouço Bayesiano que adotamos conduz a um novo método para ordenação (ranking) dos resultados que tira van- tagem não só da informação textual do documento, mas também da informação relacionada a doenças existente nos documentos. Através de experimentação, mostramos que esse método leva a uma melhoria no desempenho da recuperação de informação. Quando somente consultas que são fortemente relacionadas a doenças são consideradas, a melhoria na qualidade (precisão) das respostas foi acima de 84%, quando comparada a métodos de RI tradicionais. Em resumo, este trabalho apresenta um modelo que combina técnicas tradicionais de RI e categorização automática de documentos textuais no processo de recuperação de informação médica, melhorando consideravelmente a qualidade (precisão) das respostas em coleções bi- bliográficas médicas. O artigo é organizado como se segue. Na Seção 2, discutimos trabalhos relacionados. Na Seção 3, descrevemos brevemente o algoritmo de categorização automática de documentos médicos que utilizamos. Na Seção 4, descrevemos nossa função de ordenação de documentos e algumas de suas variações. Na Seção 5, discutimos os resultados experimentais encontrados utilizando a coleção de referência OHSUMED. Na Seção 6, apresentamos nossas conclusões. 2 Trabalhos Relacionados Categorização automática de documentos pode ser definida resumidamente como o pro- cesso de assinalar categorias de uma taxonomia, previamente definidas, a documentos através da comparação de cada categoria com as características textuais contidas no documento. At- ualmente, a categorização automática é usada em diferentes aplicações como classificação, fil- tragem, e recuperação de informação. Aplicações relacionadas a recuperação de informação, em particular, vêm recebendo uma atenção especial, como descrevemos a seguir. Yang e Chute propuseramum método, chamado de Redes Especialistas [18], para a cate- gorização e recuperação de textos. Esse método usa um conjunto de documentos manualmente categorizados como uma base de treino para aprender a associação categoria-palavra. Tal as- sociação então é aplicada para vincular categorias a documentos arbitrários baseando-se nas palavras encontradas nesses documentos. Uma outra abordagem, proposta por Lam et al. [7], também consiste em um método au- tomático de categorização e recuperação de informação. O método de categorização é derivado do paradigma de máquinas de aprendizado conhecido como aprendizado baseado em instân- cias. O método de recuperação de informação computa dois rankings: um para o texto do documento e o outro para as categorias do documento. Essa abordagem propõe somar ambos os rankings para gerar uma ordenação final. A cada ranking é associado um peso pré-definido de forma a controlar o impacto do mesmo sobre o ranking final. Nosso trabalho está relacionado com esses métodos, porém usamos técnicas diferentes para a categorização e recuperação de documentos. A categorização automática de documentos usada por nós é a proposta pelo modelo HiMeD [9, 10, 8, 12] e usamos Redes Bayesianas de Crenças [13, 14, 16, 17] para unir os rankings gerados pelo texto e pelas categorias do documento. Redes Bayesianas de Crenças oferecem o formalismo adequado para representar, quantificar, e combinar duas ou mais fontes de evidências no cálculo de um ranking para os documentos que pertencem ao conjunto de respostas. Neste trabalho, usamos esse método para representar e combinar evidências de informações baseadas em conceitos e em textos de forma similar como discutido em [13, 16]. 3 O Modelo HiMeD Nesta seção, apresentamos uma descrição resumida do Modelo Hierárquico para Catego- rização Automática de Documentos Médicos (modelo HiMeD), proposto em [9, 10, 8, 12] e que serve como um dos pilares de sustentação do método de fusão proposto neste trabalho. A idéia desse modelo surgiu a partir da observação de que os especialistas em codificação médi- ca resolvem grande parte dos seus problemas de assinalar códigos de doenças a documentos médicos comparando o conteúdo desses documentos com o conteúdo de um índice alfabético hierárquico existente em um padrão de codificação, como, por exemplo, a Classificação Inter- nacional de Doenças da Organização Mundial de Saúde, revisão 9 (CID-9) [4], e da constatação de que os modelos clássicos de recuperação de informação não se aplicam de forma adequada a esse problema, pois não consideram essa hierarquia de termos na sua resolução. Para compreendermos o modelo proposto, é essencial entender a organização estrutural da CID-9. A CID-9 é organizada de forma hierárquica em quatro níveis de código, chamados de Capítulo, Seção, Categoria e Subcategoria, sendo os níveis de Categoria e Subcategoria utilizados em geral como códigos de referência de classificação por possuírem maiores detalhes de doenças, lesões e óbitos. I� D� oenças Infecciosas e Parasitárias I� .1 Doenças Infecciosas Intestinais 0� 01 Cólera 0� 01.0 Devido ao Vibrio Cholerae 0� 01.1 Devido ao Vibrio Cholerae el Tor 0� 01.9 Não Especificada (a) Cólera 001.9 - Antimonial 985.4 - Clássica 001.0 - el Tor 001.1 - Indefinida 001.9 - Vibrio - - Cholerae 001.0 - - - el Tor 001.1 (b) Figura 1: Lista Tabular e o Índice Alfabético da CID-9. A proposta CID-9 é apresentada em dois documentos básicos: a Lista Tabular, onde os códi- gos e suas descrições são apresentadas, conforme mostra a Figura 1(a), e o Índice Alfabético Hierárquico, onde os conjuntos de termos associados aos códigos CID-9 correspondentes são apresentados, conforme mostra o exemplo da Figura 1(b). Nesse exemplo, a última linha iden- tifica a doença Cólera devido ao Vibrio Cholerae El Tor que corresponde à categoria 001 e à subcategoria 001.1. Para modelar o problema de codificação automática de documentos médicos, o modelo HiMeD propõe basicamente os seguintes conceitos: 1. Um índice hierárquico de um vocabulário controlado � , cujos termos indexam códi- gos médicos, é representado por um grafo dirigido acíclico � ��������� , onde � ��� � ��� � ��� � ���ff�fi�fl� é um conjunto de vértices e � é um conjunto de arestas direcionadas que conectam vértices de � . A notação ffi �"!# %$&���'����!(�*)+ffi �"!-, é usada para referenciar uma ares- ta ffi �"! que conecta os vértices ��� e ��! com grau de confiança )+ffi �"! . Os vértices �.� e �/! são extremos da aresta ffi0�1! . O vértice ��� é chamado de vértice-pai de ��! . Um vértice sem pai é chamado de vértice-raiz. O vértice ��2 é o vértice-pai de todos os vértices-raízes. Para cada vértice ���435� , é associado um único termo t( ��� ) de � . Para cada aresta ffi0�1! são associados um conjunto 67�"! de sinônimos 8�9 � �:8�9 � ���fi�ff�ff�:8�9<;(= , onde >?8A@CB , e um conjunto de tuplas �D�"!E F�+$<G � �*)+G � ,-��$&G � �*)+G � ,:���ff�fi�ff��$<GH;�I*�*)+G:;/I�,:� , onde >?GJ@%B , G-K é um código de � e )+G:K é o grau de confiança do código G:K na hierarquia de termo definida por ffi �"! . Os conjuntos 67�1! e �L�1! especificam todos os sinônimos e os códigos de M�$&��!/, no contexto da associação $NM�$N�.�N,-�*M�$N�/!-,*, . 2. Um caminho O é uma seqüência de arestas $&ffi0K:P&KRQ��Hffi0KRQ'KRS����ff�fi�ff�Hffi0K�TRUVPWK T , , onde ��K � é o vértice- pai da seqüência e as arestas consecutivas compartilham vértices extremos. O número X de vértices no caminho O é o tamanho do caminho. A aresta ffi0K T*U�P K T é chamada de aresta terminal de O . 3. Uma consulta especializada é um documento médico representado pelo conjunto Y#ZL ��8([ � ���ff�fi�ff�:8([/;\� , onde >]@_^ . Cada 8([/� é uma seção do documento médico e é representado por uma tupla $&`a�'�R)b8/�<�:6cMed/�N, , onde `a� é o rótulo da seção, )f8�� é o grau de confiança de que a seção 8([/� possui e 6cMed/� é o texto da seção. 4. Um assinalamento de códigos para uma consulta especializada Y#Z é um conjunto de tuplas �g�h �+$<Y#Z:�HG � ��d � ,:��$<Y#Z:�HG � ��d � ,-���ff�fi�ff��$&Y#Z-��G:;/i.�*d/;�i�,:� , onde G-K é um código de clas- sificação de � , assinalado para a consulta, d/K é o grau de certeza que quantifica essa codificação e >?ffij@kB . No modelo, BJlmd�KD@n^ , é calculado por: d�Kg %off$*$ XqprXbst�u; XbscievapwXbst�u; ,#xy$e^zp|{JK�,*,�}\~$&{JK�,#xrK onde XK é o tamanho do caminho ; Xbst�u; e Xbsiv são respectivamente o menor e o maior tamanho do conjunto de todos os caminhos encontrados, sendo d�KA ^ se no conjunto de caminhos encontrados só existirem caminhos do mesmo tamanho e XpXbst�u;j ^ , se XA Xfs�us ; {hK é um fator de decremento que depende do tipo de processamento usado; e K é o grau de confiança total do código G-K , calculado por: Ka m)fG:KDxw)f8�KDx|$N)+ffi Ł P Ł Q x)+ffi Ł Q Ł S x�ff�ff�xw)+ffi0Ł TRUVP ŁT�, O algoritmo básico de assinalamento que utiliza os componentes do modelo HiMeD é sucin- tamente descrito a seguir. Para cada seção 8([H! de um documento médico Y#Z faça: 1. Substitua cada sigla ou sinônimo geral existente no texto da seção 8([H! pelos seus textos especializados. 2. Processe o texto da seção 8([H! seqüencialmente verificando quais dos seus termos estão associados a um vértice-pai do grafo � que representa � . 3. Para cada vértice-pai encontrado, determine o maior e o menor caminho entre todos os caminhos possíveis que satisfaça a seguinte condição: para cada aresta ffi �"! num caminho, os termos M�$&���N, e M�$N�/!�, aparecem ambos numa mesma janela do texto de tamanho ou seus respectivos sinônimos vinculados em 67�"! . 4. Considerando todos os conjuntos encontrados de maior caminho, assinale ao documen- to médico Y#Z todos os códigos de - pertencentesaos conjuntos � de todas as arestas terminais desses conjuntos. Vários experimentos de codificação automática baseados no modelo HiMeD, usando a CID- 9 como vocabulário controlado de referência, foram realizados (ver detalhes em [8, 10]). Nesses experimentos, foram usados dois algoritmos de assinalamento. O primeiro trata a codificação automática como um problema convencional de recuperação de informação, onde o documento médico é a consulta e os códigos são os objetos a recuperar. O modelo vetorial foi então utilizado para quantificar graus de relevância entre os códigos e os documentos médicos. O segundo trata os documentos médicos e o índice alfabético da CID-9 como componentes do modelo HiMeD definidos anteriormente. Vale observar que todos os resultados experimentais obtidos evidenciaram que para essa aplicação o modelo HiMeD apresentou boas curvas de precisão e ganhos relevantes em relação aos resultados apresentados pelo modelo vetorial no processo de codificação automática de documentos médicos. 4 Usando as Evidências da CID para Melhorar a Recuperação de Informação Neste trabalho, temos como objetivo investigar como o conhecimento derivado de infor- mação sobre doenças associadas a documentos médicos (i.e., informação sobre códigos CID) pode melhorar o desempenho da recuperação de informação. Abordamos esse problema através da combinação de evidências fornecidas pelo modelo vetorial com as evidências oriundas da categorização CID e investigamos os ganhos obtidos no processo de recuperação de informação. Para combinarmos estas duas fontes de evidências, usamos uma Rede Bayesiana de Crenças. Neste caso, Redes Bayesianas de Crenças são úteis, pois permitem combinar fontes distintas de evidências de uma forma consistente e provêem uma ferramenta de modelagem intuitiva que facilita a captura (no modelo) da influência dos parâmetros chaves do sistema. Além disso, esse modelo já foi usado com sucesso em várias coleções de referência no passado [13, 14, 16]. Para isso, usaremos o modelo de Redes Bayesianas de Crenças discutido em [13]. Nesse modelo, as evidências que provêem do modelo vetorial clássico são enriquecidas com infor- mação sobre doenças associada a documentos da coleção. Para isto, expandimos a rede de crenças para incluir evidências vindas das categorias CID. A Figura 2 ilustra a rede expandida. O lado direito da rede modela os códigos CIDs (representados pelos nodos G: ) e seus rela- cionamentos com a consulta (representados pelo nodo �I&'= ). No lado esquerdo da rede, o nodo da consulta é representado por � ZI e os nodos dos documentos representados por K , permitin- do assim a distinção entre as representações das consultas e dos documentos. Um nodo extra é adicionado no topo da rede para representar a combinação das evidências do modelo vetorial (através do nodo � Z<I ) e as evidências das categorias CID (através do nodo /IN�= ). Nodos extras and . . . . . . . . . . . . . . . . . . . . .. . . q k d k 1 d d d 1 d d N c c c N 1 j N c c c q cos j d d d k j k k and q vec k or oror Figura 2: Rede Bayesiana expandida com evidências das categorias CID. �! também são inseridos abaixo da rede para representar o fato de que um documento .! con- sidera evidências do modelo vetorial (através do nodo 0K< ) ou evidências das categorias CID (através do nodo 0Iff ). Observe que a evidência do lado da consulta é combinada através de um operador conjuntivo, enquanto que a evidência do lado do documento é combinada através de um operador disjuntivo. Esse método funciona melhor desta forma, como discutido em [13, 16]. Seja o estado que representa o conjunto de nodos-raiz V� , e seja � o estado que representa o conjunto de nodos-raiz G- . Para cada nodo V� , é associado uma variável randômica binária V� de forma que a variável V� é 1 para informar que o nodo V� está ativo, e a variável � é 0 para informar que o nodo V� está inativo. O mesmo é feito para os nodos G: . Para o lado esquerdo da rede, consideramos apenas os estados � tal que ¡ ¢�7£¥¤¦).�e$N§,� 5^©¨¡)�!/ª « ��$N7,� B onde ).�e$N§, é uma função que retorna o valor da 9 Łfl¬ variável no vetor . Na Figura 2, o rank O¥$<�! V, associado com o documento �! é calculado através dos estados básicos dos nodos-raiz e aplicando as regras de Bayes como segue. Oj$&�!V V,® Oj$&.!c¨AV, Oj$N , ¯±° ² � Oj$&.!V ³���+,tO¥$& ³���+,?O¥$&7,tO¥$&�+, ¯ ° ² � o´^gpµ$e^zpyOj$&0K 7,R,/$^±pOj$&IffV �f,R,e}fOj$N� ZI� 7,tO¥$&�I&'=( �+,tO¥$&7,³Oj$N�f, (1) onde ¯ é uma constante de normalização. Para calcular as diversas probabilidades condicionais na Equação (1), nos baseamos na semântica que desejamos capturar. Considere a situação em que dois documentos, 0v e ¶ , contêm exatamente o mesmo con- junto de termos da consulta. Ademais, assuma que os termos da consulta no documento v levem a um código CID e que o mesmo não ocorra para o documento 0¶ (i.e., nenhum código é associado ao documento ¶ ). A Figura 3 ilustra uma situação onde isto ocorre. Neste caso, t 1 t 2 t 1 t 2 dx dy codigo CID consulta q: t , t sem codigo CID 21 ac Figura 3: Dois documentos, v e ¶ , contém os termos da consulta mas apenas um deles 0v leva a um código CID. esperamos que o documento v tenha um rank final combinado maior que o rank para o docu- mento ¶ (pois Oj$&0v+ �+,D·_Oj$&0¶0 �+, ), porque ele inclui uma evidência adicional sobre doenças que não se encontra no documento ¶ . Portanto, pode ser que O¥$< vf ,J·FO¥$< ¶0 , . Todavia, isto não é garantido pela Equação (1), pois os termos Oj$& vf 7, e Oj$& ¶\ 7, podem ser influen- ciados por vários fatores, tais como: (a) a freqüência de M � e M � nos dois documentos pode ser diferente e (b) o fator de normalização 1 vf e 1 ¶ também pode ser diferente. Para evitar estes efeitos, adotamos uma variação do modelo vetorial que não inclui informação nem de freqüên- cia de termos nem de normalização pelo tamanho do documento [15] e utilizamos esta variação do modelo vetorial para calcular a ordenação dos documentos no lado direito da rede. Como resultado, definimos as probabilidades O¥$&- ZI� 7, e O¥$<0KV 7, da seguinte forma: O¥$&� Z<I� 7,¸ ¹kº �´» se ¢� e ).�e$N ,� 5^ B caso contrario (2) Oj$&�!'¼ 7,¸ ¹kº �"! se ¡ µ� e )���$<�!-,½ 5^ B caso contrario (3) onde º �´» e º �"! são computados como º �´»¾ À¿fiÁ ÂÄà ;� �sivbÅ º �"!± ¿ÆÁ Â4à ;/ scievb (4) onde Ç é o número de documentos na coleção, >7� é o número de documentos em que o termo 9 ocorre, �siev é a maior norma dentre as consultas e 0siev é a maior norma dentre os do- cumentos da coleção. Note que as Equações (4) não incluem informação sobre a freqüência de um termo no documento .! , nem informação sobre a norma (ou tamanho) do documento �! . No lado direito da rede, a probabilidade Oj$N/IN�=� �+, quantifica o relacionamento entre cate- gorias CID e a consulta . Quanto maior for a cobertura das categorias CID na consulta , mais relacionada a doenças estará a consulta. Isto é importante, porque não esperamos um melhor desempenho na recuperação de informação (i.e., na qualidade do ranking) através das catego- rias CID, se a consulta não estiver relacionada a doenças. Para quantificar esse relacionamento de cobertura, usamos o número de termos em comum entre a consulta e os códigos CID, como segue. Seja G�È.[�8$&V, uma função que retorne o conjunto de códigos gerado pelo algoritmo de co- dificação para a consulta (i.e., a função G�È.[�8$&V, executa o algoritmo no texto da consulta e retorna o conjunto de códigosgerados). Considere os É-Ê estados possíveis para o conjunto � com X nodos-raiz. Ao invés de considerarmos os estados nos quais um único nodo-raiz está ativo em um determinado instante (como feito para o lado esquerdo da rede), usamos apenas um estado simples que inclui todos os códigos G: no conjunto G�È.[�8$&V, . Isto é feito para simplificar o cálculo do relacionamento de cobertura. Definimos o estado ��» do conjunto � dos nodos-raiz como: �h µ�.»Ë8([ ¹ )V<$N�f,� 5^Í̧Î� G-?3rG�È.[�8\$N , )V<$N�f,� ¢B caso contrário (5) A equação (5) define ��» como um estado de � que contém os nodos G-Ï3G�È.[�8\$N , ativos e os nodos G:¾Ð3]G-È.\[�8$N , inativos. Para cada G-?3rG�È.[�8\$N , , seja ÑÒ0Ó um vetor de termos com pesos binários, onde o peso de cada termo é 1 para indicar que o termo está associado ao código G- (de acordo com a hierarquia CID), e 0 caso contrário. Além disso, seja ÑÔ7ÕeÖ-× um vetor de termos com pesos binários, onde cada peso é 1 para indicar que o termo ocorre na consulta , e 0 caso contrario. O produto ÑÒ0Ó0Ø ÑÔ7ÕeÖ-× provê a medida de relacionamento de cobertura entre os conceitos G- e /IN�= . Pretendemos identificar o código G: que melhor cobre a consulta e, assim, que melhor defina a doença associada com a consulta . Para obter este efeito, definimos: O¥$&�I&'=( �+,® ¹ÚÙ ffi ÛfÜ�fiÝ Þ'ßffàá *â « � ã Õ ßuä ã å�æÆç&è Ý ã Õeéfê�ë ÝíìfÝ ã å-æÆç&è Ý se �h µ�.» B caso contrário (6) Oj$ I&'= �+,® ^±p|Oj$N/IN�=� �+, Note, que usamos a norma G:sievb , ao invés da norma 1G:� , pois queremos medir o relacionamento de cobertura que considera apenas a consulta . Para a probabilidade O¥$<�! �+, , estamos interessados em uma forma um pouco diferente de relacionamento de cobertura. Ao invés de simplesmente considerarmos os termos em comum, consideramos o relacionamento de cobertura entre os códigos associados com a consulta e os códigos associados com o documento �! . Este é um ponto importante, pois um código G- , onde G-�3|G-È�[�8$&V, , pode ter termos em comum com o documento �! mesmo que esse código não esteja associado com �! (como ilustrado na Figura 3). Assim, devemos nos concentrar no relacionamento de cobertura entre G-È�[�8$&V, e G�È.[�8$<�!-, . Para isto, definimos: Ñ î å : vetor de pesos de códigos associados com G:§3]G-È.\[�8$N , , Ñ ï Õñð : vetor de pesos de códigos associados com G-73]G-È�[�8$<�!-, ; Os pesos dos códigos não consideram a freqüência dos códigos, pois não é relevante, mas têm um componente 9eò , computado sobre o conjunto de todos os códigos assinalados para todos os documentos na coleção. Isto nos leva a um ranking da forma: O¥$<0Iff �+,¸ ó ô õyö1÷�øÄù ú æ Ý » éfê�ë Ý se �J k��» B caso contrário (7) O¥$ Iff0 �+,¸ ^zpyO¥$<0Iff �+, Nû úmero de Documentos Nû úmero de Termos Dü instintos Mý édia de Termos por Dü ocumento Nû úmero de Consultas Eþ xemplo Mý édia de Termos por Consulta 233,445 159,910 142.7 93 6.9 Tabela 1: Características do Banco de Dados onde Ç é o número de documentos na coleção, >?GH� é o número de documentos em que a cate- goria 9 ocorre, �siv é a maior norma dentre as consultas e 0siev é a maior norma dentre os documentos da coleção. Finalmente, as probabilidades a priori Oj$N�f, e O¥$&7, são atribuidas como constantes. 5 Resultados Experimentais Primeiramente apresentaremos a coleção médica de referência usada em nossos experimen- tos. A seguir, discutiremos nossos resultados experimentais obtidos. 5.1 A Coleção Médica de Referência A coleção médica de referência usada nos nossos experimentos foi a coleção OHSUMED [6]. A coleção OHSUMED contém 348.566 referências, que são derivadas de um subconjunto de 270 periódicos encontrados na seção KF MEDLINE Primary Care da MEDLINE [5], cobrindo os anos de 1987 até 1991. A coleção inclui 106 consultas-exemplo que foram geradas por médicos durante consultas de pacientes. Para cada consulta-exemplo, ao menos um documento relevante está associado (identificado por especialistas). Cada consulta é formada por uma pe- quena descrição do estado do paciente, seguido por uma descrição da informação solicitada. A coleção também inclui julgamento de relevância para cada consulta-exemplo. Cada avaliação de relevância indica um documento como relevante, possivelmente relevante, ou irrelevante. Em nossos experimentos, foram usados apenas documentos com resumo. Isto gerou uma sub- coleção com 233.445 documentos e 93 consultas com pelo menos um documento relevante (veja Tabela 1). A decisão de descartarmos documentos sem resumo é baseada no fato de que tais documentos possuem pouca informação, impossibilitando a sua classificação, como relevante ou não, através de um meio computacional. A Figura 4 quantifica o relacionamento entre as categorias CID e cada uma das 93 consultas- exemplo da coleção, de acordo com a Equação (7). Este relacionamento será referenciado aqui como “fator de relação CID-consulta” (ou simplesmente, fator-relação-CID). Como podemos ver, 14 das consultas não estão relacionadas com doenças (fator-relação-CID = 0) e 69 consultas possuem algum relacionamento com doenças (fator-relação-CID · 0). Destas 69 consultas relacionadas com doenças, 55 possuem um bom foco em doenças (fator-relação-CID @ 0.5) e 10 estão altamente relacionadas a doenças (fator-relação-CID @ 0.8). As 69 consultas relacionadas com doenças são o foco dos nossos experimentos. 5.2 Análise dos Resultados Nesta seção, analisamos os resultados dos nossos experimentos. Eles são mostrados em termos de revocação e precisão, que são duas medidas quantitativas, utilizadas para comparar as res- 0 0.2 0.4 0.6 0.8 1 0 10 20 30 40 50 60 70 80 90 Consultas Fator-relacao-CID da consulta Figura 4: Variação do fator-relação-CID para as 93 consultas de teste. As consultas estão ordenadas de forma decrescente de acordo com o fator-relação-CID. 0 20 40 60 80 100 0 10 20 30 40 50 60 70 80 90 100 Pr ec is ao ß Revocacao fator-relacao-CID > 0 Vetorial Vetorial+CID Figura 5: Precisão média para os ranks vetorial e vetorial+CID. Apenas as 69 consultas rela- cionadas com doenças foram consideradas. postas geradas por um algoritmo automático com as respostas indicadas por especialistas na área em questão (que são os chamados “documentos relevantes”). Precisão é uma medida da fração de documentos na resposta (gerado por um algoritmo) que são relevantes. Revocação é uma medida da fração de documentos relevantes (ou seja, dos documentos indicados pelos especialistas) que foram recuperados pelo algoritmo sendo avaliado. Maiores detalhes podem ser obtidos em [2]. A Figura 5 ilustra a qualidade da recuperação de informação, em termos de revocação e precisão, para os rankings gerados com base no modelo vetorial clássico e com base no modelo vetorial enriquecido com evidências dos códigos CID (vetorial+CID) em nossa rede de crenças. Foram considerados apenas 69 consultas-exemplo que possuem algum relacionamento com doenças (i.e., fator-relação-CID · 0). Ganhos na qualidade da recuperação de informação, através de códigos CID, não são esperados onde a consulta não está relacionada com doenças. De fato, para 14 consultas (de um total de 93), que não estão relacionadas a doenças, a qua- lidade das respostas para o ranking vetorial+CID coincide com a qualidade das respostas da Precisão média para 69 consultas(fator - relação - CID>0) Revocação Vetorial Vetorial+CID Ganho 0.00% 49.28 52.38 6.31% 10.00% 42.68 48.81 14.38% 20.00% 36.04 43.74 21.34% 30.00% 32.65 38.9519.27% 40.00% 30.81 34.09 10.63% 50.00% 23.53 28.57 21.39% 60 .00% 20.66 27.64 33.75% 70.00% 16.74 24.69 47.45% 80.00% 14.88 20.74 39.34% 90.00% 12.70 18.37 44.42% 100.00% 5.54 10.84 95.63% Média 25.96 31.71 22.16% Tabela 2: Precisão média para as 69 consultas relacionadas a doenças. recuperação para o ranking gerado pelo modelo vetorial clássico (veja Equação 1). Na Figura 5, podemos observar que o ranking vetorial+CID é sempre superior para a nossa coleção. A Tabela 2 detalha esses resultados. Tais resultados mostram que adicionando uma nova fonte de evidência, baseada no modelo HiMeD, à evidência oriunda do texto dos documen- tos obtém-se resultados superiores. O ganho médio de precisão é superior a 22%, neste caso. Outra observação importante, é o fato de a revocação média final (calculada sobre todas as 69 consultas) para o ranking vetorial+CID ser 7% maior do que para o ranking gerado pelo mod- elo vetorial clássico. Isto ocorre devido ao fato de que os códigos CID (evidência de doenças) permitem encontrar novos documentos que estão relacionados com a consulta do usuário, e que não são retornados quando apenas a evidência de termos é usada. Em relação às consultas que estão mais relacionadas com doenças, a Figura 6 ilustra o de- sempenho da recuperação de informação para os modelos vetorial e vetorial+CID, onde apenas as consultas com fator-relação-CID � 0.5 são consideradas (i.e., 55 consultas-exemplo). A Tabela 3 detalha esses resultados. Novamente observamos que o ranking vetorial+CID é sem- pre superior em termos de precisão que o ranking gerado pelo modelo vetorial clássico. Além disso, o ganho relativo em termos de precisão é maior para essas 55 consultas do que para o conjunto de 69 consultas relacionadas a doenças. A razão para este ganho maior é o aumen- to de relevância das doenças nessas 55 consultas. Isto sugere que quanto mais relacionada a doenças a consulta for, melhores os ganhos obtidos pelo nosso método de rede estendida, o que é confirmado pelos resultados descritos a seguir. A Figura 7 ilustra o desempenho da recuperação, em termos de revocação e precisão, para as 10 consultas com um fator-relação-CID � 0.8. A Tabela 4 detalha esse resultado. Para essas 10 consultas, o ranking vetorial+CID obtém um ganho de 84,92% na precisão média, em comparação ao ranking vetorial. A revocação média para o ranking vetorial+CID é 12,5% maior que o obtido pelo ranking vetorial clássico. A Tabela 5 mostra a média de revocação para cada um dos três conjuntos de consultas (selecionadas pelo fator-relação-CID). 0 20 40 60 80 100 0 10 20 30 40 50 60 70 80 90 100 Pr ec is ao ß Revocacao fator-relacao-CID >= 0.5 Vetorial Vetorial+CID Figura 6: Precisão média para os rankings vetorial e vetorial+CID, restrito as 55 consultas com fator-relação-CID @ 0.5. Precisão média para 55 consultas(fator - relação - CID>=0.5) Revocação Vetorial Vetorial+CID Ganho 0.00% 38.77 49.97 28.89% 10.00% 35.32 47.71 35.06% 20.00% 31.19 43.09 38.13% 30.00% 29.26 37.14 26.89% 40.00% 25.46 30.68 20.51% 50.00% 21.51 26.66 23.93% 60.00% 20.33 25.76 26.66% 70.00% 17.86 23.60 32.12% 80.00% 15.46 19.91 28.72% 90.00% 14.40 18.31 27.47% 100.00% 7.81 10.34 32.28% Média 23.40 30.29 29.45% Tabela 3: Precisão média para as 55 consultas com fator-relação-CID � 0.5. 0 20 40 60 80 100 0 10 20 30 40 50 60 70 80 90 100 Pr ec is ao � Revocacao fator-relacao-CID >= 0.8 Vetorial Vetorial+CID Figura 7: Precisão média para os rankings vetorial e vetorial+CID, restrito as 10 consultas com fator-relação-CID � 0.8. Precisão média para 10 consultas (fator - relação - CID >=0.8) Revocação Vetorial Vetorial+CID Ganho 0,00% 30,52 49,91 63,56% 10,00% 22,77 53,75 136,02% 20,00% 25,35 51,29 102,29% 30,00% 18,39 42,10 128,88% 40,00% 20,45 37,46 83,20% 50,00% 17,60 32,08 8 2,25% 60,00% 17,25 29,64 71,80% 70,00% 16,16 28,49 76,37% 80,00% 15,08 24,95 65,46% 90,00% 15,13 20,71 36,89% 100,00% 9,84 15,22 54,68% Média 18,96 35,05 84,90% Tabela 4: Precisão média para as 10 consultas com fator-relação-CID � 0.8. Revocação média para cada conjunto de consulta Fator - relação - CID V� etorial V� etorial+CID Ganho > 0 82.60% 88.40% 7.00% >= 0.5 81.81% 87.27% 6.67% >= 0.8 80.00% 90.00% 12.50% Tabela 5: Revocação média para cada conjunto de consultas 6 Conclusão Descrevemos um arcabouço para combinar evidências derivadas de textos de documentos médicos com evidências derivadas de doenças relacionadas a esses documentos. A informação sobre doenças é gerada através de um algoritmo de categorização automática, que assinala códi- gos CID aos documentos de uma coleção médica. Nosso arcabouço foi baseado em Redes Bayesianas de Crenças. Redes Bayesianas de Crenças são úteis, pois permitem combinar fontes distintas de evidências de uma forma con- sistente. O arcabouço Bayesiano que propusemos produz um novo método para cálculo de ranking que leva em consideração a informação sobre o texto dos documentos médicos e a informação de doenças relacionadas a esses documentos. Através de experimentos com uma coleção de referência médica (a coleção OHSUMED), avaliamos a eficiência da nossa abor- dagem. Avaliamos três conjuntos de consultas distintos. Em todos os três casos, nosso método melhorou a qualidade da recuperação quando comparado com o método padrão de RI (o modelo vetorial, que adotamos como base de comparação). Quando consideramos consultas fortemente relacionadas a doenças, o aumento médio na qualidade da recuperação chegou a 84%. Nossos resultados mostram a importância de considerarmos informações médicas especializadas em sistemas médicos de recuperação de informação. Além de aumentar a qualidade da recuperação, o algoritmo de assinalamento automático de códigos CID gera uma hierarquia de categorias que possui mais de 5.000 doenças (as mesmas da hierarquia CID). Esta hierarquia pode ser usada, a princípio, para desenvolver uma interface Web baseada em um diretório de doenças para máquinas de busca médicas. Em um futuro próximo, pretendemos experimentar tal hierarquia para facilitar o acesso a informação médica relevante. Agradecimentos Este trabalho é parcialmente financiado pelo projeto SIAM (MCT/CNPq/PRONEX processo no ¯ 00418.00/00). Os autores também agradecem o suporte financeiro do CNPq e CAPES. Referências [1] AALBERSBERG, I. Incremental relevance feedback. In Proc. of the 15th ACM SIGIR Con- ference on Research and Development in Information Retrieval (Copenhagen, Denmark, 1992), pp. 21–24. [2] BAEZA-YATES, R., AND RIBEIRO-NETO, B. Modern Information Retrieval. Addison Wesley Longman, Harlow, England, 1999. [3] CHU, H., AND ROSENTHAL, M. Search engines for the World Wide Web: A compa- rative study and evaluation methodology. In ASIS 1996 Annual Conference Proceedings (Baltimore, MD, 1996), pp. 127–135. [4] CID-OMS. Classificação Internacional de Doenças, Revisão 9 (Volumes 1 e 2). EDUSP - Editora Universidade de São Paulo, Organização Pan-Americana de Saúde, São Paulo, Brazil, 1980. [5] HAYNES, R. B., MCKIIBBON, K. A., WALKER, C. A., AND SINCLAIR, J. C. On- line Access toMEDLINE in Clinical Setting. A Study of Use and Usefulness. Annals of Internal Medicine, 112 (1990), 78–84. [6] HERSH, W., BUCKLEY, C., LEONE, T., AND HICKAM, D. OHSUMED: An Interac- tive Retrieval Evaluation and New Large Test Collection for Research. In Proc. of 17th ACM SIGIR Conference on Research and Development in Information Retrieval (Bublin, Ireland, 1994), pp. 192–201. [7] LAM, W., RUIZ, M., AND SRINIVASAN, P. Automatic Text Categorization and its A- pplication to Text Retrieval. IEEE Transactions on Knowledge and Data Engineering 11, 6 (1999), 865–879. [8] LIMA, L., LAENDER, A., AND RIBEIRO-NETO, B. A Hierarchical Approach to the Automatic Categorization of Medical Documents. In Proc. of the 7th ACM CIKM Con- ference on Information and Knowledge Management (Bethesda, Maryland, USA, 1998), pp. 132–139. [9] LIMA, L. R. S., LAENDER, A. H. F., AND RIBEIRO-NETO, B. A. Um Modelo para Recuperação de Informação Especializada Aplicado a Bases de Dados Médicas Semi- Estruturadas. In Anais do XII Simpósio Brasileiro de Banco de Dados - SBBD’97 (For- taleza, CE, 1997), pp. 214–256. [10] LIMA, L. R. S., LAENDER, A. H. F., AND RIBEIRO-NETO, B. A. Codificação Au- tomática de Documentos em Bases de Dados Médicas: Um Estudo Comparativo. In Anais do XIII Simpósio Brasileiro de Banco de Dados - SBBD’98 (Maringá, PR, 1998), pp. 269– 283. [11] PESTOTNIK, S. L. Medical informatics: Meeting the information challenges of a chang- ing health care system. Journal of Informed Pharmacotherapy 2, 1 (2000). [12] RIBEIRO-NETO, B., LAENDER, A., AND LIMA, L. An Experimental Study in Automa- tically Categorizing Medical Documents, journal = Journal of the American Society for Information Science and Technology, year = 2001, volume = 52, number = 5, pages = 391-401. [13] RIBEIRO-NETO, B., AND MUNTZ, R. A Belief Network Model for IR. In Proc. of the 19th ACM SIGIR International Conference on Information Retrieval (Zurich, Switzerland, 1996), pp. 253–260. [14] RIBEIRO-NETO, B., SILVA, I., AND MUNTZ, R. Bayesian network models for informa- tion retrieval. In Soft Computing in Information Retrieval (Physica-Verlag, Heidelberg, 2000), pp. 259–291. F. Crestani & G. Pasi, editors. [15] SALTON, G., AND BUCKLEY, C. Term-weighting approaches in automatic retrieval. Information Processing & Management 24, 5 (1988), 513–523. [16] SILVA, I., RIBEIRO-NETO, B., CALADO, P., MOURA, E., AND ZIVIANI, N. Link-based and Content-based Evidential Information in a Belief Network Model. In Proc. of the 23th ACM SIGIR Intenational Conference on Research and Development in Information Retrieval (Athens, Greece, 2000), pp. 96–103. [17] TURTLE, H., AND CROFT, W. B. Evaluation of an inference network-based retrieval model. ACM Transactions on Information Systems 9, 3 (July 1991), 187–222. [18] YANG, Y., AND CHUTE, C. An Application of Expert Network Clinical Classification and MEDLINE Indexing. In Proceedings of the 18th Annual Symposium on Computer Applications in Medical Care (Washington, DC, 1994), pp. 157–161.
Compartilhar