Baixe o app para aproveitar ainda mais
Prévia do material em texto
UNIVERSIDADE TECNOLO´GICA FEDERAL DO PARANA´ CAˆMPUS CORNE´LIO PROCO´PIO DIRETORIA DE PESQUISA E PO´S-GRADUAC¸A˜O PROGRAMA DE PO´S-GRADUAC¸A˜O EM INFORMA´TICA JOA˜O VITOR FERRARI DA SILVA EXTRAINDO INFORMAC¸A˜O DAS BULAS PARA O AUXI´LIO DE PRESCRIC¸A˜O ME´DICA PROJETO DE DISSERTAC¸A˜O DE MESTRADO CORNE´LIO PROCO´PIO 2015 JOA˜O VITOR FERRARI DA SILVA EXTRAINDO INFORMAC¸A˜O DAS BULAS PARA O AUXI´LIO DE PRESCRIC¸A˜O ME´DICA Proposta de dissertac¸a˜o de mestrado apresentada ao Programa de Po´s-Graduac¸a˜o em Informa´tica da Uni- versidade Tecnolo´gica Federal do Parana´ – UTFPR como requisito parcial para a obtenc¸a˜o do tı´tulo de ”Mestre Profissional em Informa´tica”. Orientador: Prof. Dr. Andre´ Y. Kashiwabara Co-orientador: Prof. Dr. Carlos N. Silla Jr. CORNE´LIO PROCO´PIO 2015 Dedico este trabalho a minha famı´lia e amigos. AGRADECIMENTOS Agradec¸o a` Deus e a MTA, por sempre me darem sau´de, forc¸a, protec¸a˜o e sabedoria. Agradec¸o a` toda minha famı´lia, em especial aos meus pais, Joa˜o e Marli, por me educarem e serem exemplos de dedicac¸a˜o e honestidade, e a toda minha famı´lia. Agradec¸o a` minha namo- rada Tatiane por ter me apoiado e compreendido minha auseˆncia para elaborac¸a˜o desse traba- lho. Agradec¸o aos meus amigos, em especial ao grupo COMBO, por serem companhia cons- tante em minha vida. Ao professor orientador Andre´ Kashiwabara pelos conselhos e auxı´lio na organizac¸a˜o do trabalho, ao professor co-orientador Carlos Silla com dicas valiosas de pesquisa, e a todos os outros professores que contribuı´ram para elaborac¸a˜o do presente trabalho. ”Seja voceˆ quem for, seja qual for a posic¸a˜o social que voceˆ tenha na vida, a mais alta ou a mais baixa, tenha sempre como meta muita forc¸a, muita determinac¸a˜o e sempre fac¸a tudo com muito amor e com muita fe´ em Deus, que um dia voceˆ chega la´. De alguma maneira voceˆ chega la´.” (Ayrton Senna) RESUMO SILVA, Joa˜o Vitor Ferrari da. EXTRAINDO INFORMAC¸A˜O DAS BULAS PARA O AUXI´LIO DE PRESCRIC¸A˜O ME´DICA. 77 f. Projeto de Dissertac¸a˜o de Mestrado – Programa de Po´s- graduac¸a˜o em Informa´tica, Universidade Tecnolo´gica Federal do Parana´. Corne´lio Proco´pio, 2015. O Ministe´rio da Sau´de e outros o´rga˜os relacionados pretendem evitar a automedicac¸a˜o e o cuidado do uso concomitante entre medicamentos, pore´m estes o´rga˜os na˜o disponibilizam uma ferramenta para viabilizar este processo, apenas apresentam uma cartilha de boas pra´ticas para a sociedade. Facilitar o acesso e melhorar os problemas relacionados a automedicac¸a˜o sa˜o os objetivos do presente trabalho, que pretende desenvolver um sistema web, que por meio de uma base de dados em grafo dos medicamentos, auxilie a prescric¸a˜o me´dica. Os resultados demonstraram como o uso da tecnologia Neo4j pode atender ao trabalho proposto. Palavras-chave: minerac¸a˜o de texto, bulas, interac¸o˜es, fa´rmaco ABSTRACT SILVA, Joa˜o Vitor Ferrari da. EXTRACTING INFORMATION FROM MEDICINE TO THE AID OF PRESCRIBING. 77 f. Projeto de Dissertac¸a˜o de Mestrado – Programa de Po´s-graduac¸a˜o em Informa´tica, Universidade Tecnolo´gica Federal do Parana´. Corne´lio Proco´pio, 2015. The ministry of health and other public and private agencies related, pretend to avoid the self medication and care about the concomitant use between drugs, however thoses agencies doesn’t provide a tool for viable this process, only present a speeling book of good practice for society. Facilitate the access is improve the related problems to self medication are the goals of current work, the pretend to evolve a system web, that through a drugs database in graph, assist the medical prescription. The results showed that with the of Neo4j technology could attend the proposed work. Keywords: text mining, drug information, interactions, drug LISTA DE FIGURAS –FIGURA 1 Proteı´nas-alvo para ligac¸a˜o dos fa´rmacos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 –FIGURA 2 Ilustrac¸a˜o da comunicac¸a˜o dos fa´rmacos e receptores. . . . . . . . . . . . . . . . . 22 –FIGURA 3 Efeitos entre drogas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 –FIGURA 4 Representac¸a˜o gra´fica da relac¸a˜o e´ um do SNOMED-CT. . . . . . . . . . . . . . 26 –FIGURA 5 Sentence breaker aplicado ao to´pico cuidados de armazenamento Amo- xicilina. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 –FIGURA 6 Exemplo de tags utilizadas pelo Hepple Tagger em lı´ngua inglesa. . . . . . 28 –FIGURA 7 Exemplo da te´cnica Snowball. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 –FIGURA 8 Exemplo de verificac¸a˜o de similaridade entre JONES e JOHNSON. . . . . 29 –FIGURA 9 Exemplo de um grafo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 –FIGURA 10 Uma visa˜o geral das etapas que compo˜em o processo desenvolvido. . . . 38 –FIGURA 11 Pa´gina de filtro do Bula´rio Eletroˆnico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 –FIGURA 12 Pa´gina de resultado da pesquisa do Bula´rio Eletroˆnico. . . . . . . . . . . . . . . . 40 –FIGURA 13 Html da pa´gina Bula´rio Eletroˆnico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 –FIGURA 14 Conteu´do da bula em imagem que esta´ fora do padra˜o. . . . . . . . . . . . . . . . 43 –FIGURA 15 Etapas do processo de segmentac¸a˜o dos to´picos. . . . . . . . . . . . . . . . . . . . . . 44 –FIGURA 16 Etapas do processamento textual no medicamento Fluconazol. . . . . . . . . 47 –FIGURA 17 Exemplo de integrac¸a˜o das bases ao conteu´do das bulas. . . . . . . . . . . . . . . 48 –FIGURA 18 Conteu´do de uma droga da base DrugBank. . . . . . . . . . . . . . . . . . . . . . . . . 49 –FIGURA 19 Etapas do processo de identificac¸a˜o dos fa´rmacos. . . . . . . . . . . . . . . . . . . . 52 –FIGURA 20 Etapas do processo de identificac¸a˜o dos fa´rmacos no medicamento Lota- nol. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 –FIGURA 21 Banco de dados dos medicamentos utilizando o Neo4j. . . . . . . . . . . . . . . 55 –FIGURA 22 Lista de interac¸o˜es do DrugBank para fa´rmaco Fenobarbital. . . . . . . . . 56 –FIGURA 23 Exemplo ilustrativo da marcac¸a˜o manual dos to´picos da bula do reme´dio Fluconazol. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 –FIGURA 24 Exemplo ilustrativo da marcac¸a˜o manual dos to´picos da bula do reme´dio Fluconazol. A cor azul representa os positivos verdadeiros, a cor vermelha representa os falsos positivos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 –FIGURA 25 Exemplo ilustrativo da composic¸a˜o do medicamento Dilacoron . . . . . . . . 66 –FIGURA 26 Proto´tipo acre´scimo da bula do medicamento. . . . . . . . . . . . . . . . . . . . . . . . 68 LISTA DE TABELAS –TABELA 1 Matriz de confusa˜o para problemas de duas classes. . . . . . . . . . . . . . . . . . . 30 –TABELA 2 Regras para pesquisa de to´picos no texto da bula. . . . . . . . . . . . . . . . . . . . . 44 –TABELA 3 Lista de variac¸o˜es e marcadores utilizados para identificac¸a˜o dos to´picos. 45 –TABELA 4 Listagem das bases estudadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 –TABELA 5 Listagem das bases estudadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 –TABELA 6 Consultas utilizando a linguagem Cypher. . . . . . . . . . . . . . . . . . . . . . . . . . 56 –TABELA 7 Marcadores utilizados para identificac¸a˜o dos to´picos. . . . . . . . . . . . . . . . . 60 –TABELA 8 Resultados do experiemnto realizado para as bulas selecionadas. Os DIPROPIONATOmarcados com 1 e 2 sa˜o reme´dios diferentes (composic¸a˜o diferente) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 –TABELA 9 Resultados da identificac¸a˜o dos to´picos no medicamento Dilacoron. A cor azul representa os verdadeiros positivos. A cor vermelha representa os falsos positivos. O sı´mbolo X representa a identificac¸a˜o parcial do texto do fa´rmaco e o sı´mbolo Y significa que o texto foi encontrado incorreta- mente no processo automa´tico. Para a substaˆncia CERA (E HOECHST), o processo identificou dois excipiente separados (CERA, e HOECHST) que sa˜o falsos positivos. A cor verde significa que o fa´rmaco na˜o foi identifi- cado tanto no processo manual quanto no automa´tico. O roxo representa o falso negativo. A sigla ND significa que na˜o foi encontrado o fa´rmaco no DrugBunk. Os textos identificados tanto no processo manual quanto no processo automa´tico esta˜o em negrito. Os textos que foram encontrados apenas no processo automa´tico esta˜o em ita´lico. O texto em fonte regular so´ foi identificado no processo manual. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 –TABELA 10 Cronograma das atividades do projeto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 LISTA DE SIGLAS MS Ministe´rio da Sau´de PDF Portable Document Format ANVISA Ageˆncia Nacional de Vigilaˆncia Sanita´ria NOTIVISA Sistema Nacional de Notificac¸o˜es para a Vigilaˆncia Sanita´ria SQL Structured Query Language XML eXtensible Markup Language OCR Optical Character Recognition HIV Human Immunodeficiency Virus LISTA DE SI´MBOLOS TP Verdadeiros Positivos FN Falsos Negativos FP Falsos Positivos TN Verdadeiros Negativos SUMA´RIO 1 INTRODUC¸A˜O . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.1 MOTIVAC¸A˜O E JUSTIFICATIVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.2 OBJETIVOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.2.1 Objetivo geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.2.2 Objetivos especı´ficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.3 ORGANIZAC¸A˜O DO DOCUMENTO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2 PROBLEMAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.1 INTERAC¸O˜ES ENTRE OS MEDICAMENTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.2 SEGMENTAC¸A˜O DOS TO´PICOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.3 MAPEAMENTOS DE TERMOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3 REFERENCIAL TEO´RICO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.1 FARMACOVIGILAˆNCIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.1.1 Guia ba´sico de farma´cia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.1.2 Interac¸o˜es entre drogas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.2 ESTUDO DE BASES JA´ CONSOLIDADAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.2.1 DrugBank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.2.2 SNOMED-CT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.2.3 Ontologias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3.3 MINERAC¸A˜O DE TEXTO (NATURAL LANGUAGE PROCESSING) . . . . . . . . . . . . . 27 3.4 ME´TODOS DE VALIDAC¸A˜O . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 3.4.1 Matriz de confusa˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 3.5 MODELOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.5.1 Teoria de Grafos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.5.2 Redes complexas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.5.3 Motifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.5.4 Sistema de recomendac¸a˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.6 BANCO DE DADOS NA˜O-RELACIONAL BASEADO EM GRAFOS . . . . . . . . . . . . 34 3.6.1 Neo4j . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3.7 DISCUSSA˜O . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 4 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.1 AQUISIC¸A˜O DE DADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 4.2 PREPARAC¸A˜O DAS INFORMAC¸O˜ES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 4.2.1 Algoritmo desenvolvido para segmentac¸a˜o dos to´picos . . . . . . . . . . . . . . . . . . . . . . . . . . 43 4.3 INTEGRAC¸A˜O COM OUTRAS BASES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 4.3.1 Algoritmo desenvolvido para identificac¸a˜o dos fa´rmacos . . . . . . . . . . . . . . . . . . . . . . . . 51 4.4 BANCO DE DADOS NA˜O-RELACIONAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 4.5 TECNOLOGIA E RECURSOS UTILIZADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 4.6 CONCLUSA˜O . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 5 RESULTADOS PRELIMINARES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 5.1 SEGMENTAC¸A˜O DE TO´PICOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 5.2 IDENTIFICAC¸A˜O DOS FA´RMACOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 5.3 PROTO´TIPO DA PA´GINA PARA ACRESCENTAR O MEDICAMENTO NA BASE 67 5.4 CONCLUSA˜O . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 6 PLANO DE TRABALHO E CRONOGRAMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 7 TRABALHOS FUTUROS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 REFEREˆNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 13 1 INTRODUC¸A˜O O sucesso terapeˆutico no tratamento de doenc¸as depende de bases que permitam a escolha do tratamento, medicamentoso e/ou na˜o medicamentoso, a selec¸a˜o do medicamento de forma cientı´fica e racional, considerando sua efetividade, seguranc¸ae custo, bem como a prescric¸a˜o apropriada, a disponibilidade oportuna, a dispensac¸a˜o em condic¸o˜es adequadas e a utilizac¸a˜o pelo usua´rio de forma adequada. Dessa forma, as deciso˜es clı´nicas e as relac¸o˜es esta- belecidas entre os profissionais da a´rea da sau´de e usua´rios sa˜o determinantes para a efetividade terapeˆutica (SAU´DE, 2012). No intuito de contribuir para a tomada de decisa˜o terapeˆutica, o Ministe´rio da Sau´de (MS) vem promovendo e incentivando o Uso Racional de Medicamentos. Trata-se de um do- cumento te´cnico que apresenta uma compilac¸a˜o das Condutas Baseadas em Evideˆncias sobre Medicamentos Utilizados em Atenc¸a˜o Prima´ria a` Sau´de, constantes no Mo´dulo de Informac¸o˜es do HO´RUS - Sistema Nacional de Gesta˜o da Assisteˆncia Farmaceˆutica (SAU´DE, 2012), que consiste em abordar a lo´gica da racionalidade na prescric¸a˜o, dispensac¸a˜o e administrac¸a˜o de medicamentos. Fora a cartilha, existe um sistema desenvolvido que contempla uma colec¸a˜o de ima- gens ou arquivos PDF das bulas. Esse sistema na˜o e´ muito complexo, e conta apenas com uma simples opc¸a˜o de filtros para pesquisa de conteu´do especı´ficos do medicamento, indu´stria farmaceˆutica, entre outros. O sistema de busca de bulas na˜o possui uma opc¸a˜o de pesquisa simples, como por exemplo que reme´dios sa˜o indicados para Alzheimer. Contudo, o o´rga˜o ainda na˜o disponibilizou nenhuma ferramenta eficaz para viabili- zar esse processo. Por este motivo, o presente trabalho propo˜e o desenvolvimento de uma ferramenta para auxı´lio a` prescric¸a˜o me´dica, capaz de detectar reac¸o˜es adversas entre os me- dicamentos, identificar padro˜es e utilizar regras de associac¸o˜es para minerac¸a˜o de dados no conteu´do disponibilizado pelas bulas dos medicamentos, possibilitando levantar as possı´veis contraindicac¸o˜es do reme´dio a ser prescrito. 14 1.1 MOTIVAC¸A˜O E JUSTIFICATIVA Atualmente, as ferramentas para consulta de bulas dos medicamentos da˜o suporte ao trabalho relacionado a sau´de, mas nem todas as ferramentas apresentam informac¸o˜es satis- fato´rias para sua receita, muito menos associac¸o˜es com outros medicamentos. Por meio do trabalho elaborado, pretende-se criar uma ferramenta capaz de auxiliar os profissionais de sau´de, ao levantar as possı´veis contraindicac¸o˜es, reac¸o˜es adversas e interac¸o˜es entre medicamentos a serem prescritos, ale´m de proporcionar conteu´dos mais completos para os usua´rios por meio do uso de arquivo das bulas profissionais que sera˜o utilizadas como fonte de dados para o trabalho. Ao te´rmino do projeto, tera´ sido desenvolvido um software de apoio para prescric¸a˜o me´dica, que informara´ se um determinado medicamento pode ser prescrito juntamente com outros, dado o histo´rico clı´nico do paciente. Assim, reduzira´ os custos com tratamento de sau´de e mitigara´ as possı´veis interac¸o˜es entre medicamentos que gerem reac¸o˜es adversas, alergias, agravamento de doenc¸as ja´ existen- tes, que causem intoxicac¸o˜es, podendo ate´ levar a` morte. 1.2 OBJETIVOS Por meio das recomendac¸o˜es do MS juntamente com o conteu´do das bulas me´dicas encontradas no site da Ageˆncia Nacional de Vigilaˆncia Sanita´ria (ANVISA), o presente traba- lho propo˜e a modelagem e desenvolvimento de uma ferramenta web para apoio a` prescric¸a˜o me´dica, que analisara´, por meio de regras de associac¸o˜es, as contraindicac¸o˜es, reac¸o˜es adver- sas e interac¸o˜es entre os medicamentos a` serem prescritos aos pacientes pelos profissionais da sau´de. A ferramenta tambe´m tera´ como objetivo realizar experimentos para classificac¸a˜o das interac¸o˜es entre medicamentos para que seja possı´vel encontrar problemas entre o uso conco- mitante, ale´m de verificar se os resultados esta˜o sendo classificadas corretamente. De modo que pretende-se como resultado do trabalho obter um processo de classificac¸a˜o que seja satisfato´rio para apoio a` prescric¸a˜o me´dica. 15 1.2.1 OBJETIVO GERAL Desenvolver e aplicar metodologias de minerac¸a˜o de dados para extrair e organizar as informac¸o˜es das bulas registradas na ANVISA a fim de facilitar a consulta nas redes de interac¸o˜es dos medicamentos junto com o histo´rico clı´nico. 1.2.2 OBJETIVOS ESPECI´FICOS Com o intuito de auxiliar na compreensa˜o do objetivo geral, alguns objetivos es- pecı´ficos foram delineados: • Estudar e utilizar processos para obtenc¸a˜o das bulas dos medicamentos; • Tratamento dos arquivos das bulas, conversa˜o de PDF em arquivo texto e tratar imagens do PDF; • Segmentac¸a˜o dos to´picos das bulas; • Identificac¸a˜o de termos relevantes entre os to´picos dos medicamentos; • Elaborac¸a˜o do modelo de banco de dados baseado em grafos, em que utiliza-se a tecno- logia Neo4j. 1.3 ORGANIZAC¸A˜O DO DOCUMENTO Esse documento busca detalhar as principais informac¸o˜es do trabalho realizado, e esta´ organizado em 7 capı´tulos. Ale´m do primeiro capı´tulo de introduc¸a˜o que apresenta a contextualizac¸a˜o, motivac¸a˜o e justificativa, objetivos e organizac¸a˜o do documento, os pro´ximos capı´tulos esta˜o conforme a estrutura apresentada: O capı´tulo 2 apresenta o problema a ser tratado pelo presente trabalho, ale´m de mostrar as contribuic¸o˜es geradas pelo estudo do projeto. Ja´ o capı´tulo 3 mostra o referencial teo´rico utilizado para embasar e justificar toda a pesquisa e experimentos realizados. No capı´tulo 4 encontra-se toda a metodologia implementada durante todo o processo de elaborac¸a˜o do presente trabalho. No capı´tulo 5 apresenta-se os resultados preliminares en- contrados por meio dos experimentos realizados, tambe´m para verificar o que foi estudado e implementado no referencial teo´rico. 16 Por fim no capı´tulo 6 e´ apresentado o plano de trabalho e o cronograma realizado para o projeto descrito no presente trabalho, e o capı´tulo 7 apresenta os possı´veis trabalhos futuros relacionados ao tema abordado ou melhoria dos processos ja´ existentes no sistema. 17 2 PROBLEMAS O perigo do uso inadequado de medicamentos, tambe´m conhecido por automedicac¸a˜o, e´ frequentemente discutido entre profissionais da a´rea da sau´de e organizac¸o˜es responsa´veis pelo assunto, pois podem trazer muitas complicac¸o˜es dada sua pra´tica. A automedicac¸a˜o rea- lizada, por exemplo, para uma simples dor de cabec¸a, quando tratada de maneira inadequada pode levar a um agravamento do quadro, resultando em um maior perı´odo de tratamento do paciente, ale´m de elevar os custos na a´rea da sau´de. Outra questa˜o que deve ser tratada sa˜o as possı´veis interac¸o˜es entre medicamentos, pois dado o uso concomitante indiscriminado de reme´dios, um medicamento pode minimizar a efica´cia de um outro, o que apresenta uma demora no tratamento ou ate´ mesmo sua auseˆncia, ale´m de gerar reac¸o˜es adversas, alergias, agravamento de doenc¸as ja´ existentes, que causem intoxicac¸o˜es, podendo ate´ levar a` morte. O problema pode ser exemplificado da seguinte maneira: imagina-se que uma deter- minada pessoa de idade avanc¸ada ja´ possui um histo´rico clı´nico repleto de medicamentos, cada qual responsa´vel por controlar uma determinada doenc¸a, inibir outra e ate´ suprir a falta de al- guma substaˆncia para o organismo. Diga-se que esta pessoa necessite de um novo medicamento para uma doenc¸a rece´m diagnosticada, por exemplo Alzheimer, pore´m o reme´dio prescrito mitiga o efeito por completo de um medicamento que o paciente ja´ toma para o tratamento do diabetes. Como o profissional da a´rea da sau´de pode identificar estas informac¸o˜es? A resposta pode ser simples, por meio das bulas me´dicas o profissional da a´rea da sau´de tem conhecimento do medicamento. A bula me´dica e´ dividida em to´picos e tem como objetivo esclarecer aos pacientescomo usar e como evitar os riscos do consumo do medica- mento prescrito pelo profissional de sau´de, pore´m a quantidade de informac¸o˜es disponibilizadas e´ volumosa e todo este conteu´do dificilmente e´ analisado e transformado em conhecimento para possı´veis reac¸o˜es adversas e interac¸o˜es a` sua utilizac¸a˜o associada a outros medicamentos. No pro´prio sı´tio web da ANVISA e´ disponibilizada uma pa´gina conhecida por Bula´rio 18 Eletroˆnico, em que podem ser encontrados os arquivos das bulas profissionais dos medicamen- tos disponibilizados pelas empresas responsa´veis, por este caminho encontra-se as informac¸o˜es que apresentam conhecimento dos reme´dios. Por meio dos arquivos das bulas tem-se um outro problema como tratar a falta de padronizac¸a˜o dos arquivos, pois encontra-se documentos que seguem um determinado padra˜o de to´picos e outros que na˜o possuem padra˜o, ale´m de existirem imagens da bula na versa˜o fı´sica, e na˜o ela digitalizada. Obter conhecimento destas fontes de dados torna-se uma tarefa trabalhosa, dado os obsta´culos elencados anteriormente, ale´m de outras complexidades existentes, pois posterior- mente a identificac¸a˜o dos to´picos das bulas, como pode-se desenvolver pesquisas e encontrar problemas entre o uso concomitantes de medicamentos ou uma determinada situac¸a˜o do paci- ente. Precisa-se identificar que se por exemplo numa determinada bula conter no to´pico contraindicac¸a˜o doenc¸as cardı´acas, um certo paciente que tenha infarto do mioca´rdio na˜o podera´ ter este medicamento prescrito em seu histo´rico clı´nico, ale´m de identificar se um determinado fa´rmaco pode potencializar a ac¸a˜o de outro ou mitigar sua efica´cia. 2.1 INTERAC¸O˜ES ENTRE OS MEDICAMENTOS Estabelecido um dado histo´rico clı´nico de um determinado paciente, existe a im- portaˆncia em verificar se a prescric¸a˜o de um novo medicamento pode evitar a efica´cia de um certo reme´dio que fac¸a parte do uso do paciente. Identificar interac¸o˜es entre os medicamentos por meio das informac¸o˜es contidas nas bulas e´ uma atividade que requer esforc¸o, pois tratar os textos e´ algo que necessita um processo de normalizac¸a˜o e minerac¸a˜o de texto. 2.2 SEGMENTAC¸A˜O DOS TO´PICOS O problema de informac¸o˜es na˜o normalizadas necessita em um primeiro momento da identificac¸a˜o de to´picos dos medicamentos. E´ necessa´rio classificar os to´picos e identificar para que cada to´pico da bula e´ referente, pois e´ o primeiro passo para normalizac¸a˜o das informac¸o˜es. Pore´m a quantidade de informac¸o˜es mesmo com a normalizac¸a˜o de to´picos, continua possuindo uma quantidade vasta de informac¸o˜es que na˜o sa˜o utilizadas. 19 2.3 MAPEAMENTOS DE TERMOS Identificar os termos relevantes de cada to´pico, como exemplo, mapear os fa´rmacos encontrados no to´pico composic¸a˜o e´ uma tarefa que contribui com a identificac¸a˜o de termos realmente importantes. Os respectivos termos de cada to´pico da˜o suporte a` criac¸a˜o do banco de dados baseado em grafos, por serem informac¸o˜es altamente interligadas. 20 3 REFERENCIAL TEO´RICO Nesse capı´tulo e´ apresentado conceitos de farma´cia estudados para entendimento do problema proposto e para compreender o conteu´do das bulas dos medicamentos, estudos refe- rentes a` soluc¸a˜o de desafios encontrados a cada passo do processo desenvolvido para o presente trabalho, ale´m de mostrar refereˆncias sobre tecnologias utilizadas. 3.1 FARMACOVIGILAˆNCIA O termo Farmacovigilaˆncia define o conjunto de atividades que possuem finalidade na identificac¸a˜o de reac¸o˜es adversas previamente desconhecidas, no encontro de riscos destes, na administrac¸a˜o de medidas reguladoras a` respeito e informac¸a˜o aos profissionais de sau´de e ao pu´blico sobre essas questo˜es (LAPORTE J. R.; BAKSAAS, 1993). Em se tratando de reac¸o˜es adversas, pode-se informar que muitas vezes acontecem por meio de adulterac¸o˜es que ocorrem de maneira proposital e na˜o declarada de substaˆncias farmaceˆuticas poderosas, como: corticoides, antidepressivos e anorexı´genos. Efeitos adver- sos tambe´m pode-se advir da contaminac¸a˜o por agroto´xicos, microrganismos, e ate´ mesmo de metais pesados (ORGANIZATION, 2004). Conhecer todas as reac¸o˜es adversas e´ algo complexo, visto a variada quantidade de circunstaˆncias que podem ocasiona´-las, tanto pela alterac¸a˜o de substaˆncias, quanto por um de- terminado caso isolado de um histo´rico de paciente. Visto essa dificuldade, registra´-las em forma de ocorreˆncia por meio de um sistema de coleta de dados, que resulte na organizac¸a˜o, avaliac¸a˜o e posterior divulgac¸a˜o das informac¸o˜es adquiridas e´ de extrema relevaˆncia para a´rea de sau´de (CAPASSO R.; IZZO A. A.; PINTO, 2000). No Brasil foi criado o NOTIVISA, que tem a finalidade de receber informac¸o˜es sobre reac¸o˜es adversas, cuja estrutura representa um banco de dados constituı´do por notificac¸o˜es de eventos adversos descritos por profissionais de sau´de ou de usua´rios cadastrados, por meio de formula´rios de notificac¸a˜o disponı´veis no pro´prio sı´tio da ANVISA. 21 3.1.1 GUIA BA´SICO DE FARMA´CIA Fa´rmaco e´ uma substaˆncia quı´mica que altera a func¸a˜o fisiolo´gica de um modo es- pecı´fico (RANG H. P.; RITTER, 2004), na qual significa que uma substaˆncia na˜o ira´ funcionar a na˜o ser que ela esteja ligada. Para que o fa´rmaco exija uma influeˆncia quı´mica sobre a ce´lula ele deve se ligar a` uma mole´cula alvo constituinte desta ce´lula (BIGUETTI C. C.; ANDRADE, 2014). Em nosso organismo existem 4 principais mole´culas alvos, que sa˜o na verdade proteı´nas reguladoras, as ce´lulas so´ se comunicam na presenc¸a destes receptores: (i) enzimas; (ii) mole´cula transportadora; (iii) canais de ı´ons; e (iv) receptores. A Figura 1 apresenta as 4 principais proteı´nas-alvo para ligac¸a˜o dos fa´rmacos e uma exemplificac¸a˜o de sua comunicac¸a˜o, detalha-se as macromole´culas proteicas, denominadas de receptores, que no caso sa˜o receptores fisiolo´gicos e se localizam na superfı´cie das ce´lulas, que servem para emitir sinais quı´micos entre uma ce´lula e outra, de um mesmo tecido ou de tecidos diferentes, o qual resulta nas mole´culas farmacolo´gicas que aproveitam dessa comunicac¸a˜o para emitir seus sinais quı´micos (BIGUETTI C. C.; ANDRADE, 2014). Figura 1: Proteı´nas-alvo para ligac¸a˜o dos fa´rmacos. Fonte: Adaptado de (BIGUETTI C. C.; ANDRADE, 2014). As mole´culas dos fa´rmacos teˆm que ser especı´ficas para as mole´culas do nosso orga- nismo, a isso da´-se o nome de reciprocidade, o qual significa que a comunicac¸a˜o entre o fa´rmaco e o receptor e´ recı´proco, assim os receptores so´ reconhecem determinados fa´rmacos (BIGUETTI 22 C. C.; ANDRADE, 2014). A Figura 2 apresenta na primeira coluna os fa´rmacos, representados pela cor vermelha na forma de pontos, e na outra coluna sa˜o representados, na cor vermelha e verde, os receptores alvo. Pela figura, temos a ilustrac¸a˜o de um cena´rio ideal apresentado pela comunicac¸a˜o dos fa´rmacos vermelhos com os respectivos receptores de cor vermelha, entretanto nenhuma substaˆncia agi com total especificidade, na qual faz com que os fa´rmacos unem-se com mole´culas que na˜o sa˜o especı´ficas, ocorrendo os efeitos colaterais. Dessa forma, conclui-se que quanto mais aumenta-se a concentrac¸a˜o da droga, mais mole´culas podem-se ligar a constituintes na˜o especı´ficos, e assim maiores sera˜o os efeitos colaterais (BIGUETTI C. C.; ANDRADE, 2014). Figura 2: Ilustrac¸a˜o da comunicac¸a˜o dos fa´rmacos e receptores. Fonte: Adaptado de (BIGUETTI C. C.; ANDRADE, 2014). Conceitua-se o fa´rmaco em dois tipos: (i) antagonista; e (ii) agonista, em que ambos se ligam aos receptores, pore´m apenas os agonistas conseguem levar uma resposta tecidual,os antagonistas nunca levam uma resposta tecidual, apenas se ligam aos receptores, bloqueando- os. Afirmar que um fa´rmaco agonista ira´ ter efica´cia na˜o e´ certeza absoluta, pois divide-se em: (i) parciais, que mesmo que se liguem a` 100% dos receptores so´ conseguem ativar 50% destes; e (ii) plenos, que conseguem ter uma efica´cia ma´xima de resultado, mesmo na˜o se ligando a todos os receptores. 23 3.1.2 INTERAC¸O˜ES ENTRE DROGAS Baseado na maneira das drogas serem metabolizadas pelo corpo, como a maioria dos fa´rmacos que sa˜o metabolizados pelas enzimas que residem no fı´gado. Uma droga, depois de ingerida, tem uma certa quantidade de tempo para ser eliminada do corpo, pore´m quando o processo de eliminac¸a˜o leva mais tempo do que o esperado, a toxidade pode ser acumulada, ou o efeito farmacolo´gico da droga pode ser exagerado (TARI T.; ANWAR, 2010). A induc¸a˜o ou inibic¸a˜o de enzimas pode ser afetada diretamente ou indiretamente por meio da regulac¸a˜o da transcric¸a˜o, na qual se as enzimas que sejam responsa´veis pelo metabo- lismo de uma determinada droga forem inibidas ou induzidas por outras drogas, a biodispo- nibilidade desta droga sera´ maior ou menor do que o esperado, tornando-se to´xico ou menos eficaz (TARI T.; ANWAR, 2010). A inibic¸a˜o de enzimas e´ uma forma comum de interac¸o˜es entre drogas (BOOBIS A.; WATELET, 2009). Entende-se que inibic¸a˜o direta o que acontece quando uma determi- nada droga, por exemplo de nome droga A inibe uma enzima E, o qual e´ responsa´vel pelo metabolismo da droga B, tais interac¸o˜es levam a` diminuic¸a˜o do nı´vel de atividades das enzimas e este, por sua vez, pode aumentar a biodisponibilidade para a droga B. Alternativamente, isto pode reduzir a formac¸a˜o de metabo´litos da enzima inibida e levar ao fracasso terapeˆutico das drogas afetadas (TARI T.; ANWAR, 2010). A Figura 3 representa os efeitos entre duas diferentes drogas, denominadas de droga A e droga B, na qual e´ representado dois efeitos ocorridos da droga A sobre a B. Na etapa A da figura pode-se visualizar o efeito direto de induc¸a˜o ou inibic¸a˜o de enzimas, enquanto na etapa B mostra-se o efeito indireto de induc¸a˜o ou inibic¸a˜o de fatores de regulac¸a˜o da transcric¸a˜o das enzimas do metabolismo das drogas. 3.2 ESTUDO DE BASES JA´ CONSOLIDADAS O estudo de bases se faz necessa´rio por meio da quantidade de informac¸o˜es disponibi- lizadas pelas bulas do medicamento, e´ uma quantidade volumosa de texto. Todo esse conteu´do dificilmente e´ analisado e transformado em conhecimento para possı´veis interac¸o˜es medica- mentosas, e reac¸o˜es adversas a` sua utilizac¸a˜o associada a outros medicamentos. Estudar bases com informac¸o˜es para a´rea da sau´de ja´ consolidadas, tanto para a´rea acadeˆmica, quanto para o comercial, juntamente com te´cnicas de minerac¸a˜o de dados que se referem a` descoberta de novas informac¸o˜es em func¸a˜o de padro˜es em grandes quantidades de 24 Figura 3: Efeitos entre drogas. Fonte: Adaptado de (BOOBIS A.; WATELET, 2009). 25 dados e auxiliam na identificac¸a˜o de termos realmente importantes para elaborac¸a˜o do modelo de banco de dados baseado em grafos utilizado para desenvolvimento do trabalho (ELMASRI R.; NAVATHE, 2005). 3.2.1 DRUGBANK O DrugBank refere-se a um banco de dados de drogas, em que apresenta recurso para demonstrar estrutura e dados sobre as mole´culas das drogas, alvos de drogas e as consequeˆncias biolo´gicas ou fisiolo´gicas da ac¸a˜o das drogas. Ele e´ capaz de fornecer muitas ferramentas embutidas para visualizac¸a˜o, classificac¸a˜o, pesquisa e extrac¸a˜o de dados de texto, imagem, sequeˆncia ou estrutura (WISHART D.S.; KNOX, 2008). As associac¸o˜es apresentadas pela base do DrugBank sa˜o compostas por algumas lite- raturas me´dicas ja´ consolidadas, como: PubMed, e-Therapeutics e STAT!Ref (AHFS), pore´m na˜o ha´ uma representac¸a˜o sistema´tica das indicac¸o˜es de medicamento que permita iden- tificar as relac¸o˜es de droga-doenc¸a (VALENTINI G.; RE, 2013). Por meio do DrugBank foi possı´vel identificar os fa´rmacos das bulas, pore´m todo seu conteu´do estava em Lı´ngua Inglesa, enquanto que a bula estava em Lı´ngua Portuguesa, portanto foi necessa´ria a utilizac¸a˜o de uma ferramenta de traduc¸a˜o da Lı´ngua Inglesa para Portuguesa, que realizasse a traduc¸a˜o do conteu´do do fa´rmaco disponı´vel no DrugBank, para assim realizar uma busca para encontrar os fa´rmacos presentes nos to´picos dos medicamentos. 3.2.2 SNOMED-CT SNOMED Clinical Terms (SNOMED-CT) e´ uma biblioteca de terminologias clı´nicas padronizadas, licenciada pela National Library of Medicine, na qual inclui uma co- bertura abrangente de doenc¸as, achados clı´nicos, terapias, procedimentos e resultados, ale´m de fornecer terminologias fundamentais para codificar um registro de sau´de eletroˆnico (ELE- VITCH, 2005). SNOMED-CT simplifica a pesquisa de doenc¸as e sintomas, no entanto para utiliza´-la encontra-se a representac¸a˜o dos dados em simples hierarquias de co´digos do SNOMED-CT o que necessita-se apenas de uma certa interpretac¸a˜o das informac¸o˜es. Estas hierarquias repre- sentam somente a organizac¸a˜o lo´gica dos dados, um exemplo desta apresentac¸a˜o dos dados esta´ presente na Figura 4. Na˜o existe indicac¸a˜o sobre qual seria o melhor caminho para um paciente em uma determinada situac¸a˜o atual, ou correlac¸a˜o entre nı´vel superior de co´digos do SNOMED-CT (CIOLKO E.; LU, 2010). 26 Figura 4: Representac¸a˜o gra´fica da relac¸a˜o e´ um do SNOMED-CT. Fonte: Adaptado de (DONNELLY, 2006). 3.2.3 ONTOLOGIAS Atualmente, existem muitos termos me´dicos, e a cada pesquisa ou estudo novos termos sa˜o utilizados, o volume de informac¸o˜es disponı´veis e´ muito grande e vem crescendo rapida- mente. Por meio destas altas taxas de crescimento, se faz necessa´rio a elaborac¸a˜o de te´cnicas que melhorem a organizac¸a˜o e disposic¸a˜o destes termos, atuando principalmente na busca faci- litada para recuperac¸a˜o. Inu´meras te´cnicas de tratamento e organizac¸a˜o podem ser utilizadas para classificac¸a˜o destes termos, como por exemplo: diciona´rios, categorias, por meio de grupos ou por relacio- namento entre conceito e definic¸a˜o, utilizando ontologias. Ontologia e´ uma te´cnica de classificac¸a˜o e organizac¸a˜o de informac¸o˜es, cujo objetivo principal diz respeito a` representac¸a˜o formal de conhecimento. Geralmente sa˜o criadas por especialistas do respectivo assunto em questa˜o, tendo sua estrutura baseada na descric¸a˜o de conceitos e dos relacionamentos semaˆnticos entre eles, as ontologias geram uma especificac¸a˜o formal e explı´cita de um conceito compartilhado (MORAIS E. A. M.; AMBRO´SIO, 2007). 27 3.3 MINERAC¸A˜O DE TEXTO (NATURAL LANGUAGE PROCESSING) Ja´ Han e Kamber, consideram o termo minerac¸a˜o de dados impro´prio, pois na˜o e´ feito a extrac¸a˜o de dados, mas sim a extrac¸a˜o de conhecimento (HAN J.; KAMBER, 2006). Juntamente com a minerac¸a˜o, alguns me´todos foram estudados para o desenvolvimento dos algoritmos utilizados no presente trabalho, na qual tinham a finalidade de extrac¸a˜o de conhe- cimento por meio das informac¸o˜es contidas nas bulas dos medicamentos. As te´cnicas estudadas elencam-se por: • Sentence breaker; • Hepple tagger; • Stop-words; • Sonwball; • Jaro-Winkler. O me´todo Sentence breaker consiste na quebra de espac¸o e pontuac¸a˜o aplicado em cada conteu´do da bula, na qual o texto foi dividido em frases geradas por meio de um separador de sentenc¸as contido na linguagem C#. A Figura 5 apresenta um exemplo dessa te´cnica aplicada ao texto do to´pico cuidados de armazenamento do medicamento Amoxicilina, na qual resultou na quebra das sentenc¸as de todo o conteu´do. Hepple tagger tema finalidade de verificar classes de palavras entre outros (HEPPLE, 2000). Na Figura 6 mostra-se as tags utilizadas para identificac¸a˜o das classes de palavras, o exemplo esta´ em lı´ngua inglesa, pore´m percebe-se que textos como and, but e or, logo na primeira linha do texto da figura, identificam ser classes que representam conjunc¸o˜es. O uso de Stop-words e´ importante juntamente apo´s a separac¸a˜o do texto em va´rias partes de conteu´do (tokens), e´ importante que a te´cnica de palavras eliminadas seja aplicada a essas partes para remoc¸a˜o de itens na˜o importantes para texto. Um exemplo para aplicac¸a˜o desta te´cnica, no presente trabalho, seria no caso de que palavras como doenc¸a, paciente e me´dico poderiam ser acrescentados na lista de stop-words, ja´ que sa˜o textos que se repetem nos arquivos das bulas. Ja´ para te´cnica Sonwball estuda-se as derivac¸o˜es de palavras (PORTER2, 2014). A Figura 7 exemplifica o algoritmo Snowball, na qual entende-se que as derivac¸o˜es encontradas para as palavras: quı´mica, quı´micas, quı´mico e quı´micos, foram iguais para todas as palavras. 28 Figura 5: Sentence breaker aplicado ao to´pico cuidados de armazenamento Amoxi- cilina. Fonte: Adaptado de (PIAO, 2014). Figura 6: Exemplo de tags utilizadas pelo Hepple Tagger em lı´ngua inglesa. Fonte: Adaptado de (CUNNINGHAM, 2014). 29 Figura 7: Exemplo da te´cnica Snowball. Fonte: Autoria pro´pria. Por fim, verifica-se o uso do me´todo Jaro-Winkler que controla erros ortogra´ficos e sequeˆncia de similaridade entre as palavras (WINKLER, 1999). A Figura 8 mostra um exemplo para verificac¸a˜o de similaridade entre as palavras Jones e Johson. Figura 8: Exemplo de verificac¸a˜o de similaridade entre JONES e JOHNSON. Fonte: Adaptado de (WINKLER, 1999). 3.4 ME´TODOS DE VALIDAC¸A˜O Para o processo de classificac¸a˜o e´ importante entender o poder e a limitac¸a˜o dos algo- ritmos desenvolvidos, e para que isto seja calculado, utiliza-se metodologias para avaliac¸a˜o que 30 permitem analisar os resultados classificados, ja´ que na˜o existe um u´nico algoritmo que apre- sente o melhor desempenho para todos os problemas (MONARD M. C.; BARANAUSKAS, 2005). Portanto, nesta sec¸a˜o sa˜o descritos os me´todos utilizados para validac¸a˜o dos algoritmos desenvolvidos no presente trabalho, um responsa´vel pela segmentac¸a˜o dos to´picos das bulas e outro com a finalidade de identificar somente os fa´rmacos no texto do to´pico composic¸a˜o dos medicamentos. 3.4.1 MATRIZ DE CONFUSA˜O A matriz de confusa˜o, conhecida tambe´m por matriz de erro, e´ formada por um arranjo quadrado de nu´meros inteiros dispostos em linhas e colunas que expressam a quantidade de amostras de uma classe respectivamente inferidas por um classificador (CONGALTON, 1991). Apresenta uma medida efetiva do modelo de classificac¸a˜o, na qual exibe-se a quantidade de classificac¸a˜o correta versus a quantidade classificada erradamente para cada classe, dentro de um conjunto de amostras. Para o presente trabalho foi utilizado a matriz de confusa˜o para problemas de duas classes, na qual foi utilizado para avaliar a segmentac¸a˜o de to´picos e na˜o to´picos e tambe´m na identificac¸a˜o de fa´rmacos e na˜o fa´rmacos. A Tabela 1 exemplifica uma matriz de confusa˜o para problemas de duas classes, em que TP representa a quantidade classificada positivamente que eram previstos como positivo, ja´ FN mostra o nu´mero classificado como negativo que foram previstos de maneira incorreta, FP apresenta a quantidade positiva de classes que foram classificadas incorretamente, e por fim, TN que mostra o nu´mero de classes negativas que foram previstas corretamente. Tabela 1: Matriz de confusa˜o para problemas de duas classes. Classe Predic¸a˜o positiva Predic¸a˜o negativa Verdadeira positiva Verdadeiros Positivos (TP) Falsos Negativos (FN) Verdadeira negativa Falsos Positivos (FP) Verdadeiros Negativos (TN) Fonte: Aptado de (PRATI R. C.; BATISTA, 2003). Nessa tabela entende-se que a distribuic¸a˜o entre as classes, positivas e negativas, liga- se entre a primeira e a segunda linha, assim qualquer medida de desempenho que utilize esses valores sera´ desproporcional entre as classes. Algumas me´tricas de avaliac¸a˜o, como: (i) pre- cisa˜o; (ii) sensitividade; e (iii) F-score, utilizam os valores obtidos por meio de uma matriz de confusa˜o. 31 As me´tricas calculadas para os experimentos realizados no presente trabalho sa˜o: i Precisa˜o (Precision), que e´ a porcentagem de amostras positivas classificadas correta- mente sobre o total de amostras classificadas como positivas. Representada pela fo´rmula: T P T P+FP ; ii Sensitividade (Recall), consiste na porcentagem de amostras positivas classificadas cor- retamente sobre o total de amostras corretas, apresentada pela fo´rmula: T PT P+FN ; iii F-score (F-measure), calcula-se a me´dia harmoˆnica entre a precisa˜o e a sensitividade, seguindo a fo´rmula: 2x PrecisionxRecallPrecision+Recall . 3.5 MODELOS As subsec¸o˜es posteriores apresentam os modelos pesquisados para embasar o desen- volvimento do presente trabalho, tanto para forma de contribuic¸a˜o acadeˆmica, quanto para avanc¸o tecnolo´gico. 3.5.1 TEORIA DE GRAFOS A criac¸a˜o da Teoria de Grafos e´ uma hipo´tese de um resultado muito antigo obtido por essa teoria e que tenha sido desenvolvido por Leonhard Euler (1707-1783). Um grafo G (V, E) e´ uma estrutura que consiste de uma se´rie de ve´rtices V = {v1, v2, ...} e um conjunto de arestas E = {e1, e2, ...}; cada aresta tem duas extremidades, que sa˜o ve´rtices, e eles na˜o sa˜o necessariamente distintos (EVEN, 1980). Pela Figura 9 apresenta-se um exemplo de grafo, em que atribui-se como ve´rtices o conjunto v={v1, v2, v3, v4, v5}, e arestas e={e1, e2, e3, e4, e5}. Os pon- tos finais da aresta e2 sa˜o os ve´rtices v1 e v2, portanto entende-se que a aresta e2 incide-se em v1 e v2. Por possuı´rem os mesmos pontos as arestas e4 e e5 sa˜o chamadas de paralelas, por fim, os pontos de e1 e´ o mesmo ve´rtice v1, a isto chama-se auto-loop (EVEN, 1980). Por meio da Teoria de Grafos, imagina-se o uso dessa teoria para representac¸a˜o de relac¸o˜es entre termos importantes, por exemplo fa´rmaco, ou doenc¸a, e o medicamento, sendo os ve´rtices, e as arestas representando os respectivos to´picos que ligam o termo ao medicamento. 32 Figura 9: Exemplo de um grafo. Fonte: Adaptado de (EVEN, 1980). 3.5.2 REDES COMPLEXAS Redes complexas referem-se a uma rede, representada em grafos, que esta˜o estrutura- das topologicamente de maneira na˜o trivial. Muitos modelos utilizados podem ser considera- dos complexos por possuı´rem variadas caracterı´sticas topolo´gicas que na˜o existiam em simples redes, por exemplo a presenc¸a de ve´rtices com diferentes graus de entrada e saı´da, ale´m de estruturas hierarquizadas (BACKES A. R.; CASANOVA, 2007). O entendimento de redes complexas e´ definido pela interac¸a˜o de teoria de grafos e mecanismos estatı´sticos, no qual resulta em um campo de pesquisa interdisciplinar, e flexibili- dade e generalidade de representac¸a˜o de uma estrutura natural, em que inclui-se uma topologia dinaˆmica (COSTA L. D. F.; RODRIGUES, 2005). Desta forma destaca-se a representac¸a˜o estrutural de redes complexas por meio de caracterı´sticas topolo´gicas de rede abstraı´das de um me´todo para extrac¸a˜o de conhecimento, em que aplicac¸o˜es relacionadas podem discriminar diferentes classes, que da´ suporte a` a´rea de reconhecimento de padro˜es (MARCHETTE, 2005). Uma das mais importantes e bem estudadas classes de redes sa˜o as redes biolo´gicas, estas possuem va´rios tipos diferentes de apresentac¸a˜o, na qual pode-se destacar a representac¸a˜o 33 de interac¸o˜es entre proteı´nas, genes ou entre asproteı´nas e os genes por exemplo. Ale´m de que interac¸o˜es entre mole´culas em vias metabo´licas das ce´lulas tambe´m visualiza-se como uma rede (COHEN R.; HAVLIN, 2010). Outro tipo de rede biolo´gica sa˜o redes biolo´gicas fı´sicas, tais como o sistema ner- voso, os neuro´nios do ce´rebro, a rede de vasos sanguı´neos em um organismo, redes neu- rais (COHEN R.; HAVLIN, 2010). Pelo estudo realizado entende-se o uso de redes complexas para representac¸a˜o das interac¸o˜es entre os fa´rmacos dos medicamentos uma aplicac¸a˜o promis- sora, visto a quantidade de representac¸o˜es que esse modelo aborda, ale´m da similaridade de apresentac¸a˜o de outros modelos levantados nesta sessa˜o. 3.5.3 MOTIFS Motifs sa˜o pequenos elementos encontrados no meio de uma rede complexa formada por diversos tipos de informac¸o˜es, que podem ser analisadas para gerar conhecimento sobre todo um conjunto de dados, sa˜o representados como uma sub-rede de uma rede maior, na qual sa˜o geralmente formados de e treˆs a cinco no´s ou arestas (VRECH G.; GONZAGA, 2011). Pode-se definir motif por padro˜es de interconexo˜es que ocorrem em nı´veis mais ele- vados do que outros que aparecem menos vezes de maneira aleato´ria, dada a ana´lise por meio de redes complexas. Encontram-se esses motifs em redes de bioquı´mica, neurobiologia, eco- logia e engenharia, ale´m de que motifs semelhantes foram encontrados em redes que realizam o processamento de informac¸o˜es, mesmo que eles descrevem elementos ta˜o diferentes como biomole´culas dentro de uma ce´lula e conexo˜es sina´pticas entre os neuroˆnios (MILO R.; SHEN- ORR, 2002). Entende-se que aplicar uma ana´lise de motifs em redes complexas, como as redes de fa´rmacos dos medicamentos pode-se compreender informac¸o˜es da rede como um todo, junta- mente com identificac¸a˜o de padro˜es frequentes na rede que podem ser relevantes para o estudo do presente trabalho. 3.5.4 SISTEMA DE RECOMENDAC¸A˜O A disponibilidade de um sistema de ajuda eficaz permite que o usua´rio adquira as habi- lidades de comunicac¸a˜o e os conhecimentos necessa´rios para operar o sistema mais facilmente. Com o aumento da dependeˆncia de sistemas de computador baseado na sociedade de hoje, isso e´ importante (WILLIS, 2006). Estas caracterı´sticas foram exemplificadas pelo trabalho de (TELLES D. JR.; TELLES, 34 2006), em que os autores apresentam a criac¸a˜o de sistema especialista para nutric¸a˜o, na qual os dados foram representados por pacientes. Ha´ variados fatores que determinam a quantidade dia´ria de alimentos que uma pessoa necessita, como sexo, peso idade, entre outros. Pore´m existem pacientes que possuem o mesmo bio´tipo, mas na˜o retornam o mesmo resultado, a partir desse foi exigido o conhecimento do especialista (TELLES D. JR.; TELLES, 2006). Foi neste evento em que o sistema de recomendac¸a˜o apresentou resultados para apoio a tomada de decisa˜o dos nutricionistas, por meio de te´cnicas de heurı´sticas que buscaram e descobriram conhecimentos dos pacientes (TELLES D. JR.; TELLES, 2006). 3.6 BANCO DE DADOS NA˜O-RELACIONAL BASEADO EM GRAFOS Atualmente, verifica-se o crescente conjunto de informac¸o˜es, que sa˜o volumosas quan- tidades de dados gerados dia-a-dia para va´rios fins. Criar soluc¸o˜es para estes cena´rios e´ algo que na˜o pode seguir um padra˜o de soluc¸a˜o, deve-se estudar todo o projeto para escolher os modelos ja´ existentes mais indicados, ou ate´ mesmo criar uma nova soluc¸a˜o. A tendeˆncia na pesquisa de banco de dados e´ voltada para sistemas que possam atender a aplicac¸o˜es cada vez mais complexas, que va˜o ale´m do Modelo Entidade Relacionamento (AT- KINSON M.; BANCILHON, 1989). O Modelo Entidade Relacionamento pode na˜o atender totalmente, ou atender de uma maneira menos eficiente aplicac¸o˜es que necessitem de diversas soluc¸o˜es diferentes e especı´ficas para um determinado fim. Durante todo o processo de elaborac¸a˜o de soluc¸o˜es, verifica-se que, com o passar do desenvolvimento e a evoluc¸a˜o da aplicac¸a˜o, os dados tendem a ficar cada vez mais conectados, ate´ um nı´vel que na˜o se enxergue um dado separado de outro, dificultando o uso de um modelo especı´fico de modelagem de dados. E´ neste contexto que surge a utilizac¸a˜o de modelos de dados na˜o relacionais, conhe- cidos por NoSql. Esses modelos sa˜o capazes de armazenar e processar grandes conjuntos de dados e desempenham alto poder de leitura e escrita, sendo eles um desafio para os bancos de dados relacionais (HAN J.; HAIHONG, 2011). Segundo (HAN J.; HAIHONG, 2011), as principais vantagens do NoSql sa˜o a ra´pida leitura e escrita dos dados, armazenamento em massa dos registros, facilidade de expansa˜o e baixo custo. Ja´ como desvantagens deste banco, pode-se relacionar o na˜o suporte ao SQL, sem 35 controle de transac¸o˜es, escassos recursos adicionais e ferramentas para banco de dados NoSql. O presente trabalho busca uma soluc¸a˜o para prescric¸a˜o me´dica, e para a realizac¸a˜o desta utiliza-se de um conjunto volumoso referente ao conteu´do das bulas me´dicas. Para uma melhor gesta˜o dos dados e respostas mais efetivas, levando em considerac¸o˜es as pesquisas rea- lizadas entre os modelos de dados ja´ citados, foi escolhido para desenvolvimento o modelo de banco de dados na˜o relacional. E´ neste contexto, da existeˆncia de va´rios modelos de banco de dados na˜o relacionais, que e´ necessa´rio encontrar o mais adequado para o trabalho. Por meio de pesquisas realizadas e do entendimento sobre a soluc¸a˜o do projeto, as pesquisas foram direcionadas para banco de dados em grafos. Um grafo descreve relac¸o˜es entre va´rios conjuntos de entidades, interligadas por no´s e representando diferentes propriedades. Ele pode descrever propriedades, tanto para conjunto de entidades, quanto para a relac¸a˜o entre os no´s. Este modelo aparece muito em domı´nios entre reme´dios (WILLIAMS D.W.; HUAN, 2007). O modelo de grafo e´ de fa´cil entendimento, pois tentam superar limitac¸o˜es impostas pelos modelos tradicionais por meio da representac¸a˜o dos dados em estrutura de conjuntos, tornando-se assim uma modelagem de dados mais flexı´vel (ANGLES R.; GUTIERREZ, 2008). 3.6.1 NEO4J O conteu´do das bulas segue o modelo de dados em grafo para armazenamento dos re- gistros, pois necessita retornar uma resposta ra´pida. O uso de banco de dados em grafo permite manter e reutilizar ricos vetores de comparac¸a˜o (HARRIS, 2013). As estruturas de dados numa base de dados em grafo sa˜o mais alinhadas com os for- matos nativos de dados vinculados. O banco de dados em grafo tambe´m fornece um reposito´rio muito ra´pido para a recuperac¸a˜o de dados, como ao contra´rio de banco de dados relacional na˜o existem ı´ndices ou ligac¸o˜es (joins) que sa˜o computacionalmente caros (HARRIS, 2013). O Neo4j e´ lı´der em termos de uso no mercado de banco de dados em grafo (HARRIS, 2013). Estes bancos de dados, NoSQL, cresceram em popularidade por causa da facilidade de acesso, a velocidade e escalabilidade (LI Y.; MANOHARAN, 2013). Neo4j permite o armazenamento de dados de no´s ligados por arcos, por serem dados semaˆnticos sa˜o facilmente representados em grafos. Fornecem um banco de dados em grafo de abstrac¸a˜o mais natural em relac¸a˜o ao modelo de banco de dados relacional (KIVIKANGAS 36 P.; ISHIZUKA, 2012). A maioria dos modelos de banco de dados na˜o oferecem operac¸o˜es em grafo, utili- zando apenas de expresso˜es puramente textuais, o que dificulta a aprendizagem quando compa- rado ao modelo em grafo que retorna interfaces gra´ficas ao usua´rio (GYSSENS M.; PAREDA- ENS, 1994). 3.7 DISCUSSA˜O Realizar pesquisas sobre o que a comunidade publicou de trabalhos relacionados a linguagem de processamento natural, grafos, farma´cia e tecnologiaNeo4j foi importante para embasar o presente trabalho. Entender as soluc¸o˜es criadas a partir desses me´todos fundamenta a soluc¸a˜o a ser desenvolvida para auxı´lio a` prescric¸a˜o me´dica. Conhecer te´cnicas utilizadas para a minerac¸a˜o textual contribuiu para o desenvolvi- mento dos algoritmos elaborados, ale´m do uso de te´cnicas de avaliac¸a˜o que possibilitaram obter os resultados dos algoritmos. Alinhar a extrac¸a˜o de conhecimento juntamente com informac¸o˜es ja´ consolidadas de outras bases contribui para melhoria de classificac¸a˜o dos fa´rmacos e tambe´m futuramente de outros termos dos demais to´picos das bulas. Outro ponto importante foi conhecer a base da tecnologia Neo4j, para isso pesquisar sobre o modelo de base de dados em grafos foi considera´vel para o planejamento de um modelo que possa ser utilizado no projeto. A busca por modelos de banco na˜o relacionais teve fundamento na resposta que o projeto necessita solucionar. O pro´prio desenho da ferramenta, em que os medicamentos sa˜o relacionados entre si por va´rias propriedades diferentes, na qual existe a necessidade de uma resposta ra´pida e precisa ao mesmo tempo, o que justifica o uso de banco de dados em grafo. Por fim, entender sobre a finalidade de sistemas de recomendac¸o˜es, verificar o que foi aceito pela comunidade sobre o assunto e encontrar assuntos referentes a a´rea me´dica contribui para justificar o uso da tecnologia Neo4j. Como trabalho futuro espera-se criar uma ferramenta que possa apontar as informac¸o˜es mais relevantes do conteu´do das bulas de maneira automatizada, na qual essa possa contribuir para criac¸a˜o da base de dados no Neo4j. 37 4 METODOLOGIA A finalidade do presente trabalho e´ a produc¸a˜o de uma base que possa responder a seguinte pergunta: quais sa˜o os reme´dios e as relac¸o˜es entre eles dado um histo´rico clı´nico de um paciente? Entende-se, por exemplo, que um paciente que tenha Alzheimer, diabetes e uma doenc¸a cardı´aca grave, ingira um conjunto de medicamentos respectivo ao tratamento das doenc¸as elencadas, pore´m cada reme´dio causa uma reac¸a˜o adversa diferente o que resulta em outros medicamentos para controle destas reac¸o˜es, tornando-se um ciclo no qual o desafio esta´ em identificar o medicamento que possa ser prescrito mitigando-se os problemas ja´ existentes ou os que possam ser desenvolvidos. Para desenvolvimento do trabalho, foram utilizados dados reais coletados de 6.076 (seis mil e setenta e seis) bulas, pore´m apenas com estes arquivos na˜o foi possı´vel atender a finalidade do projeto, pois os dados na˜o estavam estruturados e faltava a relac¸a˜o entre os fa´rmacos. O DrugBank e´ uma base de dados que possui informac¸o˜es sobre os fa´rmacos apro- vados e na˜o aprovados. Pore´m, utilizar somente as interac¸o˜es entre fa´rmacos do DrugBank, tambe´m na˜o atinge a finalidade, pois esse e´ um banco especializado em armazenar os fa´rmacos, suas relac¸o˜es e informac¸o˜es farmacolo´gicas, na˜o possui uma clara relac¸a˜o com doenc¸as que os fa´rmacos possam estar relacionados, ale´m de que um medicamento pode ser elaborado utili- zando um conjunto de fa´rmacos. Ja´ o SNOMED-CT possui uma lista de doenc¸as e suas classificac¸o˜es, mas na˜o possui medicamentos relacionados que tratam as doenc¸as, cada base tem uma importante fonte de informac¸a˜o para o projeto, pore´m a falta de padronizac¸a˜o e a volumosa quantidade de texto re- quer um processamento do conteu´do desses para integrar todos os dados de diferentes bases com a finalidade de gerar conhecimento no qual seja possı´vel o auxı´lio a` prescric¸a˜o me´dica, levando em considerac¸a˜o o histo´rico clı´nico do paciente, interac¸o˜es medicamentosas, contraindicac¸o˜es, reac¸o˜es adversas, entre outros pontos importantes. A Figura 10 mostra as quatro etapas que foram realizadas: (i) obtenc¸a˜o das bulas do 38 sı´tio web da ANVISA, esses dados na˜o sa˜o estruturados; (ii) preparac¸a˜o das informac¸o˜es das bulas, extraı´-las e normaliza´-las em um banco de dados relacional; (iii) integrac¸a˜o com outras bases para identificac¸a˜o do conteu´do relevante obtido da normalizac¸a˜o do texto das bulas e (iv) banco de dados na˜o-relacional desenvolvido por meio do conteu´do relevante encontrado nas bulas, o seu respectivo to´pico e nome do medicamento. Figura 10: Uma visa˜o geral das etapas que compo˜em o processo desenvolvido. Fonte: Autoria pro´pria. 4.1 AQUISIC¸A˜O DE DADOS A ANVISA disponibiliza uma pa´gina para pesquisa de 6.076 bulas que foram consul- tas no dia 5 de novembro de 2014, chamada por Bula´rio Eletroˆnico que e´ representada pela Figura 11, em que consta os registros de bulas, por meio desta pa´gina pode-se realizar um filtro por nome do medicamento, empresa fabricante, nu´mero de expediente, perı´odo de publicac¸a˜o e quantidade de registros por pa´gina que podera˜o ser exibidos apo´s a pesquisa. Os medicamentos encontrados sa˜o apresentados linha a` linha em uma tabela, que e´ mostrada na Figura 12, em que nas u´ltimas colunas ha´ a possibilidade de visualizar o arquivo na extensa˜o PDF da bula para o paciente, e outro arquivo para o profissional da a´rea da sau´de. E´ no arquivo da bula profissional que encontramos informac¸o˜es importantes sobre cada medicamento. A bula e´ composta por va´rios to´picos que auxiliam na prescric¸a˜o do profissional de sau´de, os to´picos mais importantes que aparecem com uma certa frequeˆncia nos medicamen- tos podem ser elencados como: • Apresentac¸a˜o: apresenta o medicamento e a empresa responsa´vel por sua elaborac¸a˜o; • Composic¸a˜o: mostra os elementos utilizados para composic¸a˜o do medicamento; 39 Figura 11: Pa´gina de filtro do Bula´rio Eletroˆnico. Fonte: Adaptado de (ANVISA, 2013). • Indicac¸a˜o: para que este medicamento e´ indicado; • Caracterı´sticas Farmacolo´gicas: mostra como o medicamento funciona; • Contraindicac¸o˜es: quando na˜o se pode usar o medicamento; • Interac¸o˜es medicamentosas: o que deve saber antes de usar o medicamento; • Posologia e modo de usar: como deve ser usado o medicamento, onde, como e por quanto tempo pode-se guardar o medicamento; • Reac¸o˜es adversas: quais os males que este medicamento pode causar; • Superdose: o que deve ser feito se usar uma quantidade maior do que a indicada pelo medicamento. Entendido a importaˆncia de cada to´pico da bula, foi necessa´rio que fosse desenvolvido um sistema que automatiza-se a obtenc¸a˜o dos arquivos no sistema da ANVISA, pois e´ traba- lhoso realizar este processo manualmente, ja´ que e´ uma tarefa totalmente repetitiva e na˜o requer ana´lise das informac¸o˜es para esta etapa de aquisic¸a˜o dos arquivos. 40 Figura 12: Pa´gina de resultado da pesquisa do Bula´rio Eletroˆnico. Fonte: Adaptado de (ANVISA, 2013). 41 4.2 PREPARAC¸A˜O DAS INFORMAC¸O˜ES Ale´m de obter os arquivos das bulas, o sistema desenvolvido precisou identificar o conteu´do da linha para que fosse possı´vel verificar o nome do medicamento, a empresa res- ponsa´vel, e outras informac¸o˜es presentes na tabela. A identificac¸a˜o foi feita pela leitura do Html da pa´gina do Bula´rio Eletroˆnico, que esta´ representada na Figura 13, utilizando expressa˜o regular para recuperar as informac¸o˜es disponibilizadas. Pore´m somente estas ac¸o˜es na˜o foram suficientes para encontrar o caminho do arquivo PDF, pois como pode ser visualizado na Figura 13, a tag que representa o link para visualizac¸a˜o das bulas esta´ condicionada a um evento JavaScript. Toda uma ana´lise sobre os scripts utiliza- dos pela pa´gina foi feita para que encontrasse a func¸a˜o identificada na tag, assim foi possı´vel encontrar o enderec¸o que estava sendo utilizada para apresentar o arquivo PDF. Figura 13: Html da pa´gina Bula´rio Eletroˆnico.Fonte: Autoria pro´pria. Um dos grandes problemas e´ como adquirir documentos mais relevantes (JONES, 1999), como por exemplo as bulas que na˜o esta˜o estruturadas, os dados esta˜o desorganiza- dos, na˜o possuem uma representac¸a˜o padra˜o e nem o mesmo formato, o que torna a busca por alguma informac¸a˜o uma tarefa trabalhosa em que requer o processamento e a interpretac¸a˜o do texto das bulas, algo computacionalmente custoso quando comparada com apenas extrac¸a˜o de informac¸a˜o (RILOFF ELLEN; LEHNERT, 1994). Os problemas encontrados nos arquivos das bulas podem ser elencados como: 42 1. Falta de padronizac¸a˜o entre os arquivos: (a) Problemas na extrac¸a˜o de texto do arquivo PDF, definido pela falta de formatac¸a˜o; (b) To´picos das bulas esta˜o diferentes do padra˜o estabelecido pela ANVISA; (c) Erros ortogra´ficos no conteu´do da bula; (d) PDF com imagem do texto ou ate´ mesmo uma foto da versa˜o fı´sica encontrada na caixa do reme´dio (ver exemplo na Figura 14). Foi implementada uma rotina para extrair as imagens dos arquivos PDF referente a 15 bulas, pore´m outro problema foi identificado, algumas bulas vinham em uma orientac¸a˜o em que o alinhamento do texto se encontrava na horizontal, ale´m da imagem extraı´da estar recortada em va´rias partes, o que pode ser visualizado na Figura 14. A soluc¸a˜o desenvolvida para o problema elencado foi uma ferramenta que juntava as partes da imagem como se fosse um u´nico arquivo, pore´m na˜o bastava so´ ligar os arquivos, era necessa´ria interac¸a˜o humana para que fosse possı´vel associar a imagem sem que o texto sofresse alguma alterac¸a˜o. Ao obter a imagem da bula em um arquivo u´nico foi necessa´rio verificar se a orientac¸a˜o do arquivo estava correta, ale´m de aplicar um tratamento de qualidade na imagem para tornar o texto mais nı´tido, apo´s encontrar o alinhamento correto do arquivo foi aplicado uma ferramenta de Optical Character Recognition (OCR), que tem a finalidade de identificar o texto da imagem e converter em conteu´do. A tecnologia utilizada foi o Tesseract, que e´ o mecanismo de co´digo aberto para OCR mais preciso e que esta´ disponı´vel atualmente (TESSERACT, 2014). Com o uso do Tesseract muito do conteu´do poˆde ser identificado, pore´m o pro- cesso na˜o garantiu que todas as informac¸o˜es foram detectadas, assim nesta etapa tambe´m ha´ necessidade de interac¸a˜o humana. Do conteu´do da bula, juntamente com as outras informac¸o˜es ja´ no banco de dados relacional foi essencial que os to´picos das bulas fossem identificados para que fosse possı´vel uma representac¸a˜o mais conveniente dos dados para as etapas posteriores do presente trabalho. O algoritmo desenvolvido para identificac¸a˜o dos to´picos (exibido no Capı´tulo 4.2.1) foi baseado na pa´gina da ANVISA que apresenta uma norma que deve ser seguida para criar a bula e tambe´m descreve quais sa˜o os to´picos necessa´rios para criac¸a˜o do documento. Ele era responsa´vel por procurar os to´picos no texto da bula por meio de expressa˜o regular, sem diferenciac¸a˜o de letra maiu´scula e minu´scula, quando achava algo que seguia o padra˜o marcava- o respectivamente. 43 Figura 14: Conteu´do da bula em imagem que esta´ fora do padra˜o. Fonte: Adaptado de (ANVISA, 2013). O padra˜o de to´picos exemplificado pela pa´gina da ANVISA na˜o estava presente em todas as 6.076 bulas - dessas 1.622 na˜o tivera todos seus to´picos identificados. Assim foi ne- cessa´rio criar-se uma validac¸a˜o na qual o uso de expressa˜o regular fizesse a contagem de to´picos marcados no texto. Desta forma, quando um to´pico retornava com valor zero, uma ana´lise iso- lada era realizada no arquivo e novas regras adicionadas a`s ja´ existentes. Como problemas encontrados nesta etapa pode-se destacar que muitas bulas estavam fora do padra˜o, ale´m de alguns erros ortogra´ficos que atrapalhavam na identificac¸a˜o dos to´picos e tiveram que ser adicionados na lista utilizada para gerar um padra˜o de pesquisa. A Tabela 2 mostra os to´picos e suas variac¸o˜es, ale´m de apresentar o padra˜o criado para pesquisa por ex- pressa˜o regular. Todo o processo do algoritmo desenvolvido e´ detalhado no pro´ximo capı´tulo. 4.2.1 ALGORITMO DESENVOLVIDO PARA SEGMENTAC¸A˜O DOS TO´PICOS A segmentac¸a˜o dos to´picos define um algoritmo desenvolvido cuja func¸a˜o era de iden- tifica´-los e marca´-los juntamente aos seus respectivos valores. A Figura 15 apresenta as etapas realizadas pelo algoritmo, que sa˜o: (i) lista de variac¸o˜es encontradas em cada to´pico; (ii) busca por expressa˜o regular do padra˜o respectivo pela lista de variac¸o˜es; (iii) aplicac¸a˜o de tratamento de texto; e (iv) marcac¸a˜o do to´pico. 44 Tabela 2: Regras para pesquisa de to´picos no texto da bula. To´pico Variac¸o˜es Expressa˜o regular Contraindicac¸o˜es Contraindicac¸o˜es, contra-indicac¸o˜es \A*\sCONTRAINDICAC¸O˜ES|CONTRA- INDICAC¸O˜ES Reac¸o˜es adversas Reac¸o˜es adversas a medicamentos, reac¸o˜es adversas, reac¸oes adversas \A*\sREAC¸O˜ES ADVERSAS A MEDICAMENTOS|REAC¸O˜ES ADVERSAS|REAC¸OES ADVERSAS Fonte: Autoria pro´pria. Figura 15: Etapas do processo de segmentac¸a˜o dos to´picos. Fonte: Autoria pro´pria. Na etapa de lista de variac¸o˜es os valores utilizados para cada to´pico definido sa˜o fixa- dos pelas normas definidas na Resoluc¸a˜o-RDC No 47, de 8 de setembro de 2009 da ANVISA, para elaborac¸a˜o e publicac¸a˜o da bula me´dica (ANVISA, 2009), juntamente com a identificac¸a˜o manual de alguns medicamentos que estavam fora do padra˜o, estes encontrados por meio de contadores de to´picos marcados no final do processo que eram analisados. Na Tabela 3 mostra- se a lista de to´picos e suas variac¸o˜es, juntamente com o marcador utilizado para marcac¸a˜o do texto. 45 Tabela 3: Lista de variac¸o˜es e marcadores utilizados para identificac¸a˜o dos to´picos. Ordem To´pico Variac¸o˜es Marcador 1 Identificac¸a˜o do medicamento, Apresentac¸o˜es IDENTIFICAC¸A˜O DO MEDICAMENTO, IDENTIFICAC¸A˜O DO MEDICMANETO, APRESENTAC¸O˜ES, APRESENTAC¸A˜O, FOR- MAS FARMACEˆUTICAS E APRESENTAC¸O˜ES, FORMA FARMACEˆUTICA E APRESENTAC¸A˜O =[TOPICO]=[INDE] 2 Composic¸a˜o COMPOSIC¸A˜O, COMPOSIC¸O˜ES =[TOPICO]=[COMP] 3 Informac¸o˜es ao profissional de sau´de INFORMAC¸O˜ES AO PROFISSIONAL DE SAU´DE, INFORMAC¸O˜ES TE´CNICAS AOS PROFIS- SIONAIS DE SAU´DE =[TOPICO]=[INFO] 4 Indicac¸o˜es INDICAC¸O˜ES, INDICAC¸A˜O =[TOPICO]=[INDI] 5 Resultados de efica´cia RESULTADOS DE EFICA´CIA =[TOPICO]=[RESU] 6 Caracterı´stica Farmacolo´gicas CARACTERI´STICAS FARMACOLO´GICAS, CARACTERI´STI´CAS FARMACOLO´GICAS, CARACTERI`STICAS FAR- MACOLO´GICAS =[TOPICO]=[CARA] 7 Contraindicac¸o˜es CONTRAINDICAC¸O˜ES, CONTRA-INDICAC¸O˜ES =[TOPICO]=[CONT] 8 Adverteˆncias e precauc¸o˜es ADVERTEˆNCIAS E PRECAUC¸O˜ES =[TOPICO]=[ADVE] 46 9 Interac¸o˜es medicamentosas INTERAC¸O˜ES ME- DICAMENTOSAS, INTERAC¸O˜ES MEDI- CAMENTOSAS E OUTRAS FORMAS DE INTERAC¸A˜O =[TOPICO]=[INTE] 10 Cuidados de armazenamento do medicamento CUIDADOS DE AR- MAZENAMENTO DO MEDICAMENTO, ONDE, COMO E POR QUANTO TEMPO POSSO GUARDAR ESTE MEDICAMENTO? =[TOPICO]=[CUID] 11 Posologia e modo de usar POSOLOGIA E MODO DE USAR =[TOPICO]=[POSO] 12 Reac¸o˜es adversas REAC¸O˜ES ADVERSAS A MEDICAMENTOS, REAC¸O˜ES ADVERSAS, REAC¸OES ADVERSAS =[TOPICO]=[RECA] 13 Superdose SUPERDOSE, SUPER- DOSE OU INGESTA˜O ACIDENTAL, SUPERDO- SAGEM =[TOPICO]=[SUPE] Para etapa de pesquisa por expressa˜o regular foi utilizada os registros da lista de variac¸o˜es, que juntos formavam um padra˜o de busca no conteu´do da bula, desta forma quando o padra˜oera identificado aplicava-se um tratamento no texto. O tratamento de texto tinha finalidade de retirar os textos desnecessa´rios, deixando apenas o to´pico, e na˜o todo seu conteu´do. Foi realizado por meio dos termos identificados pelo padra˜o da pesquisa por expressa˜o regular, que eram selecionados um a um na seguinte sequeˆncia: 1. Listagem de cada caractere do texto para verificac¸a˜o de sequeˆncia de letra maiu´sculas, quando os to´picos seguem este padra˜o, o limite definido para esta regra e´ de 5 caracteres em sequeˆncia e com letra em caixa alta ja´ sa˜o identificados como to´pico; 2. Procura pelo ı´ndice do termo identificado na pesquisa por expressa˜o regular, ao encontra´- lo e´ retornado uma parte do conteu´do da bula ate´ o inı´cio do termo achado, por meio desta 47 parte e´ pesquisado o valor do ı´ndice ate´ a u´ltima quebra de linha; 3. Por meio do ı´ndice da quebra de linha e´ retornado uma nova parte do conteu´do da bula, pore´m agora com inı´cio sendo este ı´ndice; 4. Dessa parte do conteu´do e´ procurado um ı´ndice de quebra de linha mais pro´ximo para corte do texto, assim para encontra´-lo e´ realizado uma verificac¸a˜o que so´ para ate´ satisfa- zer esta´ condic¸a˜o; 5. Definido o termo e a sua linha de quebra, uma nova parte e´ criada em que realiza-se uma limpeza de caracteres em branco do inı´cio e do fim no texto; 6. A parte identificada e´ submetida a` uma verificac¸a˜o na lista de variac¸o˜es para que seja visualizado se apesar de todo o processo o to´pico ainda esta´ contido nesta parte de texto; 7. Por fim, a parte e´ acrescida do respectivo marcador referente to´pico pesquisado, uma operac¸a˜o de substituir tudo e´ aplicado em no conteu´do do medicamento, modificado parte encontrada para o termo marcado. Essa normalizac¸a˜o foi importante para os experimentos realizados, pois por meio dela foi possı´vel identificar se a marcac¸a˜o estava correta, no qual resultava como uma validac¸a˜o do processo desenvolvido. Na Figura 16 apresenta um exemplo de marcac¸a˜o realizada no medicamento Fluco- nazol para o to´pico composic¸a˜o, em que elenca-se todas as etapas realizadas pelo algoritmo desenvolvido. Figura 16: Etapas do processamento textual no medicamento Fluconazol. Fonte: Autoria pro´pria. 48 4.3 INTEGRAC¸A˜O COM OUTRAS BASES Um medicamento e´ formado por um conjunto de fa´rmacos e tem a finalidade de tratar uma ou mais doenc¸as. As bulas representam os reme´dios, no qual o to´pico de nome composic¸a˜o por exemplo, apresenta o conjunto de fa´rmacos destes, pore´m os dados dos fa´rmacos e suas relac¸o˜es esta˜o no DrugBank, que e´ uma base de dados u´nica para bioinforma´tica e quimioin- forma´tica que apresenta informac¸o˜es detalhadas de dados sobre drogas (DRUGBANK, 2014). O SNOMED-CT padroniza a busca por termos me´dicos, assim pode-se associa´-lo a` bula. A Figura 17 apresenta os dois trabalhos realizados para integrac¸a˜o das bulas com outras bases de dados: (1) mapeamento da bula com os fa´rmacos do DrugBank; (2) mapeamento de termos SNOMED-CT com a bula. Com isso foi possı´vel realizar a busca de um conjunto de reme´dios (bulas da ANVISA) que tratam uma certa doenc¸a (termos SNOMED-CT), com as relac¸o˜es dos fa´rmacos (DrugBank) e assim consegue-se colocar em alerta os reme´dios em que o uso concomitante pode causar efeitos adversos. Figura 17: Exemplo de integrac¸a˜o das bases ao conteu´do das bulas. Fonte: Autoria pro´pria. Ao obter o arquivo fı´sico da base do DrugBank, que era um arquivo u´nico em ex- tensa˜o eXtensible Markup Language (XML) de aproximadamente 222 MB, foi necessa´rio im- plementar uma rotina que por meio de expressa˜o regular dividisse o arquivo em va´rios xml cada um respectivo a` determinada droga. A Figura 18 apresenta uma parte do conteu´do de uma droga encontrada no DrugBank, percebe-se que por meio da tag drug foi possı´vel realizar a divisa˜o do arquivo e a identificac¸a˜o de cada droga em um xml separado. O roteiro especificado ale´m de realizar a divisa˜o tambe´m foi responsa´vel pela leitura dos arquivos xml separados para acre´scimo do drugbank-id e name, respectivamente sim- bolizadas pelas tag, no banco de dados relacional para que pudesse ter uma lista de drogas no 49 total de 8.158 (oito mil cento e cinquenta e oito), que por meio do valor da tag name realizasse a pesquisa nos textos das bulas e a tag drugbank-id para que tivesse um identificador com base do DrugBank. Figura 18: Conteu´do de uma droga da base DrugBank. Fonte: Adaptado de (DRUGBANK, 2014). Para que pudesse vincular os termos do DrugBank com os textos dos to´picos das bulas, foi necessa´rio um trabalho de traduc¸a˜o daqueles, pois os termos da base estavam todos em ingleˆs, ja´ o conteu´do da bula estava todo em portugueˆs. Foi realizada uma pesquisa entre os principais servic¸os de traduc¸a˜o, em que foram analisados custo, desempenho e qualidade do servic¸o. Destes servic¸os pode-se listar dois que foram pesquisados para o presente trabalho: • Microsoft Translator: e´ uma aplicac¸a˜o de traduc¸a˜o da plataforma Microsoft Azure Marketplace, em que e´ possı´vel traduzir 2.000.000 (dois milho˜es) caracteres por meˆs gratuito; • Translate API: ferramenta de traduc¸a˜o da plataforma Google Cloud Platform, pode-se utilizar todas suas ferramentas disponibilizadas para teste, pore´m tem versa˜o trial por 60 dias. Para realizar testes no projeto desenvolvido foi escolhido o Microsoft Translator, pois esse na˜o possui tempo limite para uso do servic¸o, possibilitando um tempo maior de teste 50 para o processo de desenvolvimento, ale´m de que a quantidade de caracteres de traduc¸a˜o dispo- nibilizados de forma gratuita foi superior a quantidade realmente utilizada. Pore´m so´ o uso dessa base na˜o resolveu o problema por completo, pois alguns termos continuaram sem ser identificados, por meio disso novas bases foram pesquisadas e seus termos adicionados para pesquisa, como por exemplo uma listagem de fa´rmacos encontrada em um arquivo PDF no site da ANVISA foi importado para o sistema desenvolvido na identificac¸a˜o de termos nos to´picos. Outras bases estudadas foram a Coding Symbols for a Thesaurus of Adverse Reaction Terms (COSTART) criada para U.S. Food and Drug Administration (FDA), a Side Effect Re- source (SIDER), a Canada Drug Adverse Reaction Database (MedEffect) e a Systematized Nomenclature of Medicine - Clinical Terms (SNOMED-CT) da Unified Medical Language Sys- tem (UMLS) mantida pela U.S. National Library of Medicine. A Tabela 4 apresenta uma sı´ntese de cada base estudada. A soluc¸a˜o de um importante problema destaca-se pelo uso da base do UMLS, pois imagina-se que em uma determinada bula existe o seguinte texto contraindicado para pacientes com problemas cardı´acos, problemas cardı´acos e´ um termo muito ge- ral quando comparado a diferentes termos mais especı´ficos como infarto do mioca´rdio, tumor cardı´aco, estenose mitral, angina esta´vel entre outros, para identificac¸a˜o desses termos foi solu- cionado pelo uso de ontologias me´dicas implementadas pelos registros do SNOMED-CT. Por meio das ontologias pode-se pesquisar diferentes termos entre as bulas que po- dem ser sinoˆnimos ou ter influeˆncia sobre uma mesma contraindicac¸a˜o, indicac¸a˜o e ate´ mesmo reac¸a˜o adversa, o que pode ser visto pelo projeto Disease Ontology (SCHRIML L. M.; ARZE, 2011), na qual os autores criam uma estrutura u´nica para classificac¸a˜o de doenc¸as a fim de unifi- car a representac¸a˜o da doenc¸a entre muitas e variadas terminologias e vocabula´rios, juntamente com as relac¸o˜es existente entre as doenc¸as. Como exemplo, imagina-se uma determinada bula em que sua indicac¸a˜o e´ prescrita para melhorar a sobrevida apo´s infarto do mioca´rdio em pacientes
Compartilhar