Buscar

V.0.8 PDM João Vitor Ferrari da Silva

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 78 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 78 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 78 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

UNIVERSIDADE TECNOLO´GICA FEDERAL DO PARANA´
CAˆMPUS CORNE´LIO PROCO´PIO
DIRETORIA DE PESQUISA E PO´S-GRADUAC¸A˜O
PROGRAMA DE PO´S-GRADUAC¸A˜O EM INFORMA´TICA
JOA˜O VITOR FERRARI DA SILVA
EXTRAINDO INFORMAC¸A˜O DAS BULAS PARA O AUXI´LIO DE
PRESCRIC¸A˜O ME´DICA
PROJETO DE DISSERTAC¸A˜O DE MESTRADO
CORNE´LIO PROCO´PIO
2015
JOA˜O VITOR FERRARI DA SILVA
EXTRAINDO INFORMAC¸A˜O DAS BULAS PARA O AUXI´LIO DE
PRESCRIC¸A˜O ME´DICA
Proposta de dissertac¸a˜o de mestrado apresentada ao
Programa de Po´s-Graduac¸a˜o em Informa´tica da Uni-
versidade Tecnolo´gica Federal do Parana´ – UTFPR
como requisito parcial para a obtenc¸a˜o do tı´tulo de
”Mestre Profissional em Informa´tica”.
Orientador: Prof. Dr. Andre´ Y. Kashiwabara
Co-orientador: Prof. Dr. Carlos N. Silla Jr.
CORNE´LIO PROCO´PIO
2015
Dedico este trabalho a minha famı´lia e amigos.
AGRADECIMENTOS
Agradec¸o a` Deus e a MTA, por sempre me darem sau´de, forc¸a, protec¸a˜o e sabedoria.
Agradec¸o a` toda minha famı´lia, em especial aos meus pais, Joa˜o e Marli, por me educarem e
serem exemplos de dedicac¸a˜o e honestidade, e a toda minha famı´lia. Agradec¸o a` minha namo-
rada Tatiane por ter me apoiado e compreendido minha auseˆncia para elaborac¸a˜o desse traba-
lho. Agradec¸o aos meus amigos, em especial ao grupo COMBO, por serem companhia cons-
tante em minha vida. Ao professor orientador Andre´ Kashiwabara pelos conselhos e auxı´lio na
organizac¸a˜o do trabalho, ao professor co-orientador Carlos Silla com dicas valiosas de pesquisa,
e a todos os outros professores que contribuı´ram para elaborac¸a˜o do presente trabalho.
”Seja voceˆ quem for, seja qual for a posic¸a˜o social que voceˆ tenha na
vida, a mais alta ou a mais baixa, tenha sempre como meta muita forc¸a,
muita determinac¸a˜o e sempre fac¸a tudo com muito amor e com muita
fe´ em Deus, que um dia voceˆ chega la´. De alguma maneira voceˆ chega
la´.”
(Ayrton Senna)
RESUMO
SILVA, Joa˜o Vitor Ferrari da. EXTRAINDO INFORMAC¸A˜O DAS BULAS PARA O AUXI´LIO
DE PRESCRIC¸A˜O ME´DICA. 77 f. Projeto de Dissertac¸a˜o de Mestrado – Programa de Po´s-
graduac¸a˜o em Informa´tica, Universidade Tecnolo´gica Federal do Parana´. Corne´lio Proco´pio,
2015.
O Ministe´rio da Sau´de e outros o´rga˜os relacionados pretendem evitar a automedicac¸a˜o e o
cuidado do uso concomitante entre medicamentos, pore´m estes o´rga˜os na˜o disponibilizam uma
ferramenta para viabilizar este processo, apenas apresentam uma cartilha de boas pra´ticas para
a sociedade. Facilitar o acesso e melhorar os problemas relacionados a automedicac¸a˜o sa˜o os
objetivos do presente trabalho, que pretende desenvolver um sistema web, que por meio de
uma base de dados em grafo dos medicamentos, auxilie a prescric¸a˜o me´dica. Os resultados
demonstraram como o uso da tecnologia Neo4j pode atender ao trabalho proposto.
Palavras-chave: minerac¸a˜o de texto, bulas, interac¸o˜es, fa´rmaco
ABSTRACT
SILVA, Joa˜o Vitor Ferrari da. EXTRACTING INFORMATION FROM MEDICINE TO THE
AID OF PRESCRIBING. 77 f. Projeto de Dissertac¸a˜o de Mestrado – Programa de Po´s-graduac¸a˜o
em Informa´tica, Universidade Tecnolo´gica Federal do Parana´. Corne´lio Proco´pio, 2015.
The ministry of health and other public and private agencies related, pretend to avoid the self
medication and care about the concomitant use between drugs, however thoses agencies doesn’t
provide a tool for viable this process, only present a speeling book of good practice for society.
Facilitate the access is improve the related problems to self medication are the goals of current
work, the pretend to evolve a system web, that through a drugs database in graph, assist the
medical prescription. The results showed that with the of Neo4j technology could attend the
proposed work.
Keywords: text mining, drug information, interactions, drug
LISTA DE FIGURAS
–FIGURA 1 Proteı´nas-alvo para ligac¸a˜o dos fa´rmacos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
–FIGURA 2 Ilustrac¸a˜o da comunicac¸a˜o dos fa´rmacos e receptores. . . . . . . . . . . . . . . . . 22
–FIGURA 3 Efeitos entre drogas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
–FIGURA 4 Representac¸a˜o gra´fica da relac¸a˜o e´ um do SNOMED-CT. . . . . . . . . . . . . . 26
–FIGURA 5 Sentence breaker aplicado ao to´pico cuidados de armazenamento Amo-
xicilina. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
–FIGURA 6 Exemplo de tags utilizadas pelo Hepple Tagger em lı´ngua inglesa. . . . . . 28
–FIGURA 7 Exemplo da te´cnica Snowball. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
–FIGURA 8 Exemplo de verificac¸a˜o de similaridade entre JONES e JOHNSON. . . . . 29
–FIGURA 9 Exemplo de um grafo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
–FIGURA 10 Uma visa˜o geral das etapas que compo˜em o processo desenvolvido. . . . 38
–FIGURA 11 Pa´gina de filtro do Bula´rio Eletroˆnico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
–FIGURA 12 Pa´gina de resultado da pesquisa do Bula´rio Eletroˆnico. . . . . . . . . . . . . . . . 40
–FIGURA 13 Html da pa´gina Bula´rio Eletroˆnico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
–FIGURA 14 Conteu´do da bula em imagem que esta´ fora do padra˜o. . . . . . . . . . . . . . . . 43
–FIGURA 15 Etapas do processo de segmentac¸a˜o dos to´picos. . . . . . . . . . . . . . . . . . . . . . 44
–FIGURA 16 Etapas do processamento textual no medicamento Fluconazol. . . . . . . . . 47
–FIGURA 17 Exemplo de integrac¸a˜o das bases ao conteu´do das bulas. . . . . . . . . . . . . . . 48
–FIGURA 18 Conteu´do de uma droga da base DrugBank. . . . . . . . . . . . . . . . . . . . . . . . . 49
–FIGURA 19 Etapas do processo de identificac¸a˜o dos fa´rmacos. . . . . . . . . . . . . . . . . . . . 52
–FIGURA 20 Etapas do processo de identificac¸a˜o dos fa´rmacos no medicamento Lota-
nol. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
–FIGURA 21 Banco de dados dos medicamentos utilizando o Neo4j. . . . . . . . . . . . . . . 55
–FIGURA 22 Lista de interac¸o˜es do DrugBank para fa´rmaco Fenobarbital. . . . . . . . . 56
–FIGURA 23 Exemplo ilustrativo da marcac¸a˜o manual dos to´picos da bula do reme´dio
Fluconazol. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
–FIGURA 24 Exemplo ilustrativo da marcac¸a˜o manual dos to´picos da bula do reme´dio
Fluconazol. A cor azul representa os positivos verdadeiros, a cor vermelha
representa os falsos positivos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
–FIGURA 25 Exemplo ilustrativo da composic¸a˜o do medicamento Dilacoron . . . . . . . . 66
–FIGURA 26 Proto´tipo acre´scimo da bula do medicamento. . . . . . . . . . . . . . . . . . . . . . . . 68
LISTA DE TABELAS
–TABELA 1 Matriz de confusa˜o para problemas de duas classes. . . . . . . . . . . . . . . . . . . 30
–TABELA 2 Regras para pesquisa de to´picos no texto da bula. . . . . . . . . . . . . . . . . . . . . 44
–TABELA 3 Lista de variac¸o˜es e marcadores utilizados para identificac¸a˜o dos to´picos. 45
–TABELA 4 Listagem das bases estudadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
–TABELA 5 Listagem das bases estudadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
–TABELA 6 Consultas utilizando a linguagem Cypher. . . . . . . . . . . . . . . . . . . . . . . . . . 56
–TABELA 7 Marcadores utilizados para identificac¸a˜o dos to´picos. . . . . . . . . . . . . . . . . 60
–TABELA 8 Resultados do experiemnto realizado para as bulas selecionadas. Os
DIPROPIONATOmarcados com 1 e 2 sa˜o reme´dios diferentes (composic¸a˜o
diferente) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
–TABELA 9 Resultados da identificac¸a˜o dos to´picos no medicamento Dilacoron. A
cor azul representa os verdadeiros positivos. A cor vermelha representa os
falsos positivos. O sı´mbolo X representa a identificac¸a˜o parcial do texto
do fa´rmaco e o sı´mbolo Y significa que o texto foi encontrado incorreta-
mente no processo automa´tico. Para a substaˆncia CERA (E HOECHST), o
processo identificou dois excipiente separados (CERA, e HOECHST) que
sa˜o falsos positivos. A cor verde significa que o fa´rmaco na˜o foi identifi-
cado tanto no processo manual quanto no automa´tico. O roxo representa
o falso negativo. A sigla ND significa que na˜o foi encontrado o fa´rmaco
no DrugBunk. Os textos identificados tanto no processo manual quanto no
processo automa´tico esta˜o em negrito. Os textos que foram encontrados
apenas no processo automa´tico esta˜o em ita´lico. O texto em fonte regular
so´ foi identificado no processo manual. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
–TABELA 10 Cronograma das atividades do projeto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
LISTA DE SIGLAS
MS Ministe´rio da Sau´de
PDF Portable Document Format
ANVISA Ageˆncia Nacional de Vigilaˆncia Sanita´ria
NOTIVISA Sistema Nacional de Notificac¸o˜es para a Vigilaˆncia Sanita´ria
SQL Structured Query Language
XML eXtensible Markup Language
OCR Optical Character Recognition
HIV Human Immunodeficiency Virus
LISTA DE SI´MBOLOS
TP Verdadeiros Positivos
FN Falsos Negativos
FP Falsos Positivos
TN Verdadeiros Negativos
SUMA´RIO
1 INTRODUC¸A˜O . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.1 MOTIVAC¸A˜O E JUSTIFICATIVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2 OBJETIVOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2.1 Objetivo geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2.2 Objetivos especı´ficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3 ORGANIZAC¸A˜O DO DOCUMENTO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2 PROBLEMAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1 INTERAC¸O˜ES ENTRE OS MEDICAMENTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2 SEGMENTAC¸A˜O DOS TO´PICOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3 MAPEAMENTOS DE TERMOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3 REFERENCIAL TEO´RICO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.1 FARMACOVIGILAˆNCIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.1.1 Guia ba´sico de farma´cia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.1.2 Interac¸o˜es entre drogas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2 ESTUDO DE BASES JA´ CONSOLIDADAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2.1 DrugBank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2.2 SNOMED-CT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2.3 Ontologias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.3 MINERAC¸A˜O DE TEXTO (NATURAL LANGUAGE PROCESSING) . . . . . . . . . . . . . 27
3.4 ME´TODOS DE VALIDAC¸A˜O . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.4.1 Matriz de confusa˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.5 MODELOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.5.1 Teoria de Grafos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.5.2 Redes complexas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.5.3 Motifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.5.4 Sistema de recomendac¸a˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.6 BANCO DE DADOS NA˜O-RELACIONAL BASEADO EM GRAFOS . . . . . . . . . . . . 34
3.6.1 Neo4j . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.7 DISCUSSA˜O . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.1 AQUISIC¸A˜O DE DADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.2 PREPARAC¸A˜O DAS INFORMAC¸O˜ES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2.1 Algoritmo desenvolvido para segmentac¸a˜o dos to´picos . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.3 INTEGRAC¸A˜O COM OUTRAS BASES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.3.1 Algoritmo desenvolvido para identificac¸a˜o dos fa´rmacos . . . . . . . . . . . . . . . . . . . . . . . . 51
4.4 BANCO DE DADOS NA˜O-RELACIONAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.5 TECNOLOGIA E RECURSOS UTILIZADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.6 CONCLUSA˜O . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5 RESULTADOS PRELIMINARES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.1 SEGMENTAC¸A˜O DE TO´PICOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.2 IDENTIFICAC¸A˜O DOS FA´RMACOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5.3 PROTO´TIPO DA PA´GINA PARA ACRESCENTAR O MEDICAMENTO NA BASE 67
5.4 CONCLUSA˜O . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6 PLANO DE TRABALHO E CRONOGRAMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
7 TRABALHOS FUTUROS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
REFEREˆNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
13
1 INTRODUC¸A˜O
O sucesso terapeˆutico no tratamento de doenc¸as depende de bases que permitam a
escolha do tratamento, medicamentoso e/ou na˜o medicamentoso, a selec¸a˜o do medicamento
de forma cientı´fica e racional, considerando sua efetividade, seguranc¸ae custo, bem como a
prescric¸a˜o apropriada, a disponibilidade oportuna, a dispensac¸a˜o em condic¸o˜es adequadas e a
utilizac¸a˜o pelo usua´rio de forma adequada. Dessa forma, as deciso˜es clı´nicas e as relac¸o˜es esta-
belecidas entre os profissionais da a´rea da sau´de e usua´rios sa˜o determinantes para a efetividade
terapeˆutica (SAU´DE, 2012).
No intuito de contribuir para a tomada de decisa˜o terapeˆutica, o Ministe´rio da Sau´de
(MS) vem promovendo e incentivando o Uso Racional de Medicamentos. Trata-se de um do-
cumento te´cnico que apresenta uma compilac¸a˜o das Condutas Baseadas em Evideˆncias sobre
Medicamentos Utilizados em Atenc¸a˜o Prima´ria a` Sau´de, constantes no Mo´dulo de Informac¸o˜es
do HO´RUS - Sistema Nacional de Gesta˜o da Assisteˆncia Farmaceˆutica (SAU´DE, 2012), que
consiste em abordar a lo´gica da racionalidade na prescric¸a˜o, dispensac¸a˜o e administrac¸a˜o de
medicamentos.
Fora a cartilha, existe um sistema desenvolvido que contempla uma colec¸a˜o de ima-
gens ou arquivos PDF das bulas. Esse sistema na˜o e´ muito complexo, e conta apenas com
uma simples opc¸a˜o de filtros para pesquisa de conteu´do especı´ficos do medicamento, indu´stria
farmaceˆutica, entre outros. O sistema de busca de bulas na˜o possui uma opc¸a˜o de pesquisa
simples, como por exemplo que reme´dios sa˜o indicados para Alzheimer.
Contudo, o o´rga˜o ainda na˜o disponibilizou nenhuma ferramenta eficaz para viabili-
zar esse processo. Por este motivo, o presente trabalho propo˜e o desenvolvimento de uma
ferramenta para auxı´lio a` prescric¸a˜o me´dica, capaz de detectar reac¸o˜es adversas entre os me-
dicamentos, identificar padro˜es e utilizar regras de associac¸o˜es para minerac¸a˜o de dados no
conteu´do disponibilizado pelas bulas dos medicamentos, possibilitando levantar as possı´veis
contraindicac¸o˜es do reme´dio a ser prescrito.
14
1.1 MOTIVAC¸A˜O E JUSTIFICATIVA
Atualmente, as ferramentas para consulta de bulas dos medicamentos da˜o suporte ao
trabalho relacionado a sau´de, mas nem todas as ferramentas apresentam informac¸o˜es satis-
fato´rias para sua receita, muito menos associac¸o˜es com outros medicamentos.
Por meio do trabalho elaborado, pretende-se criar uma ferramenta capaz de auxiliar os
profissionais de sau´de, ao levantar as possı´veis contraindicac¸o˜es, reac¸o˜es adversas e interac¸o˜es
entre medicamentos a serem prescritos, ale´m de proporcionar conteu´dos mais completos para
os usua´rios por meio do uso de arquivo das bulas profissionais que sera˜o utilizadas como fonte
de dados para o trabalho.
Ao te´rmino do projeto, tera´ sido desenvolvido um software de apoio para prescric¸a˜o
me´dica, que informara´ se um determinado medicamento pode ser prescrito juntamente com
outros, dado o histo´rico clı´nico do paciente.
Assim, reduzira´ os custos com tratamento de sau´de e mitigara´ as possı´veis interac¸o˜es
entre medicamentos que gerem reac¸o˜es adversas, alergias, agravamento de doenc¸as ja´ existen-
tes, que causem intoxicac¸o˜es, podendo ate´ levar a` morte.
1.2 OBJETIVOS
Por meio das recomendac¸o˜es do MS juntamente com o conteu´do das bulas me´dicas
encontradas no site da Ageˆncia Nacional de Vigilaˆncia Sanita´ria (ANVISA), o presente traba-
lho propo˜e a modelagem e desenvolvimento de uma ferramenta web para apoio a` prescric¸a˜o
me´dica, que analisara´, por meio de regras de associac¸o˜es, as contraindicac¸o˜es, reac¸o˜es adver-
sas e interac¸o˜es entre os medicamentos a` serem prescritos aos pacientes pelos profissionais da
sau´de.
A ferramenta tambe´m tera´ como objetivo realizar experimentos para classificac¸a˜o das
interac¸o˜es entre medicamentos para que seja possı´vel encontrar problemas entre o uso conco-
mitante, ale´m de verificar se os resultados esta˜o sendo classificadas corretamente.
De modo que pretende-se como resultado do trabalho obter um processo de classificac¸a˜o
que seja satisfato´rio para apoio a` prescric¸a˜o me´dica.
15
1.2.1 OBJETIVO GERAL
Desenvolver e aplicar metodologias de minerac¸a˜o de dados para extrair e organizar
as informac¸o˜es das bulas registradas na ANVISA a fim de facilitar a consulta nas redes de
interac¸o˜es dos medicamentos junto com o histo´rico clı´nico.
1.2.2 OBJETIVOS ESPECI´FICOS
Com o intuito de auxiliar na compreensa˜o do objetivo geral, alguns objetivos es-
pecı´ficos foram delineados:
• Estudar e utilizar processos para obtenc¸a˜o das bulas dos medicamentos;
• Tratamento dos arquivos das bulas, conversa˜o de PDF em arquivo texto e tratar imagens
do PDF;
• Segmentac¸a˜o dos to´picos das bulas;
• Identificac¸a˜o de termos relevantes entre os to´picos dos medicamentos;
• Elaborac¸a˜o do modelo de banco de dados baseado em grafos, em que utiliza-se a tecno-
logia Neo4j.
1.3 ORGANIZAC¸A˜O DO DOCUMENTO
Esse documento busca detalhar as principais informac¸o˜es do trabalho realizado, e
esta´ organizado em 7 capı´tulos. Ale´m do primeiro capı´tulo de introduc¸a˜o que apresenta a
contextualizac¸a˜o, motivac¸a˜o e justificativa, objetivos e organizac¸a˜o do documento, os pro´ximos
capı´tulos esta˜o conforme a estrutura apresentada:
O capı´tulo 2 apresenta o problema a ser tratado pelo presente trabalho, ale´m de mostrar
as contribuic¸o˜es geradas pelo estudo do projeto. Ja´ o capı´tulo 3 mostra o referencial teo´rico
utilizado para embasar e justificar toda a pesquisa e experimentos realizados.
No capı´tulo 4 encontra-se toda a metodologia implementada durante todo o processo
de elaborac¸a˜o do presente trabalho. No capı´tulo 5 apresenta-se os resultados preliminares en-
contrados por meio dos experimentos realizados, tambe´m para verificar o que foi estudado e
implementado no referencial teo´rico.
16
Por fim no capı´tulo 6 e´ apresentado o plano de trabalho e o cronograma realizado para
o projeto descrito no presente trabalho, e o capı´tulo 7 apresenta os possı´veis trabalhos futuros
relacionados ao tema abordado ou melhoria dos processos ja´ existentes no sistema.
17
2 PROBLEMAS
O perigo do uso inadequado de medicamentos, tambe´m conhecido por automedicac¸a˜o,
e´ frequentemente discutido entre profissionais da a´rea da sau´de e organizac¸o˜es responsa´veis
pelo assunto, pois podem trazer muitas complicac¸o˜es dada sua pra´tica. A automedicac¸a˜o rea-
lizada, por exemplo, para uma simples dor de cabec¸a, quando tratada de maneira inadequada
pode levar a um agravamento do quadro, resultando em um maior perı´odo de tratamento do
paciente, ale´m de elevar os custos na a´rea da sau´de.
Outra questa˜o que deve ser tratada sa˜o as possı´veis interac¸o˜es entre medicamentos,
pois dado o uso concomitante indiscriminado de reme´dios, um medicamento pode minimizar a
efica´cia de um outro, o que apresenta uma demora no tratamento ou ate´ mesmo sua auseˆncia,
ale´m de gerar reac¸o˜es adversas, alergias, agravamento de doenc¸as ja´ existentes, que causem
intoxicac¸o˜es, podendo ate´ levar a` morte.
O problema pode ser exemplificado da seguinte maneira: imagina-se que uma deter-
minada pessoa de idade avanc¸ada ja´ possui um histo´rico clı´nico repleto de medicamentos, cada
qual responsa´vel por controlar uma determinada doenc¸a, inibir outra e ate´ suprir a falta de al-
guma substaˆncia para o organismo.
Diga-se que esta pessoa necessite de um novo medicamento para uma doenc¸a rece´m
diagnosticada, por exemplo Alzheimer, pore´m o reme´dio prescrito mitiga o efeito por completo
de um medicamento que o paciente ja´ toma para o tratamento do diabetes. Como o profissional
da a´rea da sau´de pode identificar estas informac¸o˜es?
A resposta pode ser simples, por meio das bulas me´dicas o profissional da a´rea da
sau´de tem conhecimento do medicamento. A bula me´dica e´ dividida em to´picos e tem como
objetivo esclarecer aos pacientescomo usar e como evitar os riscos do consumo do medica-
mento prescrito pelo profissional de sau´de, pore´m a quantidade de informac¸o˜es disponibilizadas
e´ volumosa e todo este conteu´do dificilmente e´ analisado e transformado em conhecimento para
possı´veis reac¸o˜es adversas e interac¸o˜es a` sua utilizac¸a˜o associada a outros medicamentos.
No pro´prio sı´tio web da ANVISA e´ disponibilizada uma pa´gina conhecida por Bula´rio
18
Eletroˆnico, em que podem ser encontrados os arquivos das bulas profissionais dos medicamen-
tos disponibilizados pelas empresas responsa´veis, por este caminho encontra-se as informac¸o˜es
que apresentam conhecimento dos reme´dios.
Por meio dos arquivos das bulas tem-se um outro problema como tratar a falta de
padronizac¸a˜o dos arquivos, pois encontra-se documentos que seguem um determinado padra˜o
de to´picos e outros que na˜o possuem padra˜o, ale´m de existirem imagens da bula na versa˜o fı´sica,
e na˜o ela digitalizada.
Obter conhecimento destas fontes de dados torna-se uma tarefa trabalhosa, dado os
obsta´culos elencados anteriormente, ale´m de outras complexidades existentes, pois posterior-
mente a identificac¸a˜o dos to´picos das bulas, como pode-se desenvolver pesquisas e encontrar
problemas entre o uso concomitantes de medicamentos ou uma determinada situac¸a˜o do paci-
ente.
Precisa-se identificar que se por exemplo numa determinada bula conter no to´pico
contraindicac¸a˜o doenc¸as cardı´acas, um certo paciente que tenha infarto do mioca´rdio na˜o podera´
ter este medicamento prescrito em seu histo´rico clı´nico, ale´m de identificar se um determinado
fa´rmaco pode potencializar a ac¸a˜o de outro ou mitigar sua efica´cia.
2.1 INTERAC¸O˜ES ENTRE OS MEDICAMENTOS
Estabelecido um dado histo´rico clı´nico de um determinado paciente, existe a im-
portaˆncia em verificar se a prescric¸a˜o de um novo medicamento pode evitar a efica´cia de um
certo reme´dio que fac¸a parte do uso do paciente.
Identificar interac¸o˜es entre os medicamentos por meio das informac¸o˜es contidas nas
bulas e´ uma atividade que requer esforc¸o, pois tratar os textos e´ algo que necessita um processo
de normalizac¸a˜o e minerac¸a˜o de texto.
2.2 SEGMENTAC¸A˜O DOS TO´PICOS
O problema de informac¸o˜es na˜o normalizadas necessita em um primeiro momento da
identificac¸a˜o de to´picos dos medicamentos. E´ necessa´rio classificar os to´picos e identificar para
que cada to´pico da bula e´ referente, pois e´ o primeiro passo para normalizac¸a˜o das informac¸o˜es.
Pore´m a quantidade de informac¸o˜es mesmo com a normalizac¸a˜o de to´picos, continua possuindo
uma quantidade vasta de informac¸o˜es que na˜o sa˜o utilizadas.
19
2.3 MAPEAMENTOS DE TERMOS
Identificar os termos relevantes de cada to´pico, como exemplo, mapear os fa´rmacos
encontrados no to´pico composic¸a˜o e´ uma tarefa que contribui com a identificac¸a˜o de termos
realmente importantes. Os respectivos termos de cada to´pico da˜o suporte a` criac¸a˜o do banco de
dados baseado em grafos, por serem informac¸o˜es altamente interligadas.
20
3 REFERENCIAL TEO´RICO
Nesse capı´tulo e´ apresentado conceitos de farma´cia estudados para entendimento do
problema proposto e para compreender o conteu´do das bulas dos medicamentos, estudos refe-
rentes a` soluc¸a˜o de desafios encontrados a cada passo do processo desenvolvido para o presente
trabalho, ale´m de mostrar refereˆncias sobre tecnologias utilizadas.
3.1 FARMACOVIGILAˆNCIA
O termo Farmacovigilaˆncia define o conjunto de atividades que possuem finalidade na
identificac¸a˜o de reac¸o˜es adversas previamente desconhecidas, no encontro de riscos destes, na
administrac¸a˜o de medidas reguladoras a` respeito e informac¸a˜o aos profissionais de sau´de e ao
pu´blico sobre essas questo˜es (LAPORTE J. R.; BAKSAAS, 1993).
Em se tratando de reac¸o˜es adversas, pode-se informar que muitas vezes acontecem
por meio de adulterac¸o˜es que ocorrem de maneira proposital e na˜o declarada de substaˆncias
farmaceˆuticas poderosas, como: corticoides, antidepressivos e anorexı´genos. Efeitos adver-
sos tambe´m pode-se advir da contaminac¸a˜o por agroto´xicos, microrganismos, e ate´ mesmo de
metais pesados (ORGANIZATION, 2004).
Conhecer todas as reac¸o˜es adversas e´ algo complexo, visto a variada quantidade de
circunstaˆncias que podem ocasiona´-las, tanto pela alterac¸a˜o de substaˆncias, quanto por um de-
terminado caso isolado de um histo´rico de paciente. Visto essa dificuldade, registra´-las em
forma de ocorreˆncia por meio de um sistema de coleta de dados, que resulte na organizac¸a˜o,
avaliac¸a˜o e posterior divulgac¸a˜o das informac¸o˜es adquiridas e´ de extrema relevaˆncia para a´rea
de sau´de (CAPASSO R.; IZZO A. A.; PINTO, 2000).
No Brasil foi criado o NOTIVISA, que tem a finalidade de receber informac¸o˜es sobre
reac¸o˜es adversas, cuja estrutura representa um banco de dados constituı´do por notificac¸o˜es de
eventos adversos descritos por profissionais de sau´de ou de usua´rios cadastrados, por meio de
formula´rios de notificac¸a˜o disponı´veis no pro´prio sı´tio da ANVISA.
21
3.1.1 GUIA BA´SICO DE FARMA´CIA
Fa´rmaco e´ uma substaˆncia quı´mica que altera a func¸a˜o fisiolo´gica de um modo es-
pecı´fico (RANG H. P.; RITTER, 2004), na qual significa que uma substaˆncia na˜o ira´ funcionar
a na˜o ser que ela esteja ligada. Para que o fa´rmaco exija uma influeˆncia quı´mica sobre a ce´lula
ele deve se ligar a` uma mole´cula alvo constituinte desta ce´lula (BIGUETTI C. C.; ANDRADE,
2014).
Em nosso organismo existem 4 principais mole´culas alvos, que sa˜o na verdade proteı´nas
reguladoras, as ce´lulas so´ se comunicam na presenc¸a destes receptores: (i) enzimas; (ii) mole´cula
transportadora; (iii) canais de ı´ons; e (iv) receptores.
A Figura 1 apresenta as 4 principais proteı´nas-alvo para ligac¸a˜o dos fa´rmacos e uma
exemplificac¸a˜o de sua comunicac¸a˜o, detalha-se as macromole´culas proteicas, denominadas de
receptores, que no caso sa˜o receptores fisiolo´gicos e se localizam na superfı´cie das ce´lulas, que
servem para emitir sinais quı´micos entre uma ce´lula e outra, de um mesmo tecido ou de tecidos
diferentes, o qual resulta nas mole´culas farmacolo´gicas que aproveitam dessa comunicac¸a˜o para
emitir seus sinais quı´micos (BIGUETTI C. C.; ANDRADE, 2014).
Figura 1: Proteı´nas-alvo para ligac¸a˜o dos fa´rmacos.
Fonte: Adaptado de (BIGUETTI C. C.; ANDRADE, 2014).
As mole´culas dos fa´rmacos teˆm que ser especı´ficas para as mole´culas do nosso orga-
nismo, a isso da´-se o nome de reciprocidade, o qual significa que a comunicac¸a˜o entre o fa´rmaco
e o receptor e´ recı´proco, assim os receptores so´ reconhecem determinados fa´rmacos (BIGUETTI
22
C. C.; ANDRADE, 2014). A Figura 2 apresenta na primeira coluna os fa´rmacos, representados
pela cor vermelha na forma de pontos, e na outra coluna sa˜o representados, na cor vermelha e
verde, os receptores alvo.
Pela figura, temos a ilustrac¸a˜o de um cena´rio ideal apresentado pela comunicac¸a˜o
dos fa´rmacos vermelhos com os respectivos receptores de cor vermelha, entretanto nenhuma
substaˆncia agi com total especificidade, na qual faz com que os fa´rmacos unem-se com mole´culas
que na˜o sa˜o especı´ficas, ocorrendo os efeitos colaterais. Dessa forma, conclui-se que quanto
mais aumenta-se a concentrac¸a˜o da droga, mais mole´culas podem-se ligar a constituintes na˜o
especı´ficos, e assim maiores sera˜o os efeitos colaterais (BIGUETTI C. C.; ANDRADE, 2014).
Figura 2: Ilustrac¸a˜o da comunicac¸a˜o dos fa´rmacos e receptores.
Fonte: Adaptado de (BIGUETTI C. C.; ANDRADE, 2014).
Conceitua-se o fa´rmaco em dois tipos: (i) antagonista; e (ii) agonista, em que ambos
se ligam aos receptores, pore´m apenas os agonistas conseguem levar uma resposta tecidual,os
antagonistas nunca levam uma resposta tecidual, apenas se ligam aos receptores, bloqueando-
os. Afirmar que um fa´rmaco agonista ira´ ter efica´cia na˜o e´ certeza absoluta, pois divide-se em:
(i) parciais, que mesmo que se liguem a` 100% dos receptores so´ conseguem ativar 50% destes;
e (ii) plenos, que conseguem ter uma efica´cia ma´xima de resultado, mesmo na˜o se ligando a
todos os receptores.
23
3.1.2 INTERAC¸O˜ES ENTRE DROGAS
Baseado na maneira das drogas serem metabolizadas pelo corpo, como a maioria dos
fa´rmacos que sa˜o metabolizados pelas enzimas que residem no fı´gado. Uma droga, depois de
ingerida, tem uma certa quantidade de tempo para ser eliminada do corpo, pore´m quando o
processo de eliminac¸a˜o leva mais tempo do que o esperado, a toxidade pode ser acumulada, ou
o efeito farmacolo´gico da droga pode ser exagerado (TARI T.; ANWAR, 2010).
A induc¸a˜o ou inibic¸a˜o de enzimas pode ser afetada diretamente ou indiretamente por
meio da regulac¸a˜o da transcric¸a˜o, na qual se as enzimas que sejam responsa´veis pelo metabo-
lismo de uma determinada droga forem inibidas ou induzidas por outras drogas, a biodispo-
nibilidade desta droga sera´ maior ou menor do que o esperado, tornando-se to´xico ou menos
eficaz (TARI T.; ANWAR, 2010).
A inibic¸a˜o de enzimas e´ uma forma comum de interac¸o˜es entre drogas (BOOBIS
A.; WATELET, 2009). Entende-se que inibic¸a˜o direta o que acontece quando uma determi-
nada droga, por exemplo de nome droga A inibe uma enzima E, o qual e´ responsa´vel pelo
metabolismo da droga B, tais interac¸o˜es levam a` diminuic¸a˜o do nı´vel de atividades das enzimas
e este, por sua vez, pode aumentar a biodisponibilidade para a droga B. Alternativamente, isto
pode reduzir a formac¸a˜o de metabo´litos da enzima inibida e levar ao fracasso terapeˆutico das
drogas afetadas (TARI T.; ANWAR, 2010).
A Figura 3 representa os efeitos entre duas diferentes drogas, denominadas de droga A
e droga B, na qual e´ representado dois efeitos ocorridos da droga A sobre a B. Na etapa A da
figura pode-se visualizar o efeito direto de induc¸a˜o ou inibic¸a˜o de enzimas, enquanto na etapa
B mostra-se o efeito indireto de induc¸a˜o ou inibic¸a˜o de fatores de regulac¸a˜o da transcric¸a˜o das
enzimas do metabolismo das drogas.
3.2 ESTUDO DE BASES JA´ CONSOLIDADAS
O estudo de bases se faz necessa´rio por meio da quantidade de informac¸o˜es disponibi-
lizadas pelas bulas do medicamento, e´ uma quantidade volumosa de texto. Todo esse conteu´do
dificilmente e´ analisado e transformado em conhecimento para possı´veis interac¸o˜es medica-
mentosas, e reac¸o˜es adversas a` sua utilizac¸a˜o associada a outros medicamentos.
Estudar bases com informac¸o˜es para a´rea da sau´de ja´ consolidadas, tanto para a´rea
acadeˆmica, quanto para o comercial, juntamente com te´cnicas de minerac¸a˜o de dados que se
referem a` descoberta de novas informac¸o˜es em func¸a˜o de padro˜es em grandes quantidades de
24
Figura 3: Efeitos entre drogas.
Fonte: Adaptado de (BOOBIS A.; WATELET, 2009).
25
dados e auxiliam na identificac¸a˜o de termos realmente importantes para elaborac¸a˜o do modelo
de banco de dados baseado em grafos utilizado para desenvolvimento do trabalho (ELMASRI
R.; NAVATHE, 2005).
3.2.1 DRUGBANK
O DrugBank refere-se a um banco de dados de drogas, em que apresenta recurso para
demonstrar estrutura e dados sobre as mole´culas das drogas, alvos de drogas e as consequeˆncias
biolo´gicas ou fisiolo´gicas da ac¸a˜o das drogas. Ele e´ capaz de fornecer muitas ferramentas
embutidas para visualizac¸a˜o, classificac¸a˜o, pesquisa e extrac¸a˜o de dados de texto, imagem,
sequeˆncia ou estrutura (WISHART D.S.; KNOX, 2008).
As associac¸o˜es apresentadas pela base do DrugBank sa˜o compostas por algumas lite-
raturas me´dicas ja´ consolidadas, como: PubMed, e-Therapeutics e STAT!Ref (AHFS),
pore´m na˜o ha´ uma representac¸a˜o sistema´tica das indicac¸o˜es de medicamento que permita iden-
tificar as relac¸o˜es de droga-doenc¸a (VALENTINI G.; RE, 2013).
Por meio do DrugBank foi possı´vel identificar os fa´rmacos das bulas, pore´m todo seu
conteu´do estava em Lı´ngua Inglesa, enquanto que a bula estava em Lı´ngua Portuguesa, portanto
foi necessa´ria a utilizac¸a˜o de uma ferramenta de traduc¸a˜o da Lı´ngua Inglesa para Portuguesa,
que realizasse a traduc¸a˜o do conteu´do do fa´rmaco disponı´vel no DrugBank, para assim realizar
uma busca para encontrar os fa´rmacos presentes nos to´picos dos medicamentos.
3.2.2 SNOMED-CT
SNOMED Clinical Terms (SNOMED-CT) e´ uma biblioteca de terminologias
clı´nicas padronizadas, licenciada pela National Library of Medicine, na qual inclui uma co-
bertura abrangente de doenc¸as, achados clı´nicos, terapias, procedimentos e resultados, ale´m
de fornecer terminologias fundamentais para codificar um registro de sau´de eletroˆnico (ELE-
VITCH, 2005).
SNOMED-CT simplifica a pesquisa de doenc¸as e sintomas, no entanto para utiliza´-la
encontra-se a representac¸a˜o dos dados em simples hierarquias de co´digos do SNOMED-CT o
que necessita-se apenas de uma certa interpretac¸a˜o das informac¸o˜es. Estas hierarquias repre-
sentam somente a organizac¸a˜o lo´gica dos dados, um exemplo desta apresentac¸a˜o dos dados
esta´ presente na Figura 4. Na˜o existe indicac¸a˜o sobre qual seria o melhor caminho para um
paciente em uma determinada situac¸a˜o atual, ou correlac¸a˜o entre nı´vel superior de co´digos do
SNOMED-CT (CIOLKO E.; LU, 2010).
26
Figura 4: Representac¸a˜o gra´fica da relac¸a˜o e´ um do SNOMED-CT.
Fonte: Adaptado de (DONNELLY, 2006).
3.2.3 ONTOLOGIAS
Atualmente, existem muitos termos me´dicos, e a cada pesquisa ou estudo novos termos
sa˜o utilizados, o volume de informac¸o˜es disponı´veis e´ muito grande e vem crescendo rapida-
mente. Por meio destas altas taxas de crescimento, se faz necessa´rio a elaborac¸a˜o de te´cnicas
que melhorem a organizac¸a˜o e disposic¸a˜o destes termos, atuando principalmente na busca faci-
litada para recuperac¸a˜o.
Inu´meras te´cnicas de tratamento e organizac¸a˜o podem ser utilizadas para classificac¸a˜o
destes termos, como por exemplo: diciona´rios, categorias, por meio de grupos ou por relacio-
namento entre conceito e definic¸a˜o, utilizando ontologias.
Ontologia e´ uma te´cnica de classificac¸a˜o e organizac¸a˜o de informac¸o˜es, cujo objetivo
principal diz respeito a` representac¸a˜o formal de conhecimento. Geralmente sa˜o criadas por
especialistas do respectivo assunto em questa˜o, tendo sua estrutura baseada na descric¸a˜o de
conceitos e dos relacionamentos semaˆnticos entre eles, as ontologias geram uma especificac¸a˜o
formal e explı´cita de um conceito compartilhado (MORAIS E. A. M.; AMBRO´SIO, 2007).
27
3.3 MINERAC¸A˜O DE TEXTO (NATURAL LANGUAGE PROCESSING)
Ja´ Han e Kamber, consideram o termo minerac¸a˜o de dados impro´prio, pois na˜o
e´ feito a extrac¸a˜o de dados, mas sim a extrac¸a˜o de conhecimento (HAN J.; KAMBER, 2006).
Juntamente com a minerac¸a˜o, alguns me´todos foram estudados para o desenvolvimento
dos algoritmos utilizados no presente trabalho, na qual tinham a finalidade de extrac¸a˜o de conhe-
cimento por meio das informac¸o˜es contidas nas bulas dos medicamentos. As te´cnicas estudadas
elencam-se por:
• Sentence breaker;
• Hepple tagger;
• Stop-words;
• Sonwball;
• Jaro-Winkler.
O me´todo Sentence breaker consiste na quebra de espac¸o e pontuac¸a˜o aplicado em
cada conteu´do da bula, na qual o texto foi dividido em frases geradas por meio de um separador
de sentenc¸as contido na linguagem C#. A Figura 5 apresenta um exemplo dessa te´cnica aplicada
ao texto do to´pico cuidados de armazenamento do medicamento Amoxicilina, na qual resultou
na quebra das sentenc¸as de todo o conteu´do.
Hepple tagger tema finalidade de verificar classes de palavras entre outros (HEPPLE,
2000). Na Figura 6 mostra-se as tags utilizadas para identificac¸a˜o das classes de palavras, o
exemplo esta´ em lı´ngua inglesa, pore´m percebe-se que textos como and, but e or, logo na
primeira linha do texto da figura, identificam ser classes que representam conjunc¸o˜es.
O uso de Stop-words e´ importante juntamente apo´s a separac¸a˜o do texto em va´rias
partes de conteu´do (tokens), e´ importante que a te´cnica de palavras eliminadas seja aplicada a
essas partes para remoc¸a˜o de itens na˜o importantes para texto. Um exemplo para aplicac¸a˜o desta
te´cnica, no presente trabalho, seria no caso de que palavras como doenc¸a, paciente e me´dico
poderiam ser acrescentados na lista de stop-words, ja´ que sa˜o textos que se repetem nos arquivos
das bulas.
Ja´ para te´cnica Sonwball estuda-se as derivac¸o˜es de palavras (PORTER2, 2014). A
Figura 7 exemplifica o algoritmo Snowball, na qual entende-se que as derivac¸o˜es encontradas
para as palavras: quı´mica, quı´micas, quı´mico e quı´micos, foram iguais para todas as palavras.
28
Figura 5: Sentence breaker aplicado ao to´pico cuidados de armazenamento Amoxi-
cilina.
Fonte: Adaptado de (PIAO, 2014).
Figura 6: Exemplo de tags utilizadas pelo Hepple Tagger em lı´ngua inglesa.
Fonte: Adaptado de (CUNNINGHAM, 2014).
29
Figura 7: Exemplo da te´cnica Snowball.
Fonte: Autoria pro´pria.
Por fim, verifica-se o uso do me´todo Jaro-Winkler que controla erros ortogra´ficos e
sequeˆncia de similaridade entre as palavras (WINKLER, 1999). A Figura 8 mostra um exemplo
para verificac¸a˜o de similaridade entre as palavras Jones e Johson.
Figura 8: Exemplo de verificac¸a˜o de similaridade entre JONES e JOHNSON.
Fonte: Adaptado de (WINKLER, 1999).
3.4 ME´TODOS DE VALIDAC¸A˜O
Para o processo de classificac¸a˜o e´ importante entender o poder e a limitac¸a˜o dos algo-
ritmos desenvolvidos, e para que isto seja calculado, utiliza-se metodologias para avaliac¸a˜o que
30
permitem analisar os resultados classificados, ja´ que na˜o existe um u´nico algoritmo que apre-
sente o melhor desempenho para todos os problemas (MONARD M. C.; BARANAUSKAS,
2005).
Portanto, nesta sec¸a˜o sa˜o descritos os me´todos utilizados para validac¸a˜o dos algoritmos
desenvolvidos no presente trabalho, um responsa´vel pela segmentac¸a˜o dos to´picos das bulas e
outro com a finalidade de identificar somente os fa´rmacos no texto do to´pico composic¸a˜o dos
medicamentos.
3.4.1 MATRIZ DE CONFUSA˜O
A matriz de confusa˜o, conhecida tambe´m por matriz de erro, e´ formada por um arranjo
quadrado de nu´meros inteiros dispostos em linhas e colunas que expressam a quantidade de
amostras de uma classe respectivamente inferidas por um classificador (CONGALTON, 1991).
Apresenta uma medida efetiva do modelo de classificac¸a˜o, na qual exibe-se a quantidade de
classificac¸a˜o correta versus a quantidade classificada erradamente para cada classe, dentro de
um conjunto de amostras.
Para o presente trabalho foi utilizado a matriz de confusa˜o para problemas de duas
classes, na qual foi utilizado para avaliar a segmentac¸a˜o de to´picos e na˜o to´picos e tambe´m na
identificac¸a˜o de fa´rmacos e na˜o fa´rmacos.
A Tabela 1 exemplifica uma matriz de confusa˜o para problemas de duas classes, em
que TP representa a quantidade classificada positivamente que eram previstos como positivo,
ja´ FN mostra o nu´mero classificado como negativo que foram previstos de maneira incorreta,
FP apresenta a quantidade positiva de classes que foram classificadas incorretamente, e por fim,
TN que mostra o nu´mero de classes negativas que foram previstas corretamente.
Tabela 1: Matriz de confusa˜o para problemas de duas classes.
Classe Predic¸a˜o positiva Predic¸a˜o negativa
Verdadeira positiva Verdadeiros Positivos (TP) Falsos Negativos (FN)
Verdadeira negativa Falsos Positivos (FP) Verdadeiros Negativos (TN)
Fonte: Aptado de (PRATI R. C.; BATISTA, 2003).
Nessa tabela entende-se que a distribuic¸a˜o entre as classes, positivas e negativas, liga-
se entre a primeira e a segunda linha, assim qualquer medida de desempenho que utilize esses
valores sera´ desproporcional entre as classes. Algumas me´tricas de avaliac¸a˜o, como: (i) pre-
cisa˜o; (ii) sensitividade; e (iii) F-score, utilizam os valores obtidos por meio de uma matriz de
confusa˜o.
31
As me´tricas calculadas para os experimentos realizados no presente trabalho sa˜o:
i Precisa˜o (Precision), que e´ a porcentagem de amostras positivas classificadas correta-
mente sobre o total de amostras classificadas como positivas. Representada pela fo´rmula:
T P
T P+FP ;
ii Sensitividade (Recall), consiste na porcentagem de amostras positivas classificadas cor-
retamente sobre o total de amostras corretas, apresentada pela fo´rmula: T PT P+FN ;
iii F-score (F-measure), calcula-se a me´dia harmoˆnica entre a precisa˜o e a sensitividade,
seguindo a fo´rmula: 2x PrecisionxRecallPrecision+Recall .
3.5 MODELOS
As subsec¸o˜es posteriores apresentam os modelos pesquisados para embasar o desen-
volvimento do presente trabalho, tanto para forma de contribuic¸a˜o acadeˆmica, quanto para
avanc¸o tecnolo´gico.
3.5.1 TEORIA DE GRAFOS
A criac¸a˜o da Teoria de Grafos e´ uma hipo´tese de um resultado muito antigo obtido
por essa teoria e que tenha sido desenvolvido por Leonhard Euler (1707-1783). Um grafo
G (V, E) e´ uma estrutura que consiste de uma se´rie de ve´rtices V = {v1, v2, ...} e
um conjunto de arestas E = {e1, e2, ...}; cada aresta tem duas extremidades, que sa˜o
ve´rtices, e eles na˜o sa˜o necessariamente distintos (EVEN, 1980).
Pela Figura 9 apresenta-se um exemplo de grafo, em que atribui-se como ve´rtices o
conjunto v={v1, v2, v3, v4, v5}, e arestas e={e1, e2, e3, e4, e5}. Os pon-
tos finais da aresta e2 sa˜o os ve´rtices v1 e v2, portanto entende-se que a aresta e2 incide-se
em v1 e v2. Por possuı´rem os mesmos pontos as arestas e4 e e5 sa˜o chamadas de paralelas,
por fim, os pontos de e1 e´ o mesmo ve´rtice v1, a isto chama-se auto-loop (EVEN, 1980).
Por meio da Teoria de Grafos, imagina-se o uso dessa teoria para representac¸a˜o de
relac¸o˜es entre termos importantes, por exemplo fa´rmaco, ou doenc¸a, e o medicamento, sendo
os ve´rtices, e as arestas representando os respectivos to´picos que ligam o termo ao medicamento.
32
Figura 9: Exemplo de um grafo.
Fonte: Adaptado de (EVEN, 1980).
3.5.2 REDES COMPLEXAS
Redes complexas referem-se a uma rede, representada em grafos, que esta˜o estrutura-
das topologicamente de maneira na˜o trivial. Muitos modelos utilizados podem ser considera-
dos complexos por possuı´rem variadas caracterı´sticas topolo´gicas que na˜o existiam em simples
redes, por exemplo a presenc¸a de ve´rtices com diferentes graus de entrada e saı´da, ale´m de
estruturas hierarquizadas (BACKES A. R.; CASANOVA, 2007).
O entendimento de redes complexas e´ definido pela interac¸a˜o de teoria de grafos e
mecanismos estatı´sticos, no qual resulta em um campo de pesquisa interdisciplinar, e flexibili-
dade e generalidade de representac¸a˜o de uma estrutura natural, em que inclui-se uma topologia
dinaˆmica (COSTA L. D. F.; RODRIGUES, 2005).
Desta forma destaca-se a representac¸a˜o estrutural de redes complexas por meio de
caracterı´sticas topolo´gicas de rede abstraı´das de um me´todo para extrac¸a˜o de conhecimento,
em que aplicac¸o˜es relacionadas podem discriminar diferentes classes, que da´ suporte a` a´rea de
reconhecimento de padro˜es (MARCHETTE, 2005).
Uma das mais importantes e bem estudadas classes de redes sa˜o as redes biolo´gicas,
estas possuem va´rios tipos diferentes de apresentac¸a˜o, na qual pode-se destacar a representac¸a˜o
33
de interac¸o˜es entre proteı´nas, genes ou entre asproteı´nas e os genes por exemplo. Ale´m de
que interac¸o˜es entre mole´culas em vias metabo´licas das ce´lulas tambe´m visualiza-se como uma
rede (COHEN R.; HAVLIN, 2010).
Outro tipo de rede biolo´gica sa˜o redes biolo´gicas fı´sicas, tais como o sistema ner-
voso, os neuro´nios do ce´rebro, a rede de vasos sanguı´neos em um organismo, redes neu-
rais (COHEN R.; HAVLIN, 2010). Pelo estudo realizado entende-se o uso de redes complexas
para representac¸a˜o das interac¸o˜es entre os fa´rmacos dos medicamentos uma aplicac¸a˜o promis-
sora, visto a quantidade de representac¸o˜es que esse modelo aborda, ale´m da similaridade de
apresentac¸a˜o de outros modelos levantados nesta sessa˜o.
3.5.3 MOTIFS
Motifs sa˜o pequenos elementos encontrados no meio de uma rede complexa formada
por diversos tipos de informac¸o˜es, que podem ser analisadas para gerar conhecimento sobre
todo um conjunto de dados, sa˜o representados como uma sub-rede de uma rede maior, na qual
sa˜o geralmente formados de e treˆs a cinco no´s ou arestas (VRECH G.; GONZAGA, 2011).
Pode-se definir motif por padro˜es de interconexo˜es que ocorrem em nı´veis mais ele-
vados do que outros que aparecem menos vezes de maneira aleato´ria, dada a ana´lise por meio
de redes complexas. Encontram-se esses motifs em redes de bioquı´mica, neurobiologia, eco-
logia e engenharia, ale´m de que motifs semelhantes foram encontrados em redes que realizam
o processamento de informac¸o˜es, mesmo que eles descrevem elementos ta˜o diferentes como
biomole´culas dentro de uma ce´lula e conexo˜es sina´pticas entre os neuroˆnios (MILO R.; SHEN-
ORR, 2002).
Entende-se que aplicar uma ana´lise de motifs em redes complexas, como as redes de
fa´rmacos dos medicamentos pode-se compreender informac¸o˜es da rede como um todo, junta-
mente com identificac¸a˜o de padro˜es frequentes na rede que podem ser relevantes para o estudo
do presente trabalho.
3.5.4 SISTEMA DE RECOMENDAC¸A˜O
A disponibilidade de um sistema de ajuda eficaz permite que o usua´rio adquira as habi-
lidades de comunicac¸a˜o e os conhecimentos necessa´rios para operar o sistema mais facilmente.
Com o aumento da dependeˆncia de sistemas de computador baseado na sociedade de hoje, isso
e´ importante (WILLIS, 2006).
Estas caracterı´sticas foram exemplificadas pelo trabalho de (TELLES D. JR.; TELLES,
34
2006), em que os autores apresentam a criac¸a˜o de sistema especialista para nutric¸a˜o, na qual os
dados foram representados por pacientes.
Ha´ variados fatores que determinam a quantidade dia´ria de alimentos que uma pessoa
necessita, como sexo, peso idade, entre outros. Pore´m existem pacientes que possuem o mesmo
bio´tipo, mas na˜o retornam o mesmo resultado, a partir desse foi exigido o conhecimento do
especialista (TELLES D. JR.; TELLES, 2006).
Foi neste evento em que o sistema de recomendac¸a˜o apresentou resultados para apoio
a tomada de decisa˜o dos nutricionistas, por meio de te´cnicas de heurı´sticas que buscaram e
descobriram conhecimentos dos pacientes (TELLES D. JR.; TELLES, 2006).
3.6 BANCO DE DADOS NA˜O-RELACIONAL BASEADO EM GRAFOS
Atualmente, verifica-se o crescente conjunto de informac¸o˜es, que sa˜o volumosas quan-
tidades de dados gerados dia-a-dia para va´rios fins. Criar soluc¸o˜es para estes cena´rios e´ algo que
na˜o pode seguir um padra˜o de soluc¸a˜o, deve-se estudar todo o projeto para escolher os modelos
ja´ existentes mais indicados, ou ate´ mesmo criar uma nova soluc¸a˜o.
A tendeˆncia na pesquisa de banco de dados e´ voltada para sistemas que possam atender
a aplicac¸o˜es cada vez mais complexas, que va˜o ale´m do Modelo Entidade Relacionamento (AT-
KINSON M.; BANCILHON, 1989).
O Modelo Entidade Relacionamento pode na˜o atender totalmente, ou atender de uma
maneira menos eficiente aplicac¸o˜es que necessitem de diversas soluc¸o˜es diferentes e especı´ficas
para um determinado fim.
Durante todo o processo de elaborac¸a˜o de soluc¸o˜es, verifica-se que, com o passar do
desenvolvimento e a evoluc¸a˜o da aplicac¸a˜o, os dados tendem a ficar cada vez mais conectados,
ate´ um nı´vel que na˜o se enxergue um dado separado de outro, dificultando o uso de um modelo
especı´fico de modelagem de dados.
E´ neste contexto que surge a utilizac¸a˜o de modelos de dados na˜o relacionais, conhe-
cidos por NoSql. Esses modelos sa˜o capazes de armazenar e processar grandes conjuntos de
dados e desempenham alto poder de leitura e escrita, sendo eles um desafio para os bancos de
dados relacionais (HAN J.; HAIHONG, 2011).
Segundo (HAN J.; HAIHONG, 2011), as principais vantagens do NoSql sa˜o a ra´pida
leitura e escrita dos dados, armazenamento em massa dos registros, facilidade de expansa˜o e
baixo custo. Ja´ como desvantagens deste banco, pode-se relacionar o na˜o suporte ao SQL, sem
35
controle de transac¸o˜es, escassos recursos adicionais e ferramentas para banco de dados NoSql.
O presente trabalho busca uma soluc¸a˜o para prescric¸a˜o me´dica, e para a realizac¸a˜o
desta utiliza-se de um conjunto volumoso referente ao conteu´do das bulas me´dicas. Para uma
melhor gesta˜o dos dados e respostas mais efetivas, levando em considerac¸o˜es as pesquisas rea-
lizadas entre os modelos de dados ja´ citados, foi escolhido para desenvolvimento o modelo de
banco de dados na˜o relacional.
E´ neste contexto, da existeˆncia de va´rios modelos de banco de dados na˜o relacionais,
que e´ necessa´rio encontrar o mais adequado para o trabalho. Por meio de pesquisas realizadas
e do entendimento sobre a soluc¸a˜o do projeto, as pesquisas foram direcionadas para banco de
dados em grafos.
Um grafo descreve relac¸o˜es entre va´rios conjuntos de entidades, interligadas por no´s
e representando diferentes propriedades. Ele pode descrever propriedades, tanto para conjunto
de entidades, quanto para a relac¸a˜o entre os no´s. Este modelo aparece muito em domı´nios entre
reme´dios (WILLIAMS D.W.; HUAN, 2007).
O modelo de grafo e´ de fa´cil entendimento, pois tentam superar limitac¸o˜es impostas
pelos modelos tradicionais por meio da representac¸a˜o dos dados em estrutura de conjuntos,
tornando-se assim uma modelagem de dados mais flexı´vel (ANGLES R.; GUTIERREZ, 2008).
3.6.1 NEO4J
O conteu´do das bulas segue o modelo de dados em grafo para armazenamento dos re-
gistros, pois necessita retornar uma resposta ra´pida. O uso de banco de dados em grafo permite
manter e reutilizar ricos vetores de comparac¸a˜o (HARRIS, 2013).
As estruturas de dados numa base de dados em grafo sa˜o mais alinhadas com os for-
matos nativos de dados vinculados. O banco de dados em grafo tambe´m fornece um reposito´rio
muito ra´pido para a recuperac¸a˜o de dados, como ao contra´rio de banco de dados relacional na˜o
existem ı´ndices ou ligac¸o˜es (joins) que sa˜o computacionalmente caros (HARRIS, 2013).
O Neo4j e´ lı´der em termos de uso no mercado de banco de dados em grafo (HARRIS,
2013). Estes bancos de dados, NoSQL, cresceram em popularidade por causa da facilidade de
acesso, a velocidade e escalabilidade (LI Y.; MANOHARAN, 2013).
Neo4j permite o armazenamento de dados de no´s ligados por arcos, por serem dados
semaˆnticos sa˜o facilmente representados em grafos. Fornecem um banco de dados em grafo
de abstrac¸a˜o mais natural em relac¸a˜o ao modelo de banco de dados relacional (KIVIKANGAS
36
P.; ISHIZUKA, 2012).
A maioria dos modelos de banco de dados na˜o oferecem operac¸o˜es em grafo, utili-
zando apenas de expresso˜es puramente textuais, o que dificulta a aprendizagem quando compa-
rado ao modelo em grafo que retorna interfaces gra´ficas ao usua´rio (GYSSENS M.; PAREDA-
ENS, 1994).
3.7 DISCUSSA˜O
Realizar pesquisas sobre o que a comunidade publicou de trabalhos relacionados a
linguagem de processamento natural, grafos, farma´cia e tecnologiaNeo4j foi importante para
embasar o presente trabalho. Entender as soluc¸o˜es criadas a partir desses me´todos fundamenta
a soluc¸a˜o a ser desenvolvida para auxı´lio a` prescric¸a˜o me´dica.
Conhecer te´cnicas utilizadas para a minerac¸a˜o textual contribuiu para o desenvolvi-
mento dos algoritmos elaborados, ale´m do uso de te´cnicas de avaliac¸a˜o que possibilitaram obter
os resultados dos algoritmos.
Alinhar a extrac¸a˜o de conhecimento juntamente com informac¸o˜es ja´ consolidadas de
outras bases contribui para melhoria de classificac¸a˜o dos fa´rmacos e tambe´m futuramente de
outros termos dos demais to´picos das bulas.
Outro ponto importante foi conhecer a base da tecnologia Neo4j, para isso pesquisar
sobre o modelo de base de dados em grafos foi considera´vel para o planejamento de um modelo
que possa ser utilizado no projeto.
A busca por modelos de banco na˜o relacionais teve fundamento na resposta que o
projeto necessita solucionar. O pro´prio desenho da ferramenta, em que os medicamentos sa˜o
relacionados entre si por va´rias propriedades diferentes, na qual existe a necessidade de uma
resposta ra´pida e precisa ao mesmo tempo, o que justifica o uso de banco de dados em grafo.
Por fim, entender sobre a finalidade de sistemas de recomendac¸o˜es, verificar o que foi
aceito pela comunidade sobre o assunto e encontrar assuntos referentes a a´rea me´dica contribui
para justificar o uso da tecnologia Neo4j.
Como trabalho futuro espera-se criar uma ferramenta que possa apontar as informac¸o˜es
mais relevantes do conteu´do das bulas de maneira automatizada, na qual essa possa contribuir
para criac¸a˜o da base de dados no Neo4j.
37
4 METODOLOGIA
A finalidade do presente trabalho e´ a produc¸a˜o de uma base que possa responder a
seguinte pergunta: quais sa˜o os reme´dios e as relac¸o˜es entre eles dado um histo´rico clı´nico
de um paciente? Entende-se, por exemplo, que um paciente que tenha Alzheimer, diabetes e
uma doenc¸a cardı´aca grave, ingira um conjunto de medicamentos respectivo ao tratamento das
doenc¸as elencadas, pore´m cada reme´dio causa uma reac¸a˜o adversa diferente o que resulta em
outros medicamentos para controle destas reac¸o˜es, tornando-se um ciclo no qual o desafio esta´
em identificar o medicamento que possa ser prescrito mitigando-se os problemas ja´ existentes
ou os que possam ser desenvolvidos.
Para desenvolvimento do trabalho, foram utilizados dados reais coletados de 6.076
(seis mil e setenta e seis) bulas, pore´m apenas com estes arquivos na˜o foi possı´vel atender
a finalidade do projeto, pois os dados na˜o estavam estruturados e faltava a relac¸a˜o entre os
fa´rmacos.
O DrugBank e´ uma base de dados que possui informac¸o˜es sobre os fa´rmacos apro-
vados e na˜o aprovados. Pore´m, utilizar somente as interac¸o˜es entre fa´rmacos do DrugBank,
tambe´m na˜o atinge a finalidade, pois esse e´ um banco especializado em armazenar os fa´rmacos,
suas relac¸o˜es e informac¸o˜es farmacolo´gicas, na˜o possui uma clara relac¸a˜o com doenc¸as que os
fa´rmacos possam estar relacionados, ale´m de que um medicamento pode ser elaborado utili-
zando um conjunto de fa´rmacos.
Ja´ o SNOMED-CT possui uma lista de doenc¸as e suas classificac¸o˜es, mas na˜o possui
medicamentos relacionados que tratam as doenc¸as, cada base tem uma importante fonte de
informac¸a˜o para o projeto, pore´m a falta de padronizac¸a˜o e a volumosa quantidade de texto re-
quer um processamento do conteu´do desses para integrar todos os dados de diferentes bases com
a finalidade de gerar conhecimento no qual seja possı´vel o auxı´lio a` prescric¸a˜o me´dica, levando
em considerac¸a˜o o histo´rico clı´nico do paciente, interac¸o˜es medicamentosas, contraindicac¸o˜es,
reac¸o˜es adversas, entre outros pontos importantes.
A Figura 10 mostra as quatro etapas que foram realizadas: (i) obtenc¸a˜o das bulas do
38
sı´tio web da ANVISA, esses dados na˜o sa˜o estruturados; (ii) preparac¸a˜o das informac¸o˜es das
bulas, extraı´-las e normaliza´-las em um banco de dados relacional; (iii) integrac¸a˜o com outras
bases para identificac¸a˜o do conteu´do relevante obtido da normalizac¸a˜o do texto das bulas e (iv)
banco de dados na˜o-relacional desenvolvido por meio do conteu´do relevante encontrado nas
bulas, o seu respectivo to´pico e nome do medicamento.
Figura 10: Uma visa˜o geral das etapas que compo˜em o processo desenvolvido.
Fonte: Autoria pro´pria.
4.1 AQUISIC¸A˜O DE DADOS
A ANVISA disponibiliza uma pa´gina para pesquisa de 6.076 bulas que foram consul-
tas no dia 5 de novembro de 2014, chamada por Bula´rio Eletroˆnico que e´ representada pela
Figura 11, em que consta os registros de bulas, por meio desta pa´gina pode-se realizar um filtro
por nome do medicamento, empresa fabricante, nu´mero de expediente, perı´odo de publicac¸a˜o e
quantidade de registros por pa´gina que podera˜o ser exibidos apo´s a pesquisa.
Os medicamentos encontrados sa˜o apresentados linha a` linha em uma tabela, que e´
mostrada na Figura 12, em que nas u´ltimas colunas ha´ a possibilidade de visualizar o arquivo
na extensa˜o PDF da bula para o paciente, e outro arquivo para o profissional da a´rea da sau´de.
E´ no arquivo da bula profissional que encontramos informac¸o˜es importantes sobre cada
medicamento. A bula e´ composta por va´rios to´picos que auxiliam na prescric¸a˜o do profissional
de sau´de, os to´picos mais importantes que aparecem com uma certa frequeˆncia nos medicamen-
tos podem ser elencados como:
• Apresentac¸a˜o: apresenta o medicamento e a empresa responsa´vel por sua elaborac¸a˜o;
• Composic¸a˜o: mostra os elementos utilizados para composic¸a˜o do medicamento;
39
Figura 11: Pa´gina de filtro do Bula´rio Eletroˆnico.
Fonte: Adaptado de (ANVISA, 2013).
• Indicac¸a˜o: para que este medicamento e´ indicado;
• Caracterı´sticas Farmacolo´gicas: mostra como o medicamento funciona;
• Contraindicac¸o˜es: quando na˜o se pode usar o medicamento;
• Interac¸o˜es medicamentosas: o que deve saber antes de usar o medicamento;
• Posologia e modo de usar: como deve ser usado o medicamento, onde, como e por
quanto tempo pode-se guardar o medicamento;
• Reac¸o˜es adversas: quais os males que este medicamento pode causar;
• Superdose: o que deve ser feito se usar uma quantidade maior do que a indicada pelo
medicamento.
Entendido a importaˆncia de cada to´pico da bula, foi necessa´rio que fosse desenvolvido
um sistema que automatiza-se a obtenc¸a˜o dos arquivos no sistema da ANVISA, pois e´ traba-
lhoso realizar este processo manualmente, ja´ que e´ uma tarefa totalmente repetitiva e na˜o requer
ana´lise das informac¸o˜es para esta etapa de aquisic¸a˜o dos arquivos.
40
Figura 12: Pa´gina de resultado da pesquisa do Bula´rio Eletroˆnico.
Fonte: Adaptado de (ANVISA, 2013).
41
4.2 PREPARAC¸A˜O DAS INFORMAC¸O˜ES
Ale´m de obter os arquivos das bulas, o sistema desenvolvido precisou identificar o
conteu´do da linha para que fosse possı´vel verificar o nome do medicamento, a empresa res-
ponsa´vel, e outras informac¸o˜es presentes na tabela. A identificac¸a˜o foi feita pela leitura do
Html da pa´gina do Bula´rio Eletroˆnico, que esta´ representada na Figura 13, utilizando expressa˜o
regular para recuperar as informac¸o˜es disponibilizadas.
Pore´m somente estas ac¸o˜es na˜o foram suficientes para encontrar o caminho do arquivo
PDF, pois como pode ser visualizado na Figura 13, a tag que representa o link para visualizac¸a˜o
das bulas esta´ condicionada a um evento JavaScript. Toda uma ana´lise sobre os scripts utiliza-
dos pela pa´gina foi feita para que encontrasse a func¸a˜o identificada na tag, assim foi possı´vel
encontrar o enderec¸o que estava sendo utilizada para apresentar o arquivo PDF.
Figura 13: Html da pa´gina Bula´rio Eletroˆnico.Fonte: Autoria pro´pria.
Um dos grandes problemas e´ como adquirir documentos mais relevantes (JONES,
1999), como por exemplo as bulas que na˜o esta˜o estruturadas, os dados esta˜o desorganiza-
dos, na˜o possuem uma representac¸a˜o padra˜o e nem o mesmo formato, o que torna a busca por
alguma informac¸a˜o uma tarefa trabalhosa em que requer o processamento e a interpretac¸a˜o do
texto das bulas, algo computacionalmente custoso quando comparada com apenas extrac¸a˜o de
informac¸a˜o (RILOFF ELLEN; LEHNERT, 1994).
Os problemas encontrados nos arquivos das bulas podem ser elencados como:
42
1. Falta de padronizac¸a˜o entre os arquivos:
(a) Problemas na extrac¸a˜o de texto do arquivo PDF, definido pela falta de formatac¸a˜o;
(b) To´picos das bulas esta˜o diferentes do padra˜o estabelecido pela ANVISA;
(c) Erros ortogra´ficos no conteu´do da bula;
(d) PDF com imagem do texto ou ate´ mesmo uma foto da versa˜o fı´sica encontrada na
caixa do reme´dio (ver exemplo na Figura 14).
Foi implementada uma rotina para extrair as imagens dos arquivos PDF referente a 15
bulas, pore´m outro problema foi identificado, algumas bulas vinham em uma orientac¸a˜o em que
o alinhamento do texto se encontrava na horizontal, ale´m da imagem extraı´da estar recortada
em va´rias partes, o que pode ser visualizado na Figura 14.
A soluc¸a˜o desenvolvida para o problema elencado foi uma ferramenta que juntava as
partes da imagem como se fosse um u´nico arquivo, pore´m na˜o bastava so´ ligar os arquivos, era
necessa´ria interac¸a˜o humana para que fosse possı´vel associar a imagem sem que o texto sofresse
alguma alterac¸a˜o.
Ao obter a imagem da bula em um arquivo u´nico foi necessa´rio verificar se a orientac¸a˜o
do arquivo estava correta, ale´m de aplicar um tratamento de qualidade na imagem para tornar o
texto mais nı´tido, apo´s encontrar o alinhamento correto do arquivo foi aplicado uma ferramenta
de Optical Character Recognition (OCR), que tem a finalidade de identificar o texto da imagem
e converter em conteu´do. A tecnologia utilizada foi o Tesseract, que e´ o mecanismo de
co´digo aberto para OCR mais preciso e que esta´ disponı´vel atualmente (TESSERACT, 2014).
Com o uso do Tesseract muito do conteu´do poˆde ser identificado, pore´m o pro-
cesso na˜o garantiu que todas as informac¸o˜es foram detectadas, assim nesta etapa tambe´m ha´
necessidade de interac¸a˜o humana.
Do conteu´do da bula, juntamente com as outras informac¸o˜es ja´ no banco de dados
relacional foi essencial que os to´picos das bulas fossem identificados para que fosse possı´vel
uma representac¸a˜o mais conveniente dos dados para as etapas posteriores do presente trabalho.
O algoritmo desenvolvido para identificac¸a˜o dos to´picos (exibido no Capı´tulo 4.2.1)
foi baseado na pa´gina da ANVISA que apresenta uma norma que deve ser seguida para criar
a bula e tambe´m descreve quais sa˜o os to´picos necessa´rios para criac¸a˜o do documento. Ele
era responsa´vel por procurar os to´picos no texto da bula por meio de expressa˜o regular, sem
diferenciac¸a˜o de letra maiu´scula e minu´scula, quando achava algo que seguia o padra˜o marcava-
o respectivamente.
43
Figura 14: Conteu´do da bula em imagem que esta´ fora do padra˜o.
Fonte: Adaptado de (ANVISA, 2013).
O padra˜o de to´picos exemplificado pela pa´gina da ANVISA na˜o estava presente em
todas as 6.076 bulas - dessas 1.622 na˜o tivera todos seus to´picos identificados. Assim foi ne-
cessa´rio criar-se uma validac¸a˜o na qual o uso de expressa˜o regular fizesse a contagem de to´picos
marcados no texto. Desta forma, quando um to´pico retornava com valor zero, uma ana´lise iso-
lada era realizada no arquivo e novas regras adicionadas a`s ja´ existentes.
Como problemas encontrados nesta etapa pode-se destacar que muitas bulas estavam
fora do padra˜o, ale´m de alguns erros ortogra´ficos que atrapalhavam na identificac¸a˜o dos to´picos
e tiveram que ser adicionados na lista utilizada para gerar um padra˜o de pesquisa. A Tabela 2
mostra os to´picos e suas variac¸o˜es, ale´m de apresentar o padra˜o criado para pesquisa por ex-
pressa˜o regular. Todo o processo do algoritmo desenvolvido e´ detalhado no pro´ximo capı´tulo.
4.2.1 ALGORITMO DESENVOLVIDO PARA SEGMENTAC¸A˜O DOS TO´PICOS
A segmentac¸a˜o dos to´picos define um algoritmo desenvolvido cuja func¸a˜o era de iden-
tifica´-los e marca´-los juntamente aos seus respectivos valores. A Figura 15 apresenta as etapas
realizadas pelo algoritmo, que sa˜o: (i) lista de variac¸o˜es encontradas em cada to´pico; (ii) busca
por expressa˜o regular do padra˜o respectivo pela lista de variac¸o˜es; (iii) aplicac¸a˜o de tratamento
de texto; e (iv) marcac¸a˜o do to´pico.
44
Tabela 2: Regras para pesquisa de to´picos no texto da bula.
To´pico Variac¸o˜es Expressa˜o regular
Contraindicac¸o˜es
Contraindicac¸o˜es,
contra-indicac¸o˜es
\A*\sCONTRAINDICAC¸O˜ES|CONTRA-
INDICAC¸O˜ES
Reac¸o˜es adversas
Reac¸o˜es adversas
a medicamentos,
reac¸o˜es adversas,
reac¸oes adversas
\A*\sREAC¸O˜ES ADVERSAS A
MEDICAMENTOS|REAC¸O˜ES
ADVERSAS|REAC¸OES ADVERSAS
Fonte: Autoria pro´pria.
Figura 15: Etapas do processo de segmentac¸a˜o dos to´picos.
Fonte: Autoria pro´pria.
Na etapa de lista de variac¸o˜es os valores utilizados para cada to´pico definido sa˜o fixa-
dos pelas normas definidas na Resoluc¸a˜o-RDC No 47, de 8 de setembro de 2009 da ANVISA,
para elaborac¸a˜o e publicac¸a˜o da bula me´dica (ANVISA, 2009), juntamente com a identificac¸a˜o
manual de alguns medicamentos que estavam fora do padra˜o, estes encontrados por meio de
contadores de to´picos marcados no final do processo que eram analisados. Na Tabela 3 mostra-
se a lista de to´picos e suas variac¸o˜es, juntamente com o marcador utilizado para marcac¸a˜o do
texto.
45
Tabela 3: Lista de variac¸o˜es e marcadores utilizados para identificac¸a˜o dos to´picos.
Ordem To´pico Variac¸o˜es Marcador
1
Identificac¸a˜o do
medicamento,
Apresentac¸o˜es
IDENTIFICAC¸A˜O DO
MEDICAMENTO,
IDENTIFICAC¸A˜O DO
MEDICMANETO,
APRESENTAC¸O˜ES,
APRESENTAC¸A˜O, FOR-
MAS FARMACEˆUTICAS
E APRESENTAC¸O˜ES,
FORMA FARMACEˆUTICA
E APRESENTAC¸A˜O
=[TOPICO]=[INDE]
2 Composic¸a˜o
COMPOSIC¸A˜O,
COMPOSIC¸O˜ES
=[TOPICO]=[COMP]
3
Informac¸o˜es ao
profissional de
sau´de
INFORMAC¸O˜ES AO
PROFISSIONAL DE
SAU´DE, INFORMAC¸O˜ES
TE´CNICAS AOS PROFIS-
SIONAIS DE SAU´DE
=[TOPICO]=[INFO]
4 Indicac¸o˜es
INDICAC¸O˜ES,
INDICAC¸A˜O
=[TOPICO]=[INDI]
5
Resultados de
efica´cia
RESULTADOS DE
EFICA´CIA
=[TOPICO]=[RESU]
6
Caracterı´stica
Farmacolo´gicas
CARACTERI´STICAS
FARMACOLO´GICAS,
CARACTERI´STI´CAS
FARMACOLO´GICAS,
CARACTERI`STICAS FAR-
MACOLO´GICAS
=[TOPICO]=[CARA]
7 Contraindicac¸o˜es
CONTRAINDICAC¸O˜ES,
CONTRA-INDICAC¸O˜ES
=[TOPICO]=[CONT]
8
Adverteˆncias e
precauc¸o˜es
ADVERTEˆNCIAS E
PRECAUC¸O˜ES
=[TOPICO]=[ADVE]
46
9
Interac¸o˜es
medicamentosas
INTERAC¸O˜ES ME-
DICAMENTOSAS,
INTERAC¸O˜ES MEDI-
CAMENTOSAS E OUTRAS
FORMAS DE INTERAC¸A˜O
=[TOPICO]=[INTE]
10
Cuidados de
armazenamento
do medicamento
CUIDADOS DE AR-
MAZENAMENTO DO
MEDICAMENTO, ONDE,
COMO E POR QUANTO
TEMPO POSSO GUARDAR
ESTE MEDICAMENTO?
=[TOPICO]=[CUID]
11
Posologia e
modo de usar
POSOLOGIA E MODO DE
USAR
=[TOPICO]=[POSO]
12 Reac¸o˜es adversas
REAC¸O˜ES ADVERSAS
A MEDICAMENTOS,
REAC¸O˜ES ADVERSAS,
REAC¸OES ADVERSAS
=[TOPICO]=[RECA]
13 Superdose
SUPERDOSE, SUPER-
DOSE OU INGESTA˜O
ACIDENTAL, SUPERDO-
SAGEM
=[TOPICO]=[SUPE]
Para etapa de pesquisa por expressa˜o regular foi utilizada os registros da lista de
variac¸o˜es, que juntos formavam um padra˜o de busca no conteu´do da bula, desta forma quando
o padra˜oera identificado aplicava-se um tratamento no texto.
O tratamento de texto tinha finalidade de retirar os textos desnecessa´rios, deixando
apenas o to´pico, e na˜o todo seu conteu´do. Foi realizado por meio dos termos identificados
pelo padra˜o da pesquisa por expressa˜o regular, que eram selecionados um a um na seguinte
sequeˆncia:
1. Listagem de cada caractere do texto para verificac¸a˜o de sequeˆncia de letra maiu´sculas,
quando os to´picos seguem este padra˜o, o limite definido para esta regra e´ de 5 caracteres
em sequeˆncia e com letra em caixa alta ja´ sa˜o identificados como to´pico;
2. Procura pelo ı´ndice do termo identificado na pesquisa por expressa˜o regular, ao encontra´-
lo e´ retornado uma parte do conteu´do da bula ate´ o inı´cio do termo achado, por meio desta
47
parte e´ pesquisado o valor do ı´ndice ate´ a u´ltima quebra de linha;
3. Por meio do ı´ndice da quebra de linha e´ retornado uma nova parte do conteu´do da bula,
pore´m agora com inı´cio sendo este ı´ndice;
4. Dessa parte do conteu´do e´ procurado um ı´ndice de quebra de linha mais pro´ximo para
corte do texto, assim para encontra´-lo e´ realizado uma verificac¸a˜o que so´ para ate´ satisfa-
zer esta´ condic¸a˜o;
5. Definido o termo e a sua linha de quebra, uma nova parte e´ criada em que realiza-se uma
limpeza de caracteres em branco do inı´cio e do fim no texto;
6. A parte identificada e´ submetida a` uma verificac¸a˜o na lista de variac¸o˜es para que seja
visualizado se apesar de todo o processo o to´pico ainda esta´ contido nesta parte de texto;
7. Por fim, a parte e´ acrescida do respectivo marcador referente to´pico pesquisado, uma
operac¸a˜o de substituir tudo e´ aplicado em no conteu´do do medicamento, modificado parte
encontrada para o termo marcado.
Essa normalizac¸a˜o foi importante para os experimentos realizados, pois por meio dela
foi possı´vel identificar se a marcac¸a˜o estava correta, no qual resultava como uma validac¸a˜o do
processo desenvolvido.
Na Figura 16 apresenta um exemplo de marcac¸a˜o realizada no medicamento Fluco-
nazol para o to´pico composic¸a˜o, em que elenca-se todas as etapas realizadas pelo algoritmo
desenvolvido.
Figura 16: Etapas do processamento textual no medicamento Fluconazol.
Fonte: Autoria pro´pria.
48
4.3 INTEGRAC¸A˜O COM OUTRAS BASES
Um medicamento e´ formado por um conjunto de fa´rmacos e tem a finalidade de tratar
uma ou mais doenc¸as. As bulas representam os reme´dios, no qual o to´pico de nome composic¸a˜o
por exemplo, apresenta o conjunto de fa´rmacos destes, pore´m os dados dos fa´rmacos e suas
relac¸o˜es esta˜o no DrugBank, que e´ uma base de dados u´nica para bioinforma´tica e quimioin-
forma´tica que apresenta informac¸o˜es detalhadas de dados sobre drogas (DRUGBANK, 2014).
O SNOMED-CT padroniza a busca por termos me´dicos, assim pode-se associa´-lo a`
bula. A Figura 17 apresenta os dois trabalhos realizados para integrac¸a˜o das bulas com outras
bases de dados: (1) mapeamento da bula com os fa´rmacos do DrugBank; (2) mapeamento
de termos SNOMED-CT com a bula. Com isso foi possı´vel realizar a busca de um conjunto
de reme´dios (bulas da ANVISA) que tratam uma certa doenc¸a (termos SNOMED-CT), com as
relac¸o˜es dos fa´rmacos (DrugBank) e assim consegue-se colocar em alerta os reme´dios em que
o uso concomitante pode causar efeitos adversos.
Figura 17: Exemplo de integrac¸a˜o das bases ao conteu´do das bulas.
Fonte: Autoria pro´pria.
Ao obter o arquivo fı´sico da base do DrugBank, que era um arquivo u´nico em ex-
tensa˜o eXtensible Markup Language (XML) de aproximadamente 222 MB, foi necessa´rio im-
plementar uma rotina que por meio de expressa˜o regular dividisse o arquivo em va´rios xml cada
um respectivo a` determinada droga. A Figura 18 apresenta uma parte do conteu´do de uma droga
encontrada no DrugBank, percebe-se que por meio da tag drug foi possı´vel realizar a divisa˜o
do arquivo e a identificac¸a˜o de cada droga em um xml separado.
O roteiro especificado ale´m de realizar a divisa˜o tambe´m foi responsa´vel pela leitura
dos arquivos xml separados para acre´scimo do drugbank-id e name, respectivamente sim-
bolizadas pelas tag, no banco de dados relacional para que pudesse ter uma lista de drogas no
49
total de 8.158 (oito mil cento e cinquenta e oito), que por meio do valor da tag name realizasse
a pesquisa nos textos das bulas e a tag drugbank-id para que tivesse um identificador com
base do DrugBank.
Figura 18: Conteu´do de uma droga da base DrugBank.
Fonte: Adaptado de (DRUGBANK, 2014).
Para que pudesse vincular os termos do DrugBank com os textos dos to´picos das
bulas, foi necessa´rio um trabalho de traduc¸a˜o daqueles, pois os termos da base estavam todos
em ingleˆs, ja´ o conteu´do da bula estava todo em portugueˆs. Foi realizada uma pesquisa entre
os principais servic¸os de traduc¸a˜o, em que foram analisados custo, desempenho e qualidade do
servic¸o.
Destes servic¸os pode-se listar dois que foram pesquisados para o presente trabalho:
• Microsoft Translator: e´ uma aplicac¸a˜o de traduc¸a˜o da plataforma Microsoft
Azure Marketplace, em que e´ possı´vel traduzir 2.000.000 (dois milho˜es) caracteres
por meˆs gratuito;
• Translate API: ferramenta de traduc¸a˜o da plataforma Google Cloud Platform,
pode-se utilizar todas suas ferramentas disponibilizadas para teste, pore´m tem versa˜o trial
por 60 dias.
Para realizar testes no projeto desenvolvido foi escolhido o Microsoft Translator,
pois esse na˜o possui tempo limite para uso do servic¸o, possibilitando um tempo maior de teste
50
para o processo de desenvolvimento, ale´m de que a quantidade de caracteres de traduc¸a˜o dispo-
nibilizados de forma gratuita foi superior a quantidade realmente utilizada.
Pore´m so´ o uso dessa base na˜o resolveu o problema por completo, pois alguns termos
continuaram sem ser identificados, por meio disso novas bases foram pesquisadas e seus termos
adicionados para pesquisa, como por exemplo uma listagem de fa´rmacos encontrada em um
arquivo PDF no site da ANVISA foi importado para o sistema desenvolvido na identificac¸a˜o de
termos nos to´picos.
Outras bases estudadas foram a Coding Symbols for a Thesaurus of Adverse Reaction
Terms (COSTART) criada para U.S. Food and Drug Administration (FDA), a Side Effect Re-
source (SIDER), a Canada Drug Adverse Reaction Database (MedEffect) e a Systematized
Nomenclature of Medicine - Clinical Terms (SNOMED-CT) da Unified Medical Language Sys-
tem (UMLS) mantida pela U.S. National Library of Medicine. A Tabela 4 apresenta uma sı´ntese
de cada base estudada.
A soluc¸a˜o de um importante problema destaca-se pelo uso da base do UMLS, pois
imagina-se que em uma determinada bula existe o seguinte texto contraindicado para
pacientes com problemas cardı´acos, problemas cardı´acos e´ um termo muito ge-
ral quando comparado a diferentes termos mais especı´ficos como infarto do mioca´rdio, tumor
cardı´aco, estenose mitral, angina esta´vel entre outros, para identificac¸a˜o desses termos foi solu-
cionado pelo uso de ontologias me´dicas implementadas pelos registros do SNOMED-CT.
Por meio das ontologias pode-se pesquisar diferentes termos entre as bulas que po-
dem ser sinoˆnimos ou ter influeˆncia sobre uma mesma contraindicac¸a˜o, indicac¸a˜o e ate´ mesmo
reac¸a˜o adversa, o que pode ser visto pelo projeto Disease Ontology (SCHRIML L. M.; ARZE,
2011), na qual os autores criam uma estrutura u´nica para classificac¸a˜o de doenc¸as a fim de unifi-
car a representac¸a˜o da doenc¸a entre muitas e variadas terminologias e vocabula´rios, juntamente
com as relac¸o˜es existente entre as doenc¸as.
Como exemplo, imagina-se uma determinada bula em que sua indicac¸a˜o e´ prescrita
para melhorar a sobrevida apo´s infarto do mioca´rdio em pacientes

Outros materiais